内容纲要
星环科技大数据开发套件 Stuido 1.1.0 final 已经于 2019-07-31 正式发布
概要描述
星环大数据开发套件 Studio 从 1.1.0 版本开始正式独立发布,从而:
- 以更快的发布节奏快速满足现场需求
- 客户可以更便捷的升级Studio套件
- 避免客户不希望TDH整体升级,而需要手动升级Studio套件的情况
详细说明
包含的组件
本次发布的 Studio 1.1.0 包含如下组件:
- Workflow
- Transporter
- Data Catalog
- Rubik
- Pilot
兼容性说明
- Workflow,Transporter,Pilot支持在TDH5.2.0及以上的所有版本上升级
- Catalog 支持 TDH 5.2.0 – 6.0.2 各版本上的升级
- Rubik由于和Inceptor的强耦合,只支持TDH 6.2
Catalog 1.1 发布说明
新功能
- 新增元数据导入导出;
- 增加对数据源DB2的支持;
- 增加对数据源MySQL的支持;
- 增加对数据源SQL Server的支持;
- 新增数据数据报表页面浏览查询;
- 支持数据源HDFS的搜索与文件下载操作;
- 支持用户编辑添加业务字典词条
- 支持接入License统一管理
- 支持Inceptor的View和Procedure存储过程查询展示
- 新增导航栏控制层和业务层,导航栏分tab为业务视角和技术视角
- 新增内置的行业术语
- 新增数据资产标签手动/自定义编辑
- 新增数据资产智能标签推荐,数据资产实体关联推荐
- 支持数据源Hyperbase浏览namespace/Table等信息
- 支持Inceptor表/视图/字段/存储过程血缘影响分析查询展示
- 支持数据源Hook导入Inceptor的表/视图/存储过程/函数等资产实体
改进与增强
- 优化查看Hyperbase命名空间的表信息不同步
- Catalog首页图表能够随父元素大小改变重绘
- 针对采样数据表格的优化
- 优化Dashboard首页
- 优化关联资产时文档路径过长会超出显示框
- 优化路由/右侧主框/头部路径 联动功能
- 支持Hyperbase数据源获取详情信息
- 优化TypeSystem类型系统支持多数据源
- 优化数据报表等头标没有固定,避免在滚动过程中导致头标消失
- 解决Hook启动时重新打Hyperbase镜像的问题
问题修复
- 解决文件中的HDFS路径为空的问题
- 解决关联资产时关联文档失败
- 解决关联信息时关联自己的问题
- 解决Catalog非安全模式安装失败
- 解决Inceptor的视图/存储过程关联pilot数据源时报错
- 解决Pilot Enterprise数据源agent长连接导致的“连接失败”
- 解决数据库概览中有数据表,但查看数据表时有表总数,但没有数据表
- 解决新建Inceptor数据源Hook插件做Import元数据导入时的Guardian客户端认证问题
- 解决新建数据源时报:ErrorCode: 63103, ErrorMessage: Access token is expired的问题
Transporter 1.1 发布说明
新功能
- 增加图形化的在多个hadoop集群中传输数据
- 支持集群间inceptor互导transactional orc表数据
- 域添加/配置
- 增加连接的统一管理
- 增加对SQL Server的导数支持
- 增加对PostgreSQL的导数支持
- 增加对Hana的导数支持
- 支持Local File Reader支持
- 支持HDFS File Reader/Writer
- 支持SFTP File Reader/Writer
- 支持FTP File Reader/Writer
- 支持通用文件reader/Writer
- 支持通用文件writer/Writer
- 添加执行引擎选择,集群间数据传输时可以选择计算引擎
- 当源库未开启“字段补全”的详细日志时,实现update语句同步数据到Inceptor
- 支持数据流导入导出
- 增加数据流设计规则验证支持
- 支持数据流模板创建Wizard
- OGG 日志文件按表分开,实现表的独立同步
改进与增强
- 移除 TDTConf Class 对 Hadoop Configuration Class 的依赖
- JDBC reader 增加自定义Query的方式准备数据
- 重构SyncMysql组件用于根据mysql的binlog日志同步数据到hdfs上
- Sync json reader支持修改表名
- Sync Json组件数据预处理优化
- 增加从JDBC读取元数据,避免初始化配置的时候必须每张表插入一条数据才能获取到表信息
- HDFS 连接添加选择Active的NN
- 规则配置文件由 manager 管理改为 TDT 自己管理
- JDBC Reader 从后端获取默认输出表名和默认查询的sql语句
- Transpoter支持从开源Hive的表写入到Inceptor的表
- 改善tdt从传统数据库导入数据到inceptor的默认方式
- Jdbc Reader 支持连接table filter组件
- 支持Sql server 的temestamp类型特殊处理
- 支持解析含有’/’的表字段名
- JDC bunch writer插入数据到多张表是有串行变并行
- 支持包含特殊字符或者inceptor关键字的JDBC导数功能
- 支持同步场景中的特殊字符
- 支持jaas 以访问开启安全的 zookeeper 服务
- JDBC Reader改变默认的导数策略
- 分割数据以防止初次同步数据量过大引起inceptor奔溃
问题修复
- Transporter的目标端组件“选择已有表”栏目下显示的表明不完全,表名太长就看不完整表名
- TDT从orc表导数据到orc事务表时,如果orc表没数据,orc事务表不会创建
- Sync Json Reader 表名未显示
- 数据流列表页面名称显示不全
- 从sync csv 文件导入数据到ORC transaction表,ORC transaction表部分字段不能对齐
- Orc事务表选择已有表之后保存时需要将范围分区的范围信息传到后端
- TDT从5.2.2到6.0升级过程中,数据丢失
- 多个本地文件同时上传的时候会部分上传失败
- 本地上传到hdfs上传时报[Error 1] Job aborted due to stage
- 本地文件上传关闭窗口然后重新上传出错
- JDBC reader的sql表达式中使用模糊查询会出错
- Orc Transaction writer同步范围分区表时delete语句报错
- 开启cas并发获取inceptor连接可能失败
- 数据通过jdbc用tablefilter用jdbc导数据到db2数据库已有表相同表结构报错
- 所有数据导数据到inceptor_writer已有相同表结构表上报错 版本
- 数据流保存按钮不能及时触发
- 已创建的数据流中组件不能正常拖拽连线
- 通过模板创建的数据流,设置正确,但是无法预览
- 所有数据导到inceptor数据库,用是select语句查询显示缺少数据
- JDBC Bunch导入同名数据库,第二次导入会失败
- JDBC Bunch Wwriter部分表不会执行
Workflow 1.1发布说明
新功能
- 支持Task之间的参数传递
- 支持完整导入导出闭包
- 用户将Workflow的状态手动标记为其他状态
- 支持Agent选择OS用户执行脚本
- 支持tdhclient相关命令的调度
- 嵌套工作流及触发器支持批量操作
- Agent模块重构,减少与server端模块的耦合
- 导入时保证Workflow目标端ID一致
- Workflow HA master 切换通过数据库进行限制
改进与增强
- 延时器支持前置依赖,作为一个支持延时的普通任务
- 增加短信增加测试功能
- 减少HistoryTask的更新,较少txsql压力
- 增加工作流嵌套显示路径
- 首页性能优化,支撑百万数据量秒级访问
- 能够通过脚本名字查询到对应脚本所在的工作流并且查看对应脚本的执行历史
- Workflow切为slave之后仍有agent轮询日志
- Agent状态更新线程数,性能配置
- Recover模式中RetryListener导致工作流一致处于Running状态
- 聚合模式下的recover其中一个工作流的状态不对
- 增加Agent日志截断
问题修复
- 中断node,active切换,但不进行recover
- 大量堆积任务下线后在切换active pod时仍发生部分recover
- 触发器和嵌套工作流的递归调用
- 不执行整个工作流而单独执行task时,workflow参数无法正常生效
- Agent执行完成后无法正常返回运行状态
- 被嵌套工作流无法被替换,后端没有检查
- 关于任务禁用功能与工作流最终状态判定之间的关系
- 首页工作流状态的任务数字不准确
- Workflow的定时工作流到时间节点未正常调度
- 嵌套导入时 workflow重名,但提示嵌套导入成功0个workflow文件
- Agent打开文件过多,导致异常
- 任务被标记RUNNING但是没有被执行
- Agent task单独调试执行会获取不到工作流参数配置里的变量
- Workflow执行完,性能配置表中 工作流并发数当前值为负数
- Workflow与task互相等待导致任务一直running
- 首页统计运行中的wf与性能页面统计的不一致
- 工作流嵌套,被嵌套的wf complete,但嵌套工作流task一直处于running
- Debug和Manual被并发度阻塞
- Workflow运行中出现死锁
- Agent重新start,没有返回error状态
- Agent实时任务并发数字出现负数
- 数据流参数第二层传递不符合没有生效
- Workflow重启,dataflow任务recover失败
- 高并发测试,导致agent端挂掉
下载地址
- 百度网盘
https://pan.baidu.com/s/1cX7y5qNHxTXDNA7s8-_KPw 提取码:yz53
文件信息
- 文件名:STUDIO-Image-Registry-Transwarp-1.1.0-final.tar.gz
- MD5:f5d22879c239091dda272ea297a60794