概要描述
DBAService 9.2.0 版本以上新增了流监控的功能,对于 Argodb 5.1 (Quark 8.28) 以上版本的 Slipstream 可以直接使用。
目前可以支持比如资源监控,任务状态监控,任务DAG图,任务告警等功能。
如果需要更细化的监控功能,比如查看任务的实时数据吞吐情况;监控 Kafka 各个任务对数据的消费情况(offset 和 lag 信息);流任务的 checkpoint 信息等,就需要更高的组件版本要求以及更多的监控配置。
目前,流监控指标数据的各组件版本要求如下所示:
组件 | 版本 |
---|---|
Manager | 9.3.3.2 |
Aquila | 9.3.5 |
DBAService | 9.4.6 |
Slipstream | Argodb 6.0+最新Patch |
具体配置过程详见下文。
详细说明
查看指标数据,需要在 Slipstream 侧开启流任务指标生成配置, 还需要在 Aquila 上开启指标抓取配置。
Slipstream 监控对接配置
1、ArgoDB 603、 TDH 9.4 之前版本的 Slipstream 需要先手动更新一下 metainfo,将如下附件中的 ops 替换至 manager节点 /var/lib/transwarp-manager/master/content/meta/services/SLIPSTREAM/${版本路径}/ops 目录中:
替换后,Slipstream 配置服务,并重启生效。
2、Slipstream 服务级别或者任务级别需要添加以下参数:
参数名 | 参数值 | 说明 |
---|---|---|
morphling.metrics.enabled | true | 打开指标监控 |
morphling.metrics.exporter | prom | 指标数据通过prom文件采集 |
morphling.job.enable.checkpoint | true | 任务开启 Checkpoint |
如果是服务级别,添加到页面组件配置参数中,也需要配置服务并重启生效。
Aquila 数据抓取配置
1、检查 Aquila 参数 agent.prom.dirPrefix.list 的值是否有slipstream和eventstore,没有的话编辑,添加,配置服务重启,如图:
2、登录 Aquila Insight ,在管理—监控目标页面,检查 agent-exporter 和 slipstream-4044-target 两个 target 作业的所有 Endpoint 是否正常
一般情况下 Slipstream 配置服务,通知 Aquila 重载prometheus 正常,Aquila 正常配置服务启动后,会默认初始化上述两个 exporter,但某些情况如果不存在上述 exporter,需要手动配置:
- slipstream-4044-target exporter,查看manager 上 slipstream 的 inceptor.ui.port 配置端口(默认4044)和 server 节点,如下添加监控任务
- agent-exporter,查看 manager 上 aquila 的 agent.web.port 配置端口(默认8668)和所有 aquila agent 角色节点,如下添加监控任务
添加完监控任务后,点击"更新Prometheus配置",可查看添加的 exporter 的 endpoint 状态是否健康
3、Aquila Insight的仪表管理页面,检查是否有 SLIPSTREAM 仪表盘。
默认情况下,Slipstream 配置服务,通知 AQUILA 重载prometheus 正常,初始化仪表盘配置后,SERVICE 目录下会有默认的 SLIPSTREAM 仪表盘,如图:
如果没有,需要手动导入如下仪表盘:
仪表盘 json 文件如下:
slipstream-init-dashboard.json
DBAService 验证
上述 Slipstream 和 Aquila 中的配置都完成后,就可以启动流任务,登录 DBAService ,检查流任务监控的指标数据是否正常显示,如图: