内容纲要
概要描述
单节点系统盘损坏后系列操作(非manager节点)
详细说明
测试环境:TDH5.2.3
开启安全
1.手动删除旧节点
详细步骤请参考文档:
删除节点
2.添加新节点
以下是虚机操作方式,物理机的步骤就是先把旧节点的数据盘拔下来,然后在新增的节点上重装系统,再把旧数据盘插上去,新建数据目录,把盘挂载(不能格式化)
2.1 新节点修改ip(新节点的ip一定要和之前一致,否则会因为残留信息产生很多问题):
2.2 修改hostname(也要和旧节点保持一致)
2.3 修改root密码,使3个节点密码一致
2.4 manager页面添加节点
2.5 把需要扩容的角色,勾选上新增的节点
此时因为没有扩容guardian server,可能会报错
2.6 先去开启TOS:
2.7 启动完成后,把guardian server扩容(txsql server,guardian ApacheDS,guardian server都把新节点勾选上)
2.8 把旧集群的/mnt/disk* 下的文件都拷贝到新集群(物理机直接插盘即可)
- scp如果产生这个报错,就把/root/.ssh/known_hosts 这个文件的内容全部删除即可(所有节点的这个文件内容都清空)
原集群/mnt/disk1 内容:
都拷贝后,新集群的内容:
2.9 启动license,然后启动所有服务:
3.0 扩容license节点(如果删除的节点原来有license的话执行该操作)
3.1 检查数据有无丢失和损坏:
hadoop fsck /
建议在测试环境先测试一遍,注意一定要备份好txsql元数据