tongsiying

阅读|运动|自律

0%

BlockStorage-Emergency

# 001-节点磁盘满
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
朱晓伟:
1、停止IO,提高回收阈值;
2、回收一段时间后提高碎片整理阈值;

-查看当前各节点的回收开关及时间:
curl -s "http://127.0.0.1:8080/sys/debug/config?pretty=y"|grep -E "VacuumSwitch|DefragSwitch|VacuumStrgy|DefragStrgy|RecycleTap|DefragTap"

1.设置chunkserver回收时间
curl "http://127.0.0.1:8080/snbs/setrecyclestrgy?strgy=00:01-23:59"

2.设置chunkserver碎片整理时间
curl "http://127.0.0.1:8080/snbs/setdefragstrgy?strgy=00:01-23:59"

3.设置chunkserver回收开关
curl -X PUT "http://127.0.0.1:8787/service/param?service=chunkserver&ipport=public&param=VacuumSwitch&value=1,10" -v

4.设置chunkserver碎片整理开关
curl -X PUT "http://127.0.0.1:8787/service/param?service=chunkserver&ipport=public&param=DefragSwitch&value=1,2" -v

5.设置chunkserver回收速率(默认500
curl -X PUT "http://127.0.0.1:8787/service/param?service=chunkserver&ipport=public&param=RecycleTap&value=5000,1" -v

6.设置chunkserver碎片整理速率(默认1000
curl -X PUT "http://127.0.0.1:8787/service/param?service=chunkserver&ipport=public&param=DefragTap&value=5000,1" -v

02-修复不了的extent

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
出现修复不了:
1.chunkserver执行选择最大的seq的extent进行修复
curl "http://127.0.0.1:8080/sys/debug/getfixnode?value=1"

2.这个是主动修复 由gateway踢掉的extent
①gateway踢掉extent之后会上报到master。这几个命令就是发往master,触发这些修复的
②这是gateway的防抖引入的机制。某些extent在某些节点执行慢的时候,可能会被gateway剔除掉,同时上报到master。但master不是立即就发送到chunkserver让修复,现在还是手动触发的
③理论上是出现过gateway剔除extent后人工择机执行。但现在这边的状态还没有同步到snbsp,可能下季度会把这些状态同步到snbsp

curl -X PUT "http://127.0.0.1:8787/snbs/abnormalchunk?chunkserver=10.238.161.1:9595&opt=fix&pretty=y"

curl -X PUT "http://127.0.0.1:8787/snbs/abnormalchunk?chunkserver=10.238.161.2:9595&opt=fix&pretty=y"

curl -X PUT "http://127.0.0.1:8787/snbs/abnormalchunk?chunkserver=10.238.161.3:9595&opt=fix&pretty=y"

curl -X PUT "http://127.0.0.1:8787/snbs/abnormalchunk?chunkserver=10.238.161.4:9595&opt=fix&pretty=y"

curl -X PUT "http://127.0.0.1:8787/snbs/abnormalchunk?chunkserver=10.238.161.5:9595&opt=fix&pretty=y"

curl -X PUT "http://127.0.0.1:8787/snbs/abnormalchunk?chunkserver=10.238.161.6:9595&opt=fix&pretty=y"

这个也要执行

这三家哦啥

这个是主动修复 由gateway踢掉的extent

gateway踢掉extent之后会上报到master 。这几个命令就是发往master,触发这些修复的

03-关闭打开的卷,执行加lun

1
2
3
4
5
6
7
8
问题:计算节点重启,先加lun然后加的路由,导致有lun未加载
注意:下面两个lun连续执行,中间间隔不能太长

1.gateway关闭卷的打开
curl "http://127.0.0.1:8686/snbs/debug/config?opc=closeVol&name=2bfa544d-cdff-47e0-8c2e-8a5a66b7d6bd"

2.重启加lun
curl "http://10.243.80.16:8888/sys/iscsi?name=2bfa544d-cdff-47e0-8c2e-8a5a66b7d6bd&ops=add_lun&tgt=10.243.87.161"
赞赏一下吧~