提升CEPH系统对PG的Scrub和Backfilling速度

1. 进行PG Srub的参数和原理

对PG进行Scrub,即检测PG分布到各OSDs上的数据是否一致。包含两种算法:第一种为Scrub,即仅检测数据的元信息,例如时间戳和文件大小等信息,速度快且基本不消耗磁盘;第二种为deep Scrub,会额外检测数据的内容是否一致,速度较慢且消耗大量磁盘读取。在CEPH系统进行scrub和deep-scrub的主要参数为:

(1)osd_scrub_begin_hour:设置进行Scrub的起始时间,推荐设置为22,即在晚上10点开始进行Scrub。CEPH系统默认值是0。
(2)osd_scrub_end_hour:设置进行Scrub的结束时间,推荐设置为8,即在早上8点结束scrub。CEPH系统默认值是24。
(3)osd_scrub_auto_repair:设置发现PG在多个OSDs中的数据不一致后,是否进行修复,推荐设置为true,即表示自动进行修复。CEPH系统默认值为false。
(4)osd_max_scrubs:进行Scrub时,设置单个OSD能同时进行Scrub操作数,推荐设置为10。CEPH系统默认值是1,会导致整个系统能同时进行的Scrub操作数很少。提高该值能明显增加Scrub的并行数,增加Scrub速度。否则,可能导致pgs not deep-scrubbed in time的警报。
(5)osd_scrub_min_interval:设置单个PG进行Scrub的最小间隔时间,默认值为86400,一天。
(6)osd_scrub_max_interval:设置单个PG进行Scrub的最大间隔时间,默认值为604800,一周。
(7)osd_scrub_interval_randomize_ratio:设置单个PG进行Scrub时,间隔会额外增加一定的随机时间,该时间为osd_scrub_min_interval*该阈值,默认值为0.5。
(8)osd_deep_scrub_randomize_ratio:在进行Scrub时,随机变更为deep scrub的概率,推荐设置为0.05。CEPH系统默认值为0.15。
(9)osd_deep_scrub_interval:设置进行deep Scrub的时间间隔,推荐设置为259200,即一月30天。CEPH系统默认值为604800,即若有PG没能在一周内进行deep scrub,则导致pgs not deep-scrubbed in time的警报。改变该值应该并不能减慢或加快deep scrub的速度。

以上参数表示:对每个PG进行清理,每隔1~1.5天即会进行一次Scrub。每次进行Scrub时,有5%的概率变更为deep scrub,这表示平均20~30天会对所有PGs进行一轮deep Scrub。当一个星期后,若有PG未进行scrub,或一个月后,若有PG未进行deep-scrub,则进行报警。进行优化方式:通过增大 osd_max_scrubs 参数值来加快scrub速度;通过减少 osd_deep_scrub_randomize_ratio 参数值来减少deep scrub任务量,减少对磁盘的读取消耗。

2. 进行PG backfilling的参数和原理

当CEPH系统更换硬盘时,会将一些PGs转移到新硬盘做的OSD上,这时需要对数据进行回填。默认情况下,回填速度极慢,需要修改OSD参数增加回填速度。

(10)osd_max_backfills:设置CEPH系统一次最多对指定数量的PGs进行回填,推荐根据需要回填的PGs数量和CEPH系统的整体OSDs数量来设置。默认值为1,过小,会导致回填速度极慢,可能需要数天才能让数据修复完毕。咱们系统有一次更换硬盘后需要对66个PGs进行回填,我直接设置该值为66即可。推荐该值 * PG副本数 / OSDs总数 不要超过 3,即让每个硬盘同时的读和写并发不要过大。
(11)osd_recovery_max_active:进行数据恢复时,设置每个OSD的最大读写请求数,推荐设置为10。CEPH系统默认值为3。
(12)osd_recovery_max_active_hdd:进行数据恢复时,设置每个OSD的机械硬盘最大读写请求数,推荐设置为10。CEPH系统默认值为3。
(13)osd_recovery_max_active_ssd:进行数据恢复时,设置每个OSD的固态硬盘最大读写请求数,推荐设置为100。CEPH系统默认值为10。

3. 通过命令行修改OSD参数

需要在各台CEPH存储服务器上运行程序,对各自的OSDs进行参数修改。且通过命令行修改仅在当前CEPH系统中生效,重启服务器后失效。

ceph tell osd.0 injectargs --osd_scrub_begin_hour=22 --osd_scrub_end_hour=8 --osd_scrub_auto_repair=true --osd_max_scrubs=10 --osd_scrub_min_interval=86400 --osd_scrub_max_interval=604800 --osd_scrub_interval_randomize_ratio=0.5 --osd_deep_scrub_randomize_ratio=0.05 --osd_deep_scrub_interval=259200 --osd_max_backfills=100 --osd_recovery_max_active=10 --osd_recovery_max_active_hdd=10 --osd_recovery_max_active_ssd=100

查看修改后的参数结果:

ceph daemon osd.0 config show | egrep "osd_scrub_begin_hour|osd_scrub_end_hour|osd_scrub_auto_repair|osd_max_scrubs|osd_scrub_min_interval|osd_scrub_max_interval|osd_scrub_interval_randomize_ratio|osd_deep_scrub_randomize_ratio|osd_deep_scrub_interval|osd_max_backfills|osd_recovery_max_active|osd_recovery_max_active_hdd|osd_recovery_max_active_ssd"