【Linux/lvm】故障案例:业务因错误使用lvm导致数据丢失故障-20201215
(1)故障现象:业务物理机因逻辑卷有问题导致进不去系统;(2)故障排查过程:用root密码登入系统,进到维护模式,mount -a 后,报错,提示为lv_data不存在;然后到/etc/fstab文件中,注释掉有问题的lv_data;再次重启机器,物理机可正常进入系统;经排查发现,该物理机有6块1.2T硬盘,之前分别创建了相应分区;但被业务侧加入到了一个vg里(vgdata),然后创建了一个lv_
(1)故障现象:
业务物理机因逻辑卷有问题导致进不去系统;
(2)故障排查过程:
用root密码登入系统,进到维护模式,mount -a 后,报错,提示为lv_data不存在;然后到/etc/fstab文件中,注释掉有问题的lv_data;再次重启机器,物理机可正常进入系统;
经排查发现,该物理机有6块1.2T硬盘,之前分别创建了相应分区;但被业务侧加入到了一个vg里(vgdata),然后创建了一个lv_data,有问题的就是这个lv_data;
经以前运维经验,该台机器应该有6个硬盘,但此时只有5块,1块数据盘不见了,且系统盘盘符进行了飘逸;
且用pvs、vgs、lvs等命令查看后发现,数据卷组vgdata存在问题;
因此判断,使用**vgremove --missingremove vgdata[-f]**命令尝试剔除故障硬盘,剔除故障硬盘后,vgdata容量相应变小,pvs、vgs命令并未报错;
但原来的lv_data上的数据是没法恢复了(就自身目前运维水平,是不懂如何进行恢复数据的,且业务侧本次丢失的数据也不是很重要;
总结:一般lvm通常会建立在做了raid(raid10,raid5等具有冗余数据的raid模式)后的硬盘上的,不会像本次故障把单个直通盘共同加到一个vg里,然后进行使用的,后面这种情况,一旦出现vg里的某个物理硬盘损坏,就会导致vg不可用,进而vg里的lv数据遭到损坏,切记!!!

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)