V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
eric
V2EX  ›  DevOps

下厨房 6 月 26 日数据丢失事故总结

  •  
  •   eric · 2013-07-03 13:22:59 +08:00 · 7623 次点击
    这是一个创建于 4170 天前的主题,其中的信息可能已经有所发展或是发生改变。
    1. 备份节点因故下线长达两个月,一直没有重新启用;
    2. 使用 rm -f 删除备份节点文件,5 分钟后才发现进错了机器……

    全文在这里: http://tech.xiachufang.com/?p=18
    24 条回复    1970-01-01 08:00:00 +08:00
    lichao
        1
    lichao  
       2013-07-03 13:24:55 +08:00
    我不止一次 shutdown -h 0 然后发现是在服务器上
    eric
        2
    eric  
    OP
       2013-07-03 13:29:01 +08:00
    @lichao 我也试过。后来我给所有生产环境上机器的 PS1 都换了个颜色
    wang2191195
        3
    wang2191195  
       2013-07-03 13:34:19 +08:00 via iPhone
    那个员工怎么样了=_=
    thinkxen
        4
    thinkxen  
       2013-07-03 14:06:07 +08:00 via Android
    我了个去啊~
    Ricepig
        5
    Ricepig  
       2013-07-04 00:31:11 +08:00 via iPhone
    有人发现吗?在这个案例里,信息产业部下属公司数据恢复能力强于阿里巴巴dba团队出来创业的沃趣科技
    skydiver
        6
    skydiver  
       2013-07-04 02:16:05 +08:00 via Android
    @Ricepig 他们两个公司干的不是一个事情。
    kennedy32
        7
    kennedy32  
       2013-07-04 02:16:35 +08:00
    每个这种事故,都有因故没有备份数据库的事件出现
    相似的错误造成一次又一次事故
    master
        8
    master  
       2013-07-04 03:51:40 +08:00
    虽然说操作失误千不该万不该,但最后暴露出来的还是对运维的不重视
    所以这大概是国内很普遍的情况吧,技术团队兼作运维,
    所以因为还有研发的工作在,所以运维的方面即使明知有疏忽,
    还是被一再拖延,直到操作失误才发现没有后悔药
    master
        9
    master  
       2013-07-04 04:02:08 +08:00
    @Ricepig
    觉得对于这个问题讨论公司人员背景好像意义不太大,
    毕竟是误删磁盘数据的恢复工作,这个肯定还是以做数据恢复为主业的公司更擅长一些
    沃趣的关注点毕竟还是放在运维,虽然说删磁盘这种事也算是运维故障
    TonyLiu2ca
        10
    TonyLiu2ca  
       2013-07-04 05:29:36 +08:00
    测试环境很重要吧,生产环境的改变之前要有测试计划吧,测试之后要有升级脚本吧。
    jason52
        11
    jason52  
       2013-07-04 08:49:28 +08:00
    看看那个数据恢复公司成功恢复的案例,令人大吃一惊啊,什么医院,银行等单位运维都是蛮重要的啊
    Ricepig
        12
    Ricepig  
       2013-07-04 08:56:52 +08:00 via iPhone
    @skydiver 哪不同了?
    breeswish
        13
    breeswish  
       2013-07-04 09:25:24 +08:00
    @Ricepig 做的事情是一样的,但是后面一个毕竟是专业做数据恢复的,这跟阿里那个以运维为主的不能比的嘛= =
    sykp241095
        14
    sykp241095  
       2013-07-04 09:53:05 +08:00
    这次下厨房发生了这个事故后,我特意注册了一个 shutdown.sh 域名,请问各位这个域名可以用来做什么。。
    firsthym
        15
    firsthym  
       2013-07-04 10:07:00 +08:00
    深刻的教训
    julyclyde
        16
    julyclyde  
       2013-07-04 10:10:40 +08:00
    @master 我觉得就是人员背景问题。你说的对,初创企业对运维不够重视
    skydiver
        17
    skydiver  
       2013-07-04 10:13:29 +08:00
    @Ricepig 一个是硬盘数据恢复公司,一个是数据库专业服务公司。
    laogui
        18
    laogui  
       2013-07-04 11:29:32 +08:00   ❤️ 1
    那个员工怎么样了?有没有被杀害?
    laogui
        19
    laogui  
       2013-07-04 11:37:01 +08:00
    看了这个过程感觉技术好牛X,从硬盘修复中、从内存中、从memcache中、从binlog中、从搜索引擎的快照中。从这几种东西里提取了一堆不完整的数据你们竟然最后可以搞一块去。太佩服你们的技术了。
    apptao
        20
    apptao  
       2013-07-04 12:18:20 +08:00
    @lichao 我也是, 后来我把服务器上的shutdown都改名了.
    clowwindy
        21
    clowwindy  
       2013-07-04 13:13:25 +08:00
    rm -rf 之后文件名没有了,但 MySQL 还在运行,文件没有删除。这时候可以连接 MySQL dump 数据。
    fkccp
        22
    fkccp  
       2013-07-04 19:53:35 +08:00
    @eric
    @apptao
    弱弱问下,你们为啥不改自己的
    cloudzhou
        23
    cloudzhou  
       2013-07-04 20:48:59 +08:00
    @clowwindy 是的,这是很关键的一步,应该文件在所有句柄释放之后进程才真的找不到它,如果是单一的一个文件,是可以 dump 出数据的
    manoon
        24
    manoon  
       2013-07-04 21:33:26 +08:00 via Android
    这个可以发给领导看一下, 数据的重要性. . . .
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3945 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 05:11 · PVG 13:11 · LAX 21:11 · JFK 00:11
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.