V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
wph95
V2EX  ›  云计算

腾讯云更新了[硬盘丢失数据]原因。人工运维迁移数据,跳过数据校验和跳过数据留存

  •  1
     
  •   wph95 · 2018-08-08 01:06:53 +08:00 · 10077 次点击
    这是一个创建于 2059 天前的主题,其中的信息可能已经有所发展或是发生改变。

    https://mp.weixin.qq.com/s/8JSPY6vHPhg8pX0JwjqttQ

    第一是正常数据搬迁流程默认开启数据校验,开启之后可以有效发现并规避源端数据异常,保障搬迁数据正确性,但是运维人员为了加速完成搬迁任务,违规关闭了数据校验;

    二是正常数据搬迁完成之后,源仓库数据应保留 24 小时,用于搬迁异常情况下的数据恢复,但是运维人员为了尽快降低仓库使用率,违规对源仓库进行了数据回收。

    77 条回复    2018-08-17 22:55:32 +08:00
    yexm0
        1
    yexm0  
       2018-08-08 01:11:47 +08:00
    也就是说这件事完完全全是可以避免的咯?
    feverzsj
        2
    feverzsj  
       2018-08-08 01:13:49 +08:00
    运维锅已经背好了
    humansjl
        3
    humansjl  
       2018-08-08 01:26:37 +08:00
    如果真是这样的话应该运维 leader 一起背锅,培训、审计均不到位。
    wph95
        4
    wph95  
    OP
       2018-08-08 01:47:35 +08:00   ❤️ 1
    @yexm0
    如果固件 bug 不是能避免的 凭啥敢说 9 个 9 的数据可靠性。
    隔壁帖子有大佬说了的
    > 高可用磁盘底层架构为*非同批次*、*非同固件*的等容量、等架构磁盘组建硬件 /软件 RAID
    ryd994
        5
    ryd994  
       2018-08-08 04:32:02 +08:00 via Android
    /t/477457 神预言
    @baskice
    chinvo
        6
    chinvo  
       2018-08-08 04:40:33 +08:00   ❤️ 4
    疼逊这是完全推翻之前自己关于“硬盘固件 bug ”的说法了
    jalja27
        7
    jalja27  
       2018-08-08 05:35:32 +08:00 via Android
    对亏腾讯不做疫苗
    husons
        8
    husons  
       2018-08-08 05:48:05 +08:00 via iPhone   ❤️ 1
    这是不是说明赔偿问题还有的谈?
    woodface2233
        9
    woodface2233  
       2018-08-08 07:01:17 +08:00 via iPhone
    又是运维的事情?
    kokutou
        10
    kokutou  
       2018-08-08 07:28:13 +08:00
    运维:锅我背好了。
    webjin1
        11
    webjin1  
       2018-08-08 08:11:57 +08:00 via Android
    资本家是追求利润最大化的,一分钱一分货。别以为上云就省钱又有保障。硬件成本摆在那。
    LU35
        12
    LU35  
       2018-08-08 08:35:49 +08:00 via Android   ❤️ 6
    之前洗地的被啪啪打脸
    Tink
        13
    Tink  
       2018-08-08 08:36:12 +08:00 via iPhone
    这不是打自己脸???这么蠢么
    somebody18
        14
    somebody18  
       2018-08-08 08:38:06 +08:00 via iPhone
    @yexm0 不可能避免

    长期内部各部门间扯皮导致审计,保护机制跟不上,又有裁撤 KPI,只能手动操作,运维被要求尽快手动回收资源,加上长时间工作,疲劳导致。
    iConnect
        15
    iConnect  
       2018-08-08 08:40:15 +08:00 via Android
    @somebody18 人在极度疲劳状态下,智商真的是很低的。
    ctsed
        16
    ctsed  
       2018-08-08 08:45:24 +08:00 via Android
    赔钱吧
    l32606
        17
    l32606  
       2018-08-08 08:51:39 +08:00 via Android
    说明产品和技术都是没问题的,多少个 9 都不是在吹牛。问题只是个别人员的导致。安心用吧
    masir
        18
    masir  
       2018-08-08 08:53:23 +08:00 via Android
    不靠谱哦
    hzw
        19
    hzw  
       2018-08-08 08:59:55 +08:00   ❤️ 6
    危机公关的思路就是这样的,损失最小化,保腾讯金字招牌不倒,让无名无姓的人来承担责任。这个通告的潜台词就是,第一我腾讯没问题;第二宣传下 我腾讯的制度完善,保障机制合理,请大家放心选购。
    说到底,腾讯核心思想还是“糊弄”。
    iConnect
        20
    iConnect  
       2018-08-08 09:01:50 +08:00 via Android
    @hzw 运维里面最不靠谱的确实也是人工操作啊
    zhongkouwei
        21
    zhongkouwei  
       2018-08-08 09:02:23 +08:00
    @l32606 人员问题才更可怕吧,因为无法避免。技术问题还可以优化
    AllOfMe
        22
    AllOfMe  
       2018-08-08 09:18:43 +08:00 via Android
    应该楼下会出现,为什么不自己备份的水军
    lcatt
        23
    lcatt  
       2018-08-08 09:19:19 +08:00
    @LU35 可以去手机微信端看看这篇文章的评论。“有问题敢于承认,敢于公开,好样的”
    AllOfMe
        24
    AllOfMe  
       2018-08-08 09:20:35 +08:00 via Android
    运维人员能出这个问题,现在不发生以后也会发生,只能尽量完善运维的制度吧
    mengzhuo
        25
    mengzhuo  
       2018-08-08 09:21:08 +08:00
    @hzw 请先认真看下通告好么?

    整篇通告都是在说鄙厂不好,制度不完善,各个环节有问题。
    而且有这种程度的对外复盘,是头一遭。
    这里涉及的问题跟 14 楼说的差不多。

    你想挂操作运维的名字,这哥们以后就不用干这行了。

    很多人想当然,黑大厂作为政治正确了,然而底层运维、程序员都满是无奈。
    Felldeadbird
        26
    Felldeadbird  
       2018-08-08 09:24:16 +08:00
    运维人员将客户的云盘访问切至仓库Ⅱ,同时为了释放空间,对仓库Ⅰ中的源数据发起了回收操作。
    才几分钟就进行回收……不是应该放多 1-2 天才操作了。估计是操作人员对自己的产品过于自信了。
    jeffersonpig
        27
    jeffersonpig  
       2018-08-08 09:25:00 +08:00
    这时候特别体现出 微信公众号文章底下的评论由公众号自己筛选显示 这一功能体制的重要性。2333333
    lcatt
        28
    lcatt  
       2018-08-08 09:25:15 +08:00
    @hzw 内部肯定问责的
    @mengzhuo 根本原因还是运维管理混乱,风控缺失,真正要改的话是要下不少成本的。
    iwiki
        29
    iwiki  
       2018-08-08 09:26:16 +08:00
    意思就是所谓的系统有一部分是人工操作,而且没有校验,而所谓的安全性,也就是这些人工操作都要 100%按照要求来做。那么问题就来了,论制度都是满分,论执行都要减分,那他这个多少个 9 都是虚的咯。
    感觉就是拉了业务外包给人家做的感觉,人家没做好,也不能怪我咯。
    LadyChunsKite
        30
    LadyChunsKite  
       2018-08-08 09:32:19 +08:00
    @iwiki "论制度都是满分,论执行都要减分",,,我想到别的地方去了。。
    qbmiller
        31
    qbmiller  
       2018-08-08 09:32:53 +08:00
    配个 13.14 万多好, 更有纪念意义
    hanru
        32
    hanru  
       2018-08-08 09:36:05 +08:00 via Android
    鹅厂竟然能发这么一篇文章,有些意外。
    chengzhii
        33
    chengzhii  
       2018-08-08 09:38:08 +08:00
    aa
    byuc
        34
    byuc  
       2018-08-08 09:42:16 +08:00
    进一步建议之后怎么不给个温馨提示?
    温馨提示:
    1、云硬盘快照产品将于 2018 年第四季度正式商业化,商业化范围包括腾讯云中国站和国际站的用户,商业化后所有存量快照和新产生的快照将根据占用存储容量进行收费。
    Anhedonia
        35
    Anhedonia  
       2018-08-08 09:47:08 +08:00
    腾讯爆抽自己家水军的脸
    n2ex2
        36
    n2ex2  
       2018-08-08 09:52:01 +08:00 via Android
    @byuc 套路满满
    momocraft
        37
    momocraft  
       2018-08-08 10:06:15 +08:00   ❤️ 1
    推给临时工总比三备份被推翻好
    UGLW
        38
    UGLW  
       2018-08-08 10:23:24 +08:00
    在 7 牛云 微信公众号看到一个评论。
    > Stupid penguin
    聪明的人类总是把鸡蛋从一个篮子里挪到另一个篮子里而不自知。往往是为了工具而忘了目的。
    southsala
        39
    southsala  
       2018-08-08 10:29:09 +08:00
    超售王
    desususula
        40
    desususula  
       2018-08-08 10:32:01 +08:00 via Android
    现在看看之前那篇帖子里的水军,差点笑出声
    luoway
        41
    luoway  
       2018-08-08 10:32:23 +08:00
    临时工 +1
    swulling
        42
    swulling  
       2018-08-08 10:34:23 +08:00
    @byuc 套路,先搞一波危机让大家都用快照,然后收费

    套路满满
    tearain
        43
    tearain  
       2018-08-08 10:39:59 +08:00
    哈哈哈,看来之前的很多没脑子的水军大部分都是自来水啊
    okwork
        44
    okwork  
       2018-08-08 10:54:45 +08:00
    @momocraft 三副本策略也是行业通行的方案,没必要推翻。可能情况是三副本策略没有落实到位,或者实施不规范。
    johnj
        45
    johnj  
       2018-08-08 10:59:46 +08:00
    @Felldeadbird 应该是上面急着要空间
    wph95
        46
    wph95  
    OP
       2018-08-08 11:07:46 +08:00
    @chinvo
    不能说完全推翻,
    固件 bug 是压垮骆驼的最后一根稻草
    故障都是多个意外的叠加
    laucenmi
        47
    laucenmi  
       2018-08-08 11:36:50 +08:00
    是谁的运维问题?
    zhangdawei
        48
    zhangdawei  
       2018-08-08 11:49:03 +08:00
    真恶心
    wlsnx
        49
    wlsnx  
       2018-08-08 11:51:41 +08:00
    运维背锅
    jusalun
        50
    jusalun  
       2018-08-08 12:08:22 +08:00
    - -所以这是天灾+人祸了?
    mhycy
        51
    mhycy  
       2018-08-08 12:11:08 +08:00   ❤️ 1
    https://www.v2ex.com/t/477885

    看起来有更深层的问题
    人祸只是让问题暴露出来了而已
    gclove
        52
    gclove  
       2018-08-08 12:12:45 +08:00
    就没说怎么赔偿
    airdge
        53
    airdge  
       2018-08-08 12:16:18 +08:00
    在揪出三副本后 总要找一个出来背黑锅
    joysir
        54
    joysir  
       2018-08-08 12:26:02 +08:00
    假如是运维操作导致,那么腾讯云资源是得多紧张或者领导是得多没经验,切仓库后马上就回收?而且操作都不需要走流程吗?运维直接关校验、直接回收?

    还是认为是三备没落到实处,但是直说是不可能的,毕竟 99.9999999% 摆在那。然后顺势学着临时工说法推到运维头上,毕竟人是可能出错的。
    henneko
        55
    henneko  
       2018-08-08 12:27:18 +08:00 via iPhone
    诶? ifanr 相关报道最高赞的那位拍着胸脯说没用三备份,这么快就打脸啦?
    c0878
        56
    c0878  
       2018-08-08 12:37:24 +08:00
    腾讯云这么大的分布式存储系统居然还需要人工操作来平衡容量 不可想象
    pinews
        57
    pinews  
       2018-08-08 12:37:55 +08:00
    @mhycy 说的好,就好比领导给你一半的钱让你买正常价位的货,除了违规操作,就是违抗命令,一般情况下,违规操作不一定引发问题,特殊情况下就爆出来了
    mhycy
        58
    mhycy  
       2018-08-08 12:43:03 +08:00 via iPhone
    @pinews 只是这违规操作的原因。。不敢细想
    LucasLee92
        59
    LucasLee92  
       2018-08-08 12:43:06 +08:00
    看得出来腾讯打算糊弄到热度消失了
    qiuqiuer
        60
    qiuqiuer  
       2018-08-08 13:30:22 +08:00 via Android
    腾讯的水军不少
    ihainan
        61
    ihainan  
       2018-08-08 13:35:25 +08:00
    运维人员是个急性子呀……
    est
        62
    est  
       2018-08-08 13:45:11 +08:00
    运维:你们都让开。我来背锅。
    openbsd
        63
    openbsd  
       2018-08-08 14:47:44 +08:00
    @est #62
    想多了
    运维都是顶着锅上班的
    x7395759
        64
    x7395759  
       2018-08-08 14:58:21 +08:00
    居然是手动迁移扩容,腾讯云的技术实力还是有待提高。

    不过居然可以发一篇这样的文章,表示技术上态度还是可以的。

    但是我依旧不信任腾讯云,这件事情需要花很长的时间或者是同类产品出现重大误差时才能够消除影响。
    kkk123
        65
    kkk123  
       2018-08-08 15:03:08 +08:00
    刚开始不是说硬盘损坏导致?还是我记错了? 搜了下渣浪还有这新闻描述, 编故事也是一天一版本,PR 够敬业
    yanhao1991
        66
    yanhao1991  
       2018-08-08 15:52:24 +08:00
    这么重要的操作竟然可以违反流程操作?感觉不可信
    winglight2016
        67
    winglight2016  
       2018-08-08 19:27:46 +08:00
    @somebody18 说到长时间工作疲劳,有个同事在命令行里敲命令:rm -rf ./*,漏了个.,结果。。。他说是太疲劳的缘故
    jadec0der
        68
    jadec0der  
       2018-08-08 21:26:59 +08:00
    @yanhao1991 重要?不知道做过多少次,日常操作而已。工厂里都有人违反操作流程,把自己玩死,这事要不是苦主出来硬磕,真就屁大点事
    billlee
        69
    billlee  
       2018-08-08 21:55:08 +08:00
    @byuc #34 快照也不是真的把数据复制一份吧,按照这样的操作恐怕加快照也没用
    loveour
        70
    loveour  
       2018-08-08 22:08:15 +08:00
    这是完完全全腾讯自己管理的锅了呀,这么操作出事只是早晚的事情呀。
    @jadec0der 不遵守流程这个确实是有,而且,说实话,有的人连自己的命都可以不顾,就是心特别大,我也不懂为什么。之前看过一个化工行业事故的帖子,很多都是因为有规范不遵守,其实那些规范都是血的教训换来的啊!印象特别深的是一个小哥检修管道,按照规范要先检测是否带压,他就不测,文章作者问他,他还说要不你来,然后打开兜了一头一脸的浓硫酸,很快就死了。还有其实这次的疫苗也是生产不遵守规范,但是这肯定是会出问题而且也早晚会被发现啊!我觉得这个心理真的可以好好探究下,感觉很可能心里想的就是没事的,心存侥幸。
    ryd994
        71
    ryd994  
       2018-08-09 04:54:44 +08:00 via Android
    @billlee 有用
    快照不会和原数据放一起
    这是一个故障域的概念
    icop
        72
    icop  
       2018-08-09 09:17:01 +08:00
    我就说 玩了勇者的游戏,你们不信。rm -rf *
    ryd994
        73
    ryd994  
       2018-08-09 12:31:17 +08:00
    @icop 取决于你所在的目录,这可能只是我的日常而已
    同时也取决与你的用户。平时不要总是用 root 操作就是这个道理。sudo 前 think again
    mingl0280
        74
    mingl0280  
       2018-08-09 12:55:14 +08:00
    这么蠢的人祸……
    腾讯云到底在干什么……
    billlee
        75
    billlee  
       2018-08-09 22:17:10 +08:00
    @ryd994 #71 我以为快照是 CoW 的
    aaler88
        76
    aaler88  
       2018-08-17 01:31:53 +08:00
    云服务不好做,都会出问题,只是出问题多少而已。
    zhh35791
        77
    zhh35791  
       2018-08-17 22:55:32 +08:00
    总要有人背锅
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2429 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 16:06 · PVG 00:06 · LAX 09:06 · JFK 12:06
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.