首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  程序员

生产环境故障该不该追责员工

  •  
  •   Sothoth · 63 天前 · 9491 次点击
    这是一个创建于 63 天前的主题,其中的信息可能已经有所发展或是发生改变。

    在 SRE 的世界里,有个概念叫做“事后无过失”( blameless postmortem ),这是一种回顾过去所犯错误的方式,但不会将责任归咎于任何人。在谷歌工作了近 5 年的隐私工程师塔里克·尤素福(Tariq Yusuf)表示:“这是谷歌文化的一个基本组成部分,也是让人能够大胆剖析出问题的能力。但报复消除了能够安全提出问题的核心阻碍,整个过程因此而崩溃。”

    ———— https://www.cnbeta.com/articles/tech/859031.htm 谷歌"内战":高管要利润,员工要价值观,谁是灵魂?

    大部分公司应该都会追责吧 即使没有相关处罚 各种潜在影响(绩效 KPI...)也是避免不了吧 想听听大佬们的意见 也想了解下大厂的处理方式

    90 回复  |  直到 2019-06-22 16:32:21 +08:00
        1
    JunoNin   63 天前   ♥ 16
    没在大厂不好多说,但是我在的公司基本事故之后,第一时间是考虑如何解决问题,而不是考虑如何去处罚
        2
    Raymon111111   63 天前   ♥ 1
    真正的追责肯定不会, 不小心赔了几百万难道员工出?

    绩效不会好那是肯定的
        3
    jxf2008   63 天前
    @JunoNin
    公司文化不一样

    我们这边公司产品出了问题,第一件事就是追责。。。。
        4
    Sothoth   63 天前
    目前的想法是 只有在稳定性 可靠性都做的很好 可以避免大部分人肉操作出问题 即使出了问题也可以很快恢复的情况下 不追责才是有可能的吧
        5
    oneonesv   63 天前
    这应该是默认的规则把,工作过的几家公司都是这样处理的
    留下不好印象那肯定会的
        6
    Sothoth   63 天前
    @Raymon111111 造成经济损失需要员工承担的公司应该还比较少 这里追责主要想说的还是对于工作的影响
        7
    troywinter   63 天前
    不追责,绩效很有可能也不会影响太大,亲身经历,之前一个同事负责优化的服务每周五必宕机,每次几百万的损失,后来人家的绩效比我好,(关系硬)。
        8
    ytpfxnj   63 天前
    不解决问题,只解决发现制度 bug 的人?这种公司吸引不到人才
        9
    ulyssesfeng   63 天前
    有个 bug 上线了灰度,没有经济影响,只有用户体验影响,第一时间解决问题,解决完灰度之后各种批斗大会。。层层批斗,噩梦。。。
        10
    colors   63 天前
    恩, 出了问题肯定第一时间都是先解决问题, 事后会做一个故障报告, 然后给故障定级, 一定程度会影响绩效, 罚款的话好像法律规定最高是月薪的 20%?
        11
    tigerstudent   63 天前   ♥ 9
    如果有规定公司会分享一定比例的盈利的话,我是可以接受这种生产故障追责的。
        12
    auser   63 天前   ♥ 6
    通常是
    非技术线管理者意见:罚
    技术线管理者意见:不罚

    剩下就看哪方气场强大了。
        13
    maichael   63 天前
    该解决问题的时候解决问题,但不表示解决完问题就不追责了。

    事后该怎么追责还是怎么追责。
        14
    JunoNin   63 天前
    @jxf2008 有那个时间追究也可以处理完之前的坑了
        15
    loveour   63 天前
    我觉得得看情况吧。比如说违反规章制度那种的事故,那肯定要追责。如果是技术故障,BUG,那就可能是绩效算一下的问题了。而且,追责也要考虑公平。谷歌的做法是处于自身的考虑,不同的企业肯定会有不同的做法。但是,无脑追责和无脑免责大概率有问题。
        16
    Sornets   63 天前
    通常是
    非技术线管理者意见:罚
    技术线管理者意见:找个底下人背锅
        17
    Keyes   63 天前
    @ulyssesfeng hhhhh 难道是华为派的
        18
    luckyrayyy   63 天前
    一般事故罚绩效吧,非常严重的会下一年降薪
        19
    wmc18064028066   63 天前 via Android   ♥ 1
    取决于该员工的价值和公司想不想留住他。
        20
    kaedea   63 天前 via Android
    权力越大,责任越大
        21
    tyrealgray   63 天前 via Android   ♥ 2
    赚钱的时候老板占大头,亏钱的时候让员工出大头?
        22
    TobiahShaw   63 天前
    我们大学学过,去我们那边厂里(金刚石合成)实际的话,机器放炮,可能造成损失 9000+ * 6,但是只是罚工人 50 的
        23
    hurrytospring   63 天前
    看到过几千万损失的,没有对当事人有特别处罚,对整个部门从上到下有统一处罚。
        24
    Greendays   63 天前
    小问题肯定要追责的吧,大问题追责好像也没啥意义,反正赔不起
        25
    jacketma   63 天前 via Android
    谷歌里的一些员工已经到了科学家的层面,确实是利润之上的精神追求,不为五斗米折腰。
        26
    shfanzie   63 天前
    取决于该员工的价值和公司想不想留住他。
        27
    mooncakejs   63 天前
    追责肯定也不止追责 bug 员工。
    每一个参与 review 的员工,直系领导,测试都是有责任的。
        28
    KNOX   63 天前 via Android
    我的理解是生产环境出问题通常是流程出问题,流程没做好就是整个团队的问题,追究个人不能根治问题。
        29
    xiangyuecn   63 天前
    小朋友。你叫什么命子。。。有没有后台。。。good。那这件事情就由你扛下来。好不好😁😁😁
        30
    wenzhoou   63 天前 via Android
    自己公司的追什么责,都是外包给别人的才追责。

    公司内部善意的反省和改善可以接受,恶意的责任扩大化不能接受。

    都是拿着白面的钱操着白粉的心。
        31
    xpfd   63 天前
    不求无功 但求无过 这样谁还敢干活
        32
    reus   63 天前   ♥ 1
    你能怎样追责?
    罚款是违法的,公司不能克扣员工工资。你可以不计算绩效,可以辞退,但工资是一定要发的。
    劳动合同和外包合同是不一样的,外包合同可以约定违约金,双方自愿接受,但劳动合同不能写出 bug 就罚款,这是违法行为。
    我看这里法盲不少嘛。
        33
    Flobit   63 天前 via Android
    先解决问题,然后再追责,
        34
    brust   63 天前
    @ytpfxnj #8
    我们公司就是这样的,我要辞职了
        35
    wr410   63 天前
    本周我们的某邮件 [请技术部查明最近两次代码原因导致生产故障的直接责任人,记入本季度考核。]
        36
    pkookp8   63 天前 via Android
    上家沙雕公司就罚我绩效
    我从某个组调走。正好那个组发布了个产品,但有个问题。缺人让我 support 一下,我问领导,领导说那边紧急,让我先 support,手上的活可以缓缓。我过去告诉我有一个问题,解决,回来。
    最后还是出了问题,原因是有第二个问题没解决。然后追责,罚我。我 cnmd QA,罚 nm 呢罚,倒是告诉我有第二个问题啊,我又不是测试
        37
    changdy   63 天前   ♥ 1
    事故发生 最重要的是先处理,其次是总结,最后才是 追责.
    并且追责要从上到下 , 什么样的工资 负责什么样的 义务
    你给了一个工资 5K 的人 数据库管理员的权限 ,然后他不小心删了库 你觉得应该罚款多少呢?
        38
    stevenhawking   63 天前
    不应该. 因为干得漂亮时候没有人给你奖赏, 权责不等.
    换一个人, 也许损失更大.
        39
    opengps   63 天前
    犯错性质是什么?故意的显然得追责,过失则需要酌情引起重视,一般来讲不至于到了扣光绩效的地步
    这得看追责目的是什么?为了逼迫员工离职的话,还不如主动倒闭
        40
    Myprincess   63 天前
    经历过的事
    一职员个人犯错,造成生产产品出错,损失 20 万。
    在公司争论过,这 20 万是否由这个职员承担。
    A 方案:应该由职员承担
    B 方案:应该由公司承担。
    C 方案:应该由职员所在部门承担,职员应该承担所有费用的 30%,剩下 70%由部门分担。
    D 方案:应该由职员承担 10%,剩下的由整个公司所有员工平均分担。老板要负责 30%
    E 方案:应该由职员承担 5%,由部门承担 25%,剩下 公司 承担 70%.扣除责任部门一年所有绩效奖金.
    我们最终选择 D 方案.
        41
    FrankHB   63 天前
    先追事前没有想起约定导致居然会要在事后扯皮的问题的法务和监管部门的责。
        42
    fxxkgw   63 天前
    我所在也算大厂了。。一般会开故障分析会,确定责任所属部门和整改措施,并有专人跟踪整改情况。

    至于会不会影响个人,明确说会的,上个季度就有组里同事因为故障,绩效给 1 以下。( 1 是正常)

    我这个月因为自己系统 bug (纯代码 bug,复现概率十万分之一,大并发压测才会出现),造成了实际公司资损。

    会不会影响绩效就看 Q3 结果了。
        43
    russian   63 天前
    @jacketma 谷歌里的很多人就是科学家
        44
    DAPTX4869   63 天前
    @Myprincess #40 10%也是两万了...那员工接受了?
        45
    Myprincess   63 天前
    @DAPTX4869
    方案 A 与 B 与 C 都无法执行,因为一旦执行,管理会出现巨大的抵制行为.更多的扯皮.D 与 E,因为不选择 E 是因为综合考虑,如果老板承担了大头,而后期扣除一年的绩效,这个决定对那些没有犯错的人来说是非常不公平的.选择 D 是因数没有扣除后期的绩效.但是那个员工肯定是要担责的,因为是正式员工,而为什么剩下的 30%由老板承担是因为老板是有承受能力的.老板说这是一个公司就是一个团队,一人犯错其他部门都必须一起承担.
    那 10%员工是接受的.因为是他个人原因造成的.部门管理也有责任.那公司高层肯定也有责任.所以统统要为这个事件埋单.
        46
    Myprincess   63 天前
    @DAPTX4869 补充一下:我们之前是用 OA 来管理的,在线审批的.这个事件后,我们选择关联部门负责人都要签字确认后才放行流程.不然所有的生产任务无法安排.必须见到相关人员的签字.而不是之前的点击同意就 OK 了.
        47
    huson   63 天前
    之前再阿里系得公司。。。因为人为故障 电商官网 生产环境注册 挂了 1 小时

    重点分析了故障原因 为什么会产生 那些人得该做得没做 或者是选择错了
    开会一起分享 吸取教训

    然后主要相关领导都扣了钱
    责任员工 吸取教训 一分钱没有要扣- -
        48
    luckylo   63 天前 via Android
    对于你们这些追责的,我司前两天被客户恶意搞了,但那个功能是前面的人做的。那些人均已离职。在发现被搞之前,那安全问题一直存在,出现问题后,我定位查出问题了,如果要追责,这锅我背?还是所有人的包括测试?测试也换成新人了😂
        49
    lplusk   63 天前
    大厂 SRE 路过。
    没有合理的流程和工具把错误变更的影响面成功限制住小范围,是流程和工具的问题。
    有这样流程和工具你却不用(别奇怪,真的有不少人这么干),线上变更一把梭,背锅的就是你了。
        50
    lplusk   63 天前
    @Sornets 合格的技术线管理者这时候应该挺身而出保护自己底下犯错的员工。幸运的是我就遇过这样的领导。
        51
    Takamine   63 天前 via Android
    影响绩效评级算不算。_(:з」∠)_
        52
    lijbgo   63 天前
    出错当然要罚,要不不长记性。但是有个前提是要先实现多劳多得。而且罚多少、以什么方式罚都是有讲究的。
        53
    leishi1313   63 天前   ♥ 2
    Google 内部确实这样的,我自己看来原因主要有几点:
    0.追责不了,动不动几个 M 的损失怎么担。。
    1.公司钱多,可以不计成本鼓励员工试错,创新,所有事故都要追责那大家都会保守了。
    2.公司大,几乎每天都有事故。内部有个追踪生产事故的网站,所有人都可以登录查看解决的进度,粗略看了下光今年( 2019 )损失超过$5M 的事故就有 16 个,都要追责的话人心惶惶,毕竟一行代码影响的都是百万千万甚至几亿人。
    3.说是 blameless,但是每个事故都很透明,基本都能追踪到具体哪个 commit 出了错,公司所有人都能知道谁是代码作者,谁是 reviewer,犯了错大家以后再小心点咯,出了错长记性就好了。

    所以其实不必盲目地向大公司看齐,很多文化固然有值得学习的地方,但是各个公司情况都不一样。
    从我自己角度也有相关的小故事,曾经在一个比特币交易所的矿池部门带过,由于 github 密码弱,矿池代码被我泄露出去了,被黑客索要几百万,最后公司对我保护很好,除了安全部门和主管没什么人知道,最后也没对我追责:)。然后因为是加密货币领域,公司对安全的重视度特别高,你想想公司托管的币没了整个公司就没了,这种事故还没发生过,但是一旦发生,追责又有什么用呢
        54
    testeststs   63 天前   ♥ 2
    这个世界上最愚蠢的问题就是尝试寻找一种银弹的方式解决现实中的所有问题。
    你说,杀人要不要偿命?
    自卫杀人?被胁迫杀人?报仇雪恨?
    现实世界可比理想世界复杂的多,要是杀人该不该偿命,仅仅用一两句话就可以概括,也就不需要那么厚的律法了。

    给你一个忠告,不要尝试用程序员的眼光去看待现实世界。
        55
    Yvette   62 天前
    blameless postmortem 翻译成「免追责事故分析」是不是更合理,「事后无过失」这个翻译实在是莫名其妙
        56
    kerassss   62 天前 via Android
    @ulyssesfeng 同感,回溯到头皮发麻。
        57
    vanityfairn   62 天前
    先解决生产问题,然后开小复盘,再开大复盘(整个技术部),给事故定级,P3 以上的,事后直接不让干了
        58
    jorneyr   62 天前
    难道第一时间不是搅浑水,找背锅的?
        59
    star00   62 天前
    不应该处分发现问题的人吗 txtx
        60
    Youngxj   62 天前
    我新到一家公司任职,不懂整个框架的运行,拆东墙补西墙的修改了一个参数,第二天被反馈造成了一定损失,需要赔偿,但是我们老板并没有责怪我什么,我立马恢复了之前的修改。可能是造成的损失不大吧,要不然肯定把我开了,如果公司要求赔偿我觉得应该签署有效合同才能追责赔偿,要不然员工大不了走人就行了
        61
    SimonOne   62 天前
    @troywinter #7 一年 52 周啊,那就是一年要造成几百万*52,五千万-五亿损失 /年,这关系也太硬了吧。
        62
    zhttty   62 天前
    不按流程规范、执行要求做事,自己犯得低级错误当然要追责到人,譬如强调严禁直接操作生产环境数据库,你还这么搞,出了问题当然要。
        63
    CantSee   62 天前
    有的技术领导一出问题先拉出去个挨子弹的,之前我们公司就有,某银行,给签约商户结算多结算了几百万,最后负责这个地方的同事被开除了;还说什么引咎辞职,最后是公司框架的故障!渍渍
        64
    Ritr   62 天前
    @tigerstudent 风险共担,利益共享
        65
    Dex7er   62 天前   ♥ 1
    看你是要解决问题,还是要解决无意之中制造出问题的人了。
    解决问题么就事论事,谁拿的最多谁担最大的责任。
    解决人,最后无非就是从团队里面找一个倒霉的背锅侠罢了。

    然后,大家就一起战战兢兢地保守下去呗。少干少错,多干多错。
    再然后,你就发现大家的工作积极性怎么搞都提不高,为什么呢?

    小到几行代码,大到航空航天原子能,
    哪个行业有不犯错的人?有不犯错的工作?

    不遵守既定规则,那不叫犯错,那叫犯规。。。
        66
    chmlai   62 天前
    大部分公司本身就是有限责任的, 再说公司就是用来共担风险的
        67
    yiyi11   62 天前
    参照日本瑞穗证券因为系统 bug 导致 400 亿损失的事件。证券公司告 it 公司,本案核心点之一:什么样的 bug 才算是“重大过失”?法院给出了判断的标准——这个 bug 是不是很容易被发现。

    如果员工尽了责任去做,但是由于复杂度的问题,依然有难以预见的风险发生,这也是没办法的事情。
        68
    cuikai1   62 天前
    @fxxkgw 好奇十万分之一是怎么算出来的?
        69
    lazyfighter   62 天前
    恢复、定级、影响 kpi
        70
    blackboom   62 天前
    不考虑故障场景的情况下,优先找领导。
        71
    troywinter   62 天前
    @SimonOne 嗯,他工作经验多,又曾经是淘宝资深员工,领导比较信任他,好在后来那个服务越来越好了,没有继续烂下去。
        72
    realpg   62 天前
    写代码写出 bug 之类应该是不算过失的

    不遵守规程操作之类导致后果 是一定要追责的
        73
    yy77   62 天前
    程序正义啊。按既有规章制度流程走了,就不该追责;不按规章制度流程走导致损失的,那就要罚。但是肯定不能把所有关联损失都罚进去。
        74
    lucifer9   62 天前
    大公司不一定是要具体员工承担责任,但是肯定要打到某个部门头上
    话说当年我们写故障报告很重要的一点就是要猜对这次领导想让哪个部门背锅
    否则写一万次都得打回重写
        75
    iyaozhen   62 天前 via Android
    当然先解决问题,事后肯定要复盘,大事故就得追责了。

    一般是当事人到一层层经理到总监都得罚款。听说我们总监有个月罚了小几万,
    人为因素还会辞退
        76
    wxl1380610   62 天前
    @Myprincess 20 万 随时 赔两万块 我就想说 那个员工现在还在吗 ?
        77
    loryyang   62 天前
    看当时操作是否违规了,如果违规,那基本是完蛋了。如果没有违规,那么问题还行,短期绩效肯定会受影响,但是长时间看,还行
        78
    qiumaoyuan   62 天前
    所有类似的事情都一样:领导责任最大。
        79
    LokiSharp   62 天前
    指定公司 ISO 质量体系啊啊
        80
    tourist2018   62 天前
    个人怎么负责 百度微信这种宕机了 损失不是个人能赔得起的
        81
    randyo   62 天前
    加班导致的结果应该发提出加班的人~~
        82
    liuxu   62 天前
    怎么能是程序员的锅,明明就是测试没测试好 /dog
        83
    memorycancel   62 天前 via iPhone
    看公司好不好过,公司赚钱,故障也是对的。公司赔钱,什么都是错的。
        84
    purensong   62 天前
    @SimonOne 就你看的仔细,人家只是个比喻把
        85
    slgz   62 天前
    @pkookp8 #36 然后呢 就直接认罚了?
        86
    18ac0877   62 天前   ♥ 1
    1、看关系,上线一上午,损失至少 50 万, 关系硬象征性的罚款 200 元;
    2、关系不硬的,当年绩效清零,潜规则至少 2 年没有晋升机会;
    3、小问题,被客户抓住把柄,将事情搞大,当年整个部门都没奖金,大部分辞职,到处找其他部门协调人。
        87
    pkookp8   62 天前 via Android
    @slgz 主要也是因为绩效没几个钱,不然立即辞职。忍了几个月,拿了年终跑了
        88
    tt0411   61 天前
    能这样做的公司, 一般是文化(创始人有硅谷背景)和收入(短期变现压力不大)都还不错的公司. 我知道百度是这样的, 百度内部创新氛围还是不错的, 只可惜对外产品化能力太差.
        89
    luozic   61 天前   ♥ 1
    決策修改的不承擔責任,具體幹活的背鍋? 牛逼牛逼,這腦子是不是在中世紀封建時代?
        90
    mzdblsw8   61 天前   ♥ 1
    我是运维。好比打了败仗。不反思问题。反而拿底下的员工开刀。有人会跟你混吗?

    反正我上班这么多年。故障是肯定有的。没被扣过绩效。
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1075 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 25ms · UTC 23:00 · PVG 07:00 · LAX 16:00 · JFK 19:00
    ♥ Do have faith in what you're doing.