首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zhaofy
V2EX  ›  程序员

公司要用爬虫抓取数据,不知道是否侵权

  •  
  •   zhaofy · 156 天前 · 5942 次点击
    这是一个创建于 156 天前的主题,其中的信息可能已经有所发展或是发生改变。
    请教一下各位,领导安排一个任务,爬取别的公司网站的资讯然后发布到自己网站上,频率不高,被监测到的可能性不大;但是我看该网站资讯下面注明了非公开数据,我是不是要汇报一下领导告诉他利害关系?
    52 条回复    2019-12-31 11:41:11 +08:00
    nutting
        1
    nutting   156 天前
    当然吧,领导得决策
    zr8657
        2
    zr8657   156 天前
    其实爬了也就爬了,这个问题的关键是如果真被抓了必然跑不了,得的钱值不值这个风险。可以看我去年的发帖,最后我把项目拖黄跑路了
    pmispig
        3
    pmispig   156 天前
    就算是领导给你发了邮件,他是主谋,真抓了你也跑不了
    hehheh
        4
    hehheh   156 天前
    给他说一下啊。。。首先用邮件大概说一下(留个底),然后再到他的办公室详细说说。。。
    em70
        5
    em70   156 天前
    最近被抓的爬虫公司是因为涉及爬取公民个人隐私信息,爬资讯只要不涉及人没问题,既然你都能看的,那就是公开数据了
    wingtatlee
        6
    wingtatlee   156 天前
    肯定要,否則萬一出事就賴你了。如果你匯報了,就算出事也是領導的決策,你只是執行...
    wangxiaoaer
        7
    wangxiaoaer   156 天前
    @em70 #5 个人隐私信息如果可以公开看的话,那么爬取还有问题?如果没有公开,那特么所谓的爬虫就是入侵了,不抓他抓谁。
    locoz
        8
    locoz   156 天前
    当然侵权啊...爬别的公司网站的资讯发布到自己网站上还不算侵权的话,盗版站岂不是会更猖獗?
    bzsh
        9
    bzsh   156 天前
    爬虫写得好,牢房吃的早.......现在不好搞了, 最好咨询咨询法务
    locoz
        10
    locoz   156 天前
    @wangxiaoaer #7 那些搞征信的是诱导用户提供了 Cookie,然后直接拿用户的账号爬的用户自己的数据。但是没有明确告知具体爬的内容,所以有问题。
    pangleon
        11
    pangleon   156 天前
    昨天不是有个热帖被抓进去了,其实楼主啥也没干,没参与出事的那个项目。
    覆巢之下,焉有完卵
    Caijl
        12
    Caijl   156 天前
    我们公司以前技术部门就有人爬各药监部门的网站,后来被举报下线整改,然后公司开了一个试用期的员工,顶雷
    InternetExplorer
        13
    InternetExplorer   156 天前 via Android   ❤️ 1
    不要在公司做?参考:敲领导的头三下,让领导半夜三更找你来做(・・)σ
    xytdj
        14
    xytdj   156 天前   ❤️ 3
    1、邮件告知老板,对方是非公开数据,需要有授权才能抓取;
    2、如果你明知老板没有授权、但非让你抓,你也不要干,别以为老板决策你只执行没什么大不了的,夸张点,你老板决策说让你抢银行,你敢执行吗?你觉得执行了会没事儿么?
    3、如果你老板对你说有授权,那你就做吧。出了事儿你就说你提醒过,老板说有授权就行了。
    zhaofy
        15
    zhaofy   156 天前
    @xytdj 刚跟领导说了,他说只抓公开的信息= =
    Myprincess
        16
    Myprincess   156 天前
    你就写一个邮件:
    需求功能确认函-需确认
    X 经理 ,收到您功能需求,在开发产品实现需求之前,作为公司技术有必要与您确认一下,利用程序抓取他人网站内容有可能给公司造成侵权风险。不管对方数据是否公开,请问公司各领导是否明白并已做好准备。
    如果确认,请邮件回复同意已知悉,并请出具书面开发需求书。
    我收到后会立即着手开发。
    如在后期开发中有遇到疑问,我定当向您请教。谢。
    andylsr
        17
    andylsr   156 天前 via Android
    发邮件也没用,抓你的时候你逃不了的,顶多证明你是从犯。。。
    HongJay
        18
    HongJay   156 天前
    吃顿好的
    pansongya
        19
    pansongya   156 天前   ❤️ 1
    做一下 数据清洗 和 伪原创不就行了 天下文章一大抄
    Sqpan2
        20
    Sqpan2   156 天前 via Android
    直接说不会爬虫不就得了吗
    wdv2ly
        21
    wdv2ly   156 天前
    发邮件不是恰好证明了你知法犯法??
    xiebruce
        22
    xiebruce   156 天前
    某日头条不就是这么起家的么?
    Outshine
        23
    Outshine   156 天前
    数据是否公开和你是否可以拿来用是两回事
    就好比项目是否开源和是否收费也是两回事
    aver4vex
        24
    aver4vex   156 天前
    公开数据也不是随便就能合法的爬取的。
    Dex7er
        25
    Dex7er   156 天前
    robot.txt ?
    zhaofy
        26
    zhaofy   156 天前
    @Dex7er
    Disallow: /zixun/
    Disallow: /vote/
    wangxiaoaer
        27
    wangxiaoaer   156 天前 via Android
    @locoz 我觉得这被抓的话不亏。
    classyk
        28
    classyk   156 天前
    明显的侵权。公开数据绝不代表着所有权的变更。
    liangch
        29
    liangch   156 天前
    公开是公开的事。不是说数据就没有授权。
    比如,马路上有人放了 100w。你去拿了,就是犯罪。
    locoz
        30
    locoz   156 天前
    @wangxiaoaer #27 是啊,那种骗了 Cookie 瞎爬一通然后拿个人信息去卖的,被抓了真的是活该。
    yuanbo6
        31
    yuanbo6   156 天前   ❤️ 1
    作为部门里面经常负责处理该性质问题的我……首先和领导表明要爬取的数据是什么性质的有什么潜在风险,其次要做好责任书性质的东西,别真出事儿了你才反应过来先是被领导当枪使然后又替领导挡子弹
    locoz
        32
    locoz   156 天前
    @Myprincess #16 正解为 #14 的做法,单发邮件但“收到书面开发需求书后会立即着手开发”的行为可以被判为知法犯法,如果出事了就是作为从犯处理的。

    另外补充一下,“老板对你说有授权”这个需要保留证据,如果无法证明有这回事的话,这个做法就失效了。
    christin
        33
    christin   156 天前 via iPhone
    我记得之前有个新闻 一个外包的程序员就提供了几行的爬虫数据 最后被判好多年
    caneman
        34
    caneman   156 天前
    @locoz 那现在爬虫的出路在哪?只能逼迫转行?
    paradoxs
        35
    paradoxs   156 天前
    爬虫高压线,现在真的别碰。 别说什么公开不公开的,没有对方授权就不行。
    locoz
        36
    locoz   156 天前
    @caneman #34 看看我写的这篇文章: https://mp.weixin.qq.com/s/aXr-ZE0ZifTm2h5w8BGh_Q

    只要不搞那些有风险的操作,其实没啥关系的。
    locoz
        37
    locoz   156 天前
    @caneman #34 像楼主公司这种“爬取别的公司网站的资讯然后发布到自己网站”的操作,你可以看一下文章中“别人的东西不要拿了之后放到自己家里”的部分买,属于很典型的风险操作。
    abcbuzhiming
        38
    abcbuzhiming   156 天前
    @caneman 没出路,自己研究玩玩可以,别找死,国内之前几年个人隐私和大数据滥用问题如火如荼,必然会有反弹的时候,现在就是反弹的时候,以后的数据,你不拿到授权,就是公开在别人网站上的,你敢爬来用了就能被人告死。除非政策改变,否则对数据获取和利用的限制肯定是越来越严
    caneman
        39
    caneman   156 天前
    @locoz 其实说到底,能让你爬的数据一般价值有限,真正有价值的数据是不可能给你授权的。(购买接口就不叫爬虫了)。现在的形势,感觉做爬虫的就是走钢丝,把选择权交给对方,不告你啥事没有,一告你百分百出事....

    有商业价值的数据,感觉有一个算一个,只要爬,没一个是具有合法性的。。。只能想各种办法来规避对方告你的风险(要么不要让对方知道你在爬,要么你爬的速率和规模在对方容忍范围内),因为告你也是需要成本的。

    还是好难做啊...
    caneman
        40
    caneman   156 天前
    @abcbuzhiming 是啊,感觉就是赌,赌对面不会告你,保不齐哪次就栽了...
    locoz
        41
    locoz   156 天前
    @caneman #39 只要不过分、展示出去的东西是经过加工的、能给源头带来利益,没人会想着搞你...而且即使搞你了也拿不出证据。(自己傻到用同一个 IP 一直怼的除外)
    caneman
        42
    caneman   156 天前
    @locoz #41 这个当然知道了,有些数据来源非常单一,举个简单的例子,抖音 /微博的博主信息,点赞关注回复之类的,假使抖音 /微博他们完全不开放相关接口,你无论怎么加工,只要提供了相关服务必然会暴露你拥有信息这个事情,抖音虽然无法从服务器上面知道究竟是谁在爬它,但是它很容易知道谁在提供服务。只要想盈利你不可能把数据捂着放一边把,告了公司,法院和警方会寻找真正的爬虫 er,爬虫被抓的,基本也都不是从源头被追踪到的,都是从下游一直往上捋,捋到的。

    也可以做,但是大环境确实比以前难多了,说到底,低调就对了,出头就是找死,除非你的服务对被爬方有益,但是也难说被卸磨杀驴,当然这些前提都是在商用领域,
    smilenceX
        43
    smilenceX   156 天前
    @wdv2ly 我记得以前听课的时候,有个说法是,知不知法是不影响定罪和量刑的。古装剧里“罪加一等”的前半句应该是“执法犯法”。
    我不是专业人士,如果我说错了,请告诉我。
    Kig
        44
    Kig   156 天前
    看爬什么吧
    coderluan
        46
    coderluan   156 天前
    如果是非“爬”不可的情况,我会选择油猴脚本的方式,这样从技术角度我只是分析了本地的网页数据,风险就从盗窃信息变成了未授权转载了......效率低负罪感也低点......
    codeduan
        47
    codeduan   156 天前
    爬虫写得好,牢饭吃到饱
    nvhanzhi
        48
    nvhanzhi   156 天前
    今日头条一天到晚在爬,人家老板成了巨富
    qiuqiuwang99
        49
    qiuqiuwang99   156 天前 via Android
    三个字 不要碰 尤其有个人信息的 一条也不要爬 即使是个人公开也不可以。这是高压线,个人信息保护法马上要出,正愁没祭刀的呢。
    SwagXin
        50
    SwagXin   155 天前
    侵权,你就不应该发这个帖子,现在你知道了你还会爬吗。
    niboy
        51
    niboy   155 天前
    别爬,如果东窗事发,程序员是要被开刀的
    lisiqi
        52
    lisiqi   155 天前
    @coderluan #46 好主意。。。。
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   3163 人在线   最高记录 5168   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 46ms · UTC 13:38 · PVG 21:38 · LAX 06:38 · JFK 09:38
    ♥ Do have faith in what you're doing.