首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Node.js
Express
PPA for Ubuntu
ppa:chris-lea/node.js
V2EX  ›  Node.js

网站是如何识别像 Puppeteer 这样采用 chrome headless 模式的 node js 爬虫的?

  •  
  •   nujabse · 2018-04-19 20:53:31 +08:00 · 2908 次点击
    这是一个创建于 545 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近想用 Puppeteer 爬取 这个网站 的数据,发现爬取几个数据之后就很快被识别为机器人,弹出 recaptcha 的验证,已设置 UA 和 Cookie,模拟浏览器人工操作还是被封禁。这个网站是如何识别检测 puppeteer 爬虫的?

    5 回复  |  直到 2018-04-20 13:58:32 +08:00
        1
    gzlock   2018-04-19 21:24:58 +08:00
    瓶颈在 ip,上代理池
        2
    miyuki   2018-04-19 21:35:24 +08:00
    可能是 IP 频率?
        3
    soli   2018-04-20 05:33:07 +08:00
    道高一尺,魔高一丈。

    复杂一点的,可以分析用户鼠标、键盘等动作。
        4
    yamedie   2018-04-20 07:14:36 +08:00 via Android
    操作频率太快了,设置点间隔
        5
    Sparetire   2018-04-20 13:58:32 +08:00
    蛮多的, 具体可以参考这两个
    https://juejin.im/post/5a22af716fb9a045132a825c
    https://cnodejs.org/topic/59c3352ee7d9a031127eadac
    不过有些可能过时了
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   4053 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 22ms · UTC 05:39 · PVG 13:39 · LAX 22:39 · JFK 01:39
    ♥ Do have faith in what you're doing.