首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Node.js
Express
PPA for Ubuntu
ppa:chris-lea/node.js
V2EX  ›  Node.js

nodejs 爬虫长时间运行后卡住

  •  
  •   dreamer2020 · 270 天前 · 2668 次点击
    这是一个创建于 270 天前的主题,其中的信息可能已经有所发展或是发生改变。
    各位大佬,
    有一个困惑许久的问题:

    用 nodejs 做了一个爬虫,每天定时爬取数据,node 版本 v9.8.0,定时试过系统命令 crontab,现在用 node-schedule,使用 pm2 管理程序。

    爬虫在运行一段时间后,有时候是三四天,有时候是一周或者更长后,卡住了。没有错误日志,pm2 也没有任何日志信息,程序也没有退出,似乎是卡死在后台了。

    程序使用的依赖如下:
    “ axer ”: “ 0.0.5 ”,
    “ log4js ”: “^1.1.1 ”,
    “ moment ”: “^2.18.1 ”,
    “ mongodb ”: “^3.0.5 ”,
    “ node-schedule ”: “^1.2.4 ”,
    “ bluebird ”: “^3.5.1 ”,
    “ util ”: “^0.10.3 ”,
    “ xml2js ”: “^0.4.17 ”

    各位大佬,有没有遇到过类似问题的?能否给出一些提示思路?非常感谢!
    17 回复  |  直到 2018-05-23 11:48:39 +08:00
        1
    jiangzhuo   270 天前 via iPhone
    能上生产服务器的话,看看当前堆栈不就好了
        2
    LevineChen   270 天前 via iPhone
    同遇到
        3
    airyland   270 天前
    如果暂时不能确定到具体问题,可以在一个或者多个抓取任务结束后,直接 process.exit(1),pm2 会自动重启,还也可以定义 restart delay。
        4
    dreamer2020   270 天前
    @jiangzhuo 弱问一下,怎么样查看当前状况下的堆栈啊?
        5
    jiangzhuo   270 天前 via iPhone
    @dreamer2020 就是平时调试用的那些工具的 pstack 啊 strace 啊找到问题再 gdb 啊
        6
    dreamer2020   270 天前
    @jiangzhuo 哦,明白了。感谢!
        7
    dreamer2020   270 天前
    @airyland 这确实是一个当前的解决办法!
        8
    gabon   270 天前 via Android
    死锁?
        9
    whypool   270 天前   ♥ 2
    遇到过,解决如下:
    1,主动释放内存,虽然会自动 gc,但是爬取很快的时候,内存直接飙到 2G+,然后直接卡死
    2,爬取频率,不要用阻塞的迭代,比如 for map each 什么的,如果有迭代最好用递归,放 settimeout 延迟执行

    目前爬取了某云歌曲 80w+,内存占用稳定 90M,运行一个多月了
        10
    ETiV   270 天前
    pm2 start 命令前加「 DEBUG=*」,看有没有输出
        11
    aisin   270 天前
    @whypool 兄弟说的很靠谱,我现在也都是这么干的
        12
    shiny   270 天前
    分享下我的经验: 使用 eggjs 的 schedule 设置定时任务,使用 Kue 或者 async.js 创建队列,设置好并发数,控制进队列的数量(比如用数据库储存任务,分批读取送进队列抓取),内存和 CPU 使用非常稳定。有问题建议使用 alinode 跟踪诊断。
        13
    LeungJZ   270 天前
    我也遇到了。
    我的问题:抓取数据后,更新数据库( mongodb,bulkWrite 更新),更新时长 12000 个文档需要 60000ms。
    最后解决办法:使用 egg.js 的定时任务和 mongodb 的插件,更新方式是先查询是否存在,存在的一个个更新,save,不存在的批量插入,insertAll。12000 个文档耗时 1s 不到。

    服务器:2C4G。
        14
    qfdk   270 天前 via iPhone
    你 mongo 插了多少数据?
        15
    dreamer2020   270 天前
    @whypool 内存这个问题之前我也注意到了,确实需要释放,我现在最多是 300M 左右。

    迭代用得比较多,主要是 for,用了 async/await 控制异步,用 Promise.map 做了多并发。大佬说的递归,应该是在函数里面使用 setTimeout 延迟调用自己吧?

    另外,关于 Promise.map 有什么改进建议么?
        16
    dreamer2020   270 天前
    @gabon node 不是单线程的么?没有考虑过锁的问题
        17
    dreamer2020   270 天前
    @qfdk 一次最多会塞 4 万条数据
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2141 人在线   最高记录 4346   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 18ms · UTC 05:53 · PVG 13:53 · LAX 21:53 · JFK 00:53
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1