V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
briefcopy
V2EX  ›  编程

开发网络爬虫应该怎样选择爬虫框架?

  •  
  •   briefcopy · 2014-12-24 15:43:23 +08:00 · 4067 次点击
    这是一个创建于 3408 天前的主题,其中的信息可能已经有所发展或是发生改变。

    看很多开发爬虫的都在纠结怎么选择爬虫框架,弄了个博文,就当在扯淡了。
    http://blog.csdn.net/ajaxhu/article/details/42122461

    2 条回复    2018-03-26 15:23:40 +08:00
    foresightyj
        1
    foresightyj  
       2015-10-16 11:42:42 +08:00
    写得不错。是原创?

    我最了解的是 scrapy ,但是在 windows 下面使用遇到了不少坑(主要是改成使用 FIFODiskQueue 之后,也就是使用持久化的 BFS 而非默认的内存 DFS )。前几天学习了一下 nutch ,只是试了一下命令行,还没有深入到二次开发。
    cangbaotu
        2
    cangbaotu  
       2018-03-26 15:23:40 +08:00
    推荐你试试神箭手云爬虫( http://www.shenjian.io/) 最近很火的一个爬虫开发平台 在线用脚本开发爬虫
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5409 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 08:12 · PVG 16:12 · LAX 01:12 · JFK 04:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.