V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Comdex
V2EX  ›  问与答

网页定时爬取的问题

  •  
  •   Comdex · 2014-09-09 16:07:31 +08:00 via Android · 2590 次点击
    这是一个创建于 3515 天前的主题,其中的信息可能已经有所发展或是发生改变。
    请教一下大家,假如我要做一个功能让别人输入一个网址和关键词,然后抓取关键词的数据,由于这些网页可能是不定时更新的,那自己写的爬虫该如何采取策略定时抓取更新?假设有多个用户要定时抓取更新的数据,这些数据一般一天更新一次,我是在用户每确定一个任务就开启一条线程每隔一天监控网页是否更新还是先把这些任务加入一个任务列表等到晚上某个时段定时器触发一并完成这些任务?
    5 条回复    2014-09-10 19:00:44 +08:00
    icedx
        1
    icedx  
       2014-09-09 18:17:16 +08:00   ❤️ 1
    先把这些任务加入一个任务列表等到晚上某个时段定时器触发一并完成这些任务
    Comdex
        2
    Comdex  
    OP
       2014-09-09 23:28:18 +08:00
    @icedx 这样效率更高?就是在定时器触发时开启多线程处理任务列表中的任务这样效率更好?这样当任务多时同时执行压力不会很大么?
    icedx
        3
    icedx  
       2014-09-10 10:58:19 +08:00
    @Comdex
    你这不是大的项目 基本不用担心服务器压力
    反而是定时器更方便管理
    Comdex
        4
    Comdex  
    OP
       2014-09-10 11:46:00 +08:00 via Android
    @icedx 主要是担心cpu占用爆升导致机器重启锁定
    icedx
        5
    icedx  
       2014-09-10 19:00:44 +08:00
    @Comdex 你试试不就知道
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1155 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 18:39 · PVG 02:39 · LAX 11:39 · JFK 14:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.