V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
SlipStupig
V2EX  ›  程序员

自己写的爬虫如何测速抓取速度呢?

  •  
  •   SlipStupig · 2017-09-03 11:57:19 +08:00 · 4234 次点击
    这是一个创建于 2421 天前的主题,其中的信息可能已经有所发展或是发生改变。
    我自己做了一个分布式爬虫,但是我想知道我到底能到什么速度,有没什么办法可以离线测试抓取速度呢,比如:一秒钟可以下载完成多少个网页,不需要太精确,有个大概就行?
    10 条回复    2017-09-03 20:56:21 +08:00
    t6attack
        1
    t6attack  
       2017-09-03 12:04:02 +08:00
    网络环境是影响速度的重要因素。离线了还咋测试速度
    linuxchild
        2
    linuxchild  
       2017-09-03 12:07:50 +08:00 via iPhone
    监控网络速度吧,然后取均值
    huangfs
        3
    huangfs  
       2017-09-03 12:14:24 +08:00
    日志能估算吧。
    bazingaterry
        4
    bazingaterry  
       2017-09-03 12:18:10 +08:00 via iPhone
    自己写的爬虫,里面写一下统计有难度吗……
    SlipStupig
        5
    SlipStupig  
    OP
       2017-09-03 12:20:23 +08:00
    @bazingaterry 速度这块真不好算,我需要一个一些性能指标的基线数据,现在不知道怎么弄

    @t6attack
    ericls
        6
    ericls  
       2017-09-03 12:34:41 +08:00 via iPhone
    既然是分布式 还是测试 scalability 吧
    bazingaterry
        7
    bazingaterry  
       2017-09-03 13:09:34 +08:00 via iPhone
    @SlipStupig 看你需要的精度?大不了一个页面一行 log。
    Devmingwang
        8
    Devmingwang  
       2017-09-03 13:50:31 +08:00
    爬吧,豆瓣网子域名,read01 等等等一大批网站都已经疯掉国外部分 IDC 访问了。。。。
    nywwsba
        9
    nywwsba  
       2017-09-03 16:20:25 +08:00
    楼主现在用什么来跑爬虫呢? vultr 怎么样
    jalena
        10
    jalena  
       2017-09-03 20:56:20 +08:00
    在执行前和执行结束写个时间,算一下不就好了么?多测试几次取个平均值就好了嘛
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2849 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 06:31 · PVG 14:31 · LAX 23:31 · JFK 02:31
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.