V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
chendajun
V2EX  ›  Python

怎么抓取今日头条视频( http://www.toutiao.com/video/),用 firebug 可以找到视频的 URL,但找不到 URL 拼接规律。

  •  
  •   chendajun · 2016-10-13 10:59:04 +08:00 · 7451 次点击
    这是一个创建于 2751 天前的主题,其中的信息可能已经有所发展或是发生改变。
    12 条回复    2018-03-28 13:54:49 +08:00
    jzp113
        1
    jzp113  
       2016-10-13 11:04:36 +08:00
    chendajun
        2
    chendajun  
    OP
       2016-10-13 11:10:39 +08:00
    @jzp113 非常感谢!!!
    wang9571
        3
    wang9571  
       2016-10-13 12:01:47 +08:00
    @jzp113 厉害, V 站里的头条员工看到之后应该会改规则吧。还是要请教一下, r 、 s 取值需要使用 crc32 校验这一步是如何判断的啊?
    jzp113
        4
    jzp113  
       2016-10-13 12:31:11 +08:00
    @wang9571 分析 js
    chendajun
        5
    chendajun  
    OP
       2016-10-13 13:12:38 +08:00
    @jzp113 r 值是 17 位,估计有一定的规则生成。
    @wang9571 V 站里没有头条员工吧?
    wang9571
        6
    wang9571  
       2016-10-13 13:13:46 +08:00
    @jzp113 好吧,我还不会 js
    wang9571
        7
    wang9571  
       2016-10-13 13:22:04 +08:00
    @chendajun 怎么会没有,我看到好几次头条在 V 站发招聘信息了
    newhotter
        8
    newhotter  
       2016-10-13 14:16:13 +08:00   ❤️ 1
    何必分析 JS 。直接嗅探就好了( Selenium+browsermob )。。参考我的博客。
    http://www.liuhao.me/2016/09/20/selenium_browsermob_sniff_bilibili_video/
    backto17
        9
    backto17  
       2016-10-13 17:18:49 +08:00
    @newhotter 学习了!不过要是能分析出 url 规律,爬取量大时, 速度会比你这种方式快很多,所以还是有必要分析的.
    siknet
        10
    siknet  
       2016-10-13 20:05:51 +08:00
    maxthon 自带的嗅探器就能嗅探出来
    chendajun
        11
    chendajun  
    OP
       2016-10-14 13:57:12 +08:00
    @backto17 个人也感觉通过分析 js 拿到 URL 比较好,用模拟浏览器的方法效率不高,太粗暴,不够优雅。
    cangbaotu
        12
    cangbaotu  
       2018-03-28 13:54:49 +08:00
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5481 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 41ms · UTC 06:53 · PVG 14:53 · LAX 23:53 · JFK 02:53
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.