首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python 学习手册
Python Cookbook
Python 基础教程
Python Sites
PyPI - Python Package Index
http://www.simple-is-better.com/
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
V2EX  ›  Python

scrapy 如何对接 selenium?

  •  
  •   911speedstar · 163 天前 · 1565 次点击
    这是一个创建于 163 天前的主题,其中的信息可能已经有所发展或是发生改变。
    单纯用 selenium 爬取数据,效率 真的是慢。但是逆向 js 又搞不定,就想着用 scrapy+selenium+redis,做成分布式,提高爬取效率。请问大佬们,有实现方式吗?或者, 有没有项目可以参考看下。
    万分感谢
    12 回复  |  直到 2019-05-12 09:00:35 +08:00
        1
    la2la   163 天前
    selenium 会破坏 scrapy 的异步性吧?感觉快不了多少。如果真的要配合 selenium 的话,可以在下载中间件中用,返回 response 对象,绕开默认下载器
        2
    zgoing   162 天前 via iPhone
    和 scrapy 配合使用的好像都是 splash
        3
    aquariumm   162 天前 via Android
    我的经验是尽可能逆向 js,直接抓最根本的请求,效率巨高
    或者用 js 渲染库,scapy 不清楚,requests 和 js 有渲染库的

    其实逆向 js 很简单的,js 要么 xhr,要么内置 url 都很好找的
        4
    XSugar   162 天前 via iPhone
    middle 里面换掉
        5
    Jaho   162 天前
    middleware 中
    另:
    http://jaho.fun/google.jpg
        6
    911speedstar   162 天前
    @zgoing 试过了,因为需要翻页,splash 无法解决
        7
    911speedstar   162 天前
    @aquariumm 逆向 js 后的效率,的确会高很多。但是我对 js 语言不是很熟悉,一看到长串的 js,就感觉没头绪。。。
        8
    911speedstar   162 天前
    @la2la 效率上应该不会快太多。我是想做成分布式,开 2-4 个 driver 来做,这样比单纯的 selenium 要快一些
        9
    911speedstar   162 天前
    @XSugar 试一下了。。
        10
    aquariumm   162 天前 via Android
    @911speedstar 翻页直接抓包啊,八成是 xhr 实现的
        11
    smallgoogle   162 天前
    可以直接把 JS 下载回来。python 载入然后解密呀。这样你只需要找到 js 的加解密函数就可以了呀。
        12
    exip   162 天前 via Android
    selenium 保存 cookies 后传给 scrapy,等再需要 selenium 上场时 scrapy 再把 cookies 传回来。
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   4279 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 32ms · UTC 03:16 · PVG 11:16 · LAX 20:16 · JFK 23:16
    ♥ Do have faith in what you're doing.