V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
CriseLYJ
V2EX  ›  Python

各大网站登陆方式, 包括爬虫,麻麻再也不用担心我学习爬虫啦,哈哈

  •  9
     
  •   CriseLYJ · 2019-03-07 10:01:18 +08:00 · 14559 次点击
    这是一个创建于 1869 天前的主题,其中的信息可能已经有所发展或是发生改变。

    python 模拟各大网站登陆方式,以及一些爬虫程序

    • 仅供练习使用,代码注释很详细

    • 收集了一些各大网站登陆方式, 和一些网站的爬虫程序,有的是通过 selenium 登录,有的是通过抓包直接模拟登录,有的是利用 scrapy,希望对小白有所帮助,本项目用于研究和分享各大网站的模拟登陆方式,和爬虫程序,会持续更新。。。

    • 昨天加了个班,对一些老代码进行了重构和测试,大部分都可以用。

    • 欢迎 star

    模拟登录一些常见的网站

    • 如果你有什么比较难登陆的网站,比如发现用了 selenium+webdriver 都还登陆不了的网站,欢迎给我提 issue
    1. requests
    2. selenium
    3. rsa
    4. phantomjs

    项目地址

    Github

    关于

    模拟登陆基本采用的是直接登录或者使用 selenium+webdriver 的方式,有的网站直接登录难度很大,比如 qq 空间,B 站,如果采用 selenium 就相对轻松一些。

    虽然在登录的时候采用的是 selenium,为了效率,我们可以在登录过后得到的 cookie 维护起来,然后调用 requests 或者 scrapy 等进行数据采集,这样数据采集的速度可以得到保证。

    已完成

    tips of pull request

    • 欢迎大家一起来 pull request

    问题

    • 有的验证码需要手动,之后我会尽量改正
    • 代码失效:由于网站策略或者样式改变,导致代码失效,请给我提 issue,如果你已经解决,可以提 PR,谢谢!

    另外

    • 如果你有什么比较难登陆的网站,比如发现用了 selenium+webdriver 都还登陆不了的网站,欢迎给我提 issue
    • 如果该 repo 对大家有帮助,给个 star 鼓励鼓励吧

    欢迎你们

    1. 项目写了一段时间后,发现代码的风格和程序的易用性,可扩展性,代码的可读性,都存在一定的问题,所以接下来最重要的是重构代码,让大家可以更容易的做出一些自己的小功能。
    2. 如果你觉得某个网站的登录很有代表性,欢迎在 issue 中提出

    测试

    Bilibili 自动登录测试正常,成功率 98%

    web 微信

    Alt text

    图虫爬虫

    项目地址

    Github

    最后

    • 大佬们慢点喷,小弟有点承受不住,---_---
    118 条回复    2019-04-26 00:26:10 +08:00
    1  2  
    CriseLYJ
        101
    CriseLYJ  
    OP
       2019-03-08 11:14:52 +08:00
    顶一下
    guanhui07
        102
    guanhui07  
       2019-03-08 11:38:22 +08:00
    赞一个
    CriseLYJ
        103
    CriseLYJ  
    OP
       2019-03-08 11:46:45 +08:00
    @guanhui07 多谢大哥
    515576745
        104
    515576745  
       2019-03-08 12:56:34 +08:00   ❤️ 1
    @Sxxiong 可以手动 sleep()一段时间,因为还没完全渲染。
    Zeham
        105
    Zeham  
       2019-03-08 14:01:53 +08:00
    大佬
    airdge
        106
    airdge  
       2019-03-08 14:07:21 +08:00
    qzone 有验证码 这里面好像没有验证码模块 放服务器用不了的
    CriseLYJ
        107
    CriseLYJ  
    OP
       2019-03-08 14:14:08 +08:00
    @airdge 对的需要先手动验证一下
    CriseLYJ
        108
    CriseLYJ  
    OP
       2019-03-08 14:26:47 +08:00
    veeupup
        109
    veeupup  
       2019-03-08 14:52:31 +08:00
    CriseLYJ
        110
    CriseLYJ  
    OP
       2019-03-08 14:58:58 +08:00
    @veeupup 感谢
    CriseLYJ
        111
    CriseLYJ  
    OP
       2019-03-08 17:10:25 +08:00
    顶一下在
    fakeman
        112
    fakeman  
       2019-03-09 00:21:16 +08:00
    能研究下 google 的 requests 登陆方式么
    CriseLYJ
        113
    CriseLYJ  
    OP
       2019-03-09 00:34:22 +08:00
    @fakeman 啊啊啊
    pythonee
        114
    pythonee  
       2019-03-10 18:07:01 +08:00
    验证码是不是还是关键?
    这些网站是否有一定频率或反爬措施,这些是怎么处理呢?
    CriseLYJ
        115
    CriseLYJ  
    OP
       2019-03-10 22:14:48 +08:00
    @pythonee 对,一般网站的反爬都是验证码实现!
    ligthdawn
        116
    ligthdawn  
       2019-03-11 10:50:26 +08:00
    @konikoo 老哥我本地的电脑,使用浏览器都要滑动验证,滑几次都不好使。这还是没使用 selenium,pyppeteer 之类的
    konikoo
        117
    konikoo  
       2019-03-11 11:09:35 +08:00
    @ligthdawn 那换 pyppeteer 试试看,pyppeteer 效果挺好的。
    Sxxiong
        118
    Sxxiong  
       2019-04-26 00:26:10 +08:00
    想问一下大佬 有 google 登录的经验么? 这几天卡在验证码那块了 谢谢
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   4412 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 37ms · UTC 10:09 · PVG 18:09 · LAX 03:09 · JFK 06:09
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.