首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python 学习手册
Python Cookbook
Python 基础教程
Python Sites
PyPI - Python Package Index
http://www.simple-is-better.com/
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
V2EX  ›  Python

各大网站登陆方式, 包括爬虫,麻麻再也不用担心我学习爬虫啦,哈哈

  •  9
     
  •   CriseLYJ · 43 天前 · 8397 次点击
    这是一个创建于 43 天前的主题,其中的信息可能已经有所发展或是发生改变。

    python 模拟各大网站登陆方式,以及一些爬虫程序

    • 仅供练习使用,代码注释很详细

    • 收集了一些各大网站登陆方式, 和一些网站的爬虫程序,有的是通过 selenium 登录,有的是通过抓包直接模拟登录,有的是利用 scrapy,希望对小白有所帮助,本项目用于研究和分享各大网站的模拟登陆方式,和爬虫程序,会持续更新。。。

    • 昨天加了个班,对一些老代码进行了重构和测试,大部分都可以用。

    • 欢迎 star

    模拟登录一些常见的网站

    • 如果你有什么比较难登陆的网站,比如发现用了 selenium+webdriver 都还登陆不了的网站,欢迎给我提 issue
    1. requests
    2. selenium
    3. rsa
    4. phantomjs

    项目地址

    Github

    关于

    模拟登陆基本采用的是直接登录或者使用 selenium+webdriver 的方式,有的网站直接登录难度很大,比如 qq 空间,B 站,如果采用 selenium 就相对轻松一些。

    虽然在登录的时候采用的是 selenium,为了效率,我们可以在登录过后得到的 cookie 维护起来,然后调用 requests 或者 scrapy 等进行数据采集,这样数据采集的速度可以得到保证。

    已完成

    tips of pull request

    • 欢迎大家一起来 pull request

    问题

    • 有的验证码需要手动,之后我会尽量改正
    • 代码失效:由于网站策略或者样式改变,导致代码失效,请给我提 issue,如果你已经解决,可以提 PR,谢谢!

    另外

    • 如果你有什么比较难登陆的网站,比如发现用了 selenium+webdriver 都还登陆不了的网站,欢迎给我提 issue
    • 如果该 repo 对大家有帮助,给个 star 鼓励鼓励吧

    欢迎你们

    1. 项目写了一段时间后,发现代码的风格和程序的易用性,可扩展性,代码的可读性,都存在一定的问题,所以接下来最重要的是重构代码,让大家可以更容易的做出一些自己的小功能。
    2. 如果你觉得某个网站的登录很有代表性,欢迎在 issue 中提出

    测试

    Bilibili 自动登录测试正常,成功率 98%

    web 微信

    Alt text

    图虫爬虫

    项目地址

    Github

    最后

    • 大佬们慢点喷,小弟有点承受不住,---_---
    117 回复  |  直到 2019-03-11 11:09:35 +08:00
    1  2  
        101
    CriseLYJ   42 天前
    顶一下
        102
    guanhui07   42 天前
    赞一个
        103
    CriseLYJ   42 天前
    @guanhui07 多谢大哥
        104
    515576745   42 天前   ♥ 1
    @Sxxiong 可以手动 sleep()一段时间,因为还没完全渲染。
        105
    Zeham   42 天前
    大佬
        106
    airdge   42 天前
    qzone 有验证码 这里面好像没有验证码模块 放服务器用不了的
        107
    CriseLYJ   42 天前
    @airdge 对的需要先手动验证一下
        108
    CriseLYJ   42 天前
        109
    veeupup   42 天前
        110
    CriseLYJ   42 天前
    @veeupup 感谢
        111
    CriseLYJ   42 天前
    顶一下在
        112
    fakeman   41 天前
    能研究下 google 的 requests 登陆方式么
        113
    CriseLYJ   41 天前
    @fakeman 啊啊啊
        114
    pythonee   40 天前
    验证码是不是还是关键?
    这些网站是否有一定频率或反爬措施,这些是怎么处理呢?
        115
    CriseLYJ   40 天前
    @pythonee 对,一般网站的反爬都是验证码实现!
        116
    ligthdawn   39 天前
    @konikoo 老哥我本地的电脑,使用浏览器都要滑动验证,滑几次都不好使。这还是没使用 selenium,pyppeteer 之类的
        117
    konikoo   39 天前
    @ligthdawn 那换 pyppeteer 试试看,pyppeteer 效果挺好的。
    1  2  
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2255 人在线   最高记录 4385   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 17ms · UTC 15:24 · PVG 23:24 · LAX 08:24 · JFK 11:24
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1