V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
al0ne
V2EX  ›  Python

各位学 python 的登录网站遇到验证码怎么办

  •  
  •   al0ne ·
    al0ne · 2015-09-22 15:35:39 +08:00 · 4884 次点击
    这是一个创建于 3149 天前的主题,其中的信息可能已经有所发展或是发生改变。
    最近刚刚入门爬虫。有的网站需要验证码。看到有的人说的是把验证码保存到本地手工输入。还有的用 pytesseract 这个库。各位有什么好办法吗
    17 条回复    2015-10-02 03:27:00 +08:00
    virusdefender
        1
    virusdefender  
       2015-09-22 15:44:01 +08:00
    去搜一下 验证码打码平台
    gzq527
        2
    gzq527  
       2015-09-22 15:55:16 +08:00
    @virusdefender 没搜到呢
    honeycomb
        3
    honeycomb  
       2015-09-22 16:16:29 +08:00 via Android
    @gzq527 google?
    qwjhb
        4
    qwjhb  
       2015-09-22 16:20:16 +08:00
    半自动,手工输。
    al0ne
        5
    al0ne  
    OP
       2015-09-22 16:20:33 +08:00
    @virusdefender 哦哦 就是连接一些自动打码的平台对吧
    gzq527
        6
    gzq527  
       2015-09-22 16:34:01 +08:00
    @honeycomb 百度。。。我试试 google
    Yeoman
        7
    Yeoman  
       2015-09-22 16:36:31 +08:00 via Android
    研究一下 html js 什么的,验证码没准是明文有的么(没准还带 id 的)
    gzq527
        8
    gzq527  
       2015-09-22 16:38:21 +08:00
    @honeycomb 专业打码平台,好牛啊, 0 秒延迟,这么快?
    tdifg
        9
    tdifg  
       2015-09-22 16:39:36 +08:00
    @gzq527 要钱的,当然牛了…………其实也是人工的啊
    tinyproxy
        10
    tinyproxy  
       2015-09-22 17:44:52 +08:00
    1. 如果你是为了写爬虫,别浪费时间在这上面,我最懒的方法是手动登陆进去,然后从 chrome 把 cookie 粘贴出来。
    2. 完成目的后可以单独开一个坑做图像识别。
    BikeMan
        11
    BikeMan  
       2015-09-22 18:43:10 +08:00
    @tinyproxy 这个才是王道!
    ClutchBear
        12
    ClutchBear  
       2015-09-24 23:36:36 +08:00
    @tinyproxy 这个拷贝出来的 cookie 是放到头部 headers 里面还是放到 cookies 参数里面?
    requests.post(url, headers, cookies)为例的话,
    tinyproxy
        13
    tinyproxy  
       2015-09-26 07:58:17 +08:00 via iPhone   ❤️ 1
    @ClutchBear cookie 本来就在 header 里面,具体看 http 协议报文格式。至于你用的 requests 库,我印象中放 cookies 就行,放 header 也行,但两个同时设置我就没有试过。
    PS 这种问题你试一下比等我回复快多了吧。。。
    ClutchBear
        14
    ClutchBear  
       2015-09-26 09:16:11 +08:00
    @tinyproxy 主要是我模拟登陆的网站是 hoopchina,我放到 headers 里面会返回一个 json 数据,15 分钟内多次登录或者密码错误次数太多...
    Reed
        15
    Reed  
       2015-09-28 18:51:34 +08:00
    下载下来,手动敲丫的,这个坑太深,直接带你去机器学习,慎重。
    al0ne
        16
    al0ne  
    OP
       2015-10-01 16:26:34 +08:00
    @Reed 谢谢
    symons
        17
    symons  
       2015-10-02 03:27:00 +08:00
    我之前是手动登录,然后把 cookie 从浏览器复制出来
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1099 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 22:53 · PVG 06:53 · LAX 15:53 · JFK 18:53
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.