V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
yellowmarlboro
V2EX  ›  Python

跪求某猫列表页抓取办法, 菜鸡我要自闭了.

  •  
  •   yellowmarlboro · 2018-10-22 14:55:10 +08:00 · 5061 次点击
    这是一个创建于 1984 天前的主题,其中的信息可能已经有所发展或是发生改变。

    比如 https://list.tmall.com/search_product.htm?s=0&cat=50103156&amp&brand=94136&amp&q=%B7%A2%C4%A4&amp&sort=s&amp&style=g&amp&search_condition=23&amp&from=sn__brand-qp&amp&active=1&amp&industryCatId=50103156&amp&spm=a220m.1000858.1000721.1.6bdd6701AdE1fX 想问有没有不需要登陆 /账号信息抓取的方法, 找了几个接口, 都需要登陆, 即使带上登陆 cookie 不久也会被封, 关键现在不给账号密码, 只有 cookie, 模拟登陆也不能. 有没有大佬有比较好的办法或者接口.

    觉得这是一个很无理的问题 -.- , 不过我要自闭了

    24 条回复    2018-10-23 22:09:38 +08:00
    Yourshell
        1
    Yourshell  
       2018-10-22 15:01:33 +08:00
    你模拟一下浏览器, 别直接 requests。
    insomnia1232
        2
    insomnia1232  
       2018-10-22 15:06:11 +08:00
    把 useragent 改成浏览器?反正就是伪装成浏览器
    ljspython
        3
    ljspython  
       2018-10-22 15:13:02 +08:00
    没代理池你还想爬天猫?
    jdgui
        4
    jdgui  
       2018-10-22 15:14:54 +08:00
    帮忙人工置顶。。
    之前遇到过一个外包,考虑到阿里变态的反爬虫没做。
    坐等大佬答疑解惑,有答案了 @我一下。。
    beny2mor
        5
    beny2mor  
       2018-10-22 15:15:21 +08:00
    算了呦
    你猫的账号被封了怎么办。。。
    PulpFunction
        6
    PulpFunction  
       2018-10-22 15:19:51 +08:00
    哈哈 我有方案,已经成熟

    正研究店铺所有物品
    VDimos
        7
    VDimos  
       2018-10-22 15:24:25 +08:00 via Android
    没点儿 ip 敢爬阿里系,佩服
    realpg
        8
    realpg  
       2018-10-22 16:19:06 +08:00
    小学生挑战哥德巴赫猜想系列
    Nimrod
        9
    Nimrod  
       2018-10-22 20:06:03 +08:00
    点进来之前以为是猫眼的我 233333
    huaerxiela
        10
    huaerxiela  
       2018-10-22 20:20:34 +08:00
    登陆账号也会各种验证你
    zhijiansha
        11
    zhijiansha  
       2018-10-22 20:23:16 +08:00
    是不是频率太快了?
    251243021
        12
    251243021  
       2018-10-22 20:26:35 +08:00
    ip 池.不然稍微多了点就被会扳
    zr8657
        13
    zr8657  
       2018-10-22 21:54:16 +08:00
    selenium 打开百度,用那个百度搜天猫,然后打开就不会直接要求你登录了。还是多换 IP,我也正在爬某猫
    alcarl
        14
    alcarl  
       2018-10-22 22:03:33 +08:00 via Android
    我很好奇,爬这个有啥用吗?
    cdwyd
        15
    cdwyd  
       2018-10-22 22:10:20 +08:00
    天猫的反爬虫挺变态的,貌似会自我学习,你研究出来一个办法,过一段时间后就失效了
    murmur
        16
    murmur  
       2018-10-22 22:50:13 +08:00
    爬阿里系可悠着点 毕竟自己还要用支付宝和淘宝
    murmur
        17
    murmur  
       2018-10-22 22:51:51 +08:00
    @zr8657 阿里的代码里很容易就找到$cdc_asdjflasutopfhvcZLmcfl_"in document||navigator.webdriver 这种检测自动化的代码
    兄弟是自己改过变量名重新编的么
    ctro15547
        18
    ctro15547  
       2018-10-22 22:54:27 +08:00
    需求说明白点?。。这种页面如果牺牲效率的话,爬起来挺简单的。。
    wmhx
        19
    wmhx  
       2018-10-22 22:59:12 +08:00
    国内的需要手机号, 而且都比较变态啊 , 那点钱真不值得.
    update
        20
    update  
       2018-10-23 09:12:52 +08:00
    试试 chrome 的 Web Scraper 插件
    locoz
        21
    locoz  
       2018-10-23 11:42:30 +08:00
    给你个提示,尝试一下 H5 版本的搜索接口
    locoz
        22
    locoz  
       2018-10-23 11:43:36 +08:00
    然后就是阿里系的东西都需要有比较高质量的 IP 才能大量爬,账号不是必须的
    zr8657
        23
    zr8657  
       2018-10-23 15:46:07 +08:00
    @murmur selenium 用 firefox 就检测不到 webdriver,Chrome 就能检测到,找了一天也没找出为什么,头晕
    SpiderXiantang
        24
    SpiderXiantang  
       2018-10-23 22:09:38 +08:00
    selenium
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3172 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 12:18 · PVG 20:18 · LAX 05:18 · JFK 08:18
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.