V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
ITheihu
V2EX  ›  Python

Python +selenium 爬虫遇到诡异反扒

  •  
  •   ITheihu · 2019-10-12 15:54:48 +08:00 · 3004 次点击
    这是一个创建于 410 天前的主题,其中的信息可能已经有所发展或是发生改变。

    不同的账号登入同一个网址,登陆进去后标签的 id 属性值自动改变,怎么做到批量爬取。(不然一个程序只能爬一个账号,换个账号因为 id 属性值的改变就无法爬取) 头都大了......!

    15 条回复    2019-10-12 18:50:29 +08:00
    kran
        1
    kran   2019-10-12 16:13:35 +08:00 via Android
    结构不变就用标签?
    yidinghe
        2
    yidinghe   2019-10-12 16:17:53 +08:00   ❤️ 1
    可能前端纯粹是为了方便把用户 ID 拼到里面,没想到成了反扒手段
    Hopetree
        3
    Hopetree   2019-10-12 16:22:29 +08:00   ❤️ 1
    重要的是结构,不是 ID,这种根本不能算反爬,你为啥非要用 ID 去定位?? xpath 选择器,selecter 选择器哪个限定了只能用 ID 吗
    nullboy
        4
    nullboy   2019-10-12 16:24:03 +08:00
    楼上+1
    linvaux
        5
    linvaux   2019-10-12 16:27:43 +08:00 via Android
    楼上已经给出答案了
    ClericPy
        6
    ClericPy   2019-10-12 16:37:49 +08:00
    这太难猜了, 给个 HTML 例子让人测测选择器也好啊
    ITheihu
        7
    ITheihu   2019-10-12 16:59:55 +08:00
    不知道怎么描述!全网站禁止右键功能,层层都有 iframe,头大啊
    cwjokaka
        8
    cwjokaka   2019-10-12 17:08:10 +08:00
    不用 id 选择就行了啊
    crab
        9
    crab   2019-10-12 17:11:59 +08:00
    正则,或者找出账号和 id 关系。
    Rubbly
        10
    Rubbly   2019-10-12 17:13:33 +08:00
    这根本不算反爬+1.
    禁止右键,但是查看源代码的方法有很多啊。F12 或者先开一个 DevTool window 再导航过去或者油猴弄个脚本都能解决的。
    dji38838c
        11
    dji38838c   2019-10-12 17:20:45 +08:00
    标题党呀,这算什么“诡异反扒”

    看标题,期待的是:网站把你本机给爬了,那才叫做真“诡异”
    Juszoe
        12
    Juszoe   2019-10-12 17:56:07 +08:00
    楼主技术不过关啊,禁止右键都绕不过
    515576745
        13
    515576745   2019-10-12 17:58:26 +08:00 via Android
    技术问题吧, 练多就好了
    inoizyz
        14
    inoizyz   2019-10-12 18:12:39 +08:00 via Android
    1.这网页不是我做的。
    2.我经常干这事,偷懒不用 cookie。
    3.我不是前端。
    locoz
        15
    locoz   2019-10-12 18:50:29 +08:00
    根本算不上问题的问题...结合早上那个贴子看效果更佳 水文太多了,小白连这么基础的东西都没搞清楚。
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1717 人在线   最高记录 5268   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 17:11 · PVG 01:11 · LAX 09:11 · JFK 12:11
    ♥ Do have faith in what you're doing.