V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
huadaonan
V2EX  ›  Python

想找个爬虫高手学习下

  •  
  •   huadaonan · 2020-01-16 16:01:32 +08:00 · 5605 次点击
    这是一个创建于 1533 天前的主题,其中的信息可能已经有所发展或是发生改变。
    主要目标是想学会爬 amazon,fb,淘宝,微博等大站,我觉得这几个站能搞定基本覆盖爬虫大部分知识了。
    有大神或者培训机构推荐吗。多谢 qq 805709000
    35 条回复    2020-01-19 13:31:27 +08:00
    1992w
        1
    1992w  
       2020-01-16 16:03:39 +08:00
    直接爬,遇到问题就解决问题。
    huadaonan
        2
    huadaonan  
    OP
       2020-01-16 16:18:36 +08:00
    直接卡到 用 selenium + 代理模式也爬几条就封掉了 就没什么好办法了
    linbingqinag
        3
    linbingqinag  
       2020-01-16 16:21:26 +08:00 via Android
    GitHub 上可以看看,有很多实现
    murmur
        4
    murmur  
       2020-01-16 16:21:30 +08:00
    爬虫都是小事,反扒那是个人吃饭的东西别人怎么会给你,一个淘宝就是顶级难度了还加了个等。。
    huadaonan
        5
    huadaonan  
    OP
       2020-01-16 16:25:02 +08:00
    嗯 加一条 可以付费的
    ccoming
        6
    ccoming  
       2020-01-16 16:32:39 +08:00
    我觉得爬完淘宝,其他都不是事儿。
    虽然我是瞎说的,哈哈哈。
    jdgui
        7
    jdgui  
       2020-01-16 16:33:27 +08:00
    爬虫高手你估计得在监狱里面找
    matepi
        8
    matepi  
       2020-01-16 16:37:28 +08:00 via iPhone
    有好的成套解决方案的,早就按服务 /次数 /条数收费了
    拿可收费的吃饭工具出来卖的,说明问题还不少,要么就是直接吃饭风险太大,只卖个工具风险分散点
    mmqc
        9
    mmqc  
       2020-01-16 16:44:08 +08:00
    爬虫写得好,牢饭吃到老
    shimengren
        10
    shimengren  
       2020-01-16 16:53:26 +08:00
    借楼,有没有 python 学习群呀,想加入学习下哈哈
    ClericPy
        11
    ClericPy  
       2020-01-16 17:02:48 +08:00
    0. 想学爬虫, 爬淘宝吧
    1. 反爬太猛了, 好像 App 能爬
    2. 呀, 不是明文 HTTP 的
    3. 反编译看看 Java 源码
    4. 威武威武威武威武.....
    sprit
        12
    sprit  
       2020-01-16 17:04:20 +08:00
    坐牢的那种
    linglongll
        13
    linglongll  
       2020-01-16 17:07:50 +08:00
    最近在拿 puppeteer 爬一点 ins 的图 发现这种模拟浏览器的模式很棒 不知道 tb 对这个反爬做了什么拦截么 没动过 也不敢动。。。
    Tn5ohB1Yecdk3qCK
        14
    Tn5ohB1Yecdk3qCK  
       2020-01-16 17:08:08 +08:00
    高手在牢里呢
    zdnyp
        15
    zdnyp  
       2020-01-16 17:10:23 +08:00
    爬虫要学的太多了,培训班教的都是基础,找本书入门都比培训班强...
    fancy111
        16
    fancy111  
       2020-01-16 17:14:01 +08:00
    淘宝做得不错,主要是价格难爬。
    目前只找到两种方法。
    kevinmissu
        17
    kevinmissu  
       2020-01-16 17:16:22 +08:00
    建议你先开始爬淘宝 然后你会发现 我特么是脑袋抽风要来学爬虫?劝退利器
    tomczhen
        18
    tomczhen  
       2020-01-16 17:18:19 +08:00 via Android
    正常用户浏览淘宝速度快点都能触发反爬,说简单的自己有没有实践过爬多点商品的?
    ShundL
        19
    ShundL  
       2020-01-16 17:22:16 +08:00
    牢里 爬虫、外挂,攻击都就学会了
    liuxu
        20
    liuxu  
       2020-01-16 17:22:26 +08:00
    淘宝正常浏览宝贝都能触发验证码,还是无限那种
    scyangjian
        21
    scyangjian  
       2020-01-16 17:22:35 +08:00
    17L+1
    淘宝太凶残了
    yumenlong
        22
    yumenlong  
       2020-01-16 17:23:37 +08:00
    我在爬淘宝,来吧,只有 app 一条路。
    VermouthcZzz
        23
    VermouthcZzz  
       2020-01-16 17:25:34 +08:00
    面向监狱编程🐴
    Vhc001
        24
    Vhc001  
       2020-01-16 17:30:10 +08:00
    1、从未爬过淘宝。
    2、正常淘宝购物都被识别为爬虫的我迫不得已只能注册了京东账号。
    3、京东电脑网页版登陆,验证码滑块划了十分钟几百次还是验证不通过,被迫下载京东 app 扫码才能登陆。

    我太难了
    XavierXJ
        25
    XavierXJ  
       2020-01-16 19:09:43 +08:00 via iPhone
    这样一种思路:让软件模拟鼠标点击,截图桌面分析文字和图片,想要多线程的话,浏览器多开,开虚拟机
    no1xsyzy
        26
    no1xsyzy  
       2020-01-16 19:38:53 +08:00
    @XavierXJ 最后三个分句铁定没了
    分析鼠标路径已经是至少 5 年前的技术了,鼠标疯狂瞬移直接拜拜
    Eugene1024
        27
    Eugene1024  
       2020-01-16 19:46:13 +08:00
    随便学下法律
    explorerEX
        28
    explorerEX  
       2020-01-16 20:17:24 +08:00
    @fancy111 哪两种方法 能提示下吗
    wersonliu9527
        29
    wersonliu9527  
       2020-01-17 10:01:56 +08:00
    如果数据量不是太多,几个月前用过一种方法爬淘宝. 命令行开启一个 谷歌浏览器指定端口,再登录个小号,然后 selenium 去对接这个端口可以爬几十页.不知道现在还行不行0.0
    Mavious
        30
    Mavious  
       2020-01-17 10:40:50 +08:00
    咸鱼(搭配手机浏览器)和淘宝 PC 端,人肉浏览都经常蹦滑动验证码,用鼠标去滑老是失败(我明明滑到底了)。
    你看正常用户都经常失败,那爬虫的难度真是不可想象……
    RSDTE
        31
    RSDTE  
       2020-01-17 12:54:05 +08:00
    爬了淘宝, 能下单的那种.. .
    Iamnotfish
        32
    Iamnotfish  
       2020-01-18 00:04:26 +08:00   ❤️ 1
    降低点难度,先从微博开始爬。现成可用的代码也很多,推荐一个项目 weibospider
    FaceBug
        33
    FaceBug  
       2020-01-18 15:02:59 +08:00
    哈哈哈,你来我这干活啊,靠抓 amz、fb、aliexpress、ebay……吃饭的公司
    huadaonan
        34
    huadaonan  
    OP
       2020-01-19 13:28:45 +08:00
    @cepczkd 可以啊。我是自带专家级别 dba 技能
    huadaonan
        35
    huadaonan  
    OP
       2020-01-19 13:31:27 +08:00
    多谢大家踊跃出谋划策,我会阶段性汇报学爬虫的进展。我觉得可能还是做专项分析靠谱,针对问题找大家咨询。群策群力还是好
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1133 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 18:41 · PVG 02:41 · LAX 11:41 · JFK 14:41
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.