首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python 学习手册
Python Cookbook
Python 基础教程
Python Sites
PyPI - Python Package Index
http://www.simple-is-better.com/
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
V2EX  ›  Python

爬虫新手求助

  •  
  •   zstone123 · 206 天前 · 3008 次点击
    这是一个创建于 206 天前的主题,其中的信息可能已经有所发展或是发生改变。
    想要爬一些网站练手,纸上谈兵太无聊了。
    求可爬网站(反爬策略对新手友好的那种)
    28 回复  |  直到 2018-07-29 19:56:42 +08:00
        1
    ml1344677   206 天前   ♥ 8
    反爬策略仅限于验证码的网站:安居客(拿下某地所有房源数据)
    封禁 IP 的网站:房天下(拿下某地所有房源数据)
    不封禁 IP 但是传给你错误数据的网站:高德地图(点击某个 POI 点出现某地块轮廓,要求大量爬取轮廓)
    通过翻页方式和异步加载限制爬虫的网站:豆瓣(个人认为主要考察爬取策略)
        2
    dbow   206 天前
    亚马逊试试?
        3
    OpenJerry   206 天前 via Android
    还在上学的话可以试试爬学校教务,做个教务的命令行客户端,或者自动抢课之类的
        4
    XxxxD   206 天前
    目前遇到的挺多都还挺友好的,试试盗版小说网站和图片网站
        5
    tt67wq   205 天前   ♥ 1
        6
    wzwwzw   205 天前
    淘宝,京东,各大电商网站。
        7
    LeungV2   205 天前
    PY 爬虫吗? 好像挺好玩的
        8
    zdnyp   205 天前
    看兴趣呀,比如喜欢玩 LOL 的,把各个英雄的出场率、胜率啥的都抓来,喜欢音乐的就爬音乐站,喜欢电影的爬电影站...
    实在没啥兴趣,搞爬虫干啥...
        9
    unforgiven   205 天前   ♥ 2
    如果你是新手 只是练练手的话 最好的实验对象是色情小网站
        10
    alen   205 天前
        11
    Lwf1995   205 天前 via Android
    @unforgiven 同意,我试过。哇咔咔。
        12
    Lwf1995   205 天前 via Android
    @Lwf1995 哎,已经是老油条了,这种事情都不感觉到不好意思了。想当年我还是个看见妹子就脸红的小男生
        13
    yykrlc   205 天前
    搜狗.微信欢迎你。XX 小网站一般需要翻墙爬比较快...
        14
    nciyuan   205 天前 via Android
    感觉之前 wget -m 就把 Apache Httpd 整站爬下来了.........是不是我有错片场了?
        15
    0x5f   205 天前
    爬电影站 小电影站只要爬的慢一点 不会反爬
        16
    Leigg   205 天前 via iPhone
    www.bigcilin.com ,旅途愉快
        17
    dd99iii   205 天前
    按兴趣
        18
    easylee   205 天前
    开着梯子干 91 啊,绝对好爬,兄弟爬到了记得发我一份哈。
        19
    tuding   205 天前
    这车开得猝不及防
        20
    Linxing   205 天前
    今日头条爬一波吧
        21
    ithou   205 天前 via Android
    教务系统吧。期末考试过后成绩还没出完,所以我前几天做了一个爬虫,实时推送教务成绩到邮箱。 链接就不给了,因为每个学校不一样。
        22
    JCZ2MkKb5S8ZX9pq   205 天前
    之前看过几个慈善筹款网站,可以看看资金流量、存量和发起人频度等等的,能有所发现。
        23
    zhangpeter   205 天前
    你可以看一下我的 Python 爬虫项目集合:
    https://github.com/zhang0peter/spider
        24
    MES   205 天前
        26
    zstone123   205 天前
    @wzwwzw 好像这几个对新手都不太友好
        27
    wzwwzw   204 天前
    @zstone123 京东还是好点
        28
    sxd96   202 天前
    学校教务处成绩啊课表啊抢课啊,是不错的,入门这个挺好,还可以给同学用,有成就感。
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2150 人在线   最高记录 4346   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 17ms · UTC 05:51 · PVG 13:51 · LAX 21:51 · JFK 00:51
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1