首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python 学习手册
Python Cookbook
Python 基础教程
Python Sites
PyPI - Python Package Index
http://www.simple-is-better.com/
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
V2EX  ›  Python

大家用 python 都做过什么有趣的爬虫吗?

  •  
  •   tooweakchen · 2015-09-10 19:31:03 +08:00 · 23040 次点击
    这是一个创建于 1550 天前的主题,其中的信息可能已经有所发展或是发生改变。

    大家用 python 都做过什么有趣的爬虫吗?分享分享呗!

    97 回复  |  直到 2018-09-24 18:42:28 +08:00
        1
    Reed   2015-09-10 19:35:58 +08:00
    每天到 smzdm.com 上爬当天更新的便宜货算么?
    But ,买了几个之后,一点不有趣
        2
    bdbai   2015-09-10 19:43:55 +08:00 via iPhone
    爱鼠绘漫画 PHP 和 C#(跑
        3
    anying   2015-09-10 19:45:07 +08:00   ♥ 1
    然而好多都是用来爬妹子图的
        4
    uuspider   2015-09-10 19:57:22 +08:00
    这是从知乎上看来的题目吧,知乎的答案还是比较丰富的。
        5
    tooweakchen   2015-09-10 20:46:24 +08:00
    @anying 我就是
        6
    weifengzi2009   2015-09-10 20:49:56 +08:00   ♥ 1
    爬过学校的课表,排课用
        7
    tooweakchen   2015-09-10 20:57:18 +08:00
    @weifengzi2009 有源码看看不
        8
    giskard   2015-09-10 21:18:59 +08:00
    豆瓣租房小组,爬最新帖子,不算有趣吧,但还有点用。
        9
    masol   2015-09-10 21:49:58 +08:00
    爬过一个网站的所有图片。。
        10
    qw7692336   2015-09-10 21:50:30 +08:00 via Android
        11
    shoumu   2015-09-10 21:57:53 +08:00
    这里的很多人都喜欢爬妹子图
        12
    xunyu   2015-09-10 22:07:12 +08:00 via Android
    爬猎聘, linkedin
        13
    weifengzi2009   2015-09-11 00:23:14 +08:00
    @tooweakchen 有,你可以去看我的 github ,那个 repo 叫 NTUCoursePlanner 貌似

    我的 github 可以在我 v2 的个人资料页找到
        14
    coldear   2015-09-11 01:25:26 +08:00
    爬过网络连载小说转成 txt 在 kindle 看。。
    爬过一个盗版技术书籍的网站。。
        15
    dai269619118   2015-09-11 09:02:55 +08:00
    http://jinri.info 都是爬来的信息
        16
    leyle   2015-09-11 09:05:14 +08:00 via Android
    喜欢看 1024 的技术区,但是没法按发帖时间排序,写了个抓取帖子回来再按发帖时间排。
        17
    takashiki   2015-09-11 09:23:30 +08:00
    豆瓣爬日剧动画啥的,然后按评分排序选择性补番
        18
    paw   2015-09-11 09:59:53 +08:00
    爬漫画,按卷爬好打包成 zip 放在本地 ComicsViewer 看。。。。。不喜欢在 web 上看漫画
        19
    nicksite   2015-09-11 10:05:14 +08:00
    礼物说的 专题和商品 小代码搞定。 https://github.com/henryluki/simpleparse/blob/master/liwushuo.py
        20
    mckelvin   2015-09-11 10:16:18 +08:00 via iPhone   ♥ 3
    爬 91porn 视频 :)
        21
    leavic   2015-09-11 10:54:00 +08:00
    爬 javbus 上的 av 封面
        22
    codeforlife   2015-09-11 11:04:16 +08:00
    我爬的一个 xx 论坛的某个专区,每次种子更新了自动下载。。
        23
    sinosure   2015-09-11 11:13:09 +08:00
    把感兴趣的公众号的当天更新爬到一个 feed 里面算么
        24
    liaa   2015-09-11 11:20:45 +08:00
    @mckelvin so...Where is the code.
        25
    ljdawn   2015-09-11 11:26:49 +08:00
    @liaa so...Where is the url.
        26
    lxy   2015-09-11 11:36:30 +08:00
    爬某网站数据,做数据分析后发现一些不可告人的秘密,公布出来后成功引发一场论战……
    还有就是一些网站不慎泄露的用户数据,密码、邮箱之类的。
        27
    imn1   2015-09-11 12:13:58 +08:00
    爬北都集团
        28
    sun2920989   2015-09-11 13:54:36 +08:00
    PHP 简单写了个最简易的 爬美女图。。。。
        29
    fish267   2015-09-11 14:06:56 +08:00
        30
    codercai   2015-09-11 15:03:24 +08:00
    @mckelvin 哈哈哈,学以致用,求源码
        31
    Aresn   2015-09-11 15:43:39 +08:00
    第一次写爬虫,把一个竞聘的所有文章( 10 万+)全部爬来了,不知道这数据都是几手的了。。
        32
    bullettrain1433   2015-09-11 15:56:40 +08:00
    @codeforlife 求共享
        33
    iamnuomi   2015-09-11 16:01:34 +08:00
    @sinosure 这是怎么做的?有代码吗?
        34
    truehyp   2015-09-11 16:08:56 +08:00
    爬过学校图书馆自己借阅过的书。噢,主要是为了可以无限续借书,顺带爬了书单。
        35
    zhouquanbest   2015-09-11 16:17:30 +08:00
    1024 的算么
        36
    fakir   2015-09-11 16:43:54 +08:00
    把拉钩,内推,IT 桔子上爬了二十万职位信息和五万多家公司信息, 结果发现拉钩数据存在造假呀
        37
    BUPTGuo   2015-09-11 16:51:10 +08:00
    @sinosure 公众帐号怎么爬?源是哪?
        38
    sinosure   2015-09-11 17:12:08 +08:00
        39
    idblife   2015-09-11 17:28:37 +08:00
    @mckelvin
    求代码
        40
    idblife   2015-09-11 17:29:34 +08:00
    @fakir
    怎么造假了?另外我觉得拉钩很不靠谱
        41
    rwecho   2015-09-11 17:31:51 +08:00
    @zhouquanbest 求分享。
        42
    z7039585   2015-09-11 17:34:21 +08:00
    @giskard 握爪 我也写了个。 但是最终还是人工找到了合适的房子 0 0
        43
    z7039585   2015-09-11 17:36:06 +08:00
    @idblife 拉钩薪资大部分都是虚高 很多朋友都这样说 我之前也面了一家 实际薪资比拉钩上标的差了不少
        44
    loryyang   2015-09-11 17:51:56 +08:00
    挂个 VPN 爬妹子图。。。后来觉得太蠢了,废弃了
        45
    ma7x   2015-09-11 17:58:18 +08:00
    试过爬一个填单类型的网站 想做的功能是 填写表单 后来没弄出来 改用 chrome 插件了
        46
    xmmak   2015-09-11 18:00:23 +08:00
    爬了 Google Play
        47
    codeforlife   2015-09-11 18:10:37 +08:00
    @bullettrain1433 https://github.com/winniesi/getsis 昨晚临下班写的。。很乱凑活着看
        48
    jseanj   2015-09-11 18:11:25 +08:00
    爬 v2 所有用户的 blog 地址
        49
    jseanj   2015-09-11 18:12:45 +08:00
    @mckelvin 这个牛逼,贡献下源码?哈哈
        50
    weiyefly   2015-09-11 18:20:54 +08:00
    @xmmak 做游戏植入?
        51
    laoyuan   2015-09-11 18:40:43 +08:00
    山东大学自习室空堂表,包括我常去的千佛山校区 9 号楼、兴隆山校区讲学堂和教学楼
    http://d9book.com/sdu/
        52
    androidwdmzzc   2015-09-11 19:12:44 +08:00
    @Reed 哈哈! 我觉得这个爬虫,只会让 LZ 更想剁手
        53
    MrGba2z   2015-09-11 21:01:46 +08:00
    @mckelvin
    交出爬 91 的源码我们还能做网友!
        54
    yield9tk   2015-09-11 21:07:36 +08:00
    抓取电影天堂的电影下载链接
        55
    LancerComet   2015-09-11 21:21:26 +08:00
    不会 Python ,不过 Node 入门时用 Node 写了个爬华盟、极影、动漫花园和漫游资源站的爬虫,自己下资源用,页面用 Angular + Material-Angular 搭的,请脑补感受一下连指令都不会写、一股脑控制器的入门代码,一直想改掉,不过刚看一眼就没动力了…
        56
    lenran   2015-09-11 21:28:20 +08:00
    @MrGba2z 搜了下'91porn',你们也太重口了%>_<%
        57
    bullettrain1433   2015-09-11 21:30:53 +08:00
    @codeforlife 感谢
        58
    pmispig   2015-09-12 00:07:37 +08:00
    爬了 2 新浪美女图 3W 张,豆瓣美腿大赛 2000 张。
    给豆瓣友邻点赞,小伙伴一觉起来发现多了几千个赞,吓哭了~
        59
    JensenChen   2015-09-12 00:17:08 +08:00
    @laoyuan 你这个是抓全校全周的课表,然后对教室进行的分析??
        60
    nikoukou   2015-09-12 02:08:08 +08:00
    @laoyuan 千佛山九号楼是雅思楼。。。
        61
    wd0g   2015-09-12 03:20:10 +08:00   ♥ 1
    爬了 1024 所有的账户,然并卵还是没扫到能登录的
        62
    monkeylyf   2015-09-12 04:06:15 +08:00
    @mckelvin 求代码
        63
    laoyuan   2015-09-12 05:06:45 +08:00
    @JensenChen 是的,按教室弄到一块就行了。
    @nikoukou 今天就有雅思考试,只能去一楼,但是一楼的桌椅质量不好年岁太长有气味!!
        64
    WhiteSaber   2015-09-12 08:44:51 +08:00
    @codeforlife 相当有趣,之前想做一个 js 插件来着,他排版和搜索好差
        65
    bigzhu   2015-09-12 09:35:58 +08:00
    我做了自已用的 http://follow.center/ 算不算?
    整了 github instagram twitter tumblr 的东西进来,准确的说应该是调用 api ,不算爬虫
    不过如果想整合国内的微博、知乎这些封闭型的,估计只能上爬虫了
        66
    Felldeadbird   2015-09-12 09:42:25 +08:00 via iPhone
    我把 9 个目标网站所有连接都爬了,然后在抓里面的价格…到只爬了 2KW 条记录时,我放弃了。这样爬没效率。
        67
    bbking   2015-09-12 12:27:59 +08:00
    爬 58
        68
    alexapollo   2015-09-12 12:32:28 +08:00
    前两年写的少儿不宜爬虫。。 https://github.com/geekan/insane_crawler
        69
    luago   2015-09-12 16:25:43 +08:00
    我想知道上面爬图的朋友,图片后来怎么处理了 :)
        70
    ljbha007   2015-09-12 17:02:54 +08:00
    爬学校同学的证件照片、学号、班级、课表 爬了 2000 多个
    但是胆子比较小 爬完就删了(主要是没有爬到好看的妹子)
        71
    davidlau   2015-09-12 17:07:40 +08:00
    爬新浪微博,做关系链分析

    https://github.com/liuslevis/weiquncrawler/
        72
    sohoer   2015-09-12 18:06:36 +08:00
    http://www.shishibi.com/

    大数据抓取、搜索排序优化、聚类、性价比计算、一个人完成真心累
        73
    csx163   2015-09-12 18:49:18 +08:00
    爬种子,发行并没什么*用
        74
    csx163   2015-09-12 18:49:25 +08:00
    爬种子,发现并没什么*用
        75
    ultimate010   2015-09-12 19:21:28 +08:00
    实习时候用 20+台屌丝云服务器,分布式爬过上亿条淘宝数据,如 http://t.ultimate010.tk:18080/taobao.php 带宽够牛逼,曾经测试跑满 1G 带宽,爽
        76
    vivalon   2015-09-12 19:23:41 +08:00
    撸过下厨房的菜单
        77
    giuem   2015-09-12 19:44:10 +08:00 via Android
    @ultimate010 这数据占多少存储空间
        78
    Moker   2015-09-12 21:23:34 +08:00
    @ljbha007 这些数据应该不是公开的吧 怎么找到入口的
        79
    ljbha007   2015-09-12 21:43:16 +08:00
    @Moker 只是没有链接而已 自己构造 URL 可以进去
        80
    Earthman   2015-09-12 22:02:21 +08:00
    @davidlau 某是不是看过你的毕设演讲啊
        81
    break   2015-09-13 09:25:43 +08:00   ♥ 1
    @bigzhu 报个 bug , profile 页面顶部用户名
        82
    bigzhu   2015-09-13 10:02:11 +08:00
    @break 感谢感谢,最近在大改,很多 bug 来不及测试
        83
    erik0   2015-09-13 11:08:30 +08:00
    太可怕了,这么多爬虫,起了一身鸡皮疙瘩~~
        84
    davidlau   2015-09-13 12:10:19 +08:00
    @Earthman 13' BJUT ?
        85
    lxx1   2015-09-13 12:23:19 +08:00 via Android
    @ljbha007

    爬完才发现,证件照实在是太丑了。
        86
    ultimate010   2015-09-13 18:41:52 +08:00 via Android
    @giuem 压缩了很少,倒入 mysql 后好像几十 G, 可接受.
        87
    HavenShen   2015-09-14 11:14:25 +08:00
    爬过携程旅游网。
        88
    v2nu   2015-09-14 12:43:35 +08:00
    @dai269619118 看起来不错呀
        89
    dai269619118   2015-09-14 15:20:44 +08:00
    @v2nu 嘿嘿
        90
    onlyxuyang   2015-09-15 20:32:00 +08:00 via Android
    爬 beautyleg ……爬绅士漫画……
        91
    lzs5240   2015-09-25 17:41:35 +08:00
    @mckelvin 潜水多年特来要源码 ~
        92
    leetao102   2015-09-30 00:41:25 +08:00
    @codeforlife 不错。。。
        93
    lazyboy   2015-10-04 11:49:47 +08:00
    @leyle 。。。我是根据浏览量从大到小排序看
        94
    ns2250225   2015-10-15 17:16:34 +08:00
    爬过多玩的搞笑 gif 图库
        95
    yongjiu236z   2016-12-11 01:05:06 +08:00
    @xmmak
    @mckelvin
    @Felldeadbird
    +Q2602560384
        96
    yongjiu236z   2016-12-15 00:57:34 +08:00
    @lxy
    @imn1
    +2602560384
        97
    ntuwang   2018-09-24 18:42:28 +08:00
    mark
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   811 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 34ms · UTC 22:23 · PVG 06:23 · LAX 14:23 · JFK 17:23
    ♥ Do have faith in what you're doing.