V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
O21
V2EX  ›  分享创造

豆瓣 妹子 采集器 小更新(距离上一次更新 325 天 >.<)

  •  
  •   O21 ·
    ShenXuGongZi · 2015-06-03 04:02:47 +08:00 · 6849 次点击
    这是一个创建于 3261 天前的主题,其中的信息可能已经有所发展或是发生改变。

    豆瓣小组图片采集程序

    By 肾虚公子

    官网: https://github.com/ShenXuGongZi/DouBanGroupPic

    主程序:dou2.py

    Mac/Liunx 运行程序(python dou2.py)即可。

    Windows用户请下载压缩包: 下载

    程序基本功能

    • 用户可以自由选择用户组下载图片支持豆瓣所有小组
    • 本程序自动采集代理
    • 采集代理后随机选择
    • 自动下载图片并保存

    获取用户组ID方法
    http://www.douban.com/group/264964/ #只需要输入人group/后面的字符 不包括斜杠

    2015-6-3 更新
    • 无需用户手动创建文件夹
    • 更新可用性去掉代理采集
    • 优化Windows客户端大小以及文件数量
    2014-7-17 更新
    • 修改程序Bug
    • 增加错误输出
    • 加快程序执行效率
    • 尝试启用多线程失败!
    2014-7-16 更新
    • 用户可以自由选择用户组下载图片支持豆瓣所有小组
    • 增加默认功能
    • 模拟UA
    • 更换代理源
    • Win版支持
    • 优化程序
    • 美化程序
    38 条回复    2015-06-07 17:44:32 +08:00
    Showfom
        1
    Showfom  
       2015-06-03 04:58:46 +08:00 via iPhone
    Linux 用户
    KillPaul
        2
    KillPaul  
       2015-06-03 08:18:13 +08:00
    然并卵?
    unique
        3
    unique  
       2015-06-03 08:31:38 +08:00 via Android
    mark
    chendeshen
        4
    chendeshen  
       2015-06-03 08:51:44 +08:00 via Android
    mark
    braineo
        5
    braineo  
       2015-06-03 08:52:25 +08:00
    大有搞头啊,可以多加一些功能,例如只扒热帖之类的
    或者是搞上图片识别把汉子全部去掉
    kingname
        6
    kingname  
       2015-06-03 09:01:21 +08:00
    我看了一下楼主的采集器。
    有三个建议:
    1.使用requests而不是urllib库
    2.使用xpath而不是正则表达式
    3.没有必要每一句中文都先decode再encode.
    won
        7
    won  
       2015-06-03 09:47:22 +08:00
    win7测试失败,启用兼容模式,但还是采集不下来
    catface
        8
    catface  
       2015-06-03 09:56:11 +08:00
    怎么识别妹子的
    O21
        9
    O21  
    OP
       2015-06-03 11:52:25 +08:00 via Smartisan T1
    @won 啊。。。我的可以。。
    O21
        10
    O21  
    OP
       2015-06-03 11:58:45 +08:00 via Smartisan T1
    @kingname 多谢。。 我今天改改
    O21
        11
    O21  
    OP
       2015-06-03 11:59:04 +08:00 via Smartisan T1
    @KillPaul 确实没啥用 失眠的作品
    flied
        12
    flied  
       2015-06-03 15:35:44 +08:00
    必须加一个豆瓣用户采集的功能呀。

    很多豆瓣用户自拍质量那是杠杠的,还有一些专门收集的豆瓣相册,好东西不仅仅在小组里。

    ps,最好能取到相册的大图而不是那个小图
    bao3
        13
    bao3  
       2015-06-03 15:38:57 +08:00
    不见得是否有用,而在于是否好玩,我觉得挺不错,假装自己是人妖,可以不停的换头像,有这么多妹子呢,哈哈哈。虽然我永不到,肯定有人会用到的。
    b821025551b
        14
    b821025551b  
       2015-06-03 15:41:28 +08:00
    为什么我每次看见这个标题都自动解读成 ”妹子小便采集器“,我真的不是变态啊啊啊啊啊!!!!
    jianzong
        15
    jianzong  
       2015-06-03 15:45:33 +08:00
    @b821025551b 正想回复一样的内容。。。
    inmyfree
        16
    inmyfree  
       2015-06-03 15:48:04 +08:00
    @b821025551b
    @jianzong 目测节操已掉,三观不正了
    yellowV2ex
        17
    yellowV2ex  
       2015-06-03 17:58:43 +08:00
    能不能加一个自动约到如家订房的功能呢?
    O21
        18
    O21  
    OP
       2015-06-03 18:01:09 +08:00
    @yellowV2ex =,= Good idea
    nowit
        19
    nowit  
       2015-06-03 18:06:21 +08:00
    Win7 第一次采集成功,然后采集测试都失败了!
    Ryans
        20
    Ryans  
       2015-06-03 18:14:35 +08:00
    赞赞赞
    O21
        21
    O21  
    OP
       2015-06-03 18:14:45 +08:00
    @nowit 嗯 没加http代理 豆瓣封IP了 没找到好的代理网站 模块已经写好了
    ledzep2
        22
    ledzep2  
       2015-06-03 18:18:54 +08:00
    @b821025551b 不要怀疑自己. 你就是.
    djyde
        23
    djyde  
       2015-06-04 00:49:41 +08:00
    O21
        24
    O21  
    OP
       2015-06-04 04:21:02 +08:00 via Smartisan T1
    @djyde python的代理采集有问题 那个源网站不行 你把代理模块注释掉
    O21
        25
    O21  
    OP
       2015-06-04 04:22:02 +08:00 via Smartisan T1
    @djyde 打错是Linux的有问题 Win的我编译的时候把代理模块去掉了
    exuxu
        26
    exuxu  
       2015-06-04 10:21:10 +08:00
    曾经用bash wget 下来一大堆图片,然后自己默默的筛选...
    lux182
        27
    lux182  
       2015-06-04 13:21:30 +08:00
    我以前搞过某榴妹汁采集和故事采集
    iloveayu
        28
    iloveayu  
       2015-06-04 14:13:27 +08:00
    肾虚公子。。。
    jedicxl
        29
    jedicxl  
       2015-06-04 14:17:40 +08:00 via iPhone
    @b821025551b 含泪+1
    mjever
        30
    mjever  
       2015-06-04 14:29:19 +08:00
    现在真改名肾虚公子了!
    realfreesky
        31
    realfreesky  
       2015-06-04 17:20:41 +08:00
    好像只能爬下一大堆图,并不会筛选出妹纸
    lonelygo
        32
    lonelygo  
       2015-06-04 17:52:41 +08:00
    弱弱的问下,我怎么知道哪个小组有让我肾虚的妹纸呢?
    vjnjc
        33
    vjnjc  
       2015-06-04 20:40:20 +08:00
    同楼上问。
    给几个测试case呗~
    yren
        34
    yren  
       2015-06-04 22:46:37 +08:00
    猥琐的收藏了
    cskeleton
        35
    cskeleton  
       2015-06-05 20:01:44 +08:00
    邪恶的问一下有不有能够收集妹汁的程序~
    O21
        36
    O21  
    OP
       2015-06-05 20:04:29 +08:00 via Smartisan T1
    @cskeleton 这。。。。。。
    fange01
        37
    fange01  
       2015-06-07 15:11:30 +08:00
    win8.1测试可用。抽空学习下代码
    mingyun
        38
    mingyun  
       2015-06-07 17:44:32 +08:00
    学习Python中
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1026 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 19:54 · PVG 03:54 · LAX 12:54 · JFK 15:54
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.