V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
luckystar
V2EX  ›  问与答

各位大神们微信公众号文章抓取怎么避免被封

  •  
  •   luckystar · 2018-05-18 19:02:04 +08:00 · 3557 次点击
    这是一个创建于 2163 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近发现 比特星球 app,懂财帝 app 都汇聚了微信公众号,简书,知乎等平台的内容,大家有了解如何抓取的吗?尤其是微信公众号的文章,还要考虑公众号文章的更新时间,以便能及时抓取

    11 条回复    2018-05-21 19:00:04 +08:00
    cnqncom
        1
    cnqncom  
       2018-05-18 20:21:36 +08:00
    去搜狗爬
    搞不定的就去其他已经爬了搜狗的站点爬
    zingl
        2
    zingl  
       2018-05-18 20:22:03 +08:00
    雇个人帮你拷贝粘贴
    woscaizi
        3
    woscaizi  
       2018-05-18 20:27:14 +08:00 via iPhone
    @cnqncom 这应该是最容易实现的方案了吧。
    ik
        4
    ik  
       2018-05-18 20:42:23 +08:00 via iPhone
    最近也有在写公众号爬虫,我是用全球的 dns 解析搜狗微信的地址,然后分步请求。
    目前问题是 用无头浏览器取 cookie 的时候卡住了,特征太明显,经常出验证码,不知道怎么搞。
    jdjd
        5
    jdjd  
       2018-05-19 10:58:06 +08:00 via iPhone
    借楼问一下,怎么下载一个公众号以前的文章阿
    有个比较喜欢的公众号。就想看看它以前的文章
    googlefans
        6
    googlefans  
       2018-05-20 15:23:49 +08:00
    qwjhb
        7
    qwjhb  
       2018-05-20 22:14:09 +08:00
    @jdjd 爬历史文章 定个 sleep 完全没问题
    Livin1991
        8
    Livin1991  
       2018-05-21 11:49:54 +08:00
    最近发现微信小程序也可以抓取行业新闻 但是我感觉好像是请人手动更新的 不知道是不是可以实现自动抓取?
    luckystar
        9
    luckystar  
    OP
       2018-05-21 18:58:41 +08:00
    @cnqncom 现在就在爬搜狗,只是间隔时间不好把握
    luckystar
        10
    luckystar  
    OP
       2018-05-21 18:59:45 +08:00
    @ik python+selenium 感觉还不错
    luckystar
        11
    luckystar  
    OP
       2018-05-21 19:00:04 +08:00
    @zingl 这是个好办法!!!
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1105 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 23:16 · PVG 07:16 · LAX 16:16 · JFK 19:16
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.