V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
soho176
V2EX  ›  Python

chuansong.me 这网站一直都是采集的微信公众号的文章,这种采集是如何实现的那?采集的来源是哪里那?

  •  
  •   soho176 · 2016-09-23 12:21:30 +08:00 · 25212 次点击
    这是一个创建于 2765 天前的主题,其中的信息可能已经有所发展或是发生改变。
    43 条回复    2017-11-05 15:24:56 +08:00
    billytom
        1
    billytom  
       2016-09-23 13:33:02 +08:00   ❤️ 1
    这个网站要发财了

    chuansong.me 的站点信息
    备案信息:浙 ICP 备 15001855 号-1(个人备案)
    该网站共有 2,061,848 个网页被百度收录

    按这种收录数,每天至少 10-15 万独立 IP 访问
    而本人什么都不用干,就给服务器钱就可以了

    牛!
    billytom
        2
    billytom  
       2016-09-23 13:36:34 +08:00   ❤️ 1
    什么叫躺着挣钱? 一句话,牛逼

    billytom
        3
    billytom  
       2016-09-23 13:37:38 +08:00
    只可惜格局还是小了点,这种数量文字的索引量,如果把平时收入的 1/3 拿出来买大站的链接。中文网站前三名都能做上去的
    eightqueen
        4
    eightqueen  
       2016-09-23 14:17:11 +08:00
    其实这功能应该由微信提供,我就不信只有我一个人喜欢在电脑上看公众号。
    xiaoice
        5
    xiaoice  
       2016-09-23 14:24:24 +08:00 via iPhone
    牛逼。做些技术苦力外包 不如自己搞些项目。
    csx163
        6
    csx163  
       2016-09-23 14:41:27 +08:00
    记得以前发网站上来就会被 DDOS ,这不是害人家么
    layzai
        7
    layzai  
       2016-09-23 15:01:23 +08:00
    mark 这个站关注很久了
    zixianlei
        8
    zixianlei  
       2016-09-23 15:04:07 +08:00
    估计站长想打死你了。。。 hhh
    daybyday
        9
    daybyday  
       2016-09-23 15:20:33 +08:00
    @billytom 贴图的查询网站是?
    crab
        10
    crab  
       2016-09-23 15:49:47 +08:00
    @daybyday aizhan.com
    记得作者之前在 weibo 说会分享,但后来就没消息了。
    laoyuan
        11
    laoyuan  
       2016-09-23 15:52:30 +08:00
    企鹅会不会报警抓人?
    xiaojay
        12
    xiaojay  
       2016-09-23 15:54:48 +08:00
    首发就在 V2EX 233
    https://www.v2ex.com/t/66454
    tyhunter
        13
    tyhunter  
       2016-09-23 15:59:17 +08:00
    站长就在 V2EX @alexzhan
    aricch
        14
    aricch  
       2016-09-23 16:13:17 +08:00
    发现备案号都查询不到呀
    benteke
        15
    benteke  
       2016-09-23 16:24:48 +08:00
    采集站的收录量也能这么高。。。?
    xtynk
        16
    xtynk  
       2016-09-23 16:26:53 +08:00
    @eightqueen wx.sogou.com 腾讯投资了搜狗,这个就是微信公众号官方的 WEB 展示页面
    porwyn
        17
    porwyn  
       2016-09-23 16:33:52 +08:00
    @aricch 去后缀为 gov.cn 查询
    jason52
        18
    jason52  
       2016-09-23 16:44:36 +08:00
    @xiaojay 竟然出现过我。哈哈
    tadtung
        19
    tadtung  
       2016-09-23 16:48:33 +08:00
    微信公众号文章采集,,,年初的时候,我见过有人卖过源码。
    而且微信公众号文章采集,,收录过亿的都有。。。具体你可以百度。
    @benteke 这个和现在百度的算法有关,,,很多时候原创(当然高质量原创另说)的确敌不过采集,,我自己的站就是。
    Robias
        20
    Robias  
       2016-09-23 16:49:45 +08:00
    不定时采集吗?腾讯不封?
    sunocean
        21
    sunocean  
       2016-09-23 16:52:51 +08:00
    学会一种新思维, 谢谢楼主
    Immortal
        22
    Immortal  
       2016-09-23 16:54:30 +08:00
    别跑题啊
    我也好奇这块采集怎么处理的
    有大牛讲解下么
    billytom
        23
    billytom  
       2016-09-23 18:33:41 +08:00
    @aricch 站长把域名注册人都隐藏了,显然是对此方法可能造成的“法律风险”做了一定的规避
    不过三年能做到这种流量,很不错了
    billytom
        24
    billytom  
       2016-09-23 18:35:13 +08:00
    @zixianlei 的确,这种网站闷声赚钱是最好的
    bombless
        25
    bombless  
       2016-09-23 18:37:51 +08:00   ❤️ 1
    https://github.com/bowenpay/wechat-spider
    之前 v 站不是有人分享过他这个项目么
    livc
        26
    livc  
       2016-09-23 22:03:40 +08:00
    好奇这个网站是手动收录的吗?
    shiny
        27
    shiny  
       2016-09-23 22:08:23 +08:00
    很久以前问过他本人,就是他没透露。 他做的比搜狗的要早。
    chiv2
        28
    chiv2  
       2016-09-23 23:00:21 +08:00
    页面上没有广告,流量如何变现?
    soho176
        29
    soho176  
    OP
       2016-09-23 23:50:11 +08:00
    @chiv2 醉了 没广告?、你确定?肯定是浏览器有屏蔽插件 吧,一个页面上 好些广告的
    VmuTargh
        30
    VmuTargh  
       2016-09-23 23:52:28 +08:00 via Android
    不过我个人觉得这个站不错啊
    至少像我这种不用微信的人来说还是很方便的。
    soho176
        31
    soho176  
    OP
       2016-09-23 23:53:20 +08:00
    @billytom 的确是发财了 闷声发大财啊
    soho176
        32
    soho176  
    OP
       2016-09-23 23:55:34 +08:00
    @sunocean 那么杂感谢我那。。哈
    murmur
        33
    murmur  
       2016-09-23 23:57:51 +08:00
    支持 D 一下 微信公众号盗抄 这个盗抄公众号。。。
    adfsadfssfd
        34
    adfsadfssfd  
       2016-09-24 00:47:55 +08:00
    垃圾采集站 以偷东西为生
    wizardforcel
        35
    wizardforcel  
       2016-09-24 08:46:54 +08:00 via Android
    微信生态封闭,简直是自食其果。
    pango
        36
    pango  
       2016-09-24 11:46:46 +08:00
    据我所知,早期的一些直接采微信的采集方法均已失效,这个网站可能有内部资源(我不认识作者,纯猜测)。
    marcus930
        37
    marcus930  
       2016-09-25 13:14:19 +08:00 via Android
    @eightqueen 同感,手机看着太累了,图片加载也慢。
    gamecreating
        38
    gamecreating  
       2016-10-04 19:40:11 +08:00
    @billytom 看代码 是采集的 http://weixin.sogou.com/ 这似乎不是 chuansong.me 应该是直接采集的 微信数据才对吧
    ppyace
        39
    ppyace  
       2017-08-21 16:57:51 +08:00
    仔细研究,发现采集的是 sougou,不多最近数据代码看,看来,他选用每日采集,符合微信最新 10 篇文章规则。
    AlwaysBee
        40
    AlwaysBee  
       2017-09-16 20:39:04 +08:00
    之前也做了一款 WordPress 插件一键导入微信文章到网站中,并且突破防盗链,能够把图片下载下来,支持自动同步,如果要采集所有文章提供这样的服务,感兴趣可以搜一下 beepress,http://artizen.me/beepress

    现在大部分爬虫都是采集搜狗的,还有一种基于中间人代理去爬取,现在看传送门的文章里面的图片好像都被防盗链弄掉了
    shiny
        41
    shiny  
       2017-11-01 20:03:09 +08:00
    这个站已经不行了,被百度上线的算法打击,断崖式下滑 http://ziyuan.baidu.com/wiki/1050
    dongdong95
        42
    dongdong95  
       2017-11-05 12:12:49 +08:00
    @shiny 但是每日访客还是很牛逼
    shiny
        43
    shiny  
       2017-11-05 15:24:56 +08:00
    @dongdong95 比以前掉了太多了,当然瘦死的骆驼比马大 https://lishi.aizhan.com/chuansong.me/randabr/2017-05-05/2017-11-05/
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3003 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 11:07 · PVG 19:07 · LAX 04:07 · JFK 07:07
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.