V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  linhanqiu  ›  全部回复第 5 页 / 共 7 页
回复总数  134
1  2  3  4  5  6  7  
2018-02-26 15:47:46 +08:00
回复了 Mrzhang0320 创建的主题 Python 迷茫!!!
2018-02-24 17:28:14 +08:00
回复了 linhanqiu 创建的主题 Python 有关于目前正在做的新闻数据流程的架构-构想,大神指教!!
@ZSeptember 哦哦,懂了,这个方面打算用微服务来做,每个模块做成服务
2018-02-24 17:01:42 +08:00
回复了 linhanqiu 创建的主题 Python 有关于目前正在做的新闻数据流程的架构-构想,大神指教!!
@ZSeptember 还想问一下,资讯正文提取可以,反爬太容易了是指什么,kafka 做流处理是在什么部分做比较上,是在新闻上传业务场景的时候吗
2018-02-24 16:59:38 +08:00
回复了 linhanqiu 创建的主题 Python 有关于目前正在做的新闻数据流程的架构-构想,大神指教!!
@ZSeptember 多谢大神指教
2018-02-24 16:05:51 +08:00
回复了 linhanqiu 创建的主题 Python 有关于目前正在做的新闻数据流程的架构-构想,大神指教!!
2018-02-24 16:05:36 +08:00
回复了 linhanqiu 创建的主题 Python 有关于目前正在做的新闻数据流程的架构-构想,大神指教!!
2018-02-24 16:04:36 +08:00
回复了 linhanqiu 创建的主题 Python 有关于目前正在做的新闻数据流程的架构-构想,大神指教!!
@w0000 数据源是挺多的,大概有三四万左右,需要登陆和动态的网站确实都是交给我们自己开发的 python 框架来解决,通用的 nutch 来解决大部分市政的新闻网站,因为他们确实没有太多反爬,哈哈。数据存储的话,之后打算放在 HBase 来做,看来我们确实有挺多相似的地方,舆情的话我们也是打算在做,做新闻舆情的东西,不过本质是差不多的哈哈,
2018-02-24 16:01:11 +08:00
回复了 linhanqiu 创建的主题 Python 有关于目前正在做的新闻数据流程的架构-构想,大神指教!!
@w0000 好的,好的,那太好了
2018-02-24 15:37:44 +08:00
回复了 linhanqiu 创建的主题 Python 有关于目前正在做的新闻数据流程的架构-构想,大神指教
@shaobin 确实,新闻类站点还是反爬做的还是一般,有 header 封锁算是好的了,
2018-02-24 15:35:42 +08:00
回复了 linhanqiu 创建的主题 Python 有关于目前正在做的新闻数据流程的架构-构想,大神指教!!
@w0000 现在在带一个小队,主要业务量到达一定程度了,想要构想一下未来的大架构,
2018-02-24 14:29:37 +08:00
回复了 linhanqiu 创建的主题 Python 有关于目前正在做的新闻数据流程的架构-构想,大神指教!!
@pheyer 哈哈,对,是 Evernote,国内的印象笔记不能分享,所以用了国外版本
2018-02-24 14:28:45 +08:00
回复了 linhanqiu 创建的主题 Python 有关于目前正在做的新闻数据流程的架构-构想,大神指教!!
@liudanking
听过,可以试试
2018-02-24 13:16:42 +08:00
回复了 linhanqiu 创建的主题 Python 有关于目前正在做的新闻数据流程的架构-构想,大神指教!!
@newbier 没有没有,本小白只是构想,还没完成呢
2018-02-24 13:15:11 +08:00
回复了 linhanqiu 创建的主题 Python 有关于目前正在做的新闻数据流程的架构-构想,大神指教
@shaobin 不过未来希望使用阿里云的弹性 ip 觉得应该能够替代这个
2018-02-24 12:46:23 +08:00
回复了 linhanqiu 创建的主题 Python 有关于目前正在做的新闻数据流程的架构-构想,大神指教
@shaobin 是 ASDL 吗,之前有了解过,不过没有太多使用,听说动态拨号破解 ip 限制很不错
2018-02-24 11:11:24 +08:00
回复了 linhanqiu 创建的主题 Python 有关于目前正在做的新闻数据流程的架构-构想,大神指教
@w0000 https://www.v2ex.com/t/432146#reply0 不好意思,这个应该可以了
2018-02-24 10:56:31 +08:00
回复了 linhanqiu 创建的主题 Python 有关于目前正在做的新闻数据流程的架构-构想,大神指教
数据组业务流程架构

需求以及产量
硬件需求
服务器需求
爬虫服务器
图片服务器
新闻日产量
爬虫 200w+
用户编辑 1w+
机器智能编辑 1w+
新闻数据流程
数据源
数据来源分类
爬虫
爬虫类型分类
通用搜索引擎爬虫:使用基于 Nutch 框架的爬虫框架
自定义爬虫:使用基于 asyncio、aiohttp 的爬虫框架
爬虫分布式架构
模式选择:分布式采用自治模式,爬虫服务器之间互相可以通信,通过保存一张服务器列表来记录其他服务器位置
爬虫种子调度管理
调度介质:redis 集群作为 url 暂时存储的载体,redis 之间互相通信,使用 hash 槽来保证高可用性一致性
去重保证:使用 k 分型 bloomfilter 替代普通的 bloomfilter 过滤器作为过滤器搭配 redis
种子状态保证(确保种子的有效性):
种子分级制度
人工编辑
机器自动编写
注意问题
数据采集

注意问题
数据清洗(验证数据正确唯一性)
数据重复清洗
对于新闻重复清洗原则
文本指纹去重:k-shingle -jarccard 系数计算 shingle 向量的相似度,向量空间,耗资源
文本指纹去重:Simhash 指纹-采用 hamming distance 来计算两个指纹之间的相似度,海量文本找出只有几位不同的,将 32 指纹分段以空间换时间
空间向量特征去重:无法应对海量文本两两去重
注意问题
数据存储(关系型数据库、对象存储)

注意问题
数据变形(批处理、并行计算)

注意问题
数据分析(机器学习、数据仓库)

注意问题
业务场景(日志分析,商品推荐、舆情分析、价格预测)

注意问题
项目管理以及部署
项目迭代管理
项目测试
项目部署
爬虫实例采用 docker 部署,使用 Google 的 Kubernetes 来管理

项目监控
实时监控
离线监控
2018-02-09 16:29:45 +08:00
回复了 octobersnow 创建的主题 Python requests 如何实现爬虫的单点登陆
您好,请问您写成的文章可以给看一下吗
2018-01-04 22:33:19 +08:00
回复了 linhanqiu 创建的主题 Python Python 爬虫
@Ginson 好的,
2018-01-04 22:32:08 +08:00
回复了 linhanqiu 创建的主题 Python Python 爬虫
@wh01096045 好吧,我也打算这么做
1  2  3  4  5  6  7  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1990 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 18ms · UTC 16:16 · PVG 00:16 · LAX 09:16 · JFK 12:16
Developed with CodeLauncher
♥ Do have faith in what you're doing.