某些白嫖网站的爬虫是怎么做到精确爬别人的文章的。各个网站博客页面元素都不同阿

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是一个创建于 1514 天前的主题，其中的信息可能已经有所发展或是发生改变。

很好奇他么是怎么做到的，那么多网站，页面结构都不一样。他们的爬虫是做到只提取文章，忽略不相关的元素的，甚至还很不要脸的去掉了转载信息。针对某个网站还能理解，好好分析页面元素，然后慢慢来。但是他们是怎么实现的呢，这个超出我的知识范围了。求大佬赐教

5 条回复 • 2020-03-10 09:24:40 +08:00

polythene

2020-03-09 20:39:19 +08:00

这算是正文提取的范畴了吧，已经有很多现成的解决方案了，比方说这个：
https://github.com/polyrabbit/hacker-news-digest/tree/master/page_content_extractor

90928yao

2020-03-09 20:54:26 +08:00

谢谢解惑 @polythene 搜了下正文提取关键词都上机器学习了井底之蛙了

yuzo555

2020-03-09 21:07:09 +08:00

有些比较规范的程序有固定的正文区域；有些常见程序规则固定的（比如 WordPress 这类）；再不济可以通过可见文字的密度来识别哪个区域是正文

itskingname

2020-03-09 22:07:28 +08:00 via iPhone

90928yao

2020-03-10 09:24:40 +08:00

@itskingname 谢谢大佬。。。学习了