阅读模式是如何实现的?

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3136 天前的主题，其中的信息可能已经有所发展或是发生改变。

类似 UC ，知乎日报这种，根据 URL 就能够自动提取出正文，然而每一个来源的排版都不同，该怎样去实现呢

知乎

排版

url

正文

12 条回复 • 2015-09-28 11:52:30 +08:00

ss098

2015-09-26 13:55:14 +08:00

据个人推测可能是识别 schema.org 或者 HTML 5 的 Article 标签。

9hills

2015-09-26 14:14:14 +08:00

搜正文提取算法，有很多文章和代码

acoder2013

2015-09-26 15:49:36 +08:00

@9hills 看了几篇论文，采用了 cx-extractor ，正在考虑怎么把提取到的无标签正文恢复到原来的格式，尽量保持原来的图片，格式这些

Bardon

2015-09-26 17:02:14 +08:00

很奇怪，在个人博客上，大部分文章能触发阅读模式，部分文章确在其中的代码部分被触发，而少量的文章压根不会被触发

<article>标签触发不靠谱

zhicheng

2015-09-26 17:07:08 +08:00

TextArea.com 也支持阅读模式，几乎完美显示的，应该与 html 写法有关系吧。

polythene

2015-09-26 17:59:09 +08:00

我做 hacker news digest ( http://www.hackernews.im/ )的时候也用到了正文提取，具体的实现你可以参考一下 https://github.com/polyrabbit/hacker-news-digest/tree/master/page_content_extractor

主要思想就是给标签打分，最终选出最有可能是正文的那个标签。因为一个标签是不是正文你不能仅看它的名字，不能说这个标签是<article>就认为它是正文，还要看它的属性等别的因素。

napsterwu

2015-09-27 09:33:56 +08:00

看数学之美啊

acoder2013

2015-09-27 10:47:08 +08:00

@polythene Python 就以前简单学了语法，看的好累

acoder2013

2015-09-27 10:47:27 +08:00

@napsterwu 这本书有讲这方面的吗，还没时间看

kankana

2015-09-27 23:08:23 +08:00

@polythene 所的是 readability 算法?

paperpeper

2015-09-28 08:36:33 +08:00

我用过两个办法，简单一点的办法就是针对 html 分析，直接 xpath 提取，不过拓展性不好。还有一个办法就是对文章分片，提取特征获取正文，这种办法拓展性好，但是可能对某些网站还是会展示的不完美。

polythene

2015-09-28 11:52:30 +08:00

@kankana 比 readability 算法准确度高很多， readability 对一些排版混乱的中文网页根本提取不出什么，而这个方法可以提取很多奇葩网页的正文，至少 hacker news 上提交的页面大多都是可以正确提取的。