V2EX › madxzb 的所有回复 › 第 4 页 / 共 4 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

1 2 3 4

❮

❯

2016-08-20 12:12:38 +08:00

可参考我以前写的，网页正文提取算法研究[非正则]
http://xuzhibin.com/2010/11/11/text-extraction/
我当时用 c ＃写的，参考思路即可。发布时间，列表页的内容链接块其实都可以按这个思路获取到。当然也不是 100%的。

1 2 3 4

❮

❯