V2EX › polythene 的所有回复 › 第 19 页 / 共 26 页

我做 hacker news digest ( http://www.hackernews.im/ )的时候也用到了正文提取，具体的实现你可以参考一下 https://github.com/polyrabbit/hacker-news-digest/tree/master/page_content_extractor

主要思想就是给标签打分，最终选出最有可能是正文的那个标签。因为一个标签是不是正文你不能仅看它的名字，不能说这个标签是<article>就认为它是正文，还要看它的属性等别的因素。

2015-09-24 23:40:11 +08:00

回复了 50vip 创建的主题 › 分享发现 › 在线计算文件 Hash 值（ CRC-32， MD5， SHA1， SHA-256）

楼主做的不错，值得鼓励，但下次再写这类工具之前最好先问下是不是别人也遇到过同样的问题，免得自己再重复造轮子。

2015-09-24 01:04:15 +08:00

回复了 cloudop 创建的主题 › 程序员 › 关于英文阅读能力， hacker news。

@iyaozhen 想更好的阅读 Hacker News ，来试试这个吧 http://www.hackernews.im/ ，它图文并茂，很适合快速浏览 Hacker News

2015-09-08 15:21:52 +08:00

回复了 Henrybsbhp 创建的主题 › Smartisan OS › 求 16GB 坚果手机优先购买码一枚。

@Henrybsbhp 发邮件给你了，收到了没？

2015-09-08 09:20:55 +08:00

回复了 Henrybsbhp 创建的主题 › Smartisan OS › 求 16GB 坚果手机优先购买码一枚。

LZ ，我买到一个 32G 的，只玩过几天，要不然出给你？

2015-08-28 13:22:20 +08:00

回复了 endoffight 创建的主题 › 上海 › 以后要在金科路上班了，求合租！

我的邮箱 http://i.imgur.com/7tTRoV6.gif

2015-08-28 10:46:23 +08:00

回复了 endoffight 创建的主题 › 上海 › 以后要在金科路上班了，求合租！

我也在附近上班，也在找房子， LZ 求合租啊

2015-08-04 18:33:56 +08:00

回复了 firemiles 创建的主题 › Vim › 大家有同时用 Vim 的 YouCompleteMe 和 SrcExpl 插件吗

F*ck YouCompleteMe

2015-07-29 17:36:03 +08:00

回复了 awang 创建的主题 › 问与答 › 想买一个扫地机器人，大伙给点意见

然并卵

2015-05-14 13:36:00 +08:00

回复了 neverno 创建的主题 › 问与答 › 如何编辑 eml 格式的邮件并保存

直接用文本编辑器打开，就可以修改了，eml文件是文本格式的。

2015-05-12 09:05:58 +08:00

回复了 polythene 创建的主题 › 编程 › 我用朴素贝叶斯分类器写了一个能识别代码语言的小工具，但是计算联合概率的时候遇到了点问题。

@khowarizmi 谢谢提供的参考，这个浮点数下溢出的问题我是遇到过的，也是通过去对数来解决的。

朴素贝叶斯之所以称之为朴素，正是因为这个独立性假设显得太naive，但是如果没有这个假设，在有限的训练集中 P(tok_1, tok_2, tok_3...tok_n | lang) 很难估算出来，马尔科夫假设的提出也是为了解决这个问题。大家测试了以后发现这个假设很有效，可不知道为什么到了我这里起得作用就不大了呢。。

2015-05-11 17:24:25 +08:00

回复了 polythene 创建的主题 › 编程 › 我用朴素贝叶斯分类器写了一个能识别代码语言的小工具，但是计算联合概率的时候遇到了点问题。

@staticor 没有这个假设的话，数据会变得非常稀疏，或者根本没法计算，但算下来发现这个假设真的好naive，不知道大家做文本分类的时候用的是什么方法。。。

2015-05-11 17:03:21 +08:00

回复了 polythene 创建的主题 › 编程 › 我用朴素贝叶斯分类器写了一个能识别代码语言的小工具，但是计算联合概率的时候遇到了点问题。

@billlee 嗯，我目前P(lang)的计算方法就是计算属于语言 lang 的样本出现的概率，而不是平均成1 / n_langs

我把p(lang| tok_1, tok_2, ..., tok_n) 拆分到最后的一个原因就是，我希望不仅能知道哪个是最有可能的语言，我还想得到这个语言可信度是多少，现在看来，第二个目标很难实现~

2015-05-11 14:32:32 +08:00

回复了 polythene 创建的主题 › 编程 › 我用朴素贝叶斯分类器写了一个能识别代码语言的小工具，但是计算联合概率的时候遇到了点问题。

@liluo 谢谢提醒，在动手写这个程序之前，我也参考过linguist(包括你的python移植版 :D)，发现它主要是基于规则的匹配，规则匹配不到的才上贝叶斯分类器，我觉得用规则来匹配的一个缺点就是前期为每种语言指定规则有点麻烦，所以才直接用贝叶斯，让机器去学习规则。
另一方面，linguist计算联合概率的方法就是把各个token的概率相乘，虽然可能对最终结果影响不大，但其实这种算法是不全面的，语言的因素他没有考虑进去，具体见我上面的推导。

2015-04-10 17:25:59 +08:00

回复了 xiaobetty 创建的主题 › 分享发现 › Livid 不仅是 V2EX 站长大大，还是职场温拿--看 100offer 专访，送杯子

冒个泡，同昨天已看过了

1 ... 11 12 13 14 15 16 17 18 19 20 ... 26

❮

❯