请教一下 NLP 的模型

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是一个创建于 1127 天前的主题，其中的信息可能已经有所发展或是发生改变。

假设：

1 ）有三个相似的物品（之前不知道这三个物品是否相似），A，B，C

2 ）互联网中大家总是在同一个主题下讨论 A，B，C

我如何通过分析互联网中的信息，最终获得这三个物品是相似，有类似的编程模型吗，希望大佬赐教，感谢

物品

相似

模型

赐教

20 条回复 • 2021-03-18 11:26:00 +08:00

raycool

2021-03-16 23:07:28 +08:00

万物皆可 embedding

HuLeiY

2021-03-16 23:11:58 +08:00

楼上说的在理最近也在想这个

Braisdom

2021-03-16 23:16:27 +08:00

word2vec 很容易很干扰，而得出的结果离设想的差别太大

Braisdom

2021-03-16 23:17:19 +08:00

@raycool 我的想法是设定一个学习的目标，而不是漫无目的的学习

gladuo

2021-03-16 23:18:51 +08:00

基本的，对大量文档切词（实体识别）统计共现就可以了

gladuo

2021-03-16 23:26:17 +08:00

有监督的话（如果有一些 doc，里面标了 A B 以及 A B 是相似的），这个任务也许可以看做一个类 Corefrence 的任务，也有一些常规做法，mention 的识别 + coref 的分类判定；
总体而言 NLP 的任务强依赖于数据和场景，微小的场景和 performance 要求变化，可能合适的方案完全不同

ljpCN

2021-03-17 01:39:48 +08:00 via iPhone

transformer 吗 bert 吗

ljpCN

2021-03-17 01:40:45 +08:00 via iPhone

attention 机制似乎符合你说的“不是漫无目的地学习”，可以去了解一下 bert

ljpCN

2021-03-17 01:41:03 +08:00 via iPhone

attention 机制似乎符合你说的“不是漫无目的地学习”，可以去了解一下 BERT

ljpCN

2021-03-17 01:41:42 +08:00 via iPhone

怎么相同内容连发了。。

DoctorCat

2021-03-17 02:07:18 +08:00

SimHash

kaiju

2021-03-17 02:29:33 +08:00

语言学中有一个 distributional hypothesis，是说如果两个词它们出现的 context 相似，那么它们的意思一般也相似

这个也是 word2vec 和更古老的 brown cluster 之类的东西的理论基础。

但是需要注意的是相似不代表一样。比如说代表月份的几个词 January, Feburary, etc, 它们出现的 context 相似，意思相似，但含义不是一样的。

mumbler

2021-03-17 05:03:58 +08:00 via Android

首先要有足够大的语料，用需要分析的词汇，计算相互之间的词向量距离，最后统计每个词向量最近的词，那就是相关的，阈值需要不断调

yzbythesea

2021-03-17 07:41:55 +08:00

这不是 top modeling 吗？有很多算法啊，LDA，LTSM 等等

word vector 感觉只能做一个 feature engineering 吧

yzbythesea

2021-03-17 07:42:11 +08:00

topic modeling*

Braisdom

2021-03-17 07:52:19 +08:00

感谢各位，我一个一个测试，word2vec, doc2vec 我测试了，基本可行，但有个问题

1 ） A，B，C 周围有很多词汇，通过 A 预测 B，或者通过 B 预测 A 和以还可以，但通过其它词汇预测 A，B，C 时就不可用了

@ljpCN
@kaiju
@mumbler

RingoTC

2021-03-17 10:17:51 +08:00

@Braisdom 这大概是因为 word2vec 学到了共现关系，因为共现关系是比 semantic 更好学的。如果不想让 word2vec 学到这种共现关系，直接把 A 、B 、C 用统一特殊字符替代掉，或许会有效。

Braisdom

2021-03-17 10:28:09 +08:00

@RingoTC 你的想法倒是一个好想法。
如果将 A，B，C 进行唯一性 hash 处理，在所有文档中可以通过固定的规则检索，通过周围的词进行预测，只获取符合规则的的词。

mumbler

2021-03-17 19:07:44 +08:00 via Android

@Braisdom 只跑关键词当然只能关键词相互预测，你要全局，那就所有内容分词后全部跑，这个计算量就大了，需要很强的 GPU 或者超算，否则命不够长

Braisdom

2021-03-18 11:26:00 +08:00

@mumbler 我在尝试其它方法，word2vec 的训练总是有问题，有时候非常好，有时候非常差，真搞不清楚