V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
daijinming
V2EX  ›  程序员

收集了很多用户咨询的问题,如何采用 Python 提取出最常见的问题那?

  •  
  •   daijinming · 306 天前 · 1341 次点击
    这是一个创建于 306 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我采用 jieba 进行了高频词汇的统计,然后再根据 高频词调出包含的问题,但是感觉这样也不是太好。用户问题一般方式不是太一样,但是关键字都是类似的,如何能提出相似度较高的问题,想求教下大家,不吝赐教

    9 条回复    2021-03-17 19:20:50 +08:00
    princelai
        1
    princelai  
       306 天前
    简单点就 TFIDF 提取出每句 TOP5 的词,然后转 one hot 求和,最后求余弦距离

    复杂点就 bert 直接整句输入,输出一个 768 维向量,最后还是余弦距离 /Ball-Tree/KD-Tree 这些,无新增直接聚类也应该可以。
    chogath
        2
    chogath  
       306 天前
    统计学问题
    daijinming
        4
    daijinming  
    OP
       306 天前
    @xiaoxinshiwo 我也是这个感觉,不明觉厉
    daijinming
        5
    daijinming  
    OP
       306 天前
    @princelai 兄台,理解你说的这话,都需要啥基础
    princelai
        6
    princelai  
       306 天前
    @daijinming #5 只想了解名词大概意思,学 NLP 三天就够了,要想了解原理怎么也得学 2 月吧
    hjahgdthab750
        7
    hjahgdthab750  
       306 天前
    https://zhuanlan.zhihu.com/p/166499896 我也看到了这个,不知道和 ES 方案比起来如何
    MOONLIGHTT
        8
    MOONLIGHTT  
       306 天前
    目前深度学习来做文本理解的方案一般是 预训练+finetune,预训练模型里面一般都采用 bert 或者 bert 的变种。

    具体的话可以看看这个仓库 https://github.com/ymcui/Chinese-BERT-wwm
    superrichman
        9
    superrichman  
       306 天前
    用 jiagu 提取关键词试试? 这个应该是最简单的, 就调一个函数

    https://github.com/ownthink/Jiagu
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1676 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 63ms · UTC 17:08 · PVG 01:08 · LAX 09:08 · JFK 12:08
    ♥ Do have faith in what you're doing.