V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
taozhijiangscu
V2EX  ›  程序员

关于基于 CRF 的 NER(命名实体识别)

  •  
  •   taozhijiangscu · 2016-02-22 18:36:27 +08:00 · 4134 次点击
    这是一个创建于 2979 天前的主题,其中的信息可能已经有所发展或是发生改变。
    这样的,观光了一下据说 CRF 是目前 NER 最好的识别标注算法。在下有几点不明,在此请教:
    ( 1 )按照[ZZ]( http://www.chokkan.org/software/crfsuite/tutorial.html#id488968), 作者的英文语料是用 word, pos 作为属性,最后用来预测 label 的。中文关于 NER 的语料,只找到人民日报 199801 的语料,这个语料是分词后,将 ns nr nz 等作为和 v n pp 等词性并列来处理的,就是词性已经是预测的目标而不是作为训练的参数了。
    ( 2 )然后我写了这个[例子]( https://github.com/taozhijiang/chinese_nlp/blob/master/crf_ner/ner.py),那么问题来了:我的测试句子分词结果必须同人民日报训练预料的分词结果一次才有用?(暂测是这样的)
    ( 3 )还有没有中文 NER 的语料啊?
    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2654 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 01:59 · PVG 09:59 · LAX 18:59 · JFK 21:59
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.