V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
omg21
V2EX  ›  问与答

机器训练的思路是这样吗?

  •  
  •   omg21 · 2016-12-31 11:49:30 +08:00 · 1516 次点击
    这是一个创建于 2680 天前的主题,其中的信息可能已经有所发展或是发生改变。

    看了一下网上的训练集,内容是这样的:

    19980104-02-001-003/m 贵阳市 /ns 目前 /t 有 /v 58/m 户 /q 国有 /vn 困难 /a 企业 /n ,/w 连同 /p 离退休 /vn 职工 /n 共 /d 近 /a 3.6万 /m 人 /n 。/w 为了 /p 让 /v 这些 /r 企业 /n 职工 /n 过 /v 好 /a “/w 两节 /j ”/w ,/w 市政府 /n 帮助 /v 其中 /r 10/m 户 /q 企业 /n 申请 /v 了 /u 部分 /m 贴息贷款 /n 。/w 对 /p 未能 /v 得到 /v 贷款 /n 的 /u 企业 /n ,/w 由 /p 市 /n 财政 /n 核发 /v 250万 /m 元 /q “/w 再 /d 就业 /v 与 /c 解困 /v 资金 /n ”/w 进行 /v 救助 /vn 。/w 劳动部门 /n 对 /p 20/m 户 /q 特困 /b 企业 /n 中 /f 的 /u 近 /a 7000/m 名 /q 离退休 /vn 人员 /n ,/w 按照 /p 救助 /vn 标准 /n ,/w 从 /p 社会保险金 /n 中 /f 调剂 /v 236.66万 /m 元 /q 予以 /v 救助 /vn 。/w

    这样的训练集是手工分割的吗? 有了训练集后就是做机器训练了,机器训练的思路是怎样的?就是用训练词的词汇去文章里去搜索吗?可是这样起不到训练的目的啊。训练集里有“贵阳市”,那以后目标里出现了“广州市”能分辨出来吗?

    6 条回复    2016-12-31 14:11:14 +08:00
    crazycabbage
        1
    crazycabbage  
       2016-12-31 12:06:30 +08:00 via Android
    分词不是手工分割的,是有专门的分词库,比如中科院的 nlpir
    https://github.com/NLPIR-team/NLPIR
    当然还有很多分词的开源库,算法也有很多,比如基于词典的最大正向匹配等等。
    机器训练莫过于对比两个词之间的相似度,把分词转换成向量进行运算,比如计算余弦距离,欧式距离等等。
    你举的例子“贵阳市“和”广州市“,一计算距离就知道他们有一个字(市)是相同的,那么自然就知道他们都是市级单位了。
    crazycabbage
        2
    crazycabbage  
       2016-12-31 12:14:06 +08:00 via Android
    当然机器学习还要加各种特征,比如词性,同义词和近义词等等吧,要不电脑怎么知道“贵阳市”是个城市还是种吃的呢?我也没用过,以上纯属瞎扯: P
    em70
        3
    em70  
       2016-12-31 12:32:04 +08:00
    你这是机器自动识别词性吧,要先要建立一个数学模型

    比如将词汇人工标注的词性与所在句子位置一起储存,就可以计算出"贵阳市"这个词出现在句子第一个位置的时候有多大几率是名词,有多大几率是动词,出现第二位的时候又多大几率,这样可以得到一个词汇,位置,词性几率的数学模型

    训练数据足够多,这个模型就可以用来分析未被人工标注的句子. 训练数据越多准确性越高

    至于广州市和贵阳市能否自动分辨,看你模型设计和训练数据了,机器学习是很复杂的,要不断试验,总结,修改,创新
    crazycabbage
        4
    crazycabbage  
       2016-12-31 12:34:14 +08:00 via Android
    刚刚去查了一下,训练方式是 word2vec ,具体算法细节不清楚,看来要多补补了
    t6attack
        5
    t6attack  
       2016-12-31 12:50:42 +08:00
    机器学习是个很大的领域,每一种算法的思路都不一样。
    关于 word2vec ,我记得这个领域的专家接受采访时提到一个小细节,他们把“国王”的向量叠加“妻子”的向量,结果返回的是“王后”的向量。这是个令人激动的结果。因为他们并没有让机器刻意去做到这一点。
    omg21
        6
    omg21  
    OP
       2016-12-31 14:11:14 +08:00
    @crazycabbage
    @em70
    机器学习范围太大了,我就是想做一个自动分类,目前看来只能先设定一些关键词匹配进行分类。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2154 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 04:52 · PVG 12:52 · LAX 21:52 · JFK 00:52
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.