首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  自然语言处理

一款语料处理 Python 辅助工具,能自动计算标注偏移量,各位看看是否有帮助

  •  
  •   nthhdy · 78 天前 · 3736 次点击
    这是一个创建于 78 天前的主题,其中的信息可能已经有所发展或是发生改变。

    为公司帮助处理语料时做了 ltext 这个工具。

    基本思路是,把文本和标注(用偏移量表达)封装在一个对象中,对外模拟字符串类型的接口做各种文本操作,比如 replace 和 strip 等方法。在这些方法执行时,改动文本同时操作偏移量。

    请各位看看这个情景多不多,封装是不是恰当?

    或者还需要增加什么功能。目前只实现了 replace、re_replace 两个方法。

    1 回复  |  直到 2019-08-05 10:31:09 +08:00
        1
    nthhdy   77 天前
    觉得没说清楚,补充一些

    情景是,有一批文本,先用算法预标注,再给人工改标注。人工需要知道每条文本的来源和种类,这就要把这些信息和文本拼在一起,最后再转化回原始文本。加信息和转化回原文本,都有随着文本一起改动标签的需求。

    最近这个项目枯萎了。工具到这个程度,它适用的范围也不能小规模论证了。所以想请 nlp 专业人士和爱好者们一起打磨这个想法。
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   4286 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 23ms · UTC 02:32 · PVG 10:32 · LAX 19:32 · JFK 22:32
    ♥ Do have faith in what you're doing.