一款语料处理 Python 辅助工具，能自动计算标注偏移量，各位看看是否有帮助

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1727 天前的主题，其中的信息可能已经有所发展或是发生改变。

为公司帮助处理语料时做了 ltext 这个工具。

基本思路是，把文本和标注（用偏移量表达）封装在一个对象中，对外模拟字符串类型的接口做各种文本操作，比如 replace 和 strip 等方法。在这些方法执行时，改动文本同时操作偏移量。

请各位看看这个情景多不多，封装是不是恰当？

或者还需要增加什么功能。目前只实现了 replace、re_replace 两个方法。

偏移量

Replace

语料

文本

1 条回复 • 2019-08-05 10:31:09 +08:00

nthhdy

2019-08-05 10:31:09 +08:00

觉得没说清楚，补充一些

情景是，有一批文本，先用算法预标注，再给人工改标注。人工需要知道每条文本的来源和种类，这就要把这些信息和文本拼在一起，最后再转化回原始文本。加信息和转化回原文本，都有随着文本一起改动标签的需求。

最近这个项目枯萎了。工具到这个程度，它适用的范围也不能小规模论证了。所以想请 nlp 专业人士和爱好者们一起打磨这个想法。