GPT 是如何学习高质量中文语料的呢？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是一个创建于 188 天前的主题，其中的信息可能已经有所发展或是发生改变。

首先请原谅我小白的提问。

简体中文互联网的内容这些年越来越封闭，许多都只存在于 app 内部，网络很难检索到。
那么 GPT 是怎么学习一些高质量且比较新的简中语料的呢？

9 条回复 • 2023-11-28 21:35:23 +08:00

naminokoe

188 天前

v2ex 就是能检索到的，难道 V2EX 上的语料不是高质量的吗？

James2099

188 天前

爬取互联网内容,加上合作伙伴的数据，中文压根没有很多优质的的高质量数据，学术论文都在国外，国外 ai 没爆发之前，推特，国外的贴吧都好爬，现在都做了反扒，加高收费接口

James2099

188 天前

现在很多网站直接屏蔽 openai 的爬虫机器人

James2099

188 天前

还有就是用户输入的数据，别国内大厂的开发，产品策划，行政，jc,各大高校的学生，老师主动输入的数据

James2099

188 天前

你能想到的国内的职业，无论各行各业，都有人用，他们自己主动上传的

James2099

188 天前

不过 openai 会做脱敏处理保护隐私

Liftman

187 天前

所以 gpt 的中文文案能力一直起不来。。。而且中文文字的含义过于复杂了。。本身他对单个字的使用就比较拉胯。。。

dence

187 天前 via Android

你知道世界上藏书量最大的图书馆（也含大量中文书籍）是盗版图书馆吗

dence

187 天前 via Android

而且 chatgpt 的回答，不同语言之间的数据并不是孤立的，也就是你问他中文问题，他背后可能调用的是英文数据集，只不过以中文呈现给了你而已