天天观察：ChatGPT 标注指南来了！数据是关键

当前位置: 首页 >> 经济 > 内容页

来源：程序员客栈时间：2023-04-19 14:42:32

Datawhale干货

(资料图)

作者：太子长琴，算法工程师，Datawhale成员

前言

ChatGPT 刚刚出来时，业内人士一致认为高质量的数据是一个非常关键的因素。且不论这个结论在 ChatGPT 这里是否正确，但高质量的数据对模型大有裨益却是公认的。而且，我们也可以从公开的 InstructGPT 标注指南中对此窥探一二。

本文主要就围绕这份指南进行介绍，主要包括以下几个方面内容：

我们首先会简单介绍 ChatGPT 训练过程中的几个涉及到标注的任务，清楚了任务才能更好地了解标注。然后从宏观角度统领几个方面的设计，包括数据、人员、规范等。标注数据：包括数据收集、数据分析、数据预处理等。标注人员：包括人员筛选、人员特征、满意度调查等。标注规范：包括关键指标、标注方法细则、标注示例、FAQ 等。多想一点：主要是个人的一些补充和思考。总体介绍

根据 ChatGPT 博客（相关文献【1】）的介绍，主要是前两个步骤需要标注数据：第一步的有监督微调 SFT（supervised fine-tuning）和第二步的 RM（Reward Model）。

第一步需要对样本中的 Prompt 编写人工答案，这是高度人工参与过程，而且对标注人员要求很高；

第二步则是对模型给出的多个（4-9 个）输出进行排序，这个对标注人员要求稍微没那么高，但其实也得熟悉一整套标准，否则很容易排出与预期不一致的结果。另外需要注意的是，会从 K 个中取出 2 个的所有组合作为训练数据。

我们再来考虑整体的设计。首先是数据。一般考虑如下一些问题：

数据来源：数据从哪里来，是否需要实时在线更新，如果需要应该如何更新等。数据分析：根据需要对数据进行相应的统计分析，一般就是简单的统计描述，但也有可能进一步探索其中包含的业务逻辑。数据预处理：根据需要对数据进行预处理，比如文本清理、文本过滤、归一化等。

接下来是标注人员。最关键的是让所有标注人员明白标注标准，这是保证数据质量的关键，其中少不了细致的规范、严格的筛选和进一步的培训。一般考虑以下几个问题：

人员筛选：这在需要大量标注人员时尤其明显。人员特征：InstructGPT 对标注人员的各类特征进行了统计，这项工作确实比较少见。满意度调查：InstructGPT 开展的工作，也比较少见。

标注规范，本文的核心，主要介绍：

关键指标：因为其中涉及到「比较」，因此怎么比是个核心问题。标注方法：针对不同任务具体的标注流程。标注示例：针对每个方法给出适当的示例。

最后是关于个人对标注工作的一些思考，有些补充内容会夹杂在上面的内容中，不过这部分我们会统一做下总结。

标注数据

数据来源主要包括两个：OpenAI API 提交的 Prompt 和标注人员编写的 Prompt。API 的数据主要来自 Playground【相关文献2】，因为在用户每次切换到 InstructGPT 模型时，都会弹出一条警告信息，指出这些模型的 Prompt 会被用于训练新版本。没有使用正式产品中 API 的数据，这应该是出于客户隐私和相关法律的考虑。

标签：

上一篇：每日消息!我在一所民办职业学校读书去年2022年10月份学校已经安排我

下一篇：焦点简讯:2023四川省戒毒管理局遴选公务员资格复审公告

上一页 1 2 3 4 5 6 7 8 9 下一页