天天观察：ChatGPT 标注指南来了！数据是关键

当前位置: 首页 >> 经济 > 内容页

来源：程序员客栈时间：2023-04-19 14:42:32

平均而言，头脑风暴和开放式 QA 的 Prompt 比较短，对话、摘要相对较长。

注意，这里是 SFT 的数据集（需要 Prompt+答案）。12845+1533（上表） == 11295+1430+1550+103（Table6 SFT 数据集）。

小结

上面对数据情况进行了介绍，总的来说并不复杂（可能会比较麻烦）。不过有两点我们需要特别再说明一下：

从用户处获取的数据可能并不能直接当做训练语料，需要针对自己的任务进行梳理和二次处理。数据的安全和隐私务必要放在心上，从收集到应用，都应该征得用户同意，并对包含个人敏感信息的数据进行过滤。

这里没有涉及到的是实时更新，当然主要是指模型的实时更新，不过这需要数据的实时更新。ChatGPT 这个超大的模型可能暂时不需要，但我们在实际工作中很多模型（尤其是推荐）是小时或分钟级别更新的。对这种情况，应该在一开始设计的时候将这部分流程考虑进去。这部分更多是设计和工程问题，比如数据怎么更新，存储在哪里，如何获取，是否需要转换，是否需要定时清理，伸缩性，可用性等多个方面。

标注人员

数据质量是模型效果的关键，标注人员又是数据质量的保证。尤其是在目前流行的众包模式下，标注人员水平参差不齐，如何过滤、筛选标注人员也是一项重要的工作。当然，对于不同的任务，需要的标注人员不完全一样，所以首先要根据自己的任务确定一个目标。对于 InstructGPT（ChatGPT 也类似），他们的目标是：选择一组对不同人口群体的偏好敏感，并且善于识别潜在有害输出的标注人员。

下面我们来看具体的筛选标准：

对敏感言论标注的一致性。这里的敏感言论主要指会引起强烈负面感觉的任何言论，比如有毒害的、色情、暴力、歧视、政治等。研究人员先对一批 Prompt 和 Completion 进行标注（其中一些是敏感的），然后评估标注人员的标注结果与研究人员结果的一致性。对排序的一致性。和上一个方法一样，使用 API 提交的 Prompt，并给出几个模型的 Completion，然后让标注人员根据整体质量对其进行排序，并评估与研究人员排序结果的一致性。敏感 Prompted 答案撰写。创建一组敏感 Prompt，适当地响应输出需要一些细微差别或微妙之处。换句话说，要适当地回应需要仔细考虑，并不是那么显而易见或直接了当。然后用 1-7 Likert 量表【相关文献4，对陈述的认同程度】对每个答案进行评级，并计算每个标注人员的平均分数。自我评估识别不同群体敏感言论的能力。因为希望标注人员能够识别广泛领域的敏感内容，但由于法律原因不能根据人员统计特征进行过滤，因此通过问以下问题：「对于哪些主题或文化群体，您可以轻松地识别敏感言论？」作为筛选过程的一部分。

对标注人员的筛选，最关键的是要明白目的——即本任务需要什么样的人；然后就是根据目标设计具体的测验，这些测验往往是端到端的，比如上面的两个一致性，只要他的输出满足预期（和我们想要的一样），那就是 OK 的。

标签：

上一篇：每日消息!我在一所民办职业学校读书去年2022年10月份学校已经安排我

下一篇：焦点简讯:2023四川省戒毒管理局遴选公务员资格复审公告

上一页 1 2 3 4 5 6 7 8 9 下一页