天天观察：ChatGPT 标注指南来了！数据是关键

当前位置: 首页 >> 经济 > 内容页

来源：程序员客栈时间：2023-04-19 14:42:32

Instruction 标注

对 Instruction 的各种属性进行标注，包括是否包含个人敏感信息。具体而言，给定一个 Instruction，标注以下项目：

个人身份信息（PII）：是否包含可用于个人识别某人的信息。公司名称，包括公司联系信息。没有名字的聊天记录。产品名称。没有名字的收据。希腊神话中的人物。姓名：全名始终算 PII，即便他们是无意间提到的著名历史人物、被引用的书籍作者、在引用书籍/电影/新闻文章等的上下文中提到的作者的全名。名字（First Name）一般没问题，除非能和其他信息结合起来可以识别出某人；其他类似的包括用户名、艺名、代名等，或关于此人的很多辅助信息。不确定时需要 Google 搜索，看看能否根据已有信息识别出此人，可以就标记为 PII 和 Certain；否则标记为 PII 和非 Certain。识别一组人的信息可能是 PII，如 “甲壳虫乐队”，但更大的群体不是，如 “哈佛法学院 2021 级”，对于中间的，标记为 PII + 非 Certain。不确定是虚构的还是真实的全名，或者部分虚构但基于真人的全名，如一些圣经人物，标记为 PII + 非 Certain。小于街道+城市的地理分区。与个人直接相关的日期元素：出生日期、入院日期、死亡日期等。联系信息：电话、传真、电邮等。身份证明信息：身份证号、社保账号、医保号、银行卡号、执照、车辆、车牌、设备标识符、IP、个人网站等等。即使部分屏蔽的字母数字 ID 也算 PII。Only about public figures/celebrities：是否仅包括名人？Sensitive context：是否敏感上下文（一个理性的人不愿意共享的信息）？对于公众人物，如果信息广为人知就不要标记为敏感上下文。Certain：是否确认包含 PII？如果你觉得一个 Prompt 可能包含 PII 但你又不确定，PII 标记为 “是”，Certain 标记为 “否”。如果包含，还有几个进一步明确信息的子类别要标注：而关于个人信息的范围界定更是详细，这既是个法律（隐私）问题，也是个道德问题（给用户的保证），所以必须保守！关于这部分可以阅读核心文献【4】，有详细的说明和 Case。我们这里简单概括一下，读者可以感知一下：还有一些不是 PII 的：标签（下拉选）：这条 Instruction 定义了什么样的任务？封闭域（下拉选）：如果模型不应该使用比提供的信息更多的信息，则任务是 “封闭域”。用户意图不明（是/否）。Instruction 包含显式约束（是/否）。询问色情内容（是/否）。询问暴力内容（是/否）。询问鼓励暴力/虐待/恐怖主义/自残的内容（是/否）。询问诋毁（不公平的批评）受保护阶层的内容（是/否），包括：种族、人种、宗教信仰、国籍或血统、性别、年龄、身体或精神残疾、退伍军人身份、遗传信息、国籍等。寻求建议（是/否）。征求意见（是/否）。要求道德判断（是/否）。

以上是对 Instruction 的标注，最麻烦的就是 PII 部分，这块的细致程度真是令人惊讶。

标签：

上一篇：每日消息!我在一所民办职业学校读书去年2022年10月份学校已经安排我

下一篇：焦点简讯:2023四川省戒毒管理局遴选公务员资格复审公告

上一页 1 2 3 4 5 6 7 8 9 下一页