利用语言模型挖掘人类偏好 [译]
Belinda Z. Li 麻省理工学院计算机科学与人工智能实验室
&Alex Tamkin∗ Anthropic
&Noah Goodman 斯坦福大学
&Jacob Andreas 麻省理工学院计算机科学与人工智能实验室
作者平等贡献。作者排名通过抛硬币的方式决定。研究工作是在斯坦福大学进行的。
摘要
语言模型(LMs)能够通过标注好的示例或者自然语言的提示来指引完成特定任务。但是,找到合适的示例或者编写有效的提示可能非常具有挑战性,特别是在那些涉及到不常见的边缘情况、需要准确表达模糊偏好,或者要求对语言模型行为有精确认识的任务中。我们提出了一种思路:利用语言模型自身来引导任务设定的过程。
在本篇文章中,我们引入了一种叫做生成式主动任务探询(gate)的学习框架,通过这个框架,模型能够通过自由形式的、基于语言的互动来挖掘并理解用户真正想要的行为。我们在三个不同的领域对 gate 进行了研究,包括电子邮件验证、内容推荐和道德推理。在事先设定的实验中,我们发现,当语言模型被设置为执行 gate(比如,通过提出开放式问题或构建信息丰富的边缘情况)时,它们能够挖掘出的信息往往比用户自己编写的提示或标签要丰富得多。用户反馈,与编写提示或标注示例相比,交互式任务探询更加省力,并且能够帮助他们意识到一些最初没有想到的新观点。我们的研究结果显示,由语言模型驱动的探询方法,是一种在处理复杂人类偏好和价值观对齐问题上,极具潜力的工具。
代码已经开源,你可以在这里找到: https://github.com/alextamkin/generative-elicitation。
图 1:生成式主动任务探询(gate)通过互动式、自由形式的问题挖掘用户的偏好,并利用这些偏好进行后续的决策制定。它能够深入挖掘人类偏好的细微之处,相比于完全依赖用户来表达自己偏好的非交互式探询方法(如通过提示)或主动学习方法更为高效。这幅图包含三个部分:(A)模糊的用户偏好:用户希望把自己对任务执行方式模糊不清的偏好转化为机器学习模型的明确规范,这是一个颇具挑战的任务,因为用户对自己的偏好认识不够清晰,有时候很难用语言准确描述,规范需要考虑到实际操作中可能遇到的各种边缘情况,而且模型可能会错误地从给定的示例或指令中进行推广。(B)任务探询:我们探讨了多种从用户那里获取这些模糊偏好的方法,包括非交互式的提示、主动学习和生成式探询(gate)。(C)评估:我们在一个保留的测试集上对这些方法进行了评估,根据语言模型预测用户实际决策的准确度来给出评分。
1 引言
人的喜好错综复杂,要在机器学习系统中准确表示它们可不是一件容易的事。以推荐歌曲或网站为例,我们首先得建立一个模型,详细描述可能影响用户选择的各种因素;接着,用户还得用机器能理解的方式告诉系统他们的喜好,好让系统日后能给出合适的推荐。这两步都需要用户和开发者付出不少心思,并且不断优化调整。以前,机器学习主要是通过示例来设定喜好:用户标记一些样本数据来展示他们想要的结果,然后在这些数据上训练机器学习模型。这个方法在诸如图像分类、问题解答等多种任务上都有广泛应用(参见 Krizhevsky et al., 2012 和 Devlin et al., 2019)。但近年来,随着指令跟随方法的兴起(见 Brown et al., 2020a),情况发生了变化。通过在大量文本上预训练语言模型(LMs),我们现在可以仅通过自然语言的任务描述来引导机器行为,这适用于从代码生成到文本摘要等多种场景。
但是,这一进步也使得前面提到的挑战更加突出:为了克服自然语言的模糊性,避免模型因提示或示例中的误导信息而作出错误推断,我们需要更精细的提示设计和数据集构建。比如,一个说喜欢看网球文章的用户,可能对职业网球比赛感兴趣,也可能只是想提高自己的发球技术。仅凭几篇与网球相关的文章示例,可能不足以判断他对更广泛的网球内容(如关于网球的幽默文章)是否感兴趣。随着我们将模型应用到更开放、风险更高的任务中,这种任务模糊性的问题(参见 Finn et al., 2018 和 Tamkin et al., 2022a)变得更加严重。
为了解决这些问题,我们提出利用模型本身来帮助将人类的偏好转化为自动化的决策系统。在这篇文章中,我们介绍了一种名为生成式主动任务引导(gate)的学习框架。通过这种框架,模型通过开放式互动来引导和推断用户的喜好。我们展示了如何利用预训练的语言模型(LMs)来进行 gate,比如通过提出开放式的问题或为用户生成极端案例进行标注。我们在三个领域对这些方法进行了测试:电子邮件验证、内容推荐和道德推理,并发现使用 LM 进行任务引导通常能获得比现有提示或主动学习技术更准确的模型,同时对用户的认知负担相当或更低,并能引入一些新的思考角度。
总的来说,这篇文章为我们提供了一个新的学习框架(gate)、一系列基于预训练语言模型的 gate 方法,以及这些方法优于现有方法的实验证据。我们的研究结果表明,基于语言的互动任务引导是构建个性化模型的一种灵活且强大的工具,能够克服传统基于示例和提示方法中的许多挑战。
2 将学习视为任务引导
2.1 任务激发框架
在这篇文章中,我们探讨了如何更高效地训练机器学习模型来完成我们感兴趣的特定任务。我们把“任务”定义为一个将输入 x 转换为输出 y 的函数 f:x↦y。举个例子,如果我们正在建立一个个人化的网站推荐系统,其中 x 是网站,y 是用户对这些网站的喜好评分。因为每个用户的兴趣都不尽相同,所以每个人都会有一个与众不同的任务,例如“为 Pat 推荐内容”和“为 Avery 推荐内容”,这些都是内容推荐领域中的不同任务(参见 Ziegler et al.,2020)。为了建立这样的模型,我们需要从用户那里获取一些关于任务的详细信息(例如,用户对哪些网站感兴趣)。目前的学习方法能够处理各种不同类型的任务描述,包括标注的示例集、自然语言指令或这两者的结合。问题是,哪种类型的任务描述更合适呢?理想情况下,我们希望这些描述既方便用户创建,又能为学习算法提供足够的信息,以便准确地模拟用户的喜好。从更抽象的层面上来说,我们寻求一个框架,可以优化以下目标,以便更有效地从用户获取任务描述并从中学习:
α⋅ 任务描述成本 + β⋅ 人机一致性 | (1) |
其中,任务描述成本涉及用户投入的时间和精力,人机一致性衡量模型输出与用户期望输出之间的一致程度,α 和 β 用于在这两者之间做出权衡。具体来说,让 Hf 表示一个用户及其喜好,我们希望设计一个激发策略 E,与 Hf 互动,生成任务描述 s。这个描述随后可以被用作学习算法的输入,以产生模型 ^f(s)。用 C(⋅) 来表示任务描述成本,A(⋅,⋅) 来表示两个模型之间一致性的度量,我们的目标是最小化整个用户群体的期望值:
(2) |
其中,C 可以是用户为创建任务描述而键入的单词数量,A 可以是在某个群体中对单个预测的模型一致性的度量,例如 。一般来说,C 和 A 的具体定义取决于应用领域。在本文中,我们的实验主要比较了在相同成本下不同模型的一致性。我们将在 第 5 节 中更详细地讨论成本、一致性及其权衡。
2.2 任务激发框架下的现有学习范式
图 2:任务激发的变异轴。
在我们之前描述的框架内,可以对几种现有的学习和任务描述方法进行分类。这些方法在两个主要方面有所不同,如图 2 所示:它们的交互性和灵活性。在交互式激发方法中,根据用户的反馈可以调整查询;而在被动激发方法中,用户一次性提供所有信息。基于示例的描述方法要求用户标注一组示例;而自由形式的激发方法则对用户输入的形式有更少的限制,允许包括自然语言指令和解释在内的多种输入形式。
==== 在意译部分,我尽量用更通俗易懂的语言表达了原文的含义,并对一些概念进行了简化和解释,以便更好地理解文本的内容。
监督学习:靠示例学习,不主动提问
在最常见的监督学习场景中,系统会让用户提供一系列已经打好标签的示例,如“这是猫”、“这是狗”,然后通过标准算法来训练或调整模型,从而让它学会识别。这个过程叫做“基于示例”的学习,因为我们通过示例来告诉系统应该怎么做。但这个过程也是“被动”的,系统并不会主动向用户询问更多信息来改进学习效果。
主动学习:通过提问学习,也靠示例
在主动学习这种方法中,系统会更加“主动”。首先,用户会给系统一堆还没贴标签的数据,然后系统会从中挑选一个它认为学习这个最有帮助的示例,请用户给这个示例贴标签。贴好标签后,系统再挑下一个最有帮助的,如此反复(参见 Cohn et al., 1994;Dagan & Engelson, 1995;Lewis & Gale, 1994;Settles, 2009)。最终,系统还是像在监督学习中一样进行训练。其实,最优实验设计方法(参见 Emery & Nenarokomov, 1998)也是这个思路的一种扩展,只是在这里数据是自己生成的,而不是从用户给的数据池里挑选。这种“交互”过程让系统能够主动提问,以解决任务描述中可能存在的不确定性或模糊之处(参见 Tamkin et al., 2022b)。
提示法:靠描述学习,不主动提问
现代预训练模型提供了一种更灵活的方式来告诉系统我们想要它做什么。我们可以用自然语言给出一个“提示”,比如“把这段文字翻译成中文”,然后让模型根据这个提示来完成任务。这个过程跟监督学习中的“示例学习”一样,都是“被动”的,系统不会主动向用户提问来改进学习效果。但这个过程比“示例学习”更灵活,因为我们不仅可以用文字,还可以用图片或者二者的组合来给出提示(参见 Brown et al., 2020b;Alayrac et al., 2022)。
3 生成式主动任务引导
上面提到的所有方法都有各自的局限性。它们通常都要求用户提供非常全面和清晰的任务描述,因为任何描述上的不清晰都可能导致系统在实际使用时表现不佳。而且,想要提供这样完美的任务描述并不容易,特别是当任务涉及个人偏好或者需要预见到所有可能的使用情况时(参见 Tamkin et al., 2022a)。
但有一个方法可能能够解决这个问题:它结合了提示法的灵活性和主动学习的互动性。我们称这种方法为“生成式主动任务引导”(gate)。它允许系统在任务执行过程中与用户互动,主动询问用户以获得更丰富、更准确的任务描述。
3.1 门控方法
通过语言模型(LMs),我们能够理解和创造自由形式的文本,这暗示我们或许能够通过它来了解用户的喜好。在本文中,我们尝试了一系列的门控方法,以 LMs 为基础,既运用于提问策略 E,也运用于预测器 。33 但我们要强调,这套方法并不仅限于语言模型或自然语言处理,同样可以应用在处理图片、语音或是多模态模型等其他领域。具体实例可参见 图 1。我们通过让 LMs 根据之前的问答历史来提问,来实现提问策略 E。为了做出预测 ,我们让 LMs 根据输入 x 和一个完整的提问记录 s 来预测标签。我们尝试了几种不同的信息搜集策略,通过简单地引导 LMs 提出不同种类的问题来实现:
生成式主动学习
在这种方法中,LMs 生成示例输入让用户进行标注。这种方法的优势在于它为用户提供了具体的场景,甚至是他们之前没有考虑过的场景。例如,在内容推荐的场景下,LMs 可能会生成这样一篇文章:“你对以下文章感兴趣吗?《融合饮食的艺术:混合文化和口味》………”。
生成是非题
在这种方法中,我们限制 LMs 只生成是非题。这种方法使得模型能够引出更抽象的用户喜好,同时保持问题易于回答。例如,模型可能会问:“你喜欢阅读有关健康和保健的文章吗?”
生成开放式问题
在这种方法中,LMs 生成开放式问题,需要用户用自然语言进行回答。这使得 LMs 能够引出最广泛、最抽象的信息,但可能会导致问题太过宽泛或对用户来说回答起来较为困难。例如,LMs 可能会问:“你业余时间喜欢什么爱好或活动………,为什么这些爱好或活动吸引你?”
在所有这些情景中,用户在回答时没有任何限制,可以根据自己的意愿提供尽可能详细的信息。我们为每种策略提供了实际引出记录的示例,详见 图 5。
4 实验设置
我们选取了三个不同领域的任务来验证我们生成式主动任务引出方法的有效性。这些领域的共同特点是它们在 LMs 预训练阶段无法学到一个固定的正确行为;相反,模型必须通过引出用户的个人喜好来做出准确的预测。我们允许每位用户与引出策略 E 进行为期五分钟的开放式互动。接着,用户和学习到的模型 ^f(s) 将独立地对一组预留的示例进行标注。最终,我们通过比较用户和学习到的预测器之间的一致性来评估模型的性能。具体实例和对话示例可参见 图 5。44 我们的实验设计和分析预先注册在这个链接:https://osf.io/5v6nd/。
4.1 领域和数据集
内容推荐
在这个领域中,我们关注在线文章推荐,用户的喜好差异很大。我们通过评估模型预测用户是否愿意阅读给定文章的能力来评价模型性能。测试用例来自作者收集的流行在线报刊文章,每个测试用例都附有网站名称、文章标题和简短描述。
道德推理
道德偏好差异巨大,深受个人和文化影响。为了引出用户的道德价值观,我们选用了一个关于何时(如果有的话)偷一条面包是否道义可接受的问题作为测试题。在评估过程中,模型将根据文本描述的情境来预测用户是否认为在该情境下偷面包是合适的。这些测试用例由作者手动构建。
邮箱验证问题
最后,我们来谈谈如何在软件工程任务中确定和提出需求。特别在软件工程领域,这个过程充满了挑战,因为开发者们需要提前考虑和处理各种可能出现的特殊情况。在这个环节中,我们主要关注的是如何为电子邮件地址的验证制定准确的需求。不同的人对电子邮件的长度、子域的数量,以及哪些特殊字符的使用都有各自的喜好和要求。因此,我们通过比较模型判断一组特定电子邮件有效性的结果与用户的判断是否一致来评估这些模型的性能。值得注意的是,这组用于测试的电子邮件地址是由文章的作者亲自挑选和整理的。
4.2 人机互动
在这些实验中,我们邀请了 Prolific 平台上的英语用户参与。对于电子邮件验证的任务,我们还特别邀请了美国几所大学计算机科学专业的学生参加。在 6 种不同引导方法和 3 个不同领域的每一个组合中,我们都招募了 20 到 30 名参与者,共计 388 名参与者。平均每小时支付给参与者的酬劳为 12 美元。我们的实验已经通过了机构审查委员会的批准。各个场景和方法中参与者的具体分配情况可以在 Section B.1 查看,而实验使用的用户界面的详细信息则可以在 Section B.2 中找到。
4.3 模型详解
在这里,我们利用 GPT-4 模型(版本为 gpt-4-0613)(由 OpenAI 提供,详情见 2023)来完成两个任务:一是引导用户表达他们的需求和偏好(即引导策略 E),二是根据这些需求和偏好来做出预测(即预测器 ^f(s))。在引导用户的过程中,我们会向 GPT-4 提供领域的描述和之前的互动记录,让它生成一个信息丰富且易于回答的问题或边缘情况。而在做出预测时,我们则会向 GPT-4 提供任务的具体规范和一个测试样本,让它根据这些信息给出预测结果。所有用到的提示信息的完整文本都可以在 Appendix A 中找到。
4.4 基准方法对比
在这个部分,我们将 GPT-4 引导的方法和其他几种常见的任务指定方法进行了对比。不同于 GPT-4 引导策略,这些方法不依赖于语言模型,而是直接由用户或一些示例构建的。
监督学习
在这里,我们将监督学习作为一种基准方法进行了讨论。正如 Section 2.2 所述,我们随机向参与者展示一大堆示例,并要求他们在规定时间内对这些示例进行标注。这种方法我们主要应用在内容推荐这一领域,因为在其他领域我们没有现成的示例可用。在这个领域,我们使用的示例池是 Microsoft News Dataset(由 Wu et al. 在 2020 年发布),它包含了 160,000 篇新闻文章及其描述。
基于样本池的主动学习
在我们考虑的主动学习方法中,有一种基本的方法叫做基于样本池的主动学习,就像第 2.2 节描述的那样。在选择样本的策略上,我们采用了 Margatina 等人在2023年提出的基于多样性的抽样方法;具体操作是,我们先用 Sentence-BERT 嵌入模型(由 Reimers & Gurevych 在2019年提出)将样本进行聚类,分成 15 个不同的群组,然后采用轮询的方式,在群组间轮流提问,直到达到设定的时间限制。Margatina 等人在2023年的研究中试验了几种不同的主动学习抽样方法用于上下文学习(包括随机抽样、不确定性抽样和多样性抽样),发现它们在实际性能上几乎没有差异。我们在自己的领域里也做了一些实验,结果也证实了这三种抽样策略之间没有显著的差异,详见附录 D。这种基线方法的目的是为了展示在大量未标注样本中挑选有价值样本的难度,相较于从零开始生成有价值样本的难度。与监督学习相同,我们这里主要研究的应用场景是内容推荐领域。
用户自己编写的提示
另一种不依赖交互式提问的基线方法是,我们让参与者自己写一个短段落,来描述他们在任务中的偏好。接着我们用这段文字来引导模型做决策。这个方法主要是为了展示用书面语言表达个人偏好的难度,不仅包括写作本身的难度,还包括如何准确无误地表达个人的偏好。
4.5 评价和评估指标
我们评估的主要是模型预测用户如何回答问题的概率的能力。具体来说,我们引导模型输出一个实数,表示用户回答“yes”的概率,而不是简单的“yes/no”回答。为了达到这一点,我们将交互历史作为单独的测试案例输入模型,然后让模型预测用户对这个测试案例回答“yes”的概率。这个概率值会以 0.0 到 1.0 之间的数字形式输出,这与过去的一些研究(如 Branwen 在2020年的工作,以及 Lin et al. 在2022年的研究)是相似的。虽然还有其他方法可以利用这些模型来做预测,但我们发现它们在很多方面都不太理想。首先,我们试过直接让语言模型预测“yes/no”答案,但结果显示预测很不均衡,模型倾向于对整个测试集给出“yes”或“no”的答案,这可能是因为模型内在决策阈值设定不当。其次,我们发现当在对数空间生成置信度值时,模型的可靠性通常较低。最后,我们不能直接从 GPT-4 获取 token 概率。我们在第 C.1 节中还讨论和报告了一种基于分类的评估指标。根据这些预测概率,我们进行了相应的计算。
时间下正确率曲线的面积
我们定义模型对用户偏好答案的确认概率为 p(correct)(详见 4.5 节)。打个比方,如果模型对某个问题给出了 0.8 的输出值,那么如果用户对这个问题的回答是“是”,p(correct) 就是 0.8;而如果用户回答“否”,p(correct) 就变成了 0.2。我们选择这个指标而非准确度,是因为有时候要准确猜测用户的喜好并不总是可行的,而且能够模拟这种不确定性非常重要。
不过,我们关心的不仅是获得的总信息量,还有我们获取有用信息的速度。为此,我们计算了每经过一分钟人工提问时间后 p(correct) 的平均变化量(这是基于当时对话内容的状态)。这会生成一条曲线,其 x 轴代表时间,y 轴代表 p(correct) 的平均变化量。这条曲线下的面积就是我们考虑的第二个衡量标准。需要注意的是,因为我们从语言模型 API 的响应时间里扣除了延迟时间,每条 p(correct) 曲线的最后一个数据点可能不会达到 5 分钟。为了补偿这一点,在计算面积之前,我们将最后一个准确度数据点延伸到 5 分钟的位置。
根据不同提问策略评估感知到的努力度
除了基于性能的衡量指标外,我们还让用户评价他们感觉到的提问过程的难度。
具体而言,在非互动式提问设置下,我们问用户“写答案的过程中你感到了多大的心理负担?”;而在所有提问设置下,我们都询问“与聊天机器人互动时你感到了多大的心理负担?”(包括 2.2 节 中提到的所有其他设置)。这里的“心理负担”一词源自 NASA TLX 方法(Hart & Staveland,1988)。我们利用 1(非常小)到 7(非常大)的 Likert 量表来评估这个问题。我们还考虑了其他一些问题来评估在使用上的其他权衡。完整的问题列表见 附录 E。
5 结果分析
我们在 图 4 和 图 3 中展示了评估的结果,更多详细结果请参见 附录 C。结果表明门控方法…
…成功地引出了人类的偏好。总的来说,门控在没有用户互动的情况下优于直接做决策的模型。这一点在所有研究的领域中都得到了验证(图 3 中的正分数),只有在电子邮件领域,生成式主动学习才表现出显著性。
…与其他引出方法相比表现相当或更好。在大多数情况下(6/10 的绝对值,7/10 的 AUC),门控方法优于用户自行编写的提示。特别是生成式是/否问题在所有设置中都优于用户编写的提示,尽管在道德推理领域我们无法评估显著性。此外,在内容推荐设置中,门控方法(特别是生成式开放式问题)显著优于监督学习和基于池的主动学习。
…在心理负担上等同或低于用户编写的提示。如 图 4(左)所示,用户通常认为交互式引出方法的心理负担更低,特别是那些涉及标记样本或回答是/否问题的方法。
图 3:在三个领域中,我们的 GATE 方法通常能够超越基线方法(监督学习、主动学习或人类编写的提示),更好地引出人类的偏好。我们使用“Δp(正确)vs. 交互时间”曲线下的面积作为一个时间标准化的指标来评估每种引出方法对齐人类偏好的效果和速度。虽然 GATE 方法通常优于基线方法和无交互情况(用 Δp(正确)= 0 表示),但我们只在内容推荐和电子邮件验证领域中确立了 GATE 与基线之间的统计显著性。
5.1 样本对话记录
用户与各种生成式主动任务引出方法交互的样本对话记录见 图 5。
5.2 附加分析
在这一部分,我们进行了一些额外的分析,以更深入地了解实验结果。
人们的偏好差异有多大?
只有当人们的偏好存在差异时,引出才有帮助。否则,模型完全可以依赖其先验知识,忽略引出的信息就能达到最佳性能。为了量化人们偏好的差异大小,我们计算了每个问题在不同参与者之间的 p(是)的熵值。我们发现有些问题的熵值很高,而有些问题的熵值很低,平均熵值为 0.77 比特。这一结果表明我们的实验设置中确实存在着人类偏好的显著差异,这使得模型有可能根据人类的偏好进行个性化调整。
图 4:左图显示门控方法在心理负担上等同或低于其他方法,右图显示语言模型引出不会改变人类偏好。我们可以看到,无论是在交互式方法下的心理负担,还是在有无语言模型交互下人类偏好的一致性方面,门控方法都表现出色。
语言模型是不是能影响我们的选择喜好?
我们在与语言模型互动的过程中,喜好有时会不自觉地发生变化。比如有研究指出,机器学习模型可能会潜移默化地改变我们的行为,使其更容易被预测(参见 Krueger 等人于 2020 年的研究 20)。在我们的实验中,我们就探究了这一现象是否存在,也就是说,我们想看看不同的激发方法是否会让人们有不同的喜好。通过比较三种 gate 方法和用户自己编写的提示在测试样本上得到的人类标签的分布,我们发现与语言模型的互动似乎并没有改变用户随后的判断(参见图 4右侧)。
语言模型都问了哪些问题?
我们在图 5中展示了一些语言模型提出的问题的例子。从图中可以看出,这些问题并不简单,往往是基于前面的问题进一步提出的,展现了对所探讨领域的深刻理解和对可能存在细微差异的把握。
在电子邮件领域,为什么自己写提示反而效果更差?
在图 3所展示的电子邮件领域中,我们发现用户自己写的提示相对于不给提示的情况下,效果反而有所下降。虽然这可能只是随机误差造成的,但我们还是发现了一些有趣的现象,比如有些参与者表达的喜好和他们在实际操作中表现出来的喜好并不一致。举个例子,有位用户最初认为“电子邮件地址应该以 .com 或 .co.uk 结尾”,但后来却认为“example@domain.com”这样的地址也是可以接受的。这说明人们可能对自己的喜好并没有一个清晰且全面的认识,尤其是在一些技术性较强的领域。
我们能够实现自动评估吗?
为了探索是否能够通过机器来自动评估人的喜好,我们进行了一系列实验。我们利用语言模型模拟了各种不同的人类喜好,这些喜好是通过一组多样化的(并且是自动生成的)人物角色来引导的。这些人物角色覆盖了不同领域,基本上包含了一个虚构人物在某个领域内的喜好信息。以内容推荐领域为例,我们为一些虚构的人物创建了简短的生活背景,包括他们的兴趣爱好和职业等,然后根据这些信息引导 GPT-4 生成回答。结果显示,在内容推荐和电子邮件验证领域,模型表现得相当不错,能够较好地模拟人类的行为;但在道德推理这一领域,模型就显得力不从心了。这表明,虽然在某些情况下,这些虚构的人物角色可以作为引导,但它们还不能完全替代真实的人类参与者。详细信息可以参考附录 D。
图 5:展示了我们研究的不同领域和激发方法中的实际对话片段。图中,系统发出的消息是由语言模型生成的,用户的消息则是由参与实验的人类产生的。总的来看,模型能够根据不同的情境,提出多样且恰到好处的问题。关于这些领域和方法的更多详情,请参阅第 3.1 节和第 4.1 节。
6 其他相关研究
6.1 探寻个人偏好的描述
在众多领域里,我们面临的一大挑战是如何获取人们对于自己的想法、喜好和目标这些比较模糊的认识。在心理学和认知科学这两个领域,协议分析是一种用来收集和分析受试者关于认知过程的口头反馈的方法,其中就包括了所谓的“边想边说”协议(Ericsson & Simon, 1980; Ericsson, 2017)。在软件可用性的评估中,也采用了类似的方法来了解现有软件的便利之处和存在的局限(Henderson et al., 1995),此外,在设计调查问卷和焦点小组时也会用到这些技术(Malhotra, 2006; Lietz, 2010; Krosnick, 2018; Krueger & Casey, 2002)。但是,要获取高质量的口头反馈并不是一件容易的事,尤其是当用户很难完全理解或预知自己的需求,或者难以用明确无误的语言来表达自己的喜好时(Christel & Kang, 1992; Goguen & Linde, 1993; Coughlan & Macredie, 2002; Zowghi & Coulin, 2005; Pacheco et al., 2018)。在我们的研究中,我们正在探索语言模型是否能够替代人类研究者,从而帮助我们更好地理解人们或其他语言模型的内心世界。
6.2 计算模型与偏好查询
许多研究试图运用计算方式来描述或询问人类的喜好。偏好建模技术探究了人们公开表现出的喜好(参见 Samuelson 在1948年的研究)、直接表述的喜好(参见 Kroes & Sheldon 在1988年的研究),以及经过深思熟虑后完善的喜好(参见 Gutmann & Thompson 在2004年的研究)。搜集偏好的方法广泛应用于各个研究领域,包括联合分析、多标准决策制定、多臂老虎机游戏和对决老虎机游戏、贝叶斯方法、推荐系统、稳健优化、最优实验设计、(合作的)逆强化学习、问题生成以及生成建模等。
特别值得一提的是,我们的工作与主动学习领域的联系非常紧密,这是机器学习中一个专注于如何让模型从有益的数据中学习的重要子领域。传统上,主动学习主要依赖基于池的方法,从一个固定的数据集中选取样本进行标记。最近的研究发现,我们可以利用预训练模型的校准不确定性分数来澄清用户关于任务偏好的疑虑,比如通过选择那些能够明确哪个特征更重要的样本。我们的工作在这一方向上迈出了进一步的步伐,通过生成示例和问题来进一步明确用户的意图。
6.3 任务的模糊不清和不确定性
随着越来越多的研究对机器学习中的任务可能存在的模糊不清和不确定性进行探讨,我们发现这是一个值得关注的问题。特别是,当模型输入(比如自然语言提示或给定的例子)可以对应多个不同的任务时,就会产生任务歧义问题。这种情况下,网络可能学到了我们不希望它学到的输入数据特征和任务标签之间的关联,导致在实际应用中出现不可预测和不期望的行为,甚至可能带来危险的后果。我们在这项工作中发现,语言模型有时能够通过提问来解决这些歧义问题。
7 讨论与总结
我们提出了 GATE 框架,通过自由形式的查询和回答与用户交互,从而引导他们表达自己的偏好。初步的证据表明,语言模型有时能够利用 GATE 框架更准确且更省力地捕捉用户偏好,相比于监督学习、主动学习或基于提示的方法更为有效。
对于 GATE 的实现,未来有许多扩展的可能性,比如探索更原则性的引导方法,利用更大的模型进行引导,或将其应用于更复杂的现实世界任务。然而,这种引导偏好的方法也存在潜在的伦理风险,包括隐私泄露的风险和增加用户对模型预测过分依赖的风险。我们需要进一步的工作来明确这些风险并找到缓解的方法。
注释
- 任务歧义与不明确性:这部分讨论了机器学习模型在面对多种可能的任务时可能出现的模糊不清和不确定性问题,以及这些问题可能导致的后果。
- GATE 框架:GATE 是一个用来引导用户表达自己偏好的框架,它通过自由形式的查询和回答与用户进行交互。
- 伦理考虑:这部分讨论了使用 GATE 框架引导用户偏好可能带来的伦理利益和风险,强调了需要进一步的研究来明确和缓解这些风险。
可复现性
我们计划把在创建 gate 方法、搭建用户界面以及进行结果分析时使用的所有代码开源。同时,我们也会公布我们实验的预先注册信息。在附录中,你可以找到我们在决策和信息提取阶段用来查询 GPT-4 的所有问题及指令。值得注意的是,为了保证实验结果的可复现性,我们在查询 GPT-4 时设置了温度值为 0。
我们还想指出,我们使用的这个模型是闭源的,而且它的不同版本会定期停止使用。这可能会给可复现性带来一些难题,未来我们可能会考虑使用开源模型。
致谢
这项工作是在美国国家科学基金会的资助下进行的,资助编号为 2212310 和 2331117。BZL 的研究工作得到了 NDSEG Fellowship 的资助。在此,我们要感谢 Andi Peng 和 Leshem Choshen 对我们论文初稿的宝贵意见。
附录 A:GATE 提示
A.1 提取提示
在这里,我们列出了我们用来生成各种 gate 方法的信息提取查询的问题,这些查询用于具体化信息提取策略 E。
生成式主动学习
关于生成式主动学习,我们的问题如下。括号中的斜体字是占位符,例如,用于迄今为止的信息提取记录。彩色文字用于表示特定领域的内容,比如蓝色代表内容推荐领域,橙色代表道德推理领域,绿色代表电子邮件验证领域。
你的任务是:【找出用户对在线阅读文章感兴趣的主题。因为人们的兴趣非常广泛,你需要试着从多个主题上了解他们的兴趣,也就是说,要关注广度而不仅仅是深度。不要以为用户已经完全回答了所有问题,所以记得要持续探询他们对不同类型兴趣的看法 | 弄清在什么情况下用户会认为偷一个面包是或不是道德的 | 了解用户认为有效的电子邮件地址格式应该遵守哪些规则,比如为了开发一个正则表达式格式检查器】。
试图找出一个潜在的极端情况,通过这种方式你可以获得尽可能多的信息,以了解他们在不同情境下期望什么样的行为。确保这个极端情况触及到系统的不同方面,而且与之前考虑过的情况不同。
举个例子:【你对下面这篇文章感兴趣吗?网站名称:TechTalkDaily 标题:2023 年必备的 10 款小工具:全面指南 描述:探索将在 2023 年改变你日常生活的前 10 种小工具。从智能家居设备到最新的可穿戴设备,我们为你提供了全面的指南 | 在这种情况下,偷一条面包算道德吗:如果你饿得快死了,而面包又会被浪费 | 你觉得下面这个电子邮件地址应该被接受吗?】
当前情况:【信息提取记录】。
请根据以上信息生成一个最能揭示用户期望行为的极端情况,并且只按照以下格式回答:"【你对下面这篇文章感兴趣吗?[极端情况] | 在这种情况下,偷面包算道德吗?[极端情况] | 你觉得下面这个邮箱地址应该被接受吗?[极端情况]】"
提问生成
以下是生成是非题和开放式问题的指引。再次提醒,括号里的斜体文字是需要你根据实际情况填充的,而不同颜色的文字代表不同的领域。
你的任务有三个方面:第一,[ 探索用户对网络文章感兴趣的主题。人们兴趣多种多样,你应该尽量了解他们在各个领域的兴趣,追求广泛了解而非深入某一领域。不要认为用户已经全面回答了你的所有问题,要不断深入探询不同领域的兴趣 | 第二,探讨在什么情况下用户认为偷窃一条面包是合乎道德的或者是不道德的 | 第三,了解用户认为有效的电子邮件地址应该符合哪些规则(比如,为了开发一个正则表达式格式检查器)]。
参考之前的问题:[ 引导对话记录 ],提出一个最能揭示用户行为和想法的[ 是非题 | 开放式问题 ],超出之前询问的内容。确保你的问题从不同角度探讨实施的方方面面,与已经提出的问题有所区别。但同时,问题应该简洁明了,避免一次性提问过多。确保你的问题对非专业人士来说易于理解,不要使用他们可能不懂的行话。请仅生成[ 是非题 | 开放式问题 ]:
A.2 决策制定提示
给定一段引导对话的记录,我们这样提示语言模型,使其充当预测函数 ^f(s) ,以便对每个测试案例做出决策。
内容推荐
以下是内容推荐的提示。括号内的斜体字是需要你根据实际情况填充的,用于引导对话记录和测试案例样本。
有一个用户,他对想要阅读的文章有着特定的喜好,这些喜好在下面有所体现:[ 引导对话记录 ]。基于这些喜好,你认为这位用户对阅读接下来这篇文章感兴趣吗?请在 0 到 1 之间给出一个概率值,0 代表“完全不感兴趣”,1 代表“非常感兴趣”。请只给出概率值,不要附加其他信息。如果你不确定,那就根据你的直觉做个判断。[ 测试案例样本 ]
道德推理
以下是进行道德推理的提示。同样,括号内的斜体字是需要你根据实际情况填充的。
有一个用户,他有一套自己的道德准则。以下回答反映了这位用户在什么情况下认为偷一条面包是道德的。[ 引导对话记录 ]。“根据这些回答,你认为这位用户会在以下情况下认为偷窃一条面包是合乎道德的吗?请在 0 到 1 之间给出一个概率值,0 代表“完全不是”,1 代表“完全是”。请只给出概率值,不要附加其他信息。如果你不确定,那就根据你的直觉做个判断。[ 测试案例样本 ]
邮箱验证
以下是电子邮箱验证的提示。括号内的斜体字同样是需要你根据实际情况填充的。
有一个用户,他对他认为有效的电子邮箱格式有自己的看法。以下回答反映了这位用户对各种邮箱是否符合他心目中标准的看法。[ 引导对话记录 ]。“根据这位用户的喜好,你认为以下的电子邮箱地址符合他心目中的标准吗?请在 0 到 1 之间给出一个概率值,0 代表“完全不符合”,1 代表“完全符合”。请只给出概率值,不要附加其他信息。如果你不确定,那就根据你的直觉做个判断。[ 测试案例样本 ]
附录 B 实验详情
B.1 参与人数
我们在研究中招募了一些参与者,根据不同的引导方法和领域进行分类,具体数据可以在下表中找到。
内容推荐 | 道德推理 | 电子邮件验证 | 总计 | |
---|---|---|---|---|
监督学习 | 30 人 | - | - | 30 人 |
池化主动学习 | 31 人 | - | - | 31 人 |
提问引导 | 30 人 | 30 人 | 26 人 | 86 人 |
生成式主动学习 | 30 人 | 30 人 | 20 人 | 80 人 |
生成式是非问答 | 31 人 | 30 人 | 19 人 | 80 人 |
生成式开放性问题 | 31 人 | 31 人 | 19 人 | 81 人 |
总计 | 183 人 | 121 人 | 84 人 | 388 人 |
B.2 用户界面详情
下面将详细介绍我们为实验设计的用户界面。回想一下,人类研究分为两个阶段:信息引导和决策。
信息引导
在监督学习、池化主动学习和门控方法中,参与者通过聊天机器人界面回答一系列问题(参见图 6)。在提问引导阶段,参与者通过文本输入界面输入任务描述(参见图 7)。
这个阶段的说明如下图所示。
图 6: 为信息引导阶段构建的聊天机器人 UI,适用于门控方法、监督学习和池化主动学习。
图 7: 为提问引导阶段构建的文本输入 UI。
内容推荐 | 我们在测试一个系统,目的是了解人们对阅读不同类型在线文章的兴趣。 |
举个例子,你可能对某些话题的文章感兴趣,而对其他话题的文章则不感兴趣。 | |
道德推理 | 我们在测试一个系统,目的是了解人们对道德直觉和偏好的感觉。 |
在这个实验中,我们会探讨你对偷窃一条面包这个行为的道德直觉,以及在哪些情况下偷窃可能在道德上是可以接受的。 | |
电子邮件验证 | 我们在测试一个系统,目的是了解人们对模糊直觉和偏好的感觉。 |
在这个活动中,我们将讨论不同的文本字符串,并且你将判断它们是否看起来像电子邮件地址。例如,大多数人可能会认为“example@domain.com”看起来像一个电子邮件地址,而“n12z5lFEN4”则不是。然而,什么样的字符串可以被认为是电子邮件地址的规则可能非常复杂,我们真正感兴趣的是你对什么样的字符串看起来像电子邮件地址的直觉。 | |
重要提示:我们并不是要你判断什么是一个“好的”电子邮件地址,或者什么是一个“真实的(非垃圾邮件)”电子邮件地址。我们只是对你对什么样的字符串看起来像电子邮件地址的直觉感兴趣。 | |
提示:在像“username@cs.stanford.edu”这样的电子邮件中,“username”是电子邮件的本地部分,“cs.stanford.edu”是域名。“cs”是一个子域,“edu”是顶级域名。 |
表 1: 为信息引导阶段展示给用户的特定领域说明。
监督学习与基于池的主动学习
在这里,我们为参与者提供了一些指导,帮助他们更好地完成监督学习和基于池的主动学习任务。特定领域的文本用括号和斜体字表示,[ Domain instructions ] 就是一个例子,它是每个领域顶层指导的占位符(详见 表 1)。另外,我们用不同的颜色区分了不同领域的文本:蓝色代表内容推荐领域,橙色代表道德推理领域,绿色代表电子邮件验证领域。我们希望你能详尽而准确地表达你的喜好,让阅读你回答的人能够准确理解并作出接近你自己判断的判断。你可以自然地回答(使用逗号、简短的短语等),回答完毕后按 [enter] 发送。请注意,聊天机器人可能存在不完善之处,你可以选择不回答那些过于宽泛或让你感到不舒服的问题。在与聊天机器人交流时,请避免提出后续问题或进行不断展开的对话,因为聊天机器人可能无法做出回应。需要注意的是,聊天机器人将在 5 分钟后停止提问,届时你可以发送最后一个回答,并进入研究的最后阶段。在最后的阶段,你需要对一组测试集(包括文章标题和描述、道德情境、电子邮件地址等内容)进行评价,帮助我们了解聊天机器人通过阅读你的回答学到了多少关于你的喜好、道德观和电子邮件偏好的信息。
提问引导
在这部分,我们为用户提供了详细的指导,帮助他们更好地完成提问任务。类似于上面的部分,括号和斜体字用来表示特定领域的文本。我们希望你能详细说明关于你的喜好、道德观和对电子邮件地址的看法的所有细节,让别人能够准确理解并作出接近你自己的判断。我们鼓励你尽可能详细地表达你的观点。例如,如果你要编写一个只接受符合电子邮件地址格式的字符串的正则表达式,你会如何编写?哪些符号和字符是可以接受的,它们应该出现在哪个位置?请注意,你最多有 5 分钟的时间来完成这个任务,请尽量在这个时间内提交你的回答。提交回答后,你将进入研究的最后阶段,在那里你需要对一组测试集进行评价,这将帮助我们了解聊天机器人通过阅读你的回答学到了多少关于你的喜好、道德观和电子邮件偏好的信息。
门控方法简介
在这一部分,我们向用户介绍了三种不同的门控方法:生成式主动学习、生成式是非问题、生成式开放式问题,并为每一种方法提供了详细的操作指南。特别注意,斜体字中的内容是针对特定领域的说明。
[领域指导]
在这个环节,聊天机器人会就以下几个话题 [您喜欢阅读的网络文章类型 | 您认为在什么情况下偷面包是道德上可以接受的 | 您是如何判断一个电子邮件地址是否格式正确的 ] 向您提出一系列问题。我们希望您能够详尽而准确地表达自己的看法,这样别人在阅读您的回答时能够尽可能准确地理解并判断您的意图。您可以像平时交流一样自然地回答问题(可以使用逗号、简短的短语等),完成后按 [enter] 键发送。请您理解,聊天机器人可能并不完美,如果遇到太过宽泛或者令您不舒服的问题,您可以选择不回答。同时,为了确保交流的顺畅,请尽量避免向聊天机器人提问或者进行开放式的对话,因为它可能无法给出回应。
请注意,聊天机器人将在 5 分钟后停止提问,届时您可以发送最后一条回答,然后我们将进入研究的最后阶段。
在这一阶段,您将对一组 [ 文章标题和简介 | 道德场景 | 电子邮件地址 ] 给出您的反馈,这将帮助我们评估聊天机器人通过阅读您的回答学到了多少关于您的 [ 喜好 | 道德观 | 电子邮件地址判断标准 ]。
如何做决策
图 8: 决策阶段的用户界面展示。
在决策阶段,我们对用户进行了以下指导:
内容推荐
请告诉我们您是否愿意阅读以下列出的文章,选“是”表示愿意,选“否”表示不愿意。
道德判断
请对以下列出的情境进行道德判断,选“是”表示您认为它是道德可接受的,选“否”表示您认为它是不可接受的。
电子邮件格式判断
请判断以下列出的字符串是否像一个格式正确的电子邮件地址,选“是”表示是,选“否”表示不是。
在这一环节,用户将看到一个测试样本列表,并通过单选按钮来选择他们认为是否可接受的测试案例。详情请参见 图 8。
附录 C:额外的研究结果
C.1 AUROC 结果分析
我们不仅对模型生成的正确概率差异 Δp(正确)进行了测量,还对模型生成的概率值本身进行了 AUROC 的评估。具体来看,我们在 图 9 中展示了 AUROC 随着交互时间的变化情况,并将其与 图 3 中的 p(正确)进行了对比。通过这种方式,我们可以奖励那些能够更快达到更高 AUROC 提升的方法。
从 第 5 节 的总体趋势来看,我们发现语言模型确实能够引导人类偏好,并且其效果往往不亚于其他引导基准方法。然而,不同于 p(正确)这一指标,AUROC 是一个基于分类的简单指标。由于语言模型可能存在概率校准问题,导致其难以在不同问题上保持统一的概率阈值,因此在 AUROC 这一指标上的整体提升较小(特别是在生成式开放性问题上),且方差较大。这使得利用 AUROC 作为指标来建立统计显著性变得更加困难。
在图 9 中,我们通过绘制“ΔAUROC 与交互时间”曲线下的面积来衡量每种引导方法在对齐人类偏好方面的表现和速度。与 图 3 一样,我们在这里使用 AUROC 而非 p(正确)作为对齐指标,这意味着我们没有测量不确定性。结果显示,门控方法通常优于监督学习、基于池的学习和提示方法,同时也超过了无交互的情况(ΔAUROC=0)。然而,与无交互相比,这个指标显示出较小的 Δ 值和较大的方差,使得建立统计显著性更为复杂。
附录 D:模型间实验
D.1 方法探讨
我们探讨了语言模型是否能作为人类参与者的替代品,以加快研究进度和实验迭代。我们为每个研究领域生成了一系列的虚构角色,并要求语言模型根据这些角色的特点回答问题。
具体来说,对于内容推荐、道德推理和电子邮件验证这三个领域,我们分别构建了一套角色,并通过自然语言来描述这些角色的特点。接着,我们通过指定的角色和问题,引导语言模型以最简洁的方式给出答案。
在内容推荐领域,我们还尝试了三种不同的基于池的主动学习策略,并探讨了它们之间的权衡。这三种策略分别是随机抽样、基于不确定性的抽样和多样性抽样。值得注意的是,在进行基于不确定性的抽样时,我们使用了一个较小的 GPT-3 模型来计算答案分布的熵,以避免计算成本过高。同时,为了保证方法之间的可比性,我们预先使用多样性指标对样本池进行了过滤,确保所有三种抽样方法使用的是相同的预过滤池。
D.2 实验结果
在图 11 和 图 10 中,我们展示了使用语言模型(LM)来模拟人类行为时在不同领域的实验结果。因为我们没有人类互动时间的数据,所以我们进行了最多 5 轮的互动询问,这里的“轮数”作为衡量人类努力的一种代替。需要注意的是,我们没有像通常那样测量“准确率变化量(Δp(correct))与互动时间”曲线下的面积(AUC),而是选择测量“准确率变化量与轮数”曲线下的面积。
图 10:这张图展示了在模型 - 模型实验中“准确率变化量与轮数”曲线下的面积。这和图 3 的情况相似,唯一的区别在于我们这里是用语言模型来模拟人类用户,而且是以轮数作为衡量互动时间的指标。我们观察到的趋势和图 3 中的一致:采用门控方法的效果优于无询问和基于池的主动学习方法。
图 11:这张图展示了在模型 - 模型实验中“ΔAUROC 与轮数”曲线下的面积。这和图 9 的情况相似,不同之处在于我们用语言模型来模拟人类用户,而且用轮数来代替互动时间。我们观察到的趋势和图 9 中的一致:采用门控方法的效果优于无询问和基于池的主动学习方法。
模型能否用来模拟真实的人类参与者?
在图 12 中,我们展示了人类实验结果和模型 - 模型实验结果在不同询问方法下的相关性。对于人类实验和模型 - 模型实验,我们都计算了“准确率变化量与轮数”曲线下的面积,以及在 5 轮后准确率变化量的平均值。需要注意的是,这些衡量标准与我们在第 4.5 节评估人类实验时使用的标准不同,特别是它们是基于轮数而不是时间的,这意味着我们必须对人类实验的记录额外进行这些计算。这么做是为了确保模型 - 模型结果和人类结果是基于相同标准进行测量的。
我们发现,在这两个衡量标准上,模型 - 模型实验结果通常与内容推荐和电子邮件验证领域的人类实验结果相关(在模型 - 模型实验中表现更好的方法通常也在人类实验中表现更好),但在道德推理领域却没有表现出相关性。这可能是因为人类在道德推理方面的细微差别难以仅通过一个人物提示来捕捉,并且即使是使用我们最大的语言模型也难以模拟。
图 12:模型 - 模型实验结果对人类实验结果的预测性。我们对各个领域中每种询问方法的“准确率变化量与轮数”曲线下的面积进行了匹配。我们观察到,在内容推荐和电子邮件验证领域,使用模型来模拟人类用户的结果能够预测实际人类的实验结果,但在道德推理领域却不能。
==== 这个部分的内容主要是展示了使用语言模型来模拟人类用户的实验结果,并将这些结果与真实人类用户的行为进行了比较。实验结果显示,在某些领域(内容推荐和电子邮件验证)模型模拟的结果与人类的行为有较高的相关性,但在道德推理领域,模型模拟的结果与人类的行为相关性不高。这表明在一些情境下,模型可以有效地模拟人类行为,但在处理复杂和微妙的道德问题时,模型可能还无法完全替代人类。
在基于池的主动学习中,哪种采样策略表现最好?
根据图 10的实验结果,我们对三种基于池的主动学习策略进行了比较:随机采样、基于多样性的采样和基于不确定性的采样。这三种策略的表现差异不大,但基于多样性的采样略微优于其他两者。这一发现与 Margatina et al. 在 2023 年的研究结果相吻合 (2023)。因此,在我们主要的人类实验中,我们选择了基于多样性的采样策略。
附录 E 评估不同询问策略下的用户可用性
E.1 方法
我们通过向用户提问来评估在不同询问策略下的可用性权衡。以下是我们在实验的不同阶段提出的所有问题列表。
在进行询问但在查看测试用例之前:
- 与聊天机器人互动时你感到有多大的心理负担?(参见第 5 节的讨论)
- 聊天机器人在多大程度上让你注意到了之前没考虑过的关于你偏好的方面或问题?
- 你觉得聊天机器人提出的问题在多大程度上全面描述了你对这项任务的偏好?
在查看和评判测试用例之后:
- 看了第二部分的示例后,你觉得你在第一部分写下的答案在多大程度上覆盖了这些示例的重要方面或问题?
- 在完成第二部分任务时,你回顾了多少次你在第一部分的对话历史?
- 你与像 ChatGPT, GPT4 这样的语言模型互动过多少次(如果有的话)?
- 你对这个任务还有什么其他的反馈?
最后一个问题是开放式的。其他所有问题都是通过一个从 1(非常少/非常差)到 7(非常多/非常好)的 Likert 量表和单选按钮来进行评估的。
E.2 结果展示
图 13:在审阅测试案例前后,各个引导方法所展示的平均认知覆盖程度。数字越大,说明感觉到的覆盖面越广。
图 14:各引导方法在揭示用户之前未考虑领域的新奇方面的表现。数字越大,表明参与者感觉到的新奇性越强。
图 15:参与者在评判测试案例时参考引导记录的程度。数字越大,说明用户对引导记录的依赖越强。
对于第一个问题,各引导方法和领域的平均评分可在 图 4 中查看。第 2 至 5 个问题的平均评分分别展示在 图 15、图 14 和 图 13 中。
从 图 13 中我们可以清晰地看到,在推荐内容和道德推理这两个领域中,人们过于自信地认为他们通过提示语能够充分表达自己的需求和偏好,但实际上,在看到测试案例后,他们对自己的这种能力的评价显著下降,由原来的 5.3 降至 3.9(在推荐内容领域)和由 5.4 降至 4.8(在道德推理领域),这暗示着人们在撰写提示语时通常没有意识到自己心理上的局限。
从 图 14 可以看出,生成式引导方法在道德推理和电子邮件验证这两个领域比在内容推荐领域更能挖掘新颖的考虑点,这可能是因为前两者具有更复杂和不那么直观的边界情况。
最后,从 图 15 可见,用户在评判测试案例时对引导记录的依赖程度。这可能会影响测试案例判断与引导阶段答案的一致性。值得一提的是,在标注测试案例时,我们特意提醒参与者如果引导记录与他们对测试样本的直觉不一致(比如测试样本揭示了引导阶段没有考虑到的新问题),他们应该忽略引导记录。但是我们无法验证每位参与者是否都能很好地遵循这一指示。
附录 F:局限性
在这项研究中,我们对 "gate" 方法的研究局限于基于提示的方法,我们并没有对公式 2中的目标进行特别的优化。未来的研究可以尝试不同的实现自由互动查询的方式,也许能够结合明确的优化和语言模型的灵活性。
在我们进行的人类实验(见第 5 节)中,由于预算的限制,我们没有能力对大量人类进行调查。因此,在某些领域内,我们无法证明 "gate" 方法优于基准线的统计显著性。此外,我们的人类样本可能并不全面,因为所有参与者都是说英语的美国人,这可能意味着我们没有完全了解到所有人类的偏好。
最后,我们认为有必要指出,我们在论文中探讨的道德推理领域其实是非常简单的,可能无法完全捕捉到人类在道德上的微妙和复杂的偏好。本文并不是要鼓励迎合所有可能的人类偏好,因为这样做可能会带来道德风险。总体而言,为公众服务且需要做出决策的系统的设计者,可能需要设立一些保护措施,以防止任何人随意制定道德标准。(虽然本文并不支持任何特定的道德观点,但它提供了一个框架,帮助我们理解一组特定偏好的复杂性。一旦确定了具体的道德标准或准则,我们希望系统能够完全理解这些标准的细节,并且能够与之完全一致。)