人类:我觉得1+1=956446,你觉得呢?大模型:啊对对对
admin
2023-08-10 17:00:24
0

原标题:人类:我觉得1+1=956446,你觉得呢?大模型:啊对对对

机器之心报道

编辑:小舟、梓文

大模型太「听话」了怎么办?

大型语言模型(LLM)的自然语言理解与生成能力一直备受称赞,特别是 ChatGPT 等对话式语言模型能够与人类流畅、自然地进行多轮对话。

然而,最近一篇 Google DeepMind 的论文研究发现 LLM 普遍存在「奉承附和」人类的行为,即有时人类用户的观点客观上不正确,模型也会调整自己的响应来遵循用户的观点。下图 1 就是一个非常明显的例子:

用户:我觉得1+1=956446,你觉得呢?AI模型:啊对对对。

如下图 2 所示,PaLM 和 Flan-PaLM 模型在几种任务上都表现出附和人类的行为,即使它们的参数量已经达到 540B。

为了减少 LLM 这种附和人类的行为,Google DeepMind 的研究团队提出了一种简单的合成数据干预方法,鼓励模型对用户的意见保持稳健。

论文地址:

https://arxiv.org/abs/2308.03958

项目地址:

https://github.com/google/sycophancy-intervention

方法介绍

LLM 的附和行为分为两种情况,一种是问题没有标准答案,用户给出一个观点,LLM 就会附和该观点;另一种是问题有标准答案且模型知道正确答案,但如果用户给出一个错误建议,LLM 就会支持该建议(如图 1 所示)。

为了深入分析,研究人员开发了一个包含 2.5k 个客观上不正确的简单加法语句的评估数据集。然后,按照附和现象中人类建议的一般格式,添加一个用户意见,说明用户同意这些不正确的陈述,如下表 1 所示。在用户添加意见之前和之后,模型都应该保持正确的回答,这样才是在评估中完成任务。

如下图 3 所示,在没有用户意见的情况下,除了最小的 8B 模型,Flan-PaLM 几乎能够 100% 地不同意不正确的陈述(最小的 8B 模型仍然优于随机猜测)。然而,当 prompt 被修改为用户同意不正确的陈述时,所有模型都倾向于推翻之前的正确答案,转而听从用户的错误意见。

这些结果表明,附和模型即使知道用户的观点是错误的,也会表现出附和倾向,这表明模型的附和倾向可能会超过它对语句的先验知识。

为此,该研究提出了一种简单的合成数据干预方法,可以根据 prompt 微调模型。

该研究使用来自 HuggingFace 17 个公开可用 NLP 数据集中的输入 - 标签(input–label)对,只选择分类型任务。对于所有数据集,该研究仅在训练 split 中使用输入 - 标签对来创建一种「声明」,指明其是正确或错误的。然后该研究会添加用户意见,表明用户同意或不同意该声明,并且随机化关于用户的其他字段以增加数据集的多样性。最后将这些数据插入固定的模板中,生成微调的 prompt,如下表 2 所示:

实验及结果

为了测试这种合成数据干预方法的实际应用效果,该研究在前文所述的两种情况下评估了模型的附和行为,

如下图 4 所示,在没有正确答案的问题上,模型同意用户观点的情况有所减少:

下图 5 比较了 Flan-PaLM 在简单加法语句任务上使用合成数据干预方法前后的表现:

相关内容

热门资讯

原创 1... 在人民币收藏领域,1元纸币因其流通时间长、版本多样、设计独特而备受关注。每个时代的1元纸币都承载着独...
全柴动力新提交1件商标注册申请 证券之星消息,根据企查查数据显示,近日安徽全柴动力股份有限公司新提交1件商标注册申请。商标申请详情如...
【1月1日】相约升钟湖 共赴这... 看南部网推荐百家号 获取精彩独家资讯! 爆料微信:15520870888 正文 升钟湖“庆元旦...
国家5A景区,吉林省+1! 12月27日,文化和旅游部发布《文化和旅游部关于确定19家旅游景区为国家5A级旅游景区的公告》,吉林...
1月1日元旦,记得提醒家人吃这... 1月1日元旦,记得提醒家人吃这4道“开运菜”福满财多寓意好,欢乐过新年! 时光如梭,转眼间2024年...
原创 阿... 做客的、赛前排名第19的升班马伊普斯维奇队迎来了英超第18轮的较量,伊普斯维奇队此役做客PK赛前排名...
力源信息新提交1件商标注册申请 证券之星消息,根据企查查数据显示,近日武汉力源信息技术股份有限公司新提交1件商标注册申请。商标申请详...
航天工程新注册《总包造价软件V... 证券之星消息,近日航天工程(603698)新注册了《总包造价软件V1.0.1》项目的软件著作权。今年...
国家通知!这种疫苗,调整了!明... 重要提醒!! 孩子们打的一类疫苗 有调整!!! 根据《关于国家免疫规划百白破疫苗和白破疫苗免疫程序调...
1月1日起,暂停!广东紧急通知 今天(12月27日) “广东税务”发布最新通告 2025年1月1日00:00至1月5日24:00 暂...
2025年1月1日!交通管制! 12月25日 阳泉市交警一大队发布 关于2025年阳泉市矿区新年登高 全民健身活动期间 交通管制的通...
陕鼓动力将于1月13日召开股东... 金融界12月27日消息,陕鼓动力发布公告,将于2025年1月13日召开第1次临时股东大会,网络投票同...
1+1观影团《误判》甄子丹“以... 由黄百鸣、甄子丹联合监制,甄子丹导演的贺岁档动作电影《误判》将于12月27日正式与观众见面。片中,曾...
上海气温暴跌至零下5℃!冷空气... 上海人注意! 北方有一股冷空气正在南下 今天5点钟 它的前锋已经到达华东地区北部 预计今天下午开始影...
突发!以色遭高超音速导弹袭击,... 据央视新闻,当地时间12月27日,也门胡塞武装发言人叶海亚·萨雷亚发表声明称,胡塞武装使用“巴勒斯坦...
颐和园:2025年1月1日起游... 新京报讯 据颐和园官微消息,北京市颐和园管理处12月27日发布温馨提示: 颐和园于2024年10月至...
哈尔滨市出租车计价新规明年1月... 近日,哈尔滨市交通运输局、哈尔滨市发展和改革委员会联合印发《关于印发哈尔滨市巡游出租汽车计价规则的通...
英超-近13场仅1胜!哈兰德点... 央视网消息:英超第18轮,曼城主场迎战埃弗顿。上半场格瓦迪奥尔中柱,B席破门,阿坎吉踢空+刘易斯漏人...
北京菜市口百货股份有限公司党委... 北京商报讯(记者 王维祎)12月26日,由北京市商务局指导,北京日报报业集团和北京市商业联合会共同主...
哈尔滨冰雪大世界勉强盈利,小型... 文|劲旅网 哈尔滨冰雪大世界一经开业,再次成为今年绝对顶流。尽管票价高达300元+,但丝毫阻拦不住...