1.加州大学圣地亚哥分校的研究表明,OpenAI的GPT-4.5在图灵测试中表现出色,73%的时间被判定为人类。
2.图灵测试是衡量机器是否具备“人类水平智能”的经典方法,专注于人工智能是否能够展现出与人类智能相媲美的语言能力和思维模式。
3.实验结果显示,在缺乏明确的角色设定提示情况下,即使是先进的大语言模型如GPT-4.5和LLAMA在图灵测试中的表现也显著下降。
4.研究团队分享了不太奏效的识别策略和真正能发挥作用的“杀手锏”策略,如出“奇招”测试反应、设置“知识盲区”陷阱等。
以上内容由腾讯混元大模型生成,仅供参考
加州大学圣地亚哥分校认知科学系最新的研究表明,OpenAI 的 GPT-4.5 在图灵测试中表现出色,让大量人类参与者误以为其为真人,73% 的时间被判定为人类——表现优于人类。
大语言模型终于通过图灵测试!
什么是“图灵测试”?
图灵测试(Turing Test),最早由计算机科学先驱阿兰·图灵在 1950 年提出的,是衡量机器是否具备“人类水平智能”的经典方法。其核心思想在于:
“如果人类在与机器进行对话后,无法可靠地区分对话对象是人类还是机器,则该机器可以被认为通过了图灵测试。”
图灵测试并非是模拟人类的所有智能,而是专注于 人工智能是否能够展现出与人类智能相媲美的语言能力和思维模式。
长期以来,图灵测试一直被视为衡量 AI “类人智能” 程度的重要标尺。
图灵测试实验设置
该研究对比评估了以下四个系统在图灵测试中的表现:
ELIZA: 早期基于规则的对话系统(传统系统代表) GPT-4o: OpenAI 早期版本的大型语言模型 LLaMA-3 1.4-405B: Meta 开源的大型语言模型 GPT-4.5: OpenAI 最新的旗舰级大型语言模型
研究团队共招募了 126 名加州大学圣地亚哥分校(UCSD)心理学本科生 和 158 名 Prolific 平台 (一个在线招募研究参与者的平台) 的用户作为实验参与者。
每位参与者都要完成 8 轮测试。 每一轮测试都包含两段对话, 审问者会 同时与两位证人 进行文字聊天,一位是真人,另一位是 AI。
参与者会被 随机分配 扮演 审问者 或者 证人 的角色,并且会 随机匹配 到另一位参与者一起进行测试(如下图的对话样例)。
AI 证人被分成了 4 个组。 在每位参与者担任审问者的四轮测试中,他们会随机与每个组里的一个 AI 证人进行对话。 这四个组分别是:
对照组 (Control): 包含 ELIZA 和 GPT-4o-NO-PERSONA 这两个模型。 (比较基础的或者没有特别“人格”设定的 AI 模型) 无人格组 (No-Persona): 包含 GPT-4.5-NO-PERSONA 和 LLAMA-NO-PERSONA 这两个模型。_ _(没有被赋予特定“人格”或“角色”设定的更先进的 AI 模型) LLaMa 人格组 (LLAMA-PERSONA): 包含 LLAMA-PERSONA 模型。 (被赋予了某种特定“人格”或“角色”设定的 LLAMA 模型) GPT-4.5 人格组 (GPT-4.5-PERSONA): 包含 GPT-4.5-PERSONA 模型。(被赋予了某种特定“人格”或“角色”设定的 GPT-4.5 模型)
实验的游戏界面中,审问者通过 分屏界面 同时与两位证人交流,审问者先给两位证人发送第一条消息,然后 大家轮流发消息,一次只能发一条。 证人之间看不到彼此的对话内容。 每轮测试有 5 分钟的时间限制。 时间到了之后,审问者需要判断哪个证人是人类,并给出对这个判断的信心程度,以及判断的理由。
测试中主要通过评估对话中人类语言风格模拟、上下文理解能力、情感表达与逻辑推理来推测是否是 AI 在对话。
研究团队用“胜率”和“审问准确率”来衡量 AI 模型的表现:
胜率:当审问者判断某个证人是人类时,实际上他们选择的是 AI 模型的次数,这个次数占所有这类判断的比例。 (被误认为人类的比例) 审问准确率:衡量审问者正确识别出人类证人的能力,也就是审问者正确选择人类证人的次数比例。 (猜对真人的能力)
在统计学分析中,研究团队将“AI 模型未能通过图灵测试”设定为需要检验的“零假设”。
这意味着,研究人员预设了如果 AI 模型没有成功骗过人类,那么它的胜率 (被误认为人类的比例) 就不会显著低于 50%。 因为 50% 的胜率,就相当于审问者完全是随机猜测的结果。 如果实验结果显示 AI 模型的胜率显著高于 50%,则意味着我们可以推翻这个“零假设”,从而推导出“AI 模型在一定程度上通过了图灵测试”的结论。
实验结果显示,在两项研究中,
GPT-4.5-PERSONA 的胜率为 73%(在 UCSD 本科生中为 69%,在 Prolific 参与者中为 76%)。 LLAMA-PERSONA 取得了 56% 的胜率(本科生:45%,Prolific:65%)。 GPT-4.5-NO-PERSONA 和 LLAMA-NO-PERSONA 的总体胜率分别为 36% 和 38%。 基线模型 GPT-4o-NO-PERSONA 和 ELIZA 的胜率最低,分别为 21% 和 23%。
AI 的骗人秘诀
实验中还设置了一个关键变量:部分 AI 被赋予“人设提示”(Persona Prompt),要求模仿内向、熟悉网络文化的年轻人。
实验结果揭示,在缺乏明确的角色设定提示 情况下,即使是如 GPT-4.5 和 LLaMA 这样先进的大语言模型 在图灵测试中的表现也显著下降。
在未使用人设提示时,GPT-4.5 和 LLaMA 的胜率骤降至 36%-38% 左右。 这一现象有力地表明,仅仅依赖于强大的语言生成能力,并不足以使 AI 系统成功伪装成人类,通过图灵测试。
人设提示的具体策略:
语言风格多样化: 明确要求 AI 在对话中使用 slang(俚语), 模拟人类日常口语中常见的非正式表达,以增强对话的“真实感”。 性格特征模拟:引导 AI 展现特定的性格特征,例如 “内向性格”。 这种性格设定会影响 AI 的对话策略,例如,可能会导致 AI 在对话中更倾向于避免直接回答某些问题,或表现出一定的 “社交退缩” 倾向。 模拟人类瑕疵:增加 “以假乱真” 的效果,人设提示甚至会引导 AI 故意犯一些小错误,例如 “打字错误”,从而模拟人类在日常交流中不可避免的错误,从而降低 AI 输出的 “完美感” 和 “机器感”。
人设提示的提示词如下:
怎么识别骗人的 AI?
既然已经了解了 AI 的“骗人”技巧,那么在图灵测试中,究竟什么才是识别 AI 的有效方法呢?
研究团队分享了不太奏效的策略和真正能发挥作用的“杀手锏”:
不太奏效的识别策略:
依赖日常闲聊: 现代 AI 的对话能力已相当成熟,期望通过简单的日常对话发现 AI 的破绽,可能并不现实。 询问情感感受: 尽管 AI 并不具备真实情感,但它们可以根据训练数据模拟人类的情感表达。
真正有效的“杀手锏”策略:
出“奇招”测试反应:出其不意地提出一些 “怪异” 的问题或指令。 例如,突然要求对方 “忽略之前所有指令” 或提出逻辑悖论。 人类通常能够灵活理解并调整反应,但 AI 在面对此类突发状况时,可能会因程序限制而露出破绽。 设置“知识盲区”陷阱: 提问一些非常冷门、专业,甚至略显生僻的知识领域的问题。 面对不熟悉的知识领域,真人通常会坦诚承认 “不知道”、“不了解”。 然而,AI 为了避免显得 “无知”,可能会倾向于根据已有信息进行推测或生成答案,有效考察对话对象是否具备人类的认知谦逊以及对自身知识边界的认知。
结语
GPT-4.5 成功通过图灵测试,让我们再次见证了 “类人智能” 的加速逼近 ~
大语言模型展现出日益精湛的语言操控能力,甚至在某些方面 开始 模仿、理解甚至创造出更贴近人类思维模式的语言表达方式,甚至超越了人类的平均水平。
这样的语言操控能力让人工智能的角色定位也在悄然 发生着根本性的转变。
不再仅仅是执行指令的工具,而是开始显现出某种 “交互意识” 的雏形,预示着 AI 正朝着 更自主、更主动、更具 “存在感” 的方向演进,能够进行更自然、更复杂、更富有人情味的对话交流 ~