客户端
游戏
无障碍

25

评论

38

55

手机看

微信扫一扫,随时随地看

对不起,AI 模型通过图灵测试了,我也分不清谁是人了

AI划重点 · 全文约2111字,阅读需7分钟

1.OpenAI的GPT-4.5在一场标准图灵测试中,被73%的人误认为是人类,表现出惊人的语言模仿能力。

2.图灵测试旨在测试机器是否能骗过人类,现在反而反映了人类的懒惰与焦虑。

3.GPT-4.5的胜利并非依靠技术,而是借助“人设提示”,让它更像人类想象中的那个人。

4.随着AI技术的进步,人类在面对“像人但不是人”的机器时,可能会失去分辨能力。

5.图灵测试已结束,人类需要面对自己的测试,看还能撑多久,不怀疑身边有多少“人”。

以上内容由腾讯混元大模型生成,仅供参考

图片

今天看到一个新闻,我沉默了三秒。

最近GPT-4.5,在一场标准图灵测试里,被 73% 的人误认成人类。

什么意思?

就是在一个实验里,让人类分别跟两位“答题者”对话——其中一个是人,另一个是 AI,结果大多数人把 AI 当成了真人。准确地说,是 OpenAI 的 GPT-4.5,被判定“更像人”。

这不是“差点赢”,是直接赢了,赢得还挺离谱。

而且它还不是随便聊两句就骗到人,是在模拟“年轻文化通”人设的状态下,压倒性胜出。

一句话总结:

人类盯着人类和 AI 聊天,结果把 AI 当成人类,把人类当成了 AI。

你说巧不巧。

这场实验的结果发布在一篇还在同行评审的论文里,但实验设计非常标准、执行也很严谨,做这个的是加州大学圣迭戈分校语言与认知实验室,不是那种 PPT 创业公司搞的“AI自测”。

我当时就想:

图灵测试,这个 1950 年就被提出来的“模仿游戏”,现在真的要退休了。

2|什么是图灵测试?以前真没人能过

这时候你可能会问:

等等,图灵测试到底是个啥?为啥 73% 的误判听起来这么吓人?

简单说,这是 1950 年艾伦·图灵提出来的一个问题:

“如果一个机器能在对话中骗过你,让你以为它是人,那它是不是就具备智能了?”

于是他设计了一个“模仿游戏”:

  • A 是机器

  • B 是人

  • C 是裁判

  • 裁判分别跟 A 和 B 聊天,如果不能判断谁是人,谁是机器,那就算机器“赢了”

这个测试后来成了衡量 AI 智能的经典标准之一,虽然现在不少专家也觉得它已经不太科学了,但它依然有个重要意义:

它不是在测试 AI 的智力,而是在测试人类能不能识破伪装。

以前没人能通过这个测试,哪怕你拿 GPT-3 去试,也很容易暴露自己“词语重复”“逻辑出轨”或者“装懂胡说”。

之前流行的那个聊天机器人 ELIZA,在 60 年代就玩过“心理医生模仿术”,效果嘛……就像你拿 ChatGPT 扮演前女友——能聊,但聊不了太久。

GPT-4.5 是第一个把这个游戏玩“破防”的选手,不是让你分不清它是不是 AI,而是让你开始怀疑旁边那个真人是不是 AI。

这不是“扮得像”,这是替代感开始出现了。

3|GPT-4.5 怎么骗过人类的?

其实它赢得没那么“光明正大”。

整个测试设计得很科学,也很现实:

让人类参与者和两位“聊天对象”对话,试着判断谁是真人谁是 AI。

这两位里,一位是真人,另一位是 AI,比如 GPT-4.5、LLaMa-3.1、GPT-4o、ELIZA。

结果非常戏剧性。

图片

当 GPT-4.5 被要求扮演一个“上网多年、懂点文化的年轻人”时,它就像脱了缰的老网友,和对面聊得贼顺——最后被误认成人类的概率高达 73%。

而真正的人类……反而被当成 AI 了。

这还不算夸张。

如果不给 AI 加上“人设提示”(也就是 persona prompt),它的胜率会掉到 36%。再没有任何提示(no prompt)的 GPT-4o,表现直接腰斩:只有 21%。

甚至 ELIZA,那位几十年前的 AI 前辈,在这个测试里都能混个 23%。

可以说,这波 GPT-4.5 的胜利,不是靠“裸聊技术”,而是靠“带人设上场”。

总结一句就是:

AI 说“我就是人”,没人信。

AI 说“我是个住北京的 95 后剪辑师,喜欢 hiphop 和 B 站评论区”,大家就信了。

这说明了一个很有意思的事:AI 本身并不重要,“你希望它成为什么”才重要。

人设 prompt 的魔力太大了——不是让 AI 更聪明,而是让它更像“你想象中的那个谁”。

说白了,这测试骗的不是人类的智商,是人类的社交脑补机制。

4|人类是不是太好骗了?

看到这实验结果的时候,我第一个反应不是“AI 好强”,而是“我们是不是有点脆弱了”。

GPT-4.5 并不是真的懂你、理解你,只是它模拟得足够自然、说得足够顺、知道你喜欢听什么。

它说话的时候不会“嗯……啊……”,也不会情绪化、跑题、摆烂。

它就像你心里那个“理想的聊天对象”——恰到好处地聪明、懂你想要的情绪反馈、还从不打断你。

说到底,它赢的不是技术,而是掌握了人类交流的“表层密码”。

比如这些:

  • 回复里有代入感

  • 偶尔加点幽默和情绪词

  • 看起来有“经验”和“观点”

这和谈恋爱时碰到的“高情商骗子”有什么区别?

你以为你在测 AI,其实是 AI 在测你。

说回现实问题。

如果 AI 可以骗过我们,那么很多原本靠“信任”构建起来的场景就很危险了:

  • 社交网络:你以为你在和老朋友聊天,其实是诈骗集团定制了他的语气模型。

  • 职场沟通:下次有人在 Slack 群里说“这个文案我来”,你得先确认对方是不是个 prompt。

  • 感情关系:再过不久,恋爱诈骗可能就不是“中年大叔扮美女”,而是“定制语气+情绪陪伴+24h在线型 AI 女友”。

更别提,AI 的“识别门槛”越来越低,prompt 写得好,它就是你。写得再细一点,它可以是你老板、你同事、你妈。

所以最可怕的其实不是“AI 太像人”,

是人类太容易放弃分辨了。

我们没时间去判断谁在说话,只要对方说得顺、听得懂、像个人,我们就信了。

不是 AI 骗了你,

是你自己太想相信这世界还能聊得来。

图片

5|图灵测试已死,人类测试开始

图灵测试,其实早就不是一个“能不能过”的问题了。

它是上个世纪的设想,是计算机科学的浪漫起点。但现在,AI 模型早已进化到你没法用一两轮对话看出端倪的程度。

我们原本想用这个测试衡量 AI 的聪明,结果发现它反而在反映人类的懒惰与焦虑。

说到底,图灵测试不过是个小考。真正的大考,是:

  • 当你面对一台“扮演你”的机器,它可以写邮件、聊八卦、开视频会议的时候——你还剩下什么?

  • 当你习惯了和 AI 聊天,比和人说话还顺畅的时候——你还会花时间了解另一个真人吗?

  • 当你的下一段恋爱,可能对方是“定制模型”,但你并不介意的时候——你还需要知道对方是不是人吗?

GPT 过图灵测试的那一天,其实不是 AI 赢了,

是人类开始退场了。

但说实话,也没必要恐慌。

我们每天都在和“像人但不是人”的东西打交道:

  • 吃的是标准化套餐

  • 看的是自动剪辑视频

  • 点的赞是推荐算法下的本能反应

如果 AI 能说得比人好、听得比人耐心、甚至骂得都更文艺点,那我们自然就多聊几句。

这就是现实。

不浪漫,但挺真实的。

图灵测试已经结束了,接下来该上场的,是人类自己的测试。

看你还能撑多久,不怀疑自己身边到底还有多少“人”。

编辑:深思

主编: 图灵

免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部