+关注

手机看

微信扫一扫，随时随地看

对不起，AI 模型通过图灵测试了，我也分不清谁是人了

AI深度研究员

2025-04-04 07:40发布于上海

+关注

AI划重点 · 全文约2111字，阅读需7分钟

1.OpenAI的GPT-4.5在一场标准图灵测试中，被73%的人误认为是人类，表现出惊人的语言模仿能力。

2.图灵测试旨在测试机器是否能骗过人类，现在反而反映了人类的懒惰与焦虑。

3.GPT-4.5的胜利并非依靠技术，而是借助“人设提示”，让它更像人类想象中的那个人。

4.随着AI技术的进步，人类在面对“像人但不是人”的机器时，可能会失去分辨能力。

5.图灵测试已结束，人类需要面对自己的测试，看还能撑多久，不怀疑身边有多少“人”。

以上内容由腾讯混元大模型生成，仅供参考

今天看到一个新闻，我沉默了三秒。

最近GPT-4.5，在一场标准图灵测试里，被 73% 的人误认成人类。

什么意思？

就是在一个实验里，让人类分别跟两位“答题者”对话——其中一个是人，另一个是 AI，结果大多数人把 AI 当成了真人。准确地说，是 OpenAI 的 GPT-4.5，被判定“更像人”。

这不是“差点赢”，是直接赢了，赢得还挺离谱。

而且它还不是随便聊两句就骗到人，是在模拟“年轻文化通”人设的状态下，压倒性胜出。

一句话总结：

人类盯着人类和 AI 聊天，结果把 AI 当成人类，把人类当成了 AI。

你说巧不巧。

这场实验的结果发布在一篇还在同行评审的论文里，但实验设计非常标准、执行也很严谨，做这个的是加州大学圣迭戈分校语言与认知实验室，不是那种 PPT 创业公司搞的“AI自测”。

我当时就想：

图灵测试，这个 1950 年就被提出来的“模仿游戏”，现在真的要退休了。

2｜什么是图灵测试？以前真没人能过

这时候你可能会问：

等等，图灵测试到底是个啥？为啥 73% 的误判听起来这么吓人？

简单说，这是 1950 年艾伦·图灵提出来的一个问题：

“如果一个机器能在对话中骗过你，让你以为它是人，那它是不是就具备智能了？”

于是他设计了一个“模仿游戏”：

A 是机器
B 是人
C 是裁判
裁判分别跟 A 和 B 聊天，如果不能判断谁是人，谁是机器，那就算机器“赢了”

这个测试后来成了衡量 AI 智能的经典标准之一，虽然现在不少专家也觉得它已经不太科学了，但它依然有个重要意义：

它不是在测试 AI 的智力，而是在测试人类能不能识破伪装。

以前没人能通过这个测试，哪怕你拿 GPT-3 去试，也很容易暴露自己“词语重复”“逻辑出轨”或者“装懂胡说”。

之前流行的那个聊天机器人 ELIZA，在 60 年代就玩过“心理医生模仿术”，效果嘛……就像你拿 ChatGPT 扮演前女友——能聊，但聊不了太久。

GPT-4.5 是第一个把这个游戏玩“破防”的选手，不是让你分不清它是不是 AI，而是让你开始怀疑旁边那个真人是不是 AI。

这不是“扮得像”，这是替代感开始出现了。

3｜GPT-4.5 怎么骗过人类的？

其实它赢得没那么“光明正大”。

整个测试设计得很科学，也很现实：

让人类参与者和两位“聊天对象”对话，试着判断谁是真人谁是 AI。

这两位里，一位是真人，另一位是 AI，比如 GPT-4.5、LLaMa-3.1、GPT-4o、ELIZA。

结果非常戏剧性。

当 GPT-4.5 被要求扮演一个“上网多年、懂点文化的年轻人”时，它就像脱了缰的老网友，和对面聊得贼顺——最后被误认成人类的概率高达 73%。

而真正的人类……反而被当成 AI 了。

这还不算夸张。

如果不给 AI 加上“人设提示”（也就是 persona prompt），它的胜率会掉到 36%。再没有任何提示（no prompt）的 GPT-4o，表现直接腰斩：只有 21%。

甚至 ELIZA，那位几十年前的 AI 前辈，在这个测试里都能混个 23%。

可以说，这波 GPT-4.5 的胜利，不是靠“裸聊技术”，而是靠“带人设上场”。

总结一句就是：

AI 说“我就是人”，没人信。
AI 说“我是个住北京的 95 后剪辑师，喜欢 hiphop 和 B 站评论区”，大家就信了。

这说明了一个很有意思的事：AI 本身并不重要，“你希望它成为什么”才重要。

人设 prompt 的魔力太大了——不是让 AI 更聪明，而是让它更像“你想象中的那个谁”。

说白了，这测试骗的不是人类的智商，是人类的社交脑补机制。

4｜人类是不是太好骗了？

看到这实验结果的时候，我第一个反应不是“AI 好强”，而是“我们是不是有点脆弱了”。

GPT-4.5 并不是真的懂你、理解你，只是它模拟得足够自然、说得足够顺、知道你喜欢听什么。

它说话的时候不会“嗯……啊……”，也不会情绪化、跑题、摆烂。

它就像你心里那个“理想的聊天对象”——恰到好处地聪明、懂你想要的情绪反馈、还从不打断你。

说到底，它赢的不是技术，而是掌握了人类交流的“表层密码”。

比如这些：

回复里有代入感
偶尔加点幽默和情绪词
看起来有“经验”和“观点”

这和谈恋爱时碰到的“高情商骗子”有什么区别？

你以为你在测 AI，其实是 AI 在测你。

说回现实问题。

如果 AI 可以骗过我们，那么很多原本靠“信任”构建起来的场景就很危险了：

社交网络：你以为你在和老朋友聊天，其实是诈骗集团定制了他的语气模型。
职场沟通：下次有人在 Slack 群里说“这个文案我来”，你得先确认对方是不是个 prompt。
感情关系：再过不久，恋爱诈骗可能就不是“中年大叔扮美女”，而是“定制语气+情绪陪伴+24h在线型 AI 女友”。

更别提，AI 的“识别门槛”越来越低，prompt 写得好，它就是你。写得再细一点，它可以是你老板、你同事、你妈。

所以最可怕的其实不是“AI 太像人”，

是人类太容易放弃分辨了。

我们没时间去判断谁在说话，只要对方说得顺、听得懂、像个人，我们就信了。

不是 AI 骗了你，

是你自己太想相信这世界还能聊得来。

5｜图灵测试已死，人类测试开始

图灵测试，其实早就不是一个“能不能过”的问题了。

它是上个世纪的设想，是计算机科学的浪漫起点。但现在，AI 模型早已进化到你没法用一两轮对话看出端倪的程度。

我们原本想用这个测试衡量 AI 的聪明，结果发现它反而在反映人类的懒惰与焦虑。

说到底，图灵测试不过是个小考。真正的大考，是：

当你面对一台“扮演你”的机器，它可以写邮件、聊八卦、开视频会议的时候——你还剩下什么？
当你习惯了和 AI 聊天，比和人说话还顺畅的时候——你还会花时间了解另一个真人吗？
当你的下一段恋爱，可能对方是“定制模型”，但你并不介意的时候——你还需要知道对方是不是人吗？

GPT 过图灵测试的那一天，其实不是 AI 赢了，

是人类开始退场了。

但说实话，也没必要恐慌。

我们每天都在和“像人但不是人”的东西打交道：

吃的是标准化套餐
看的是自动剪辑视频
点的赞是推荐算法下的本能反应

如果 AI 能说得比人好、听得比人耐心、甚至骂得都更文艺点，那我们自然就多聊几句。

这就是现实。

不浪漫，但挺真实的。

图灵测试已经结束了，接下来该上场的，是人类自己的测试。

看你还能撑多久，不怀疑自己身边到底还有多少“人”。

编辑：深思

主编: 图灵

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。