IBM AI与人类辩论赛全程:机器语义、逻辑分析能力突飞猛进

由于AI背后的海量数据资源的优势,AI在辩论过程中能够随意引用相关研究成果来佐证自己的观点这一点,要绝对远胜过人类。

腾讯《潜望》 纪振宇 2月14日发自硅谷

你或许从来没有见过这样一场奇特的辩论赛:人类辩手在讲台上正进行着精彩陈述,一旁是一台一人多高的黑色方形柱,中间屏幕上的三个光球不时弹跳、闪烁,随后,从这台柱子身上传出一个冷静的女声,保持着恒定的语速阐述自己的观点。

这场备受瞩目的人与人工智能之间的辩论赛11日在IBM 2019年Think大会期间上演。台上的黑色柱子,是被IBM称为“Project Debater”的人工智能系统,诞生于IBM位于以色列海法的实验室,最早于2011年由研究员Noam Slonim提出,去年6月,Project Debater首次在旧金山的一场媒体闭门活动上亮相,对阵两名以色列辩论冠军并取得胜利。

时隔半年多后,Project Debater的再次亮相则高调了许多,这场辩论赛对外进行了视频直播,对阵的人类辩方是2012年欧洲辩论冠军、入选2016年全球辩论大赛最终决赛圈的专业辩论选手Harish Natarajan。

当天的辩论赛分成三部分进行,首先正反双方分别进行4分钟的观点陈述,然后进入各自4分钟的反驳时间,最后是各自进行2分钟的总结。

这场辩论的辩题为“是否应该对学前教育进行补贴?” Project Debater 为正方,人类辩手为反方,每一轮都由Project Debater首先进行。

在开场陈述中,Project Debater表示,应该对学前教育进行补贴,“补贴”不仅仅是“钱”的问题,还关乎政治、社会和伦理道德等,根据许多过往的经验及研究表明,学前教育能够对社会带来正效益,包括减少犯罪,帮助贫困等,Project Debater特别提到帮助贫困人群的问题,相关研究成果称,学前教育可以帮助与贫困相关的儿童的一些缺陷。

AI随后连续引用了三份研究结果来佐证自己的观点,首先是引用经合组织的建议,称应对贫困地区进行学龄前教育补贴,以改善这些地区儿童的未来表现。其次,AI还引用了60年代的一份研究称,学前教育能够对个人及社会未来长期发展带来帮助,远远超过为此需要付出的成本。最后,AI还引用了疾控中心的研究,称学前教育能够减少医疗成本、降低犯罪、对福利的依赖以及虐待儿童等。

因而AI的结论是,对学前教育进行补贴,能够让贫困家庭的儿童支付的起相关教育,让他们更好地为未来的教育做好准备。

Project Debater的整个陈述句式完整,逻辑清晰,尤其多次引用了过往的研究成果,包括经合组织的数据等,来佐证自己的观点。

随后人类辩手Natarajan做了针对性的开场陈述,不仅阐述了其在15分钟时间内所准备的内容,还对Project Debater的陈述,进行了有针对性的质疑。他指出,Project Debater的主要观点,基于一种“本能性”的结论,即我们如果认为学前教育总体上是好事,那么就理所应当对其进行补贴,但他认为,仅凭此就做出这样的结论还远远不够,这样的逻辑过于简单直接,他给出了例子进行反驳,例如如果一国增加对医疗的投入,也能够给整个社会带来福利,也能够对教育带来推动。

此外,他还指出,Project Debater忽略了在现实情境下,简单进行补贴并不一定能够达到预期的效果,尤其是针对学前教育的补贴,最终实际上是补贴在中产阶级身上,而这些阶层原先就有能力支付学前教育的费用,而补贴的钱由来自于所有人,因而对于贫困人群来说,反而带来了损害。Natarajan同时指出,如果目的是帮助贫困人群,那么在政府资金资源有限的情况下,应该考虑现实的限制,将资源最优化配置在能够达到这一目的的领域。

人类辩手的这一开场陈述,同样逻辑清晰,并且体现了人类在进行辩论过程中,能够根据对方的陈述,做出有针对性回应的特点,考虑到这位人类辩手是一位专业的辩论高手,因而在他的陈述中,也体现了许多专业性的辩论技巧,例如将辩题进一步细化,并引向对手方在陈述中暴露出的逻辑上的薄弱环节,比如Natarajan就针对了Project Debater在陈述中所表现出的“因为学前教育好,所以就要进行补贴”这样的简单粗暴的逻辑。

在接下来的驳论环节,辩论双方需要对对方之前所做出的陈述,进行针对性的回应,以进一步巩固自身的观点。

就这一轮环节来说,对于人工智能Project Debater的挑战在于,需要首先理解人类辩手在陈述中所进行的阐述,同时在其中找出其论证的一些漏洞或逻辑不严密的地方并对这些薄弱环节进行针对性回击。

Project Debater的设计者之一、IBM研究员Noam Slonim表示,这一轮对于AI来说是“挑战最大”的部分,对于AI来说,首先需要获得人类辩手之前陈述的词语,然后将这些词语组织成“有意义”的句子,再从这些句子中摘取出人类辩手陈述的要点,再对这些要点进行回应。

但遗憾的是,这一轮Project Debater的表现并不够好,这一轮也是最能反映出人和人工智能之间的区别的环节。尽管Project Debater准确地抓取了人类辩手在开场陈述中所提到的对于贫困人群帮助的问题,并进行进一步阐述,但却错误地理解了人类辩手的意思,Project Debater称,对方辩友说学前教育是有害(harmful)的,但实际上是AI错误地理解了人类辩手的意思,人类辩手说,过早的学前教育,可能让儿童在心理上产生挫折感,这样反而是有害的,而AI并没有将这样的完整的上下文全部吸收并进行正确理解。

随后,Project Debater的大部分陈述依然围绕着其相对简单的逻辑进行,包括有数据和研究表明学前教育对于儿童接下来接受学校教育更有帮助,以及学前教育可以降低犯罪率,所以要对学前教育进行补贴。

人类辩手在接下来自己的反驳环节,继续紧抓AI逻辑相对简单以及对情境的阐述过于理想化这一点进行攻击,指出,AI所提出的政府资金能够满足各个方面只是理想的状况,现实情况下,在政府资源有限的情况下,直接将资金拨给学前教育,并不一定是最理想的选择。

在最后总结陈词环节,Project Debater依然给出了标准完整的陈述,人类辩手在进一步阐述自身观点的同时,继续指出Project Debater的观点在论证逻辑上的不足。

本场辩论赛最终的输赢是根据赛前赛后观众投票结果的变化来决定,在比赛进行之前,现场的观众对该辩题进行投票,结果为支持补贴学前教育的观众占79%,不支持补贴学前教育的观众占13%,在辩论结束后,支持补贴学前教育的观众比例变为62%,而不支持补贴学前教育的观众占30%,也就是说,17%的观众的观点因为受到辩论的影响,由支持变为反对,根据这样的结果,本场辩论赛以人类辩手获胜而告终。

与此同时进行的另一个投票结果则并不让人意外,69%的观众认为,Project Debater让他们增加了知识。

从整场辩论赛的进程来看,进行地十分顺利流畅,无论是AI还是人类辩手,都在各自环节的指定时间内,准时无误地完成了自身的陈述,Project Debater从始至终保持了冷静平缓的语调,语速也从头至尾保持一致,这也完全符合外界之前的预期。有些出人意料的地方在于,AI时不时还会冒出一两句幽默,比如“对方辩友或许从来没有和机器进行过辩论”,还有“或许我自己无法亲身经历贫困是什么样的,也不应对目前的生活水平有任何抱怨”,所有这些小花絮,都让AI听上去更像一个有着独立思考能力和情感的人类,辩论赛的主持人也在开始前说,Project Debater是有性别的,是一位女性,并在辩论赛结束后称,AI展现出了“魅力”(Charming)。

当然AI自身存在的不足,也在整个辩论赛过程中很明显地暴露出来,而这些“弱点”也正好被其训练有素的人类辩手所利用,例如AI的逻辑结论相对简单,总体而言,AI的逻辑是,过往的经验和研究数据表明,A能够导致B、A也能够导致C或者D,如果B、C、D都是好的,那么就应该支持A,基于这样简单的因果逻辑所得出的结论在遇到很多现实问题制约以及其他变量因素时,并不能够完全成立。

当然,由于AI背后的海量数据资源的优势,AI在辩论过程中能够随意引用相关研究成果来佐证自己的观点这一点,要绝对远胜过人类,在赛后,人类辩手在接受短暂访谈时也提到,在辩论赛中,发现AI所具备的这种“潜力”,让他十分惊叹,他认为,如果人类也能够具备这样的能力,那么将在分析问题得出结论过程中得到更多的助益。

Noam Slonim表示,Project Debater的数据库包含100亿的句子,而该系统的能力在于在短时间里,从这些数据中找出能够用于当前辩题的词语,组成合乎逻辑的句子,再组成完整的陈述。

从当场AI的表现来看,Project Debater至少已经完成了在短时间内(15分钟),从数据库中寻找到能够用于当前辩题的词语,组成相关的句子,并形成逻辑相对严谨的陈述,但同时,在理解人类对手的陈述,抓住对方陈述的要点,甚至逻辑的薄弱环节方面,还存在很明显的不足。

无论结果如何,这场辩论赛向世人展示了AI所具备的另一种能力,在我们亲眼看到AI能够在国际象棋、围棋、电脑游戏方面能够轻松战胜人类顶级选手以后,在对语义、逻辑要求更高的领域,已经取得了非常惊人的进展。

在辩论赛后,Slonim接受腾讯《潜望》等媒体采访时表示,自己愿意给Project Debater的表现打9分,他对于系统的表现十分满意,同时也指出在驳论阶段系统存在的不足。

“我们的最终目标是,当结果并不是非黑即白时,建立一个能够帮助人们做出基于证据的决策的系统。”Slonim说。

正如IBM 研究院主管Dario Gil在辩论赛开场之前所说,比赛的意义并不在于谁输谁赢,而是通过这样的方式,展示人类能够将AI更好地运用到分析问题、解决问题以及做出决策等方面的另一种可能性。