奥运史上首次!《星球大战》黑科技成真,云上全息通信隔空传递“真人”!

1970年6月30日,美铝公司(Alcoa)首席执行官John Harper和匹兹堡市长 Peter Flaherty 使用AT&T的新Picturephone Mod II参加了一次商业视频会议,这是人类历史上第一个商业视频会议。回望过去,令我们感到惊讶的是,人类的通信方式在过去50余年间没有发生本质变化。它变得更清晰、更便捷,但始终我们要面对一块冰冷的屏幕说话。

2月6日,一种全新的交互方式首次出现在北京冬奥会现场。国际奥委会主席巴赫与阿里巴巴CEO张勇,被“传送”到新闻中心,实现了一次跨时空会面。这本是在科幻电影《星球大战》中才会出现的高科技——如今,它来了。

巴赫隔空向张勇赠送冬奥火炬

这就是云上音视频通信和全息技术的融合。未来,“云上传真”不再是传递文件,而是传递“真人”。

众所周知,奥密克戎病毒在全球的蔓延给本届冬奥会带来了不小的压力。如何平衡防疫措施与冬奥会参与者的体验成为了难题。因此,冬奥会采用闭环管理,闭环内与闭环外的人不接触。这种措施虽然阻隔了病毒,但物理上的隔离让两边的人很难产生“带有温度感”的交互。在这种背景之下,奥林匹克全球合作伙伴阿里巴巴推出阿里云聚(Cloud ME):用有温度的云科技,突破物理阻隔。

把“千里之外”拉回到“近在咫尺”,

Cloud ME是如何做到的?

Cloud ME所实现的黑科技其实早就出现在了科幻电影当中,最著名的恐怕就是《星球大战》系列了。电影里不止一次出现类似的镜头:会议现场总有几个人不是肉身,而是影像。就算尤达大师(电影角色,绝地武士团的最高大师)在另一个星球,也可以瞬间把自己投影在现场。他们不是屏幕背后冰冷的图像,而是与肉身一般大小的、活生生的、可以感知的存在。

指路《星球大战III:西斯的复仇》 48:47

《星球大战》里幻想的这种黑科技,如今真的被应用在了北京冬奥会中这场特别的见面会上。从技术层面看,它究竟是如何实现的呢?

以这次跨时空会面为例,读者要谨记:真正的巴赫在北京OFH酒店(闭环内),真正的张勇在上海办公室,而他们在虚拟空间见面的地点是“闭环外”的2022北京新闻中心。

从张勇的视角看,虽然他在上海办公室,但在身边的“全息仓”里,却出现了和巴赫本人一模一样的影像与之交谈。此时,读者脑海里不应该是屏幕,而是《星战》中的尤达大师的画面:立体的、逼真的、和本人同样大小的。同理,在OFH酒店,巴赫先生的一侧也是真假难辨的张勇。

左侧:巴赫视角;右图:张勇视角

然后,我们再去看看他们的会面地点:2022北京冬奥会新闻中心。

巴赫与张勇的画面通过技术处理之后,一同出现在了新闻中心。从台下记者的角度看,他们可以面对面交流,甚至能传递物品,展示对联。但实际上他们皆不在现场。

巴赫与张勇送上新春祝福

总结一下就是,三波人、三个现场以及三个视角:在OFH酒店的巴赫,在上海办公室的张勇和在新闻中心的台下记者们。

在现场的朋友可以发现,Cloud ME能够做到发丝级的全息复制。4K分辨率、60帧的帧率,以及通过算法仿真的阴影再现,足以“以假乱真”。同时,它能把延时控制在200ms以内,这意味着台下记者与台上嘉宾的互动,和面对面相比并无二致。Cloud ME还赋予了使用者“分身”的功能,其影像可以同时出现在全球多个地点。

在巴赫与张勇所在的地方,分别有多台摄像机,通过阿里云音视频通信RTC服务(Real Time Communication)将现场的影像进行编码压缩、组包并实时传输到音视频通信网络,随后,一系列复杂的工作都会在云端完成,包括视频转码、增强、渲染、光影处理等。这个过程,让视频实现了从“平面”到“全息”的蜕变。最后,音视频数据依赖音视频通信网络传输到远端进行解码和显示,最终全息影像呈现在了“全息仓”中。

看起来不复杂,但要真正实现全息实时通信,至少要克服三个难点。

延时、网络与噪声

实现全息通信要攻克的三大难题

一、降低延时

在基于视频的交互模式中,延时对体验的杀伤力极大。比如多人视频会议,就会因为延时而出现抢话的情况。前一个人还没说完,后一个人已经开始发言了。区区几百ms(毫秒)的延时,让视频交互与面对面交流的体验相差甚远。

高延时下你看到的视频可能是这样的

那么,一般延时控制在什么范围,我们就无法察觉了呢?

根据国际标准,400ms是延时的及格线,200ms可以打满分。控制在200ms以内,我们基本无法察觉。200ms是什么概念?可以用几个数字做一下对比。中美之间通过光纤通信,这意味着传输速度是光速,在考虑路由器等因素后,实际延时最高依然有60ms左右。而传统的直播技术,以手机淘宝直播为例,延时大概在5秒左右,电视直播会更长一些。

因此,降低延时不是一件容易的事,这是一个系统工程。视频传输好比把箱子(数据)通过一个管道(带宽)送到另一端,带宽固然越大越好,但这也意味着成本上升。视频清晰度越高,则箱子越大,传输用时更久。降低延时需要在考虑成本的前提下,对其中的每一个要素进行技术处理。这是一个需要在基础技术领域投入非常大的工程。

首先,5G的应用可以降低延迟。作为重要的数字基础设施,在理论上,5G网络下典型的端对端网络延迟为5-10ms,实际情况可能非常复杂,无法达到理论值。再者,现在使用更多的降低延时的技术是编解码优化。通俗的理解就是,在有限的存储资源和带宽之下,如何尽可能提高视频的压缩比(使之更小)以及提高视频重建的质量。视频之所以需要重建,是因为我们看到的视频已经不是原始画面,而是从数据中解析出来的。

另一方面,根据阿里巴巴的技术人员的介绍,在看一段视频的时候,并不是每个画面都需要非常清晰。需要结合AI对视频的理解,即哪些地方需要清晰、哪些地方可以退而求其次,最终做到不影响用户体验。视频压缩比更高了,延时也就降低了。

二、应对网络不稳定

从上海到北京如此长距离的网络传输,互联网环境非常复杂,容易产生带宽不足、数据丢包等现象。如果有更大的流量接入互联网,还会造成网络抖动。考虑到在北京冬奥会媒体中心的全息画面是4K高清、帧率高达60,在如此高清晰度与超大屏幕之下,任何网络问题,都会让视频瑕疵在终端放大——看的清清楚楚。

基于这样的背景,Cloud ME对视频做了两方面的处理。首先是采用了“窄带高清”的技术,即同等视频质量下可以节约50%的带宽,其核心依然是编码优化。在下方对比视频中可以看到,清晰度的差别肉眼难以分辨,但是左侧视频带宽需求只有右侧的一半。

窄带高清对比

除了“窄带高清”,Cloud ME使用了自主研发、基于弱网络环境的传输算法,开发了抗丢包技术。所谓丢包,就是部分数据无法经过网络到达目的地。而在Cloud ME算法之下,80%的丢包率依然可以实现流畅通话,同等丢包环境下,网络传输效率提升65%。在以下视频中,一个无丢包,一个为70%丢包,你能否看出区别呢?

上行原始推流

上行70%丢包

三、处理音频噪声

在进行全息通信时,现场录制视频的场景环境非常复杂,噪声来自四面八方。近到键盘敲击声、呼吸声、空调声,远方的汽车鸣笛,甚至播放的音乐,都会对视频内容造成干扰。

Cloud ME采用了AliCloudDenoise语音增强算法。该算法的主要特点兼顾了降噪效果和运行成本。基于模型轻量化技术,其占用更小的带宽、更小的存储和更低的CPU占有率。在多个说话者交谈的场景下,背景噪声称之为Babble Noise,作为一种处理难度较大的噪声,该算法优化前后效果如下图所示。

AliCloudDenoise语音增强算法处理背景噪声,上图为处理前,下图为处理后|参考资料[2]

在实际应用当中,该算法的表现更加惊艳。

戴耳机听效果更明显

Cloud ME之所以表现优异,正是由于其在降延时、去噪、弱网络环境上的技术突破。而其中复杂的运算过程,都是在云端实现的。“上云”既是目前的最佳选择,也是“无奈之举”:终端的算力不足,大量计算必须要在云端完成。

回顾人类社会交互方式的发展历史,不难洞察其趋势。交互从线下到线上是质的变化,而未来交互正朝着沉浸式的方向演进,其后的发展则受到延时、算力和空间编码能力的制约。在延时200ms之下,我们可以通过移动互联网娱乐、协作。100ms延时以及部分空间编码能力,可以广泛应用自动驾驶、工业机器人。等到延时降低至50ms,同时完全具备空间编码能力,则开启了XR设备(扩展现实设备)与沉浸式交互时代。

人类交互方式的进步,基于算力、延时和空间编码能力的改善

当前的矛盾在于,高算力需要高能耗,而移动端的电池短期无法突破,这意味着移动端高算力必须上云。同时,复杂的视频增强特效与实时处理所需要的计算能力,普通的桌面PC是无法满足的。将云端的强大算力与端侧的协同处理相结合,成为可行的处理方案。

Cloud ME全息通信就是使用了“云处理+端渲染”技术,几乎不占用终端设备算力,让普通的电脑设备就具备沉浸式互动场景的构建能力。这种创新会推动沉浸式交互体验进一步演进,比如基于沉浸式体验之上构建的元宇宙。那时每个人都会在元宇宙有一个3D化身,通过可穿戴设备进入之后,我们可以在里边工作、和朋友相聚、看电影或者只是单纯的逛街。

让奥运会全面上云

其实自阿里巴巴成为奥林匹克全球合作伙伴开始,就一直致力于奥运会的数字化转型。2018平昌冬奥会,奥运会第一次用上了中国云计算服务。在去年的东京奥运会上,奥运历史上首次采用云计算支撑全球转播。

本届北京冬奥会,阿里巴巴用科技的力量,继续助力数字化转型升级。

北京冬奥会“核心系统”100%全面上云,赛事成绩、组织管理、比赛转播全部在云端运行。这也让本届奥运会成为百年奥运史上第一届全面上云的运动会。就连国际奥委会主席巴赫在接受采访事也表示,全面上云的北京冬奥会将打开新的世界,并会为奥运会拓展新领域。这是奥运史上第一次真正挖掘了这一潜力 ,是技术上的巨大进步。

北京冬奥会将通过阿里云向全球转播,首次实现高清电视直播和网络渠道直播同时云上转播。将通过阿里云向全球转播长达6000小时的赛事内容,比平昌冬奥会增加了50%,并首次以4K/8K进行赛事转播,还为俄罗斯、巴西、墨西哥、日本等地电视台增设专属云网络通道,将时延降低30%。

而此次Cloud ME全息通信技术的应用则是在疫情下给运动员、赛事工作人员、志愿者和媒体人带来温度的一项创新。如果从更大的视角看,该技术会让远程跨国会议、线上活动的体验有质的提升。新冠疫情在全球已持续两年,人们已经厌倦了同屏幕背后的同事开会、与屏幕之后的朋友问候,虽然他们看起来真实,但却无法带来实实在在的“交互感”。未来,如果以Cloud ME为代表的音视频通信与全息技术结合的方案可以商业化、普遍化,人类之间的交互模式将会开启新纪元。

冬奥福利

如果明天就能“召唤出”Cloud ME云上全息通信,你第一个想连线的是谁?为什么?评论区留下你的故事,点赞前10位随机送出阿里巴巴北京冬奥纪念徽章一枚(截止到2022年2月10日12:00)!

参考资料

-果壳商业科技传播部出品-