2024云栖大会“三问”：AI发展的速度、自动驾驶的精度、人形机器人的深度-新华网

观察AI前沿趋势和应用进展，2024云栖大会是重要窗口。

4万平米的智能科技展区、全球百余款AI应用登台、400场论坛上演头脑风暴，还有小鹏、特斯拉、零跑等国内外头部车企“组团”参展，与制作咖啡、推拿按摩的人形机器人灵活互动……在近日举办的2024云栖大会上，这些都备受关注，而最为关注的三个话题：AGI的速度、自动驾驶的精度、人形机器人的深度。

一问：AI发展在加速还是变慢？

不久前，OpenAI发布新模型OpenAI o1（以下简称“o1”），似乎仿佛给AGI（通用人工智能）的发展周期添上新动力，o1能否代表AGI的重要进步？

清华大学人工智能研究院副院长、生数科技首席科学家朱军表示，目前AI还处于L2级（推理者）的发展早期，但仍在加速发展中，未来18个月可能出现L4级（创新者）的突破。

“从分级的角度来看，o1确实代表着整个行业的巨大进步。”朱军称，在技术上，o1是把过去在强化学习上做的很多东西，在大规模的基座模型上scale up（纵向扩展），做出来的效果在工程上对行业产生了实际触动。

月之暗面创始人杨植麟认为，o1发布最重要的一点是提升了AI的上限，对很多产业格局会产生影响，会产生很多新的创业机会。

那么，整体看AI的发展是在加速还是变慢呢？“我觉得过去18个月其实感觉是在加速，速度还是非常快。”阶跃星辰创始人、CEO姜大昕表示，可以从两个维度去做判断。一个是数量的角度，基本上还是每个月都会有新的模型、新的产品、新的应用这样涌现出来；另一个是质量的角度，例如GPT-4o的发布、特斯拉发布的FSD V12以及OpenAI发布的o1。

“过去22个月，AI的发展速度超过历史上的任何时期。”阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭举例，去年大模型的数学能力还只是中学生水平，但今天已经可以拿到国际奥赛金牌，尤其在物理、化学生物等多方面学科，已经接近博士生水平。

阿里云智能集团首席技术官周靖人在大会期间宣布，通义千问升级旗舰模型Qwen-Max，大部分性能接近GPT-4o，数学能力、代码能力还实现了超越。此外，通义万相发布视频生成模型，用户输入文字或图片都能生成动态视频。由此，通义大模型也“攒齐”了文本生成、图像理解、视频理解、音频理解、图像生成、视频生成等全模态场景。

不过吴泳铭也强调，目前AI发展仍处于变革的早期阶段，要实现真正的AGI，下一代模型还需具备更大规模、更复杂、更多层次的逻辑推理能力。全世界先进模型的投入门槛将达到数十亿、数百亿美元的级别。

二问：自动驾驶的精度能否提升？

大模型“上车”，能否让自动驾驶焕新？

小鹏汽车董事长兼CEO何小鹏驾驶P7+亮相此次云栖大会。这款车搭载了业内领先的端到端大模型技术，此番首次对外亮相引起关注。

何小鹏介绍，过去2年，小鹏汽车与阿里云共建的AI算力规模提升超四倍，有了大模型的加持，自动驾驶试验车转向、变道像人开车一样流畅。对于此次的端到端技术的引入，他认为将极大提升自动驾驶的性能上限，并同时保障其安全性的下限。“未来三年，随着端到端大模型在自动驾驶上的应用，每个人在任何城市都能像老司机一样开车。”

何小鹏透露，接下来将与阿里云持续深化合作，加速推动端到端大模型落地。“之前的自动驾驶技术，是靠人来写算法规则，几十万行代码，仍然无法穷尽所有的驾驶场景。采用‘端到端’大模型技术训练后，AI模型可直接学习海量人类驾驶视觉数据。”阿里巴巴集团CEO吴泳铭说。

特斯拉也在云栖大会拿出来看家本领，带来了FSD（Full Self-Drive）完全自动驾驶技术，这也是特斯拉多年研发的完全自动驾驶解决方案，目标是实现不需要人为干预的驾驶。

英伟达全球副总裁、汽车事业部负责人吴新宙认为，随着端到端大模型上车，AI将以无限度的规则重新定义汽车。谈及大模型对自动驾驶精度的提升，吴新宙表示，过去，想让汽车自动识别一个障碍，得由程序员写一段代码，让汽车做出相应的规避动作。“但是，道路千变万化，不可能囊括所有意外情况，因此自动驾驶技术始终是不稳定的。”

但大模型的出现带来了改变，其“端到端”技术，让机器第一次拥有了“体验”的能力，能理解情感、语气、环境杂音等，这也让机器“拟人”真正成为可能。

三问：人形机器人会更有深度吗？

今年云栖大会上，机器人展区吸睛无数，14家领先的人形机器人公司排成阵列，展示出人形机器人在各领域的最新应用。

当谈到AI带来的变化趋势，吴泳铭指出，机器人将是下一个迎来巨变的行业，未来每个家庭可能会有两三个机器人帮助人们提高效率。AI驱动的数字世界将大幅提升整个世界的生产力，对物理世界的运行效率产生革命性影响，这种价值创造是移动互联网连接价值的十倍、几十倍。

“未来，所有能移动的物体都会变成智能机器人。”吴泳铭畅想，它可以是工厂里的机械臂、工地里的起重机、仓库里的搬运工、救火现场的消防员，包括家庭里的宠物狗、保姆、助理等。未来，工厂里会有很多机器人，在AI大模型的指挥下，生产机器人。

机器人或将成为把AI拉入物理世界的重要载体。宇树科技创始人王兴兴认为，通用人形机器人算是目前大模型最好的落地载体，它可以解决AI落地场景的问题。

逐际动力创始人张巍也直言，软件算法的通用性要靠大模型，机器人跟物理世界交互的通用性交互要靠人形机器人。

距离机器人真正走入生活还有多远？清华大学交叉信息研究院助理教授、星动纪元创始人陈建宇认为，一两年内就能看到各个行业的早期试用者。但大规模应用、进入家庭还有很长一段距离。他解释称，大模型在工业场景渗透会更快，因为边界性很强做事情相对固定；而生活场景复杂得多，需要机器人有更强的泛化能力。（徐融/文阿里云/供图）

【责任编辑:张灵】