如今的人工智能模型是否真的能像人类一样记忆、思考、计划和推理呢?有些 AI 实验室似乎让人觉得我们离 “人类级 AI” 不远了,但 Meta 的首席 AI 科学家 Yann LeCun 却给了大家一记冷水。他认为,我们要想实现这一目标,可能还需要十年的努力,而这一切的关键在于 “世界模型”。
在今年年初,OpenAI 推出了一项新功能,声称它的 AI大模型 可以 “记住” 与用户的对话。它最新一代的模型在生成输出时显示 “思考” 字样,甚至宣称这些模型能够进行 “复杂推理”。
图片来自「AI创作问答助手」绘制
听起来似乎我们快要迎来 AGI(通用人工智能)的时代。然而,在最近一次的哈德逊论坛上,LeCun 却驳斥了那些乐观的声音,比如 xAI 创始人 Elon Musk 和谷歌 DeepMind 联合创始人 Shane Legg,他们认为人类级别的 AI 就在眼前。
LeCun 指出:“我们需要那些能理解世界的机器;具备记忆、直觉、常识,能像人类一样推理和规划的机器。” 他强调,尽管一些最热衷于 AI 发展的声音频频呼喊,当前的 AI 系统其实还远未达到这个水平。他甚至表示,真正的人类级 AI 可能要 “数年到数十年” 才能实现。
那问题出在哪儿呢?其实很简单:如今的大型语言模型(LLM)仅仅是通过预测下一个词汇(通常是几个字母或一个短词)来工作,而当前的图像或视频模型则是预测下一个像素。这就是说,语言模型只能在一维上进行预测,而图像 / 视频模型则在二维上进行。虽然这些模型在各自的领域中表现得相当优秀,但它们并不理解三维世界的复杂性。
正因如此,现代 AI 系统无法完成大多数人类能够轻松应对的简单任务。LeCun 提到,人类在十岁时就能学会收拾餐桌,而在十七岁时能学会驾驶,甚至只需几个小时的时间。但即使是当前最先进的 AI 系统,经过数千或数百万小时的数据训练,依然无法可靠地在现实世界中操作。
要实现更复杂的任务,LeCun 认为我们需要构建能够感知周围世界的三维模型,核心在于一种新的 AI 架构 —— 世界模型。他解释道:“世界模型是你对世界行为的心理模型。” 你可以想象一系列你可能采取的行动,而你的世界模型会让你预测这些行动对世界的影响。
例如,想象你看到了一个凌乱的卧室,想要把它弄干净。你可以很自然地想到,捡起所有的衣服并把它们放好就可以解决问题。你不需要尝试多种方法,也不需要先学会如何清理房间。你的大脑观察三维空间,直接制定出第一时间可以实现目标的行动计划。这种行动计划正是 AI 世界模型所承诺的 “秘密武器”。
世界模型的另一个好处是,它们能够处理比 LLM 更为庞大的数据。这也使得它们的计算需求变得更加复杂,这就是为什么各大云服务提供商正在争相与 AI 公司合作的原因。
如今,多个 AI 实验室都在追逐世界模型这个大概念,这个词迅速成为吸引风险投资的热门话题。一组享有盛誉的 AI 研究人员,包括 “AI 女神” Fei-Fei Li 和 Justin Johnson,刚刚为他们的初创公司 World Labs 筹集了2.3亿美元。她和她的团队坚信,世界模型将解锁更智能的 AI 系统。OpenAI 也将其尚未发布的 Sora 视频生成器描述为一种世界模型,但具体细节尚未披露。
LeCun 在2022年的一篇关于 “目标驱动 AI” 的论文中阐述了使用世界模型创建人类级 AI 的构想,尽管他指出这个概念已有60多年的历史。简而言之,世界模型通过一个世界的基本表示(例如,一个脏房间的视频)和记忆进行训练。然后,这个模型会根据这些信息预测世界的变化。接着,你给世界模型设定目标,包括你希望实现的世界的变化状态(比如将房间清理干净),并设置一些 “保护措施”,确保模型不会为了达成目标而危害人类(比如,清理房间时请不要伤到我)。最后,世界模型会找到一系列行动序列来达成这些目标。
Meta 的长期 AI 研究实验室 FAIR(基础 AI 研究)正在积极研究目标驱动 AI 和世界模型,LeCun 表示。FAIR 曾经为 Meta 的即将推出的产品进行 AI 研究,但 LeCun 说该实验室近年来已转向专注于长期 AI 研究,现在甚至不再使用 LLM。
虽然世界模型是个引人入胜的概念,但 LeCun 坦言我们在将这些系统转变为现实方面尚未取得太大进展。我们距离目标还有很多艰难的问题需要解决,他表示,“如果不说十年,这里的一切都可能需要数年才能运作。” 而他的老板马克・扎克伯格总是忍不住询问何时才能实现这一目标。
内容由用户投稿,如若转载,请注明出处:https://aiczwd.com/blog/archives/263