论文
-
迪士尼推全新AI图像压缩方法:能保留图片细节,却有 “幻觉” 风险
迪士尼的研究团队最近推出了一种全新的图像压缩方法,利用开源的 Stable Diffusion V1.2模型,这种方法可以在比竞争对手更低的比特率下生成更真实的图像。这种新方法被称…
-
清华大学推出突破性音源仿真平台SonicSim AI语音处理要起飞了?
清华大学的研究团队近日发布了名为 SonicSim 的移动音源仿真平台,旨在解决当前语音处理领域在移动声源场景下数据缺乏的难题。 这一平台基于 Habitat-sim 仿真平台构…
-
Meta 推出新一代视频生成模型 MarDini,搞定填补视频缺失帧任务
最近,Meta 与沙特阿拉伯的阿卜杜拉国王科技大学(KAUST)合作,推出了一款全新的视频扩散模型系列 ——MarDini。这个模型让高质量视频的创作变得更加简单和灵活,能够完成多…
-
加州大学伯克利分校打造机器人“学徒”:会玩积木、还能组装宜家家具
近日,加州大学伯克利分校 BAIR 实验室的 Sergey Levine 研究团队提出了一种名为 HIL-SERL 的强化学习框架,旨在解决机器人在现实世界中学习复杂操作技能的难题…
-
到2030年,生成式AI或将产生相当于超10亿部iPhone电子废弃物
近日,剑桥大学和中国科学院的研究人员在《自然》杂志上发表了一篇引人关注的论文,预测到2030年,随着生成式人工智能的迅速发展,行业可能会每年产生相当于超过10亿部 iPhone 的…
-
视频理解领域杀出黑马!Video-XL这款模型能处理长达一小时的视频!
当前,多模态大型语言模型(MLLM)在视频理解领域取得了显著进展,但处理超长视频仍然是一个挑战。 这是因为,MLLM 通常难以处理超过最大上下文长度的数千个视觉标记,并且会受到标记…
-
智源推出小时级超长视频理解大模型Video-XL
北京智源人工智能研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等高校推出了一款名为Video-XL的超长视频理解大模型。这款模型是多模态大模型核心能力的重要展示,也是…
-
自动驾驶也要玩“元宇宙”?极佳科技用AI脑补,让4D场景重建更丝滑!
近日,极佳科技提出了一种名为 DriveDreamer4D 的全新框架,旨在利用世界模型的先验知识来提升4D 驾驶场景的重建效果。 传统的4D 场景重建方法,主要依赖于 NeRF …
-
微软推新模型OmniParser:让GPT-4V秒懂屏幕截图内容,指哪懂哪
还记得那个号称“看图说话”神器GPT-4V吗?它能理解图片内容,还能根据图片执行任务,简直是懒人福音!但它有个致命弱点:眼神不太好! 想象一下,你让GPT-4V帮你点个按钮,它却像…
-
GPT进化之路:告别“题海战术”,AI也能像人一样“悟”了?
大型语言模型(LLM)如GPT系列,凭借庞大的数据集,在语言理解、推理和规划方面展现出惊人的能力,在各种挑战性任务中已达到与人类相当的水平。大多数研究都集中在通过在更大的数据集上训…