视觉
-
字节联合清华研究:Sora等这类AI视频模型无法理解基本物理规律
近日,字节跳动研究院和清华大学的研究人员联合发布了一项新研究,指出目前的 AI 视频生成模型,比如 OpenAI 的 Sora,虽然能创造出令人惊叹的视觉效果,但在理解基本物理规律…
-
AI 技术助力手术精准,FastGlioma 秒级识别癌症脑肿瘤
在肿瘤手术中,及时发现和切除残留肿瘤组织一直是医学界的难题,特别是在脑肿瘤和其他实体癌症的手术中。尽管医疗技术不断进步,残留肿瘤仍然影响着患者的预后、生活质量,并给医疗系统带来巨大…
-
扩散模型也能玩游戏?DIAMOND实现Atari 100k基准测试新SOTA
强化学习在近年来取得了许多成功,但其样本效率低下,限制了其在现实世界中的应用。世界模型作为一种环境生成模型,为解决这一问题提供了希望。它可以作为模拟环境,以更高的样本效率训练强化学…
-
阶跃星辰:iPhone 16相机控制按钮已支持调用跃问「拍照问」
上海阶跃星辰智能科技有限公司近日宣布,其智能生活助手“跃问”App的智能视觉搜索功能“拍照问”已在iPhone16上实现一键调用功能。 用户现在可以通过简单的设置,使用iPhone…
-
科大讯飞星火多模态交互大模型上线 实现“语音、视觉、数字人交互”三合一
科大讯飞公司近日宣布,其最新研发的讯飞星火多模态交互大模型正式投入运营。这一技术突破标志着科大讯飞从单一的语音交互技术拓展到音视频流实时多模态交互的新阶段。新模型集成了语音、视觉和…
-
ElevenLabs助力!AI重现摇滚传奇杰瑞・加西亚的声音
杰瑞・加西亚虽然已于1995年离世,但他的声音通过人工智能的技术得以复生。近日,人工智能开发公司 ElevenLabs 与加西亚家族达成合作,将这位传奇摇滚乐队 “死者之头” 的声…
-
波士顿动力Spot 机器人新技能 轻松躲避电线、梯子等障碍物!
正文:波士顿动力公司的机器人犬 Spot 最近迎来了一个重要的软件更新,使其在复杂环境中的行动能力大幅提升。 尽管 Spot 能够通过三维视觉系统 “看到” 周围的世界,但以往它在…
-
谷歌Gemini Exp 1114横空出世!首战碾压GPT-4,多项能力评测登顶引业界震动
谷歌DeepMind最新推出的Gemini实验版本(Exp1114)在Chatbot Arena平台上取得了令人瞩目的成绩。经过一周多的社区测试,累计超过6000票的数据显示,这款…
-
微软发布 LLM2CLIP:新 AI 技术使语言模型助力图像理解
在当今科技领域,CLIP(Contrastive Language-Image Pre-training)是一个重要的多模态基础模型。它通过在大规模图像 – 文本对上使用对比学习损…
-
AI玩《我的世界》大比拼!Claude新版本建筑水平惊艳全网
近日,一场别开生面的AI能力评测在《我的世界》平台上展开,吸引了大量关注。新旧两个版本的Claude3.5Sonnet在游戏中展开建筑PK,展现出明显的能力差异,新版本(暂称&qu…