视觉
-
视频理解领域杀出黑马!Video-XL这款模型能处理长达一小时的视频!
当前,多模态大型语言模型(MLLM)在视频理解领域取得了显著进展,但处理超长视频仍然是一个挑战。 这是因为,MLLM 通常难以处理超过最大上下文长度的数千个视觉标记,并且会受到标记…
-
AI重大发现:最先进视觉模型在基础视觉推理能力上仍显不足
来自德国达姆施塔特工业大学的最新研究揭示了一个令人深思的现象:即便是当前最先进的AI图像模型,在面对简单的视觉推理任务时也会出现明显失误。这项研究结果对AI视觉能力的评估标准提出了…
-
智源推出小时级超长视频理解大模型Video-XL
北京智源人工智能研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等高校推出了一款名为Video-XL的超长视频理解大模型。这款模型是多模态大模型核心能力的重要展示,也是…
-
苹果新AI系统Ferret-UI 2刷新UI交互体验 轻松操控你的设备
苹果公司近日发布了新一代人工智能系统Ferret-UI2。这款跨平台AI助手在UI元素识别方面取得重大突破,测试得分达89.73,大幅领先GPT-4V的77.73分,展现出卓越的性…
-
突破性跨越:三星24Gb GDDR7问世,引领AI算力革命
三星电子近日宣布成功研发全球首款24Gb GDDR7DRAM,这一重大突破不仅标志着存储技术进入新纪元,更将为快速发展的AI领域注入强劲动力。 这款新型存储芯片采用第五代10纳米级…
-
Meta开源长视频LLM项目LongVU:可过滤重复帧 高效精准理解长视频内容
最近,Meta AI 团队带来了 LongVU,这是一种新颖的时空自适应压缩机制,旨在提升长视频的语言理解能力。传统的多模态大型语言模型(MLLMs)在处理长视频时面临着上下文长度…
-
美图奇想大模型图像生成能力再度升级:生成质感更细腻自然
美图公司宣布,其旗下的美图奇想大模型(MiracleVision)在图像生成能力上实现了又一次升级,此次升级标志着该大模型在综合实力上的进一步完善。同时,美图公司推出了一站式AI短…
-
告别“黑匣子”!北大研发新AI框架FakeShield,让图像造假无所遁形!
随着AIGC技术的快速发展,图像编辑工具日益强大,图像篡改变得更加容易,也更难被察觉。 虽然现有的图像篡改检测和定位方法(IFDL)通常很有效,但它们往往面临两大挑战:一是“黑匣子…
-
Salesforce AI研究推全新多模态模型BLIP-3-Video:低成本搞定视频理解
最近,Salesforce AI 研究团队推出了一款全新的多模态语言模型 ——BLIP-3-Video。随着视频内容的快速增加,如何高效处理视频数据成为了一个亟待解决的问题。这款模…
-
英伟达与微软强强联合,打造医疗 AI 创新加速器
最近,英伟达和微软携手推出了一项新计划,旨在推动医疗领域的 AI 创新。这项合作结合了英伟达的 Inception 全球计划和微软的初创企业支持计划,意在帮助更多初创企业提升他们的…