最新文章
华为 Selftok:用自回归内核统一扩散模型,解锁像素自主推理
在大语言模型(LLM)领域,自回归(AR)范式凭借其强大的语言建模能力取得了巨大成功,但将其直接应用于视觉生成[…]
OpenAI 最强编程智能体重磅登场
一、引言在人工智能飞速发展的当下,OpenAI再一次为业界带来震撼。其精心打造的超强编程智能体正式上线C[…]
快手推出的自动化短视频质量判别框架 KuaiMod
在短视频领域,快手推出了KuaiMod,一款基于多模态大模型的自动化短视频质量判别框架。它能够高效识别和过滤[…]
SuperEdit:字节跳动等机构推出的精准图像编辑方法
SuperEdit是字节跳动智能创作团队和佛罗里达中央大学计算机视觉研究中心联合推出的图像编辑方法。它基于优[…]
Seed-Coder:字节跳动开源的 8B 规模代码模型系列
字节跳动开源的Seed-Coder是一款8B规模的代码模型系列,旨在提升代码生成与理解能力。该系列包括[…]
PixelHacker:华中科技与 VIVO 联合打造的图像修复利器
华中科技大学与VIVOAILab联合推出的PixelHacker图像修复模型,凭借其创新技术,在图[…]
ViLAMP:高效处理长视频的视觉语言模型
在数字信息飞速发展的今天,视频数据的规模呈爆发式增长,长视频的高效处理与理解成为亟待解决的难题。近期,蚂蚁集团[…]
Seed1.5-VL 是字节跳动 Seed 团队发布的视觉 – 语言多模态大模型
Seed1.5-VL是在Seed1.5基础上进一步优化和拓展的多模态模型,具备更强的通用多模态理解和推理[…]
Seedance 1.0:开启智能视频生成新纪元的重磅模型
模型概况发布时间:2025年5月13日,在上海举办的FORCELINKAI创新巡展・上海站[…]
多模态统一 CoT 奖励模型:让奖励模型学会深度思考
在多模态大模型飞速发展的今天,精准评估其生成内容的质量成为了关键挑战。当前主流的多模态奖励模型存在局限,只能给[…]