加载中...

突破传统!FUDOKI 模型让多模态生成与理解更灵活、更高效

2025/06/10 · Ai资讯
18
0

近年来人工智能领域发生了翻天覆地的变化,尤其是大型语言模型(LLMs)在多模态任务上取得了显著进展。这些模型在理解和生成语言的能力上展现出了强大的潜力,但目前大多数多模态模型依然采用自回归(AR)架构,推理过程较为单一、缺乏灵活性。为此,香港大学和华为诺亚方舟实验室的研究团队提出了一种全新的模型 ——FUDOKI,旨在打破这一局限。

FUDOKI 的核心创新在于其全新的非掩码离散流匹配(Discrete Flow Matching)架构。与传统的自回归模型不同,FUDOKI 通过并行去噪机制,能够实现双向信息整合,从而显著提升模型在复杂推理和生成任务中的表现。该模型不仅在图像生成与文本理解之间架起了桥梁,还实现了两者的统一建模。

这一模型的优势在于其去掩码的设计,使得生成过程更加灵活。FUDOKI 在推理过程中允许动态调整生成结果,仿佛让机器学习到了人类的思维方式。此外,FUDOKI 在生成图像方面的表现尤为出色,在 GenEval 基准上取得了0.76的成绩,超越了同尺寸的自回归模型,展现出高质量的生成效果和语义准确性。

FUDOKI 的构建依赖于度量诱导的概率路径和动力学最优速度。这些技术使得模型能够在生成过程中综合考虑每个 token 的语义相似性,从而实现更加自然的文本和图像生成。同时,在模型训练上,FUDOKI 利用预训练的自回归模型进行初始化,降低了训练成本,提升了效率。

FUDOKI 的推出不仅为多模态生成和理解提供了新的视角,还为通用人工智能的发展奠定了更为坚实的基础。未来,我们期待 FUDOKI 能够带来更多的探索与突破,推动人工智能技术的进一步发展。

您需要登录后再评论
登录
{{item.user_nickname}}
{{item.create_time_txt}}待审核
{{item.comment_number}}
{{item.zan_num}}
{{item.zan_num}}
删除
{{comment.user_nickname}}
@{{comment.reply_nickname}}
{{comment.create_time_txt}}待审核
{{comment.comment_number}}
{{comment.zan_num}}
{{comment.zan_num}}
删除
展开更多
加载更多
回复@{{replyItem.user_nickname}}的评论
取消
回复
删除评论
确定要删除该评论吗?
取消
确定
登录
注册账号
找回密码
注册邮箱已存在
两次输入密码不一致
注册并登录
直接登录
找回密码
两次输入密码不一致
确定
注册账号