突破传统！FUDOKI 模型让多模态生成与理解更灵活、更高效 - 发现好用的Ai网站和Ai工具-ToolifyAi中文导航网站,Ai工具集导航站

加载中...

突破传统！FUDOKI 模型让多模态生成与理解更灵活、更高效

2025/06/10 · Ai资讯

18

0

近年来人工智能领域发生了翻天覆地的变化，尤其是大型语言模型（LLMs）在多模态任务上取得了显著进展。这些模型在理解和生成语言的能力上展现出了强大的潜力，但目前大多数多模态模型依然采用自回归(AR)架构，推理过程较为单一、缺乏灵活性。为此，香港大学和华为诺亚方舟实验室的研究团队提出了一种全新的模型 ——FUDOKI，旨在打破这一局限。

FUDOKI 的核心创新在于其全新的非掩码离散流匹配（Discrete Flow Matching）架构。与传统的自回归模型不同，FUDOKI 通过并行去噪机制，能够实现双向信息整合，从而显著提升模型在复杂推理和生成任务中的表现。该模型不仅在图像生成与文本理解之间架起了桥梁，还实现了两者的统一建模。

这一模型的优势在于其去掩码的设计，使得生成过程更加灵活。FUDOKI 在推理过程中允许动态调整生成结果，仿佛让机器学习到了人类的思维方式。此外，FUDOKI 在生成图像方面的表现尤为出色，在 GenEval 基准上取得了0.76的成绩，超越了同尺寸的自回归模型，展现出高质量的生成效果和语义准确性。

FUDOKI 的构建依赖于度量诱导的概率路径和动力学最优速度。这些技术使得模型能够在生成过程中综合考虑每个 token 的语义相似性，从而实现更加自然的文本和图像生成。同时，在模型训练上，FUDOKI 利用预训练的自回归模型进行初始化，降低了训练成本，提升了效率。

FUDOKI 的推出不仅为多模态生成和理解提供了新的视角，还为通用人工智能的发展奠定了更为坚实的基础。未来，我们期待 FUDOKI 能够带来更多的探索与突破，推动人工智能技术的进一步发展。

您需要登录后再评论

登录

{{item.user_nickname}}

{{item.create_time_txt}}待审核

{{item.comment_number}}

{{item.zan_num}}

{{item.zan_num}}

删除

{{comment.user_nickname}}

@{{comment.reply_nickname}}

{{comment.create_time_txt}}待审核

{{comment.comment_number}}

{{comment.zan_num}}

{{comment.zan_num}}

删除

展开更多

加载更多

回复@{{replyItem.user_nickname}}的评论

取消

回复

删除评论

确定要删除该评论吗？

取消

确定

用户名/邮箱

密码

登录

注册账号

找回密码

用户名/邮箱

注册邮箱已存在

邮箱验证码

密码

确认密码

两次输入密码不一致

注册并登录

直接登录

找回密码

用户名/邮箱

邮箱验证码

密码

确认密码

两次输入密码不一致

确定

注册账号