Miras – 谷歌推出的深度学习架构设计通用框架
2025-05-01 09:01:11 小编:六六导航站
Miras是什么
Miras是谷歌推出的用在深度学习架构设计的通用框架,特别是序列建模任务。Miras基于关联记忆和注意力偏差的概念,将Transformer、现代线性RNN等模型重新定义为具有内部优化目标的关联记忆模块。Miras基于四种关键选择构建模型,关联记忆架构、注意力偏差目标、保持门及记忆学习算法。Miras能生成具有不同优势的新型序列模型,例如Moneta、Yaad和Memora,模型在语言建模、常识推理等任务中表现出色,超越现有的Transformer和线性RNN模型。

Miras的主要功能
统一现有架构:将现有的多种序列模型(如Transformer、RetNet、Mamba等)纳入统一的框架下。优化记忆管理:基于引入注意力偏差(Attentional Bias)和保留门(Retention Gate)的概念,Miras能够更好地平衡学习新信息和保留旧信息,从而优化模型的记忆管理能力。设计新型模型:支持设计出具有不同注意力偏差和保留机制的新型序列模型,如Moneta、Yaad和Memora。提升模型性能:提升模型在长序列任务中的性能,保持快速的并行化训练能力。Miras的技术原理
关联记忆:将输入(键,Keys)映射到输出(值,Values)的机制。在Miras中,序列模型被看作是关联记忆模块,基于学习输入和输出之间的映射关系存储和检索信息。关联记忆是Miras的核心,决定模型如何存储和利用序列数据中的信息。注意力偏差:注意力偏差是关联记忆的内部优化目标,用在衡量模型如何优先关注某些事件或刺激。决定模型如何学习输入(键和值)之间的映射关系。基于选择不同的注意力偏差目标(如ℓ2回归、ℓ1回归、Huber损失等),调整模型对数据的敏感度和鲁棒性。保持门:一种正则化机制,控制模型在学习新信息时如何保留旧信息。引入保留正则化项(如ℓ2正则化、KL散度等)平衡学习和保留。防止模型过度遗忘旧信息,在长序列任务中保持更好的性能。记忆学习算法:记忆学习算法用在优化关联记忆的目标函数。常见的算法包括梯度下降、动量梯度下降等。基于选择合适的优化算法,提高模型的训练效率和收敛速度。Miras的项目地址
arXiv技术论文:https://arxiv.org/pdf/2504.13173Miras的应用场景
语言建模:NLP研究人员、文本生成开发者用于高效处理长文本,捕捉长距离依赖。常识推理:AI研究者、智能助手开发者提升对隐含信息的理解和推理能力。长文本处理:文本分析工程师、信息检索专家优化长文本处理效率,减少资源消耗。多模态任务:多模态研究者、多媒体内容分析工程师融合多种模态信息,提升跨模态推理能力。- 猜你喜欢
-
MusicTGA-HR提示指令
-
RappingAI提示指令
-
Boomy提示指令
-
TwoShot提示指令
-
Weet提示指令
-
Muzaic Studio提示指令
-
-
HookGen提示指令
-
DadaBots提示指令
- 相关AI应用
-
Playlistable提示指令
-
Riffusion提示指令
-
WZRD提示指令
-
-
Cyanite.ai提示指令
-
Piano Genie提示指令
-
Synthesizer V提示指令
-
Cosonify提示指令
-
Musico提示指令
- 推荐AI教程资讯
- Miras – 谷歌推出的深度学习架构设计通用框架
- SocioVerse – 复旦大学联合小红书等机构开源的社会模拟世界模型
- Pad.ws – 在线AI开发工具,白板功能与代码编辑器深度结合
- GPT-image-1 – OpenAI 推出的最新图像生成模型
- Eagle 2.5 – 英伟达推出的视觉语言模型
- Skywork-R1V 2.0 – 昆仑万维开源的新版多模态推理模型
- Flex.2-preview – Ostris 推出的文本到图像扩散模型
- DAM-3B – 英伟达推出的多模态大语言模型
- Cooragent – 清华 LeapLab 开源的 AI Agent 协作框架
- Open Avatar Chat – 阿里开源的实时数字人对话系统
- 精选推荐
-
Koolio.ai2025-02-19提示指令
-
Epagestore.ai2025-02-05法律助手
-
ChatMindAI2025-01-27提示指令
-
Soundraw2025-02-24提示指令
-
Superpower ChatGPT2025-02-01提示指令
-
Learning Prompt2025-01-02提示指令