mamba模块的简单原理

发表于2025-03-09|更新于2025-03-15

|浏览量:

本文记录Mamba模型的学习。参考资料

提出的目的

新的模型的出现，必然是为了解决过去模型的不足。

Transformer在预测工作时，需要计算之前所有tokens的自注意力矩阵，这个工作的计算量时相当大的。也就是说预测时速度很慢，但是由于Transformer可以并行计算，所以训练非常快。
RNN 推理快，但是训练慢（不能并行计算），而且记忆时间不长。
那么我们就想有一种模型，训练也快推理也快。还有一定的记忆时长。

由简入深

状态空间模型
离散化：零阶保持器
循环表示
循环表示用来推理
卷积表示
卷积表示用来训练
结构化状态空间模型(S4)
引入HiPPO（Hungering Hungry Hippo），用来使得A保持大容量记忆。
其它改进
有选择地保留信息(Selectively Retain Information)
扫描操作(The Scan Operation)
硬件感知算法(Hardware-aware Algorithm)

文章作者: XJC

文章链接: http://xujingchen.site/2025/03/09/mamba/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源哈基窝！