mamba模块的简单原理
本文记录Mamba模型的学习。参考资料
提出的目的
新的模型的出现,必然是为了解决过去模型的不足。
- Transformer在预测工作时,需要计算之前所有tokens的自注意力矩阵,这个工作的计算量时相当大的。也就是说预测时速度很慢,但是由于Transformer可以并行计算,所以训练非常快。
- RNN 推理快,但是训练慢(不能并行计算),而且记忆时间不长。
那么我们就想有一种模型,训练也快推理也快。还有一定的记忆时长。
由简入深
状态空间模型
离散化:零阶保持器
循环表示
循环表示用来推理卷积表示
卷积表示用来训练结构化状态空间模型(S4)
引入HiPPO(Hungering Hungry Hippo),用来使得A保持大容量记忆。其它改进
有选择地保留信息(Selectively Retain Information)
扫描操作(The Scan Operation)
硬件感知算法(Hardware-aware Algorithm)
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 哈基窝!
