跳至主要內容
KAN

这篇论文自4月30日发布,短短五一期间,一周时间,已经在paperwithcode上获得了7248个标星,可以说是非常火了,而且其声称可以用来替代MLP,而且作者单位麻省理工,所以阅读一下做一些笔记。

关键词:替代MLP、人工智能可解释性、参数效率

基本内容

为了解决什么问题?

MLPs在非线性回归、数据拟合、偏微分方程求解以及科学发现中存在一些限制,如固定激活函数的局限性、参数效率低、可解释性差等。

论文原话:如在transformer中:MLPs consume almost all non-embedding parameters and are typically less interpretable (relative to attention layers) without post-analysis tools.(mlp消耗了几乎所有的非嵌入参数,并且在没有分析后分析工具[5]的情况下,相对于注意层通常更难以解释)。


Genhiy...大约 11 分钟论文笔记激活函数
激活函数总结

Sigmoid

问:为什么大模型会有梯度消失问题?

答:sigmoid函数的导数取值范围是(0, 0.25],小于1的数乘在一起,必然是越乘越小的。这才仅仅是3层,如果10层的话, 根据0.25100.0000009540.25^{10}≈ 0.000000954,第10层的误差相对第一层卷积的参数的梯度将是一个非常小的值,这就是所谓的“梯度消失”。


Genhiy...大约 3 分钟AI激活函数