证明是挺漂亮的,但不能用。
她拿过一张餐巾纸,画了个球面示意图:他们的Lipschitz假设在实际的softmax下根本不成立,高维空间里梯度直接blowup。
你拿这个收敛率去calibrate真实的attentionmap,差两个数量级。
陶予之笑了一下。她太熟悉薛意的思路了。纯数学家看一篇论文先看证明结构美不美,薛意看一篇论文先看结论能不能拿来赚钱。
那你打算怎么修?
不修,换个框架。
薛意在餐巾纸上飞快地画了起来:我在想Ricciflow。
Clustering本质上就是曲率集中,Perelman处理奇点的那套surgery改一改,应该能给一个更tight的bound。
两人聊得旁若无人…
曲悠悠懵懵地看着两个神仙似的人叽里咕噜说了一堆什么都听不懂的话,还有来有回的,有点幽怨地开始怀疑自己的智商。
内容未完,下一页继续阅读