lora 的思想很漂亮
本质是待定系数法
利用低秩存 patch
损失一小点精度,换取存储的大量减小
以及速度大幅提升
AB = W,A B 的秩可以动态调整,利用低秩降低信息量。
同样的东西可以在 patch 里见到。只记录 diff,并且利用了线代的技巧。矩阵相乘。
 
Loading...
Steven Lynn
Steven Lynn
喂马、劈柴、周游世界
最新发布
我与 Dify 的半年
2025-3-9
我的2022年终小结
2024-11-9
记录雅思考试经历与一点学习心得
2024-11-9
Hackergame 2024 思路小结
2024-11-9
黑客松、日本、入职:我的2024下半年的总结
2024-11-9
NotionNext:基于Notion和NextJS的开源博客
2024-11-9