这篇是自己之前在学习Transformer的过程中,综合多方材料,对Transformer模型的梳理。
- 为什么是个ppt?
为了加深对模型细节的理解,想按自己的思路从Attention到LLM优化梳理遍。采用PPT主要因为它编辑上比较自由,图片文本混合布局便于具象化。
- 参考素材有哪些?
PPT的截图和代码来源主要包括:原始论文、网上的公开书籍、图片部分ChatGPT生成,部分自己绘制,PPT内都附链接。
这篇是自己之前在学习Transformer的过程中,综合多方材料,对Transformer模型的梳理。
为了加深对模型细节的理解,想按自己的思路从Attention到LLM优化梳理遍。采用PPT主要因为它编辑上比较自由,图片文本混合布局便于具象化。
PPT的截图和代码来源主要包括:原始论文、网上的公开书籍、图片部分ChatGPT生成,部分自己绘制,PPT内都附链接。