这篇是自己之前在学习Transformer的过程中,综合多方材料,对Transformer模型的梳理。

  • 为什么是个ppt?

为了加深对模型细节的理解,想按自己的思路从Attention到LLM优化梳理遍。采用PPT主要因为它编辑上比较自由,图片文本混合布局便于具象化。

  • 参考素材有哪些?

PPT的截图和代码来源主要包括:原始论文、网上的公开书籍、图片部分ChatGPT生成,部分自己绘制,PPT内都附链接。

Transformer.pdf