李理的博客

QLoRA: Efficient Finetuning of Quantized LLMs论文解读

本文是论文QLoRA: Efficient Finetuning of Quantized LLMs的解读。


GraphCast: Learning skillful medium-range global weather forecasting

本文是论文GraphCast: Learning skillful medium-range global weather forecasting的解读。


Continual Pre-training of Language Models论文解读

本文是论文Continual Pre-training of Language Models的解读。我们如果需要对Llama 2等预训练模型进行继续领域预训练,通常会面临灾难性遗忘(catastrophic forgetting, CF)。最常见的方法是在领域数据中混入一些原始的训练数据,但是这要求有原始的预训练数据,而且也会增加训练成本。而Llama 2并没有开源其预训练数据。本文的方法比较有趣,它不要求原始的预训练数据。


ZeRO论文解读

本文是论文ZeRO: Memory Optimizations Toward Training Trillion Parameter Models的解读。


PagedAttention论文解读

本文是论文Efficient Memory Management for Large Language Model Serving with PagedAttention的解读。


Flash Attention论文解读

本文是论文FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness的解读,除了原始论文,主要还参考了ELI5: FlashAttention。这篇参考博客讲得非常清楚,强烈建议读者阅读原文。本文除了应用其中原文的主要内容。文中那个手工推导的图片实在潦草,我也没读懂,不过即使跳过也不会,因为我补充了论文附录中更详细的推导。另外就是博客作者有三个问题不是太了解,我通过询问原作者大概理解了这些问题,对这些问题根据我的理解进行了解答。


每个计算机科学家应该知道的浮点数运算

本文是对What Every Computer Scientist Should Know About Floating-Point Arithmetic的翻译。部分内容使用了ChatGPT先翻译然后校正而产生。原文的公式大部分是图片,本文都用mathjax重写了,方便阅读。作者加的注释都用【】括起来。


VSCode远程调试Python

本文介绍用VSCode和debugpy远程调试Python代码。


RoPE论文解读

本文是对论文RoFormer: Enhanced Transformer with Rotary Position Embedding的解读。