Posted by lili on December 14, 2023
Posted by lili on December 4, 2023
本文是论文Continual Pre-training of Language Models的解读。我们如果需要对Llama 2等预训练模型进行继续领域预训练,通常会面临灾难性遗忘(catastrophic forgetting, CF)。最常见的方法是在领域数据中混入一些原始的训练数据,但是这要求有原始的预训练数据,而且也会增加训练成本。而Llama 2并没有开源其预训练数据。本文的方法比较有趣,它不要求原始的预训练数据。
Posted by lili on November 13, 2023
Posted by lili on November 6, 2023
Posted by lili on November 1, 2023
本文是论文FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness的解读,除了原始论文,主要还参考了ELI5: FlashAttention。这篇参考博客讲得非常清楚,强烈建议读者阅读原文。本文除了应用其中原文的主要内容。文中那个手工推导的图片实在潦草,我也没读懂,不过即使跳过也不会,因为我补充了论文附录中更详细的推导。另外就是博客作者有三个问题不是太了解,我通过询问原作者大概理解了这些问题,对这些问题根据我的理解进行了解答。
Posted by lili on October 23, 2023
本文是对What Every Computer Scientist Should Know About Floating-Point Arithmetic的翻译。部分内容使用了ChatGPT先翻译然后校正而产生。原文的公式大部分是图片,本文都用mathjax重写了,方便阅读。作者加的注释都用【】括起来。
Posted by lili on October 10, 2023
本文介绍用VSCode和debugpy远程调试Python代码。
Posted by lili on September 25, 2023
Posted by lili on September 15, 2023