本文是论文Continual Pre-training of Language Models的解读。我们如果需要对Llama 2等预训练模型进行继续领域预训练,通常会面临灾难性遗忘(catastrophic forgetting, CF)。最常见的方法是在领域数据中混入一些原始的训练数据,但是这要求有原始的预训练数据,而且也会增加训练成本。而Llama 2并没有开源其预训练数据。本文的方法比较有趣,它不要求原始的预训练数据。
本文是论文Continual Pre-training of Language Models的解读。我们如果需要对Llama 2等预训练模型进行继续领域预训练,通常会面临灾难性遗忘(catastrophic forgetting, CF)。最常见的方法是在领域数据中混入一些原始的训练数据,但是这要求有原始的预训练数据,而且也会增加训练成本。而Llama 2并没有开源其预训练数据。本文的方法比较有趣,它不要求原始的预训练数据。
Posted by lili on November 13, 2023
Posted by lili on November 6, 2023
Posted by lili on November 1, 2023
本文是论文FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness的解读,除了原始论文,主要还参考了ELI5: FlashAttention。这篇参考博客讲得非常清楚,强烈建议读者阅读原文。本文除了应用其中原文的主要内容。文中那个手工推导的图片实在潦草,我也没读懂,不过即使跳过也不会,因为我补充了论文附录中更详细的推导。另外就是博客作者有三个问题不是太了解,我通过询问原作者大概理解了这些问题,对这些问题根据我的理解进行了解答。
Posted by lili on October 23, 2023
本文是对What Every Computer Scientist Should Know About Floating-Point Arithmetic的翻译。部分内容使用了ChatGPT先翻译然后校正而产生。原文的公式大部分是图片,本文都用mathjax重写了,方便阅读。作者加的注释都用【】括起来。
Posted by lili on October 10, 2023
本文介绍用VSCode和debugpy远程调试Python代码。
Posted by lili on September 25, 2023
Posted by lili on September 15, 2023
一个NLP从业者关于ChatGPT的思考。
Posted by lili on February 20, 2023
本系列课程记录学习Huggingface Transformers的过程,主要参考了官方教程和Natural Language Processing with Transformers: Building Language Applications with Hugging Face。
Posted by lili on October 24, 2022
本系列课程记录学习Huggingface Transformers的过程,主要参考了官方教程和Natural Language Processing with Transformers: Building Language Applications with Hugging Face。
Posted by lili on October 24, 2022