本文整理了Huggingface transformers文本生成相关的资料。
本文整理了Huggingface transformers文本生成相关的资料。
Posted by lili on December 19, 2023
本文是Huggingface博客Mixture of Experts Explained的翻译。
Posted by lili on December 18, 2023
Posted by lili on December 14, 2023
Posted by lili on December 4, 2023
本文是论文Continual Pre-training of Language Models的解读。我们如果需要对Llama 2等预训练模型进行继续领域预训练,通常会面临灾难性遗忘(catastrophic forgetting, CF)。最常见的方法是在领域数据中混入一些原始的训练数据,但是这要求有原始的预训练数据,而且也会增加训练成本。而Llama 2并没有开源其预训练数据。本文的方法比较有趣,它不要求原始的预训练数据。
Posted by lili on November 13, 2023
Posted by lili on November 6, 2023
Posted by lili on November 1, 2023
本文是论文FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness的解读,除了原始论文,主要还参考了ELI5: FlashAttention。这篇参考博客讲得非常清楚,强烈建议读者阅读原文。本文除了应用其中原文的主要内容。文中那个手工推导的图片实在潦草,我也没读懂,不过即使跳过也不会,因为我补充了论文附录中更详细的推导。另外就是博客作者有三个问题不是太了解,我通过询问原作者大概理解了这些问题,对这些问题根据我的理解进行了解答。
Posted by lili on October 23, 2023
本文是对What Every Computer Scientist Should Know About Floating-Point Arithmetic的翻译。部分内容使用了ChatGPT先翻译然后校正而产生。原文的公式大部分是图片,本文都用mathjax重写了,方便阅读。作者加的注释都用【】括起来。
Posted by lili on October 10, 2023
本文介绍用VSCode和debugpy远程调试Python代码。
Posted by lili on September 25, 2023