李理的博客

Huggingface Transformers在padding之后结果差异分析

本文分析了Transformers在padding之后计算的结果的差异原因,对熟悉Transformers源代码以及调试问题有一定帮助。


LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale论文解读

本文是论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale的解读。


大模型的padding——Llama 2为例

本文是Padding Large Language Models — Examples with Llama 2的翻译。


ST-MoE: Designing Stable and Transferable Sparse Expert Models论文解读

本文是论文ST-MoE: Designing Stable and Transferable Sparse Expert Models的解读。


Pipenv教程

本文介绍Pipenv的用途以及为什么需要它,然后简单的介绍使用pipenv管理项目依赖的方法。


《Professional CMake》学习


Huggingface transformers文本生成

本文整理了Huggingface transformers文本生成相关的资料。


Mixture of Experts Explained

本文是Huggingface博客Mixture of Experts Explained的翻译。


QLoRA: Efficient Finetuning of Quantized LLMs论文解读

本文是论文QLoRA: Efficient Finetuning of Quantized LLMs的解读。


GraphCast: Learning skillful medium-range global weather forecasting

本文是论文GraphCast: Learning skillful medium-range global weather forecasting的解读。