!nlp

对于大语言模型相关还是论文最直接：

"Speech and Language Processing" by Daniel Jurafsky and James H. Martin

"Deep Learning" by Ian Goodfellow, Yoshua Bengio, and Aaron Courville

OpenAI Blog

Google AI Blog

arXiv.org for preprints of research papers in the field

https://ar5iv.labs.arxiv.org/html/2107.02137 ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation

https://arxiv.org/abs/2001.08361v1 Scaling Laws for Neural Language Models

Andrej Karpathy 前一段时间在微软 Build 大会上的演讲是一个挺不错：

之后可以直接参考李沐老师精读论文的视频，看完视频可以再去刷原文：

《Python 自然语言处理》（作者：Steven Bird, Ewan Klein, Edward Loper）：这本书是自然语言处理领域的经典入门书籍，详细介绍了使用 Python 进行自然语言处理的基本方法。

《深度学习》（作者：Ian Goodfellow, Yoshua Bengio, Aaron Courville）：这本书是深度学习领域的经典教材，详细介绍了深度学习的各种方法和技术。

吴恩达的《深度学习专项课程》（Coursera）：这个课程详细介绍了深度学习的基本概念和方法，包括神经网络、卷积神经网络（CNN）、循环神经网络（RNN）等。

李宏毅的《深度学习课程》（YouTube）：这个课程详细介绍了深度学习的各种进阶技术，包括注意力机制、Transformer、BERT 等。

斯坦福大学的CS224n课程网站：这个课程是自然语言处理领域的经典课程，详细介绍了使用深度学习进行自然语言处理的各种方法和技术。

Hugging Face的Transformers文档：这个文档详细介绍了如何使用 Transformers 库进行自然语言处理任务，包括文本分类、命名实体识别、问答系统等。

理论学了一大堆，还是要实践一下才能真正融会贯通。自己 train 一个真正的 foundation model 不现实，但可以复现一个小的玩一玩。

Andrej Karpathy 写的 nanoGPT，CPU 和 GPU 上都能跑，硬件门槛非常低。可以用来了解下预训练。另外 Andrej 还搞了一个教程上传到了 youtube，非常贴心。

Stanford 基于 LLaMA 搞的 alpaca，可以了解下 SFT。基于 alpaca 衍生的 alpaca-lora 可以在消费级显卡上跑，硬件门槛也比较低。

感谢

的补充。

DeepSpeed Chat 有完整的 RLHF 实现，也有 step by step 的案例。根据文档中的叙述，也可以在消费级显卡（A6000-48G）上跑 OPT-1.3B。