!nlp
对于大语言模型相关还是论文最直接:
书籍:
"Speech and Language Processing" by Daniel Jurafsky and James H. Martin
"Deep Learning" by Ian Goodfellow, Yoshua Bengio, and Aaron Courville
网站:
OpenAI Blog
Google AI Blog
arXiv.org for preprints of research papers in the field
https://ar5iv.labs.arxiv.org/html/2107.02137 ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation
https://arxiv.org/abs/2001.08361v1 Scaling Laws for Neural Language Models
知乎上前人总结的文档:
深度学习 - 路线
理论部分
Overview
Andrej Karpathy 前一段时间在微软 Build 大会上的演讲是一个挺不错:
【精校版】Andrej Karpathy微软Build大会精彩演讲: GPT状态和原理 - 解密OpenAI模型训练_哔哩哔哩_bilibili
Details
之后可以直接参考 李沐 老师精读论文的视频,看完视频可以再去刷原文:
Transformer:https://youtu.be/nzqlFIcCSWQ
GPT:https://youtu.be/t70Bl3w7bxY
InstructGPT:https://youtu.be/zfIGAwD1jOQ
书籍
《Python 自然语言处理》(作者:Steven Bird, Ewan Klein, Edward Loper):这本书是自然语言处理领域的经典入门书籍,详细介绍了使用 Python 进行自然语言处理的基本方法。
《深度学习》(作者:Ian Goodfellow, Yoshua Bengio, Aaron Courville):这本书是深度学习领域的经典教材,详细介绍了深度学习的各种方法和技术。
在线课程
吴恩达的《深度学习专项课程》(Coursera):这个课程详细介绍了深度学习的基本概念和方法,包括神经网络、卷积神经网络(CNN)、循环神经网络(RNN)等。
李宏毅的《深度学习课程》(YouTube):这个课程详细介绍了深度学习的各种进阶技术,包括注意力机制、Transformer、BERT 等。
在线资源
斯坦福大学的CS224n课程网站:这个课程是自然语言处理领域的经典课程,详细介绍了使用深度学习进行自然语言处理的各种方法和技术。
Hugging Face的Transformers文档:这个文档详细介绍了如何使用 Transformers 库进行自然语言处理任务,包括文本分类、命名实体识别、问答系统等。
【精校版】Andrej Karpathy微软Build大会精彩演讲: GPT状态和原理 - 解密OpenAI模型训练_哔哩哔哩_bilibili:
实践部分
理论学了一大堆,还是要实践一下才能真正融会贯通。自己 train 一个真正的 foundation model 不现实,但可以复现一个小的玩一玩。
nanoGPT
Andrej Karpathy 写的 nanoGPT,CPU 和 GPU 上都能跑,硬件门槛非常低。可以用来了解下预训练。另外 Andrej 还搞了一个 教程 上传到了 youtube,非常贴心。
Alpaca & Alpaca-lora
Stanford 基于 LLaMA 搞的 alpaca,可以了解下 SFT。基于 alpaca 衍生的 alpaca-lora 可以在消费级显卡上跑,硬件门槛也比较低。
DeepSpeed Chat
感谢
的补充。
DeepSpeed Chat 有完整的 RLHF 实现,也有 step by step 的案例。根据文档中的叙述,也可以在消费级显卡(A6000-48G)上跑 OPT-1.3B。
Open AI API 使用指南
GitHub - openai/openai-cookbook: Examples and guides for using the OpenAI API