!nlp

对于大语言模型相关还是论文最直接:

书籍:

"Speech and Language Processing" by Daniel Jurafsky and James H. Martin

"Deep Learning" by Ian Goodfellow, Yoshua Bengio, and Aaron Courville

网站:

OpenAI Blog

Google AI Blog

arXiv.org for preprints of research papers in the field

https://ar5iv.labs.arxiv.org/html/2107.02137 ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation

https://arxiv.org/abs/2001.08361v1 Scaling Laws for Neural Language Models

知乎上前人总结的文档:

自然语言处理(NLP)相关学习资料/资源

深度学习 - 路线

理论部分

Overview

Andrej Karpathy 前一段时间在微软 Build 大会上的演讲是一个挺不错:

【精校版】Andrej Karpathy微软Build大会精彩演讲: GPT状态和原理 - 解密OpenAI模型训练_哔哩哔哩_bilibili

Details

之后可以直接参考 李沐 老师精读论文的视频,看完视频可以再去刷原文:

Transformer:https://youtu.be/nzqlFIcCSWQ

GPT:https://youtu.be/t70Bl3w7bxY

InstructGPT:https://youtu.be/zfIGAwD1jOQ

书籍

《Python 自然语言处理》(作者:Steven Bird, Ewan Klein, Edward Loper):这本书是自然语言处理领域的经典入门书籍,详细介绍了使用 Python 进行自然语言处理的基本方法。

《深度学习》(作者:Ian Goodfellow, Yoshua Bengio, Aaron Courville):这本书是深度学习领域的经典教材,详细介绍了深度学习的各种方法和技术。

在线课程

吴恩达的《深度学习专项课程》(Coursera):这个课程详细介绍了深度学习的基本概念和方法,包括神经网络、卷积神经网络(CNN)、循环神经网络(RNN)等。

李宏毅的《深度学习课程》(YouTube):这个课程详细介绍了深度学习的各种进阶技术,包括注意力机制、Transformer、BERT 等。

在线资源

斯坦福大学的CS224n课程网站:这个课程是自然语言处理领域的经典课程,详细介绍了使用深度学习进行自然语言处理的各种方法和技术。

Hugging Face的Transformers文档:这个文档详细介绍了如何使用 Transformers 库进行自然语言处理任务,包括文本分类、命名实体识别、问答系统等。

【精校版】Andrej Karpathy微软Build大会精彩演讲: GPT状态和原理 - 解密OpenAI模型训练_哔哩哔哩_bilibili:

实践部分

理论学了一大堆,还是要实践一下才能真正融会贯通。自己 train 一个真正的 foundation model 不现实,但可以复现一个小的玩一玩。

nanoGPT

Andrej Karpathy 写的 nanoGPT,CPU 和 GPU 上都能跑,硬件门槛非常低。可以用来了解下预训练。另外 Andrej 还搞了一个 教程 上传到了 youtube,非常贴心。

Alpaca & Alpaca-lora

Stanford 基于 LLaMA 搞的 alpaca,可以了解下 SFT。基于 alpaca 衍生的 alpaca-lora 可以在消费级显卡上跑,硬件门槛也比较低。

DeepSpeed Chat

感谢

@Harvey.Peng

的补充。

DeepSpeed Chat 有完整的 RLHF 实现,也有 step by step 的案例。根据文档中的叙述,也可以在消费级显卡(A6000-48G)上跑 OPT-1.3B。

Open AI API 使用指南

GitHub - openai/openai-cookbook: Examples and guides for using the OpenAI API

DLAI - Learning Platform Beta

LangChain

DLAI - Learning Platform Beta