目录

  • 1 Transformer
  • 2 GPT-3
  • 3 InstructGPT
  • 4 Sparrow
  • 5 RLHF
  • 6 TAMER
  • 7 PPO
  • 8 In-Context Learning
    • 8.1 Why Can GPT Learn In-Context
    • 8.2 What learning algorithm is in-context learning
  • 9 Prompt
  • 参考

团队博客: CSDN AI小组


相关阅读


关于 ChatGPT 必看的 10 篇论文

2022年11月,OpenAI推出人工智能聊天原型ChatGPT,再次赚足眼球,为AI界引发了类似AIGC让艺术家失业的大讨论。

ChatGPT 是一种专注于对话生成的语言模型。它能够根据用户的文本输入,产生相应的智能回答。这个回答可以是简短的词语,也可以是长篇大论。其中 GPT 是 Generative Pre-trained Transformer(生成型预训练变换模型)的缩写。

下面列出了学习 ChatGPT 必看的 10 篇论文。

1 Transformer

ChatGPT 使用的预训练模型 GPT,是在 Transformer 中的 decoder 基础上进行改造的。

2 GPT-3

GPT 家族与 BERT 模型都是知名的 NLP 预训练模型,都基于 Transformer 技术。GPT-1 只有12个 Transformer 层,而到了 GPT-3,则增加到 96 层。

3 InstructGPT

ChatGPT 的训练流程,主要参考自 instructGPT ,ChatGPT 是改进的 instructGPT。

4 Sparrow

DeepMind 的 Sparrow,这个工作发表时间稍晚于 instructGPT,其大致的技术思路和框架与 instructGPT 的三阶段基本类似,不过明显Sparrow 在人工标注方面的质量和工作量是不如instructGPT的。反过来,Sparrow 中把奖励模型分为两个不同 RM 的思路,理论上是优于instructGPT 的。

5 RLHF

InstructGPT/GPT3.5(ChatGPT的前身)与 GPT-3 的主要区别在于,新加入了被称为 RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)。这一训练范式增强了人类对模型输出结果的调节,并且对结果进行了更具理解性的排序。

6 TAMER

ChatGPT 中的 TAMER(Training an Agent Manually via Evaluative Reinforcement,评估式强化人工训练代理)框架,将人类标记者引入到 Agents 的学习循环中,可以通过人类向 Agents 提供奖励反馈(即指导 Agents 进行训练),从而快速达到训练任务目标。

7 PPO

PPO(Proximal Policy Optimization,近端策略优化)强化学习模型,是 ChatGPT 训练的第三阶段。

8 In-Context Learning

ChatGPT 的认知能力不全是从语料的统计中习得的,他还有临场学习的能力,这种能力称作 In-Context Learning,学术界本身对这种能力也还没有充分理解。

8.1 Why Can GPT Learn In-Context

8.2 What learning algorithm is in-context learning

9 Prompt

ChatGPT 训练时的输入使用的是 Prompt,Prompt 是研究者们为了下游任务设计出来的一种输入形式或模板,它能够帮助预训练模型“回忆”起自己在预训练时“学习”到的东西。

参考

[1] ChatGPT发展历程、原理、技术架构详解和产业未来 (收录于先进AI技术深度解读)
[2] ChatGPT会取代搜索引擎吗
[3] 解释一些关于大语言模型的常见误解