GPT-4报告解读

写在前面

前面我们介绍了《GPT-4报告的整体情况》，那接下来展开介绍GPT-4报告中讲的内容。

前沿

在模型的结构上，是基于Transformer结构的大模型。接受多模态输入，即图像和文本输入（但只能输出文本）。使用公开的的数据训练，并使用人类反馈的增强学习(RLHF)微调模型，进一步提升模型的整体效果，使其更符合人类习惯的输出。报告中明确指出，不会给出模型的架构(包括模型大小)、硬件、训练计算、数据集的构成及训练方法等详情。也就是说，我们无法想读论文一样了解GPT-4的实现细节。整个报告主要围绕GPT-4的能力，局限和安全等方面展开。

GPT-4的报告的中英文摘要如下：

We report the development of GPT-4, a large-scale, multimodal model which can accept image and text inputs and produce text outputs. While less capable than humans in many real-world scenarios, GPT-4 exhibits human-level performance on various professional and academic benchmarks, including passing a simulated bar exam with a score around the top 10% of test takers. GPT-4 is a Transformer- based model pre-trained to predict the next token in a document. The post-training alignment process results in improved performance on measures of factuality and adherence to desired behavior. A core component of this project was developing infrastructure and optimization methods that behave predictably across a wide range of scales. This allowed us to accurately predict some aspects of GPT-4’s performance based on models trained with no more than 1/1,000th the compute of GPT-4.

我们报告了 GPT-4 的开发，这是一种大规模的多模式模型，可以接受图像和文本输入并产生文本输出。虽然在许多现实场景中的能力不如人类，但GPT-4 在各种专业和学术基准测试中表现出人类水平的表现，包括通过模拟律师考试，得分在应试者的前 10% 左右。 GPT-4 是一种基于Transformer 的模型，经过预训练可以预测文档中的下一个标记。训练后的对齐过程会提高真实性和遵守所需行为的措施性能。该项目的核心组成部分包括可在广泛范围内预测规模表现的基础设施和优化方法。这使我们能够基于不超过GPT-4 计算量的万分之一的训练模型准确预测 GPT-4某些方面的性能。

从摘要中可以看出GPT-4的效果要比之前的GPT模型好很多，以及模型应用落地必须要考虑的方面，接下来对报告的正文展开介绍。
GPT-4的能力(Capabilities )

可预测模型规模表现

GPT-4一个大的核心点事构建一个可预测扩展深度学习栈。主要的原因是像GPT-4这种非常大的训练，针对特定模型的微调是不可行的(时间+人力+投入成本不划算)。为此，GPT开发了一套多尺度上具有可预测行为的基础设置和优化方法。这些改进可以让我们比较可靠的使用GPT-4万分之一的小模型规模，预测GPT-4这种大模型在某些方面的性能(比如loss的走势和在某些数据集上的通过率等指标)。用小参数量的模型，拟合一条X轴为模型规模，Y轴为某个指标的曲线预测大规模参数下模型的表现，可以大大减少试错成本，提升研发效率，前景非常的不错。
为了预测GPT-4的loss，报告中使用最大计算量不超过待预测模型GPT-4规模的万分之一的多个小模型，拟合一条曲线(scaling law)：

a,b,c是待确定的参数，通过几个小规模的loss即可计算出a,b,c参数，然后根据该函数计算GPT-4的loss。下图就是拟合模型loss的曲线图，从图中可以看出，很精准的预测了GPT-4的loss。

同样的，使用类似的方法可以预测其他可解释性的指标与模型规模的关系，比如在HumanEval评测上，找到了公式：

从实验上看，对于GPT-4的效果预测也是很精准的，其曲线图如下：

当然，也存在某些表现难以预测，比如在“ Inverse Scaling Prize中提到的几个任务，一般的模型如GPT-3.5都随着模型规模效果变差，而GPT-4却是相反的。

这种预测规模表现的能力在安全性上也是很重要的，报告提出希望致力于这方面的研究，也希望能够成为一个大众接受并乐于投入研究的领域。

模拟测试对比

对于GPT-4进行了多个不同的bechmark测试，模拟考试中，采用了多选择和自由回答的题型，采用通用的评审方式综合得分排序。在统一律师考试中，GPT-4排到top10%的位置，而GPT3.5排在top90%的位置，差距明显，在我们比较熟悉的leetcode中，在easy、medium和hard类型中，GPT-4的效果都要好于GPT3.5。整体而言，在学术和专业领域的测试中，大部分的测试都是GPT-4的结果好于GPT-3.5的结果。需要强调的是：在这类测试中，使用post-training的RLHF对测试结果的影响不大。

语言模型通用基准对比

GPT-4在也在语言模型领域通用的基准上和最先进(SOTA)模型对比，这些SOTA的效果可能是基于特定数据协议训练的，实验表明即使这样，在大多数基准上，GPT-4都好于当前最先进(SOTA)模型的效果。

多语言能力对比

  因为很多ML模型的基准都是英语了，为了测试其他语言上的能力，openAI将MMLU基准中的57个主题的多项选择题翻译成其他语言，然后对比效果。在英语和其他语言上，GPT-4的效果也远远好于其他翻译模型，即使在可使用的语言预料匮乏的拉脱维亚语、威尔士语和斯瓦希里语上。

多模型输入能力

   GPT-4在已有的GPT-3.5的基础上增加了图像和文本混合输入能力，图像可以照片、图表或屏幕截图。略显不足的是目前只支持文本的输出。百度的问心一言虽然再效果是比不上GPT-4甚至chat-GPT，但能力上是支持图片输出的。为了展示GPT-4对图片的处理能力，报告了给了一个通过VGA给手机通电的图片，让GPT-4找出图片中的funny之处，如下：

局限(Limitations)

 正如前面所述，GPT-4在很多的测试基准上都取得了很好的效果，但尽管如此，依然还有很多的缺陷，并不是完全可靠的。GPT-4会产生幻觉并导致推理的错误，特别是在高风险的环境中，与特定需求相匹配的精确的协议（例如人工审查、附加上下文的基础，或完全避免高风险的使用）的应用中。与GPT-3.5相比，在较少模型的幻觉方面，GPT-4在内部的、对抗性设计的真实性评估中高出19%。

此外，在公开的将符合事实的陈述与一组不正确的陈述中区分开来的基准测试(如TruthfulQA)上也有很大的提升。但需要强调的是：只进行预训练的GPT-4上略微好于GPT3.5，而经过RLHF的post-training之后得到了很大哦的提升。

再者就是模型知识的局限性，因为模型是使用2022年9月份以前的数据，所以对于再次之后发生的事情，模型也无能为力。比如问GPT-4硅谷银行是否破产了，它的回答肯定是没有。

风险与缓解措施(Risks & mitigations)

openAI在提升模型的安全性和政策对齐上进行了大量的尝试，包括使用领域专家进行红蓝对抗测试、构建模型辅助安全管道以及在前模型基础上提升安全性评估方法。
GPT-4和一般的小语言模型一样，都会生成有害建议、有缺陷的代码和不准确信息的问题，并且GPT-4这些额外能力也会导致一些新的风险，为了更好的力这些风险，openAI聘请了各个领域的专家进行对抗性测试，包括政策对齐风险、网络安全、生物风险和国际安全等。根据专家收集到的风险问题数据，也饿可以增强模型训练改善这种情况，比如拒绝响应合成危险化学品的请求。

对于之前的GPT模型，GPT-4模型是在pre-training之后使用RLHF对其进行了增强，实验发现，通过RLHF增强后，反而让模型在不安全的输入上更加的脆弱，有时候也会返回一些不符合预期的响应。为了应对该问题，openAI额外增加了一批安全相关的prompts用于RLHF训练，以及根据规则制定强化学习的激励模型(RBRM)。

针对上面问题采取的缓解措施之后，安全性指标上拒绝不允许的请求相比于GPT3.5下降了82%，在敏感的请求中按照我们的策略响应的提升了29%，另外有害内容的产生也从GPT-3.5的6.48%下降到0.73%。

总的来说，我们的模型级干预增加了引发不良行为的难度，但仍然有可能产生。例如，仍然存在“越狱”来生成违反我们使用指南的内容。只要存在这些限制，就必须使用部署时安全技术来补充它们，例如监控滥用以及用于快速迭代模型改进的管道。
GPT-4 和后续模型有可能以有益和有害的方式对社会产生重大影响。我们正在与外部研究人员合作，以改进我们理解和评估潜在影响的方式，以及对未来系统中可能出现的危险功能进行评估。我们将很快发布关于社会可以采取的步骤来为人工智能的影响做准备的建议，以及预测人工智能可能的经济影响的初步想法。