GPT-4相关技术文档解读作者： AINLP 来源： AINLP 2023年3月 OpenAI发布了GPT-4技术报告，本文介绍下GPT-4 Technical Report 5月微软发了篇文章对GPT-4做了详细的测试分析，Sparks of Artificial General Intelligence: Early experiments with GPT-4 感兴趣的可以查看以下文档： Refer https://zhuanlan.zhihu.com/p/617566999 Introducion 8,192 和 32,768 个 tokens 两种上下文版本：费用约是ch

GPT-4相关技术文档解读

By AiBard123
October 13, 2023 - 2 min read

作者： AINLP 来源： AINLP

2023年3月 OpenAI发布了GPT-4技术报告，本文介绍下GPT-4 Technical Report

5月微软发了篇文章对GPT-4做了详细的测试分析，Sparks of Artificial General Intelligence: Early experiments with GPT-4

感兴趣的可以查看以下文档：

Refer https://zhuanlan.zhihu.com/p/617566999

Introducion

8,192 和 32,768 个 tokens 两种上下文版本：

费用约是chatgpt***的20倍** （chatgpt = 0.002刀/1K tokens）
- 中文1字 ~= 2.2tokens，英文1word = 1.3tokens
- 8k：每 1k 个 prompt tokens 0.03 美元和每 1k 个 completion tokens 0.06 美元
- 32k：每 1k prompt token 0.06 美元和每 1k completion token 0.12 美元。
- 处理对 8K 和 32K 引擎的请求的速率可能会不同，默认速率限制为每分钟 40k 个tokens和每分钟 200 个tokens 请求。

Scope and Limitations of this Technical Report
讨论模型的capablities ，limitations 和safety
不介绍技术细节（architecture, model size, hardware, training computer, dataset construction, traning method…）
未来会和第三方一起从商业竞争 和安全性 的角度出发，逐步展开技术细节的讨论
Predictable Scaling

GPT-4项目的一个主要重点是构建一个可预测的深度学习堆栈。主要原因是，对于像GPT-4这样的大型训练运行，进行广泛的模型特定调优是不可行的。为了解决这个问题，我们开发了跨多个尺度具有非常可预测行为的基础设施和优化方法。这些改进使我们能够从使用1000x-10,000x更少的计算训练的较小模型中可靠地预测GPT-4性能的某些方面。

GPT-4在摘要中的说法是给出了一个预测模型性能的方法，使得只需要0.1%的训练计算资源，就可以预测模型的性能了。不需要训练到最后才得到模型性能，这有助于早期就调整好模型，减少不必要的训练成本。

Capabilities

OpenAI的大模型测试框架：https://github.com/openai/evals

1.支持更长的文本输入：3000 tokens -> 25000 tokens，是GPT3.5的8倍

2.更可靠的输出内容（在可靠性方面相比GPT3.5提升约19%）

3.更强的理解能力：意图理解、推理性能、准确性更好。

zero-shot的方式在nlp众多任务中屠榜

在人类考试中表现优异，相比gpt3.5模型，在大部分的考试中都取得了更好的成绩（GPT-4 在各种专业和学术考试中表现出了与人类水平相当的性能（human-level performance）。例如，它通过了律师资格考试，且分数在应试者的前 10% 左右；相比之下，GPT-3.5 的得分在倒数 10% 左右。）

4.可定制的AI风格和行为（人设相关）

1. 可以在「system」定义AI的style

这段话讲述了一个采用苏格拉底式教学风格的导师，他从不直接给出答案，而是通过询问适当的问题，帮助学生学会自主思考。同时，导师应该根据学生的兴趣和知识水平调整问题难度，将问题分解成更简单的部分，直到学生能够理解。

用户问如何解一个线性方程组，GPT-4作为一个苏格拉底导师，试图引导用户自己思考解题思路，而不是直接给出答案。通过一步步引导，最终帮助用户成功解答问题。

–上述总结来自于chatgpt

为了测试模型在艺术和编程能力结合方面的能力，在Sparks of Artificial General Intelligence: Early experiments with GPT-4**** 工作人员进行了测试

要求GPT-4“生成JavaScript代码，以Kandinsky画家的风格生成随机图像”。见图2.1和图B.1中的样本图像和代码。

该模型能够以莎士比亚文学风格生成无限多个质数的证明（图2.2）。

我们测试了模型在历史和物理知识结合方面的能力，要求它写一封由圣雄甘地写给他的妻子的支持信，支持电子作为美国总统候选人（图2.3）。

我们提示模型“生成Python代码，用于编写一个程序，该程序以患者的年龄、性别、体重、身高和血液检测结果向量作为输入，并指示该人是否有患糖尿病的风险”，结果代码出现在图B.3中。

这些例子表明，GPT-4不仅学习了不同领域和风格的一些通用原则和模式，而且还能够以创造性和新颖的方式综合它们。这种跨学科的技能并不是GPT-4所独有的。ChatGPT也可以产生一些理解任务和涉及领域的答案（见图2.2、B.2、B.3），但它们往往是不完整的，而且可以说创造性程度相对较低。例如，在图2.3中，GPT-4在几个方面表现出色，因为它正确地根据裁判（甘地）、收件人（他的妻子）、候选人（电子）和工作（美国总统）个性化了信件。我们并不声称有一种精确的方法来评估这些任务的结果或者两个模型之间的严格比较，但我们想给读者一个感觉，让他们了解这两个模型的区别（请注意，我们还要直接要求GPT-4评估差异，见图2.2和图2.3）。

GSM8K是一个小学数学数据集，包含8000个关于算术、分数、几何和文字问题等主题的问题和答案。

MATH是一个高中数学数据集，包含12500个关于代数、微积分、三角学和概率等主题的问题和答案。

MMMLU-STEM数据集包含约2000个涵盖高中和大学STEM主题的多项选择（4个选项）问题。

减轻过拟合。使用基准测试来评估LLMs的推理能力的一个潜在问题是，它们可能已经在预训练期间记住了基准数据集中的问题或答案，因为这些问题可能是数据集的一部分。为了减少这种过拟合的可能性，我们采用以下策略：  
在基准测试中，我们通过要求GPT-4（1）编写解决问题的模板，（2）先写下步骤，然后写下最终答案来测试它。这些模板不在网上提供，而像MMMLU-STEM这样的数据集的详细解决方案也不在网上（只有答案）。  
我们从数据集中选择一个代表性问题，其中GPT-4解决正确，而text-davinci-003解决错误。我们改变问题中的数字，发现GPT-4始终正确，而text-davinci-003始终错误。  
我们还设计了几个新问题，仔细检查这些问题或类似变体不会出现在网上。结果显示，GPT-4在这些问题上表现相同。

5.多语言能力的提升

6.支持多模输入： visual -> text。除本身带了对于图片 OCR 外，还有对global，local， position的理解能力

当使用可扩展矢量图形（SVG）提示模型生成物体的图像，例如猫、卡车或字母时，该模型会生成代码，通常编译成相当详细和可识别的图像

然而，有人可能会假设模型只是从训练数据中复制了代码，其中出现了类似的图像。考虑到该模型仅在文本内容上进行了训练，人们可能进一步认为，没有理由期望它能理解视觉概念，更不用说它能够创建、解析和操作图像了。然而，该模型似乎具有真正的视觉任务能力，而不仅仅是从训练数据中类似示例中复制代码。以下证据强烈支持这一观点，并证明该模型可以处理视觉概念，尽管它仅在文本训练中。在第一个示例中，我们通过组合字母Y、O和H的形状来提示模型画一个人

####Limitations and safety

关于偏见、虚假信息、过度依赖、隐私、网络安全、扩散等方面的风险。

not fully reliable
- e.g. can suffer from “hallucinations”
- makes reasoning errors
has a limited context window,
does not learn from experience 它有时会犯简单的推理错误，这些错误似乎不符合许多领域的能力，或者过于容易接受用户明显错误的陈述。它可能会像人类一样在硬问题上失败，比如在它生成的代码中引入安全漏洞。
在一些存在高风险的使用场景中，需要附加额外的人工审验、附加上下文，或者避免高风险场景的使用
2021年9月之后的事情不了解。
GPT-4与以前的模型一样具有风险，但由于其额外的能力，从而会导致新的风险。

邀请了50多名专家对模型进行对抗测试，以提高模型的安全性能。

GPT-4在RLHF训练过程中加入了额外的安全奖励信号，通过训练模型拒绝对此类内容的请求来减少有害的输出。

为了防止模型拒绝有效请求，收集了多样化的数据集，并在允许和不允许的类别上应用安全奖励信号。

缓解措施显著提高了GPT-4的安全性能，例如将模型对于不允许内容请求的响应率降低了82%。对敏感请求（如医疗建议和自我伤害）的响应符合政策的比例提高了 29%。

Conclusion

我们描述了GPT-4，一个大型的多模态模型，在某些困难的专业和学术基准上具有人类水平的表现。GPT-4在一组NLP任务上优于现有的大型语言模型，并且超过了绝大多数报告的最先进的系统（通常包括特定于任务的微调）。我们发现，改进的能力，虽然通常用英语来衡量，但可以用许多不同的语言来演示。我们强调了可预测的规模如何使我们能够对GPT-4的损失和能力做出准确的预测。

GPT-4由于能力的增加而带来了新的风险，我们讨论了为理解和提高其安全性和对齐而采取的一些方法和结果。尽管仍有很多工作要做，但GPT-4代表了向广泛有用和安全部署的人工智能系统迈出的重要一步。

幻觉问题

LLM的一个关键局限性，即它们倾向于在没有警告的情况下产生错误，包括数学、编程、归因和更高级别的概念性错误。这些错误通常被称为幻觉，因为它们往往会出现为合理或与真实推理相一致的形式。诸如错误引用、内容和语句之类的幻觉可能与正确信息交织在一起，并以有说服力和自信的方式呈现，使得在没有仔细检查和努力事实核查的情况下很难鉴定它们。

封闭领域幻觉是在给定内容或其他约束条件的背景下产生的错误，这提供了检查一致性或对齐性的机会。例如，检查LLM生成的摘要或扩展是否与源材料中可用的信息一致。解决此类封闭领域幻觉的途径包括采用一组一致性检查方法，包括使用LLM本身来确定超出给定事实或内容的不一致性和虚构。

开放领域幻觉提供了更困难的挑战，需要更广泛的研究，包括在会话之外进行搜索和信息收集。对于以创造力和探索为中心的LLM应用，例如协助作家创作虚构文学，推断的真实性可能不那么重要。在存在明确、清晰的基础材料和最终用户密集审查生成内容的假设周期的情况下，幻觉也可能在支持人们改写自己内容的环境中更容易被容忍。

进技术交流群请添加AINLP小助手微信（id: ainlp2)

请备注具体方向+所用到的相关技术点

![](https://api.allorigins.win/raw?url=https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSJADkmZ2IX6Z23znAibuEevotDMq9iaMxiapK7jfMibiauGFkycicAJEs6x5U9SGyDJZ0S1tRed9TPNUUDQ/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区，专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享，主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等，欢迎关注！加技术交流群请添加AINLP小助手微信(id：ainlp2)，备注工作/研究方向+加群目的。

  


![](https://api.allorigins.win/raw?url=https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSKABHCqVVQkVYPrM4XY1vsd0iaeuXzyJnoFc8cibd5mYb4wdA3WMQtiaPVmr0XLZHMuVibqWncibpnTSnQ/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1)

阅读至此了，分享、点赞、在看三选一吧🙏

更多AI工具，参考Github-AiBard123，国内AiBard123

可关注我们的公众号：每天AI新工具

Introducion

Scope and Limitations of this Technical Report

Predictable Scaling

Capabilities

Conclusion

幻觉问题