温度采样、结构化输出对模型能力有什么影响?
作者: NLP前沿 来源: NLP前沿
论文笔记分享,这是2篇文章,一篇是上周的,一篇是5月份的。标题分别为:Let Me Speak Freely? A Study on the Impact of Format Restrictions on Performance of Large Language Models、The Effect of Sampling Temperature on Problem Solving in Large Language Models
结构化输出对模型推理能力的影响 ,结构化输出有3个形式,一种就是在解码时,使用json mode。另外一个种是提示词约束,让模型以json的形式输出。最后一种是2步,先让模型正常输出,然后在让模型转换成结构化的格式(NL2Format)。FRI的示例如下图:
结论 :
-
在格式限制下,LLMs的推理能力会明显下降。更严格的格式限制通常会导致推理任务性能的更大降低。
-
json mode在某些情况下性能最差,其次是FRI,然后是NL2Format,NL2Format通常表现最好。
- 格式限制对LLM性能的影响取决于任务类型。在需要结构化输出的分类任务中,格式限制可能提高准确性,而在需要推理的任务中,格式限制可能会降低性能。
- 在需要保持LLM推理能力的同时提供结构化输出时,需要在格式限制的严格性和LLM性能之间找到平衡。
- 尽管存在一些解析错误,但这些错误并不是格式之间性能差异的主要原因。通过简单的纠正步骤,可以有效地减少解析错误。
温度采样,对模型能力的影响 ,这就是个参数,使用不同的模型,不同的提示词技巧,数据类型等,调参,流程如下
结论:
- 在0.0到1.0的范围内改变采样温度,对于LLM在解决问题任务上的表现并没有统计学上的影响。这一发现似乎适用于不同的LLM、prompt技巧或问题领域。
- 如理论一致,较低的采样温度使LLM的输出更加确定性,倾向于产生更重复、更集中、基于训练数据中最常见模式的输出。较高的温度使输出更加随机,得到更多样化的结果。
更多AI工具,参考Github-AiBard123,国内AiBard123