给思维链上buff，一句话提升推理效果，减少推理耗时作者： NLP前沿来源： NLP前沿今天分享的是上周一篇论文提到的一个技巧，论文标题为：Concise Thoughts: Impact of Output Length on LLM Reasoning and Cost 背景：LLMs在解决复杂问题时，使用思维链（cot）的技巧，可以提高输出的解释性和正确性，但也导致了输出长度增加，进而增加

给思维链上buff，一句话提升推理效果，减少推理耗时

作者： NLP前沿来源： NLP前沿

今天分享的是上周一篇论文提到的一个技巧，论文标题为：Concise Thoughts: Impact of Output Length on LLM Reasoning and Cost

背景：LLMs在解决复杂问题时，使用思维链（cot）的技巧，可以提高输出的解释性和正确性，但也导致了输出长度增加，进而增加了模型生成回答所需的时间。

因此这个工作提出了一种新的提示词策略——XX思维链（Constrained-Chain-of-Thought，简称CCoT），以及评估模型输出正确性和简洁性的新指标。

规则比较简单，在思维链的“let’s think step by step”基础上加上“and limit the length of the answer to k words”， k是超参数。

关于文章的评测指标部分，这里不说了（感兴趣的可以看原文，有3个，写起来麻烦，大部分读者估计也不乐意看），看看ccot的效果叭

结论总结 ：

对于某些大模型，如Llama2-70b和Vicuna-13b，使用CCoT可以在保持或提高准确性的同时减少生成时间。上图，将LLaMA2-70b模型的推理限制在100个单词内时，CCoT可以将准确率从36.01%（CoT）提高到41.07%（CCoT），同时将平均输出长度从99个token减少到71个token。
较大的模型，如Falcon-40b和Llama2-70b，能够更好地控制输出长度，从而从CCoT中受益。相比之下，较小的模型，如Falcon-7b和Llama2-7b，在CCoT提示下可能无法有效减少生成时间，并且在较大的长度限制下可能获得比CoT和基础提示更低的准确率。
LLM在实际应用中并不总是能够严格遵守CCoT提示中给定的长度限制，尤其是给一个较小的长度k（如15、30或40）。但是，CCoT提示中施加的长度会明显影响输出长度。也就是说，CCoT策略在一定程度上能够促使模型生成更简洁的回答。

可关注我们的公众号：每天AI新工具