给思维链上buff,一句话提升推理效果,减少推理耗时
作者: NLP前沿 来源: NLP前沿
今天分享的是上周一篇论文提到的一个技巧,论文标题为:Concise Thoughts: Impact of Output Length on LLM Reasoning and Cost
背景 :LLMs在解决复杂问题时,使用思维链(cot)的技巧,可以提高输出的解释性和正确性,但也导致了输出长度增加,进而增加了模型生成回答所需的时间。
因此这个工作提出了一种新的提示词策略——XX思维链(Constrained-Chain-of-Thought,简称CCoT),以及评估模型输出正确性和简洁性的新指标。
规则比较简单,在思维链的“let’s think step by step”基础上加上“and limit the length of the answer to k words”, k是超参数。
关于文章的评测指标部分,这里不说了(感兴趣的可以看原文,有3个,写起来麻烦,大部分读者估计也不乐意看),看看ccot的效果叭
结论总结 :
-
对于某些大模型,如Llama2-70b和Vicuna-13b,使用CCoT可以在保持或提高准确性的同时减少生成时间。上图,将LLaMA2-70b模型的推理限制在100个单词内时,CCoT可以将准确率从36.01%(CoT)提高到41.07%(CCoT),同时将平均输出长度从99个token减少到71个token。
-
较大的模型,如Falcon-40b和Llama2-70b,能够更好地控制输出长度,从而从CCoT中受益。相比之下,较小的模型,如Falcon-7b和Llama2-7b,在CCoT提示下可能无法有效减少生成时间,并且在较大的长度限制下可能获得比CoT和基础提示更低的准确率。
-
LLM在实际应用中并不总是能够严格遵守CCoT提示中给定的长度限制,尤其是给一个较小的长度k(如15、30或40)。但是,CCoT提示中施加的长度会明显影响输出长度。也就是说,CCoT策略在一定程度上能够促使模型生成更简洁的回答。
更多AI工具,参考Github-AiBard123,国内AiBard123