大模型token压缩

2024-08-14 约 798 字预计阅读 2 分钟

背景

最近在大模型推理方面遇到了瓶颈，需要进一步优化性能，因此决定记录一下这方面的研究。

Tokens 压缩旨在减少语言模型处理的文本量，以提高效率和泛化能力。根据是否利用特定任务信息，提示压缩方法分为两大类：任务感知型压缩和任务不可知型压缩。

任务感知型压缩方法专注于根据下游任务或当前查询来定制压缩策略。例如，LongLLMLingua采用了问题感知的压缩方法，通过粗到细的策略估计令牌的信息熵，并根据问题调整这一估计。此外，基于强化学习的方法通过下游任务的奖励信号来训练压缩模型，而软提示调整方法则通常需要针对特定任务进行微调。

与任务感知型压缩不同，任务不可知型压缩方法不依赖于特定任务的信息，因此更适合广泛的应用场景和黑盒语言模型。这类方法通常使用基于信息熵的度量来识别并移除提示中的冗余信息。代表性做法是利用小型语言模型来评估令牌的重要性。基于总结的压缩方法也被用于任务不可知型压缩，以压缩文本而不考虑特定任务。

选择第二种，基于LLMlingua2实现。

直接缩短了接近一半。

对于我遇到的稀烂的文档，最好还是谨慎压缩，压缩出来效果不太好。

至少压缩出来人都读不懂了。。。

不过倒是可以考虑让个轻量级的大模型来重塑。。。