MIT研究人员找到新方法提升聊天机器人性能

研究人员发现了一种新的方法，能显著提高像ChatGPT一样的大型语言模型的性能。当人工智能与人之间持续对话时，这些模型常常会出现故障，导致性能急剧下降。研究人员发现，这个问题出在语言模型处理过往“记忆”的方式上。通常，为了避免储存空间不足，一些较早的信息或对话会被模型自动删除。然而，这让模型难以跟上谈话的思路。

来自麻省理工学院（MIT）和其它团队的研究人员发现，只要在存储信息的缓存区始终保留最初的若干条数据，AI在对话过程中就不会崩溃或失去流畅性。这项名为 StreamingLLM 的新技术，即使在处理超过400万字的超长对话时，也能保持模型的计算效率。相比另一种避免崩溃的技术，StreamingLLM要快上22倍多。

这一重大改进能让聊天机器人长时间不间断地工作，不需要反复重启。这将推动新一代AI助手的诞生，在文案撰写、内容编辑、代码撰写等场景发挥更多作用。研究者希望能把 StreamingLLM 与更多AI软件集成，让智能聊天机器人根据最新的对话内容做出判断和回应。

科学家们发现导致崩溃的原因在于模型内部使用的 “注意力机制”。这种机制会给所有词语分配分数，来决定如何关联彼此，进而生成新的文本。但是计算机制要求把遗留的注意力分数集中保存在首个词汇里，导致其起到了 “注意力水槽”的作用。研究者表示，这个槽位至关重要，必须随时留存在对话信息缓存的最前端。

StreamingLLM方法还有一大优势，那就是确保每个词汇的位置信息不变。就算后续词语出现或消失，原先的词语编码也不能变动。这两个机制相结合，能让AI模型始终保持连贯、高效的对话。

目前，StreamingLLM 技术已经被整合进英伟达公司开发的大型语言模型优化库中。

研究论文：Xiao, Guangxuan, et al. “Efficient streaming language models with attention sinks.” arXiv preprint arXiv:2309.17453 (2023). https://doi.org/10.48550/arXiv.2309.17453

本文编译自MIT, 本文观点不代表“沙鸥科报”立场，转载请联系原作者。如有侵权，请联系编辑处理。