MIT研究人员找到新方法提升聊天机器人性能

研究人员发现了一种新的方法,能显著提高像ChatGPT一样的大型语言模型的性能。当人工智能与人之间持续对话时,这些模型常常会出现故障,导致性能急剧下降。研究人员发现,这个问题出在语言模型处理过往“记忆”的方式上。通常,为了避免储存空间不足,一些较早的信息或对话会被模型自动删除。然而,这让模型难以跟上谈话的思路。

来自麻省理工学院(MIT)和其它团队的研究人员发现,只要在存储信息的缓存区始终保留最初的若干条数据,AI在对话过程中就不会崩溃或失去流畅性。这项名为 StreamingLLM 的新技术,即使在处理超过400万字的超长对话时,也能保持模型的计算效率。相比另一种避免崩溃的技术,StreamingLLM要快上22倍多。

这一重大改进能让聊天机器人长时间不间断地工作,不需要反复重启。这将推动新一代AI助手的诞生,在文案撰写、内容编辑、代码撰写等场景发挥更多作用。研究者希望能把 StreamingLLM 与更多AI软件集成,让智能聊天机器人根据最新的对话内容做出判断和回应。

科学家们发现导致崩溃的原因在于模型内部使用的 “注意力机制”。这种机制会给所有词语分配分数,来决定如何关联彼此,进而生成新的文本。但是计算机制要求把遗留的注意力分数集中保存在首个词汇里,导致其起到了 “注意力水槽”的作用。研究者表示,这个槽位至关重要,必须随时留存在对话信息缓存的最前端。

StreamingLLM方法还有一大优势,那就是确保每个词汇的位置信息不变。就算后续词语出现或消失,原先的词语编码也不能变动。这两个机制相结合,能让AI模型始终保持连贯、高效的对话。

目前,StreamingLLM 技术已经被整合进英伟达公司开发的大型语言模型优化库中。

研究论文:Xiao, Guangxuan, et al. “Efficient streaming language models with attention sinks.” arXiv preprint arXiv:2309.17453 (2023). https://doi.org/10.48550/arXiv.2309.17453

本文编译自MIT, 本文观点不代表“沙鸥科报”立场,转载请联系原作者。如有侵权,请联系编辑处理。

相关文章

  • 新算法解决图像模糊复原

    运动模糊是一种常见的图像模糊类型,广泛存在于各类光学观测系统中。由于运动模糊使观测图像退化,目标图像的高频信息被模糊效果掩盖,导致获得的观测图像不能满足实际的应用需求,严重限制了基于图像的测量方法的…

    2016-07-21
  • 人工智能识别死海古卷并非出自一人之手

    大部份的死海古卷(Dead Sea Scrolls)都没有署名,所以无法知道是由哪位抄写员誊写的,而且学者也很难根据字迹的特徵辨认某份手稿是由一位,还是多位抄写员完成。但是,根据《PLOS ONE》期刊最新发表的文章,大以…

    2021-05-05
  • AI新算法可提高影像的分辨率

    尽管现在还是无法奇迹般地还原影像,但是和过去的尝试相比的确有了可观的成果

    2017-11-03
  • 儿童学习经验对提高人工智能模型学习效率的启示

    AI 能将物体和单词配对的结果,显示了语言中某些部分是可透过少量的经验来学习,不需要某种先天性的能力,团队中的一名心理学家表示这样的结果「动摇了我的世界观」。 生成式AI 的训练资料集是众所皆知的庞大,有时…

    2024-02-08
  • Google发布AI模型Gemini

    2月8日晚间,Google发布了新的AI模型免费版Gemini和收费版的Gemini Advanced,并上线了新的网站和Android移动APP。 Gemini 的前身是Bard,Bard 是 Google AI 开发的大型语言模型 (LLM),于 2023 年 2 月 6 日首次发…

    2024-02-09
  • 即使戴着面具最新的人工智能技术也能识别

    供图:John Powell/REX/Shutterstock 放弃戴帽子和围巾吧!别指望他们!他们欺骗不了任何人!最新的面部识别软件可以看穿你狡猾的伪装,即使你戴着面具也能识别你。 剑桥大学的Amarjot Singh和他的同事们训练了机器…

    2017-09-10