谷歌近日推出了一种新的压缩算法TurboQuant,旨在降低人工智能系统的内存需求。该算法特别针对大语言模型和向量搜索引擎中的键值缓存瓶颈问题。随着上下文窗口的增大,这些缓存成为主要的内存瓶颈。TurboQuant可以在无需重新训练或微调模型的情况下,将键值缓存压缩至3比特精度,并且基本保持模型准确率不受影响。
测试结果显示,TurboQuant对包括Gemma和Mistral在内的开源模型实现了约6倍的键值缓存内存压缩效果。在英伟达H100加速器上的测试中,与未量化的键向量相比,该算法最高可实现约8倍的性能提升。研究人员表示,这项技术不仅适用于AI模型,还能增强大规模搜索引擎的向量检索能力。谷歌计划在2026年4月的国际学习表征会议上展示这一技术。



![复旦团队打破遗传学传统认知 揭示RNA反向调控机制[推荐]](http://b2b.wyjyhs.com/file/upload/202606/27/000559261.jpg)
![青岛“小说男主”高考成绩过线 颜值与实力并存[推荐]](http://b2b.wyjyhs.com/file/upload/202606/27/000731271.jpg)
![两男女欲转账500亿在香港银行被抓 伪造文件被识破[推荐]](http://b2b.wyjyhs.com/file/upload/202606/25/233627361.jpg)
![宝丽来产品说明书引质疑 简体中文版遭区别对待[推荐]](http://b2b.wyjyhs.com/file/upload/202606/25/234120511.jpg)