一次失败的实验 – 无限注意力,我们为什么坚持实验总结: 随着我们增加内存压缩次数的次数,Infini-attention 的性能会变得越来越差。据我们所知,ring attention、YaRN 和 rope scaling 这三种方法仍是将预训练...AI 技术文章# 无限注意力1年前02190