"小型语言模型通过搜索超越GPT-4：深度学习领域的重大突破"

CHATWEB

分类：AI资讯

字数: 1237

评论: 0

阅读: 59

自动适应大小的图片广告

一项新的研究证明了大型语言模型（LLM）可以通过搜索功能来显著提升性能。特别是，参数量仅为8亿的Llama3.1模型经过100次搜索后，在Python代码生成的任务上与GPT-4o不相上下，这一发现令人振奋。

这一想法似乎让人联想到强化学习的先驱Rich Sutton在2019年的经典博文《The Bitter Lesson》中提到的观点。Sutton强调，随着计算能力的提升，我们需要认识到通用方法的强大之处。特别是“搜索”和“学习”这两种方法，似乎是能够持续扩展的绝佳选择。

虽然Sutton强调了学习的重要性，即更大的模型通常能学习到更多的知识，但我们常常忽视了搜索在推理过程中的潜力。最近，斯坦福、牛津和DeepMind的研究者们发现，增加推理阶段重复采样的次数可以显著提高模型在数学、逻辑推理和代码生成等领域的表现。

受到这些研究的启发，两位工程师决定进行实验。他们发现，使用100个小型的Llama模型进行搜索，可以在Python编程任务中超越甚至追平GPT-4o。他们用生动的比喻形容道：“以前要一只大马才能实现某种能力，现在只需100只小鸭子就能完成同样的事情。”

为了实现更高的性能，他们利用vLLM库进行批量推理，并在10个A100-40GB GPU上运行，输出速度达到了惊人的40k tokens/秒。作者选择了HumanEval这个基准测试，因为它能通过运行测试评估生成的代码，因此更加客观和准确。

根据报告，在零样本推理中，GPT-4o的pass@1成绩为90.2%。而通过上述方法，Llama3.18B的pass@k分数也显著提升。重复采样数为100时，Llama的成绩达到了90.5%；当重复采样数增加到1000时，成绩则进一步提升至95.1%，明显优于GPT-4o。

值得注意的是，这个实验虽然不是对原研究的严格复现，但它强调了使用搜索方法增强推理阶段时，较小模型也能在可预见的范围内超越大型模型的可能性。

搜索之所以强大，是因为它能够随着计算量的增加而“透明”地扩展，并将资源从内存转移到计算，从而实现资源的平衡。最近，DeepMind在数学领域取得了重要进展，证明了搜索的力量。

不过，搜索的成功首先需要对结果进行高质量的评估。DeepMind的模型通过将自然语言表述的数学问题转换为形式化表述，实现了有效监督。而在其他领域，像“总结电子邮件”这样的开放式NLP任务，进行有效搜索的难度则大得多。

这项研究表明，生成模型在特定领域的性能提升与其评估和搜索能力密切相关，未来的研究可以探索如何通过可重复的数字环境来提高这些能力。相关论文可在[https://arxiv.org/pdf/2407.21787]处查阅。

文章发布于: 2024-08-16 08:50:00

GPT-4 大型语言模型小模型

自动适应大小的图片广告

转载请注明出处: CHATWEB

本文的链接地址: https://chatweb.com.cn/post-62.html

《Getty Images与NVIDIA联手推出全新升级AI图像生成工具，速度、质量、准确性大突破》

从文本到图像的革新：跨模态AR模型Lumina-mGPT实现图像生成的新突破

您可能对以下文章感兴趣

发表评论

昵称

邮件地址 (选填)

个人主页 (选填)

评论内容

😁 😅 🤣 😂 🙂 😊 😇 😍 🤩 😙 😘 😋 😛 🤪 😝 🤔 😮‍💨 😎 🤓 😓 😱 😭 👽

验证码

"小型语言模型通过搜索超越GPT-4：深度学习领域的重大突破"

《Getty Images与NVIDIA联手推出全新升级AI图像生成工具，速度、质量、准确性大突破》

从文本到图像的革新：跨模态AR模型Lumina-mGPT实现图像生成的新突破

字节跳动旗下剪映团队研发的一站式AI创作平台“即梦AI” 提供AI图片

"Meta开源大模型Llama 3强势崛起！超越GPT-4，苹果AI新服务也备受期待"

爱诗科技推出PixVerse V2.5：视频生成速度提升200%，全新高表现模式与运镜功能，

蚂蚁集团新公司“数字蚂力”推出AI人机融合解决方案，助力企业实现数字化转型和智能化升级！

秘塔科技获新一轮巨额融资，估值达1.5亿美元，引领AI搜索市场新潮流！

“ChatGPT式胡说八道”引发关注：准确性漠视挑战公共服务人员，法律责任成难题

"Midjourney升级网页版编辑器，应对AI绘图市场竞争挑战"

从文本到图像的革新：跨模态AR模型Lumina-mGPT实现图像生成的新突破

"ChatGPT Mac版新功能：并排窗口提升多任务处理，水印技术提高AI生成内容辨识度"

微软 Copilot AI 被揭示存在严重安全漏洞：攻击者能窃取敏感数据！

谷歌采取行动遏制非自愿深度伪造，网络安全再升级

Tavus团队打造AI聊天机器人：超越人性的沟通体验"

标签

热门文章

最近一年

全站

分类

"小型语言模型通过搜索超越GPT-4：深度学习领域的重大突破"

《Getty Images与NVIDIA联手推出全新升级AI图像生成工具，速度、质量、准确性大突破》

从文本到图像的革新：跨模态AR模型Lumina-mGPT实现图像生成的新突破

字节跳动旗下剪映团队研发的一站式AI创作平台“即梦AI” 提供AI图片

"Meta开源大模型Llama 3强势崛起！超越GPT-4，苹果AI新服务也备受期待"

爱诗科技推出PixVerse V2.5：视频生成速度提升200%，全新高表现模式与运镜功能，

蚂蚁集团新公司“数字蚂力”推出AI人机融合解决方案，助力企业实现数字化转型和智能化升级！

秘塔科技获新一轮巨额融资，估值达1.5亿美元，引领AI搜索市场新潮流！

“ChatGPT式胡说八道”引发关注：准确性漠视挑战公共服务人员，法律责任成难题

"Midjourney升级网页版编辑器，应对AI绘图市场竞争挑战"

从文本到图像的革新：跨模态AR模型Lumina-mGPT实现图像生成的新突破

"ChatGPT Mac版新功能：并排窗口提升多任务处理，水印技术提高AI生成内容辨识度"

微软 Copilot AI 被揭示存在严重安全漏洞：攻击者能窃取敏感数据！

谷歌采取行动遏制非自愿深度伪造，网络安全再升级

Tavus团队打造AI聊天机器人：超越人性的沟通体验"

标签

热门文章 最近一年 全站

分类

热门文章

最近一年

全站