DeepSeek R1也会大脑过载？过度思考后性能下降，少琢磨让计算成本直降43％

PHP中文网 • 2025年3月13日 19:13:04 • 编程技术 • 阅读 2

大型语言模型（llm）在执行任务时也可能面临“过度思考”的困境，导致效率低下甚至失败。近期，来自加州大学伯克利分校、uiuc、eth zurich 和 cmu 等机构的研究人员对这一现象进行了深入研究，并发表了题为《过度思考的危险：考察代理任务中的推理-行动困境》的论文（论文链接：https://www.php.cn/link/48e4527085f884352825f9f7df2846db）。

研究人员发现，在实时交互环境中，LLM 常常在“直接行动”和“周密计划”之间犹豫不决。这种“过度思考”会导致模型花费大量时间构建复杂的行动计划，却难以有效执行，最终事倍功半。

为了深入了解这一问题，研究团队使用现实世界的软件工程任务作为实验框架，并选取了包括o1、DeepSeek R1、Qwen2.5等多种LLM进行测试。他们构建了一个受控环境，让LLM在信息收集、推理和行动之间取得平衡，并持续保持上下文。

研究人员将“过度思考”分为三种模式：分析瘫痪（Analysis Paralysis）、恶意行为（Rogue Actions）和过早放弃（Premature Disengagement）。他们开发了一个基于LLM的评估框架，对4018条模型轨迹进行了量化分析，并构建了一个开源数据集，以促进相关研究。

结果表明，过度思考与问题解决率呈显著负相关。推理模型的过度思考程度几乎是非推理模型的三倍，更容易受到此问题的影响。

为缓解过度思考，研究人员提出了原生函数调用和选择性强化学习两种方法，并取得了显著成效。例如，通过选择性地使用低推理能力的模型，可以大幅降低计算成本，同时保持较高的任务完成率。

研究还发现，模型规模与过度思考之间存在负相关关系，较小模型更容易过度思考。此外，增加推理token数量可以有效抑制过度思考，而上下文窗口大小则没有显著影响。

这项研究为理解和解决LLM的“过度思考”问题提供了宝贵的见解，有助于提升LLM在实际应用中的效率和可靠性。

以上就是DeepSeek R1也会大脑过载？过度思考后性能下降，少琢磨让计算成本直降43％的详细内容，更多请关注【创想鸟】其它相关文章！

发布者：PHP中文网，转转请注明出处：https://www.chuangxiangniao.com/p/3048350.html

deepseek qwen 大型推理模型工程

0 0

关于作者

PHP中文网签约作者

510.2K 文章

0 评论

1 粉丝

php中文网提供大量免费、原创、高清的php视频教程，并定期举行公益php培训！可边学习边在线修改示例代码，查看执行效果！php从入门到精通，一站式php自学平台！

复旦大学材料科学系课题组设计出具有超快响应和大弯曲角度的光波导微型驱动器

上一篇 2025年3月13日 19:12:55

如何用Nginx实现单一入口访问多个不同API系统？

下一篇 2025年3月13日 19:13:21

编程技术

开源仅6天，阿里万相大模型登上全球开源榜首

阿里万相大模型开源仅6天，便在hugging face社区力压群雄，荣登模型热榜和模型空间榜榜首，成为近期全球最受瞩目的开源大模型。其在hugging face和魔搭社区的累计下载量已突破百万，github star数更超过6000。万相…

PHP中文网
2025年3月13日
2000
ICRA 2025｜清华x光轮：自驾世界模型生成和理解事故场景

aixiv专栏持续报道全球顶尖ai研究成果，已收录2000余篇来自高校和企业实验室的学术技术文章，助力学术交流与传播。欢迎投稿或联系报道，邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.c…

PHP中文网
2025年3月13日 • 编程技术
2000
编程技术

刚刚，Anthropic完成35亿美元新融资，估值飙升至615亿美元，网友催发Claude 4

anthropic 获 35 亿美元 e 轮融资，投后估值达 615 亿美元！继推出全球首个混合推理模型 Claude 3.7 Sonnet 后，人工智能公司 Anthropic 再传喜讯：近日宣布完成 E 轮融资，筹集资金 35 亿美元…

PHP中文网
2025年3月13日
2000
生成与理解相互促进！华科字节提出Liquid，揭示统一多模态模型尺度规律！

华中科技大学、字节跳动和香港大学联合团队研发了一种名为liquid的极简统一多模态生成框架，该框架无需复杂的外部视觉模块，即可实现图像生成和理解。liquid巧妙地利用vqgan将图像编码为离散视觉token，并将其与文本token整合到同…

PHP中文网
2025年3月13日 • 编程技术
2000
视觉强化微调！DeepSeek R1技术成功迁移到多模态领域，全面开源

重磅推荐：visual-rft——视觉强化微调开源项目，赋能视觉语言模型！ AIxiv专栏持续关注全球顶尖AI研究，已发布2000余篇学术技术文章。欢迎投稿分享您的优秀成果！投稿邮箱：liyazhou@jiqizhixin.com；zhao…

PHP中文网
2025年3月13日 • 编程技术
2000
上海AI Lab最新推出Mixture-of-Memories：线性注意力也有稀疏记忆了

aixiv专栏：探索mom：混合记忆模型，兼顾强大的记忆扩展能力和低序列复杂度 AIxiv专栏持续关注并报道全球顶尖AI学术研究和技术进展，至今已发布超过2000篇高质量文章。欢迎投稿或联系报道：liyazhou@jiqizhixin.co…

PHP中文网
2025年3月13日 • 编程技术
2000
为什么Qwen能自我改进推理，Llama却不行？斯坦福找到了原理

深度解析：大模型的自我改进能力为何参差不齐？斯坦福大学最新研究揭秘近期，斯坦福大学的一项研究深入探讨了大型语言模型（LLM）自我改进能力背后的机制，解释了为何有些模型能够有效利用额外计算资源提升性能，而另一些则停滞不前。该研究的核心在于模…

PHP中文网
2025年3月13日 • 编程技术
2000
大模型推理新范式！清华&蚂蚁：用编程思维来思考，用自然语言来表达

CodePlan：赋予大模型结构化思维，解锁推理潜能 AIxiv专栏持续报道全球顶尖AI研究成果。本文介绍清华大学和蚂蚁技术研究院的研究团队在ICLR 2025上提出的CodePlan框架，该框架通过引入代码形式的规划，显著提升了大模型的推…

PHP中文网
2025年3月13日 • 编程技术
2000
显著超越 SFT，o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了

上海交大、上海ai lab和港中文大学的研究人员推出visual-rft（视觉强化微调）开源项目，该项目仅需少量数据即可显著提升视觉语言大模型（lvlm）性能。visual-rft巧妙地将deepseek-r1的基于规则奖励的强化学习方法与…

PHP中文网
2025年3月13日 • 编程技术
2000
编程技术

Day0级支持摩尔线程火速支持通义千问QwQ-32B开源模型

阿里云开源全新推理模型通义千问qwq-32b，摩尔线程实现day0级支持！摩尔线程在阿里云发布通义千问qwq-32b模型后仅2小时，便高效完成了对其的支持。基于摩尔线程大语言模型高速推理框架vllm和mt transformer推理引擎，q…

PHP中文网
2025年3月13日
2000

发表回复

登录后才能评论

DeepSeek R1也会大脑过载？过度思考后性能下降，少琢磨让计算成本直降43％

关于作者

AD推荐 黄金广告位招租... 更多推荐

相关推荐

发表回复

分享到:

请登录

AD推荐黄金广告位招租... 更多推荐