qwen
-
ICLR 2025|浙大、千问发布预训练数据管理器DataMan,53页细节满满
DataMan:提升大语言模型预训练效率的数据管理器 aixiv专栏持续报道全球顶尖ai研究成果。本文介绍由浙江大学和阿里巴巴千问团队合作完成的一项研究,该研究针对大语言模型(llms)预训练数据选择问题,提出了一种名为dataman的数据…
-
探索跳跃式思维链:DeepSeek创造力垫底,Qwen系列接近人类顶尖水平
aixiv专栏持续关注并报道全球顶尖ai研究成果。多年来,我们已发布超过2000篇学术及技术文章,涵盖众多高校和企业实验室的领先研究。欢迎优秀研究者投稿或联系我们进行报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoy…
-
DeepSeek R1也会大脑过载?过度思考后性能下降,少琢磨让计算成本直降43%
大型语言模型(llm)在执行任务时也可能面临“过度思考”的困境,导致效率低下甚至失败。近期,来自加州大学伯克利分校、uiuc、eth zurich 和 cmu 等机构的研究人员对这一现象进行了深入研究,并发表了题为《过度思考的危险:考察代理…
-
开源仅6天,阿里万相大模型登上全球开源榜首
阿里万相大模型开源仅6天,便在hugging face社区力压群雄,荣登模型热榜和模型空间榜榜首,成为近期全球最受瞩目的开源大模型。其在hugging face和魔搭社区的累计下载量已突破百万,github star数更超过6000。 万相…
-
视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源
重磅推荐:visual-rft——视觉强化微调开源项目,赋能视觉语言模型! AIxiv专栏持续关注全球顶尖AI研究,已发布2000余篇学术技术文章。欢迎投稿分享您的优秀成果!投稿邮箱:liyazhou@jiqizhixin.com;zhao…
-
为什么Qwen能自我改进推理,Llama却不行?斯坦福找到了原理
深度解析:大模型的自我改进能力为何参差不齐?斯坦福大学最新研究揭秘 近期,斯坦福大学的一项研究深入探讨了大型语言模型(LLM)自我改进能力背后的机制,解释了为何有些模型能够有效利用额外计算资源提升性能,而另一些则停滞不前。该研究的核心在于模…