qwen_创想鸟

DataMan：提升大语言模型预训练效率的数据管理器 aixiv专栏持续报道全球顶尖ai研究成果。本文介绍由浙江大学和阿里巴巴千问团队合作完成的一项研究，该研究针对大语言模型(llms)预训练数据选择问题，提出了一种名为dataman的数据…

2025年3月13日 • 编程技术

2000

aixiv专栏持续关注并报道全球顶尖ai研究成果。多年来，我们已发布超过2000篇学术及技术文章，涵盖众多高校和企业实验室的领先研究。欢迎优秀研究者投稿或联系我们进行报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoy…

2025年3月13日 • 编程技术

2000

大型语言模型（llm）在执行任务时也可能面临“过度思考”的困境，导致效率低下甚至失败。近期，来自加州大学伯克利分校、uiuc、eth zurich 和 cmu 等机构的研究人员对这一现象进行了深入研究，并发表了题为《过度思考的危险：考察代理…

2025年3月13日 • 编程技术

2000

编程技术

阿里万相大模型开源仅6天，便在hugging face社区力压群雄，荣登模型热榜和模型空间榜榜首，成为近期全球最受瞩目的开源大模型。其在hugging face和魔搭社区的累计下载量已突破百万，github star数更超过6000。万相…

2025年3月13日

2000

重磅推荐：visual-rft——视觉强化微调开源项目，赋能视觉语言模型！ AIxiv专栏持续关注全球顶尖AI研究，已发布2000余篇学术技术文章。欢迎投稿分享您的优秀成果！投稿邮箱：liyazhou@jiqizhixin.com；zhao…

2025年3月13日 • 编程技术

2000

深度解析：大模型的自我改进能力为何参差不齐？斯坦福大学最新研究揭秘近期，斯坦福大学的一项研究深入探讨了大型语言模型（LLM）自我改进能力背后的机制，解释了为何有些模型能够有效利用额外计算资源提升性能，而另一些则停滞不前。该研究的核心在于模…

2025年3月13日 • 编程技术

2000

qwen