Claude挣钱强于o1！OpenAI开源百万美元编码基准，检验大模型钞能力

PHP中文网 • 2025年2月21日 15:51:13 • AI智能 • 阅读 2

ai领域昨日捷报频传：马斯克xai发布了grok-3旗舰大模型；deepseek梁文锋团队则公开全新注意力架构nsa。openai迅速回应，推出并开源了swe-lancer基准测试，用于评估ai大模型的软件工程能力。该基准包含1400多个来自upwork平台的真实软件工程任务，总价值高达百万美元。这意味着，如果模型能完成所有任务，就能获得同等报酬。

SWE-Lancer基准涵盖独立工程任务（例如bug修复和功能实现）和管理任务，任务难度和报酬成正比。独立工程任务经三重验证的端到端测试评级，管理任务则根据工程经理的评估结果判定。

SWE-Lancer任务模拟了现代软件工程的复杂性，平均耗时超过21天。

OpenAI的测试结果显示，包括GPT-4o、o1和Anthropic Claude 3.5 Sonnet在内的顶尖模型仍无法解决大部分任务。Claude 3.5 Sonnet表现最佳，完成任务价值达403,325美元。

为促进研究，OpenAI开源了统一的Docker镜像和SWE-Lancer Diamond公共评估集。通过将模型性能与实际经济价值挂钩，OpenAI旨在深入研究AI模型开发的经济效益。

论文标题：SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?论文地址：https://www.php.cn/link/89c1df48f184b1491c3d800ff90a1aa1项目地址：https://www.php.cn/link/89c1df48f184b1491c3d800ff90a1aa1

SWE-Lancer数据集包含1488个来自Upwork的软件工程任务，总价值百万美元，分为个人贡献者（IC）任务和管理任务两类。IC任务侧重于bug修复和功能实现，管理任务则模拟软件工程经理的角色选择最佳解决方案。

SWE-Lancer数据集由OpenAI研究人员和100名软件工程师创建，确保任务真实性，并避免模型作弊。

测试结果显示，现有模型难以完全胜任真实软件工程任务，虽然能辅助解决一些问题，但距离完全取代人类工程师还有距离。模型在定位问题方面表现出色，但在深入理解和解决根本问题方面仍有不足。

以上就是Claude挣钱强于o1！OpenAI开源百万美元编码基准，检验大模型钞能力的详细内容，更多请关注【创想鸟】其它相关文章！

发布者：PHP中文网，转转请注明出处：https://www.chuangxiangniao.com/p/1813121.html

AI claude deepseek docker Git OpenAI 产业

0 0

关于作者

PHP中文网签约作者

185.5K 文章

0 评论

0 粉丝

php中文网提供大量免费、原创、高清的php视频教程，并定期举行公益php培训！可边学习边在线修改示例代码，查看执行效果！php从入门到精通，一站式php自学平台！

DEEPSEEK网页版入口

上一篇 2025年2月21日 15:51:04

撞车DeepSeek NSA，Kimi杨植麟署名的新注意力架构MoBA发布，代码也公开

下一篇 2025年2月21日 15:51:22

游戏

异色边缘吞噬流怎么玩异色边缘吞噬流玩法介绍

《异色边缘》吞噬流玩法详解：打造你的专属强力阵容！想在《异色边缘》中体验极致的策略乐趣？不妨尝试一下强大的吞噬流玩法！本攻略将详细介绍如何构建和运用吞噬流阵容，助你轻松掌控战场。核心思路：利用“灰群”系列和“愫络合”系列从属（均属“福利…

PHP中文网
2025年2月23日
1000
游戏

《异色边缘》快攻流编组码分享

《异色边缘》快攻流阵容推荐及编组码分享，助你快速上手！为了帮助玩家轻松上手《异色边缘》并顺利开荒，官方精心挑选了几套阵容，玩家可根据喜好选择。本文将分享一套高效的快攻流阵容，并提供编组码，方便玩家直接导入游戏体验。快攻流阵容详解：此…

PHP中文网
2025年2月23日
1000
游戏

无限暖暖地图工具哪些好用

还在为寻找《无限暖暖》中的奇想星、灵感露珠和宝箱而烦恼吗？别担心！这篇攻略将带你轻松掌握地图工具的使用技巧，快速找到这些珍贵道具。许多玩家已经利用地图工具高效收集资源，但庞大的游戏地图让许多新手玩家感到迷茫。现在，我们将所有信息汇总，助你…

PHP中文网
2025年2月23日
1000
《无限大》游戏预约方法

《无限大》技术测试预约开启！12月5日，《代号：无限大》正式更名为《无限大》，并宣布开启技术测试，现在即可前往官网预约，赢取里程碑奖励！想知道如何预约吗？请继续阅读。如何预约《无限大》技术测试？您可通过以下平台预约：官方网站: ht…

PHP中文网
2025年2月23日 • 游戏
1000
游戏

《无限暖暖》攻略互动地图地址分享

《无限暖暖》全新互动地图助你畅游大世界！为了提升玩家游戏体验，官方上线了便捷的互动地图，帮助大家快速找到宝箱和资源。想知道如何使用吗？赶紧来看看这篇攻略！互动地图入口：直接访问地图链接：https://www.php.cn/link/0…

PHP中文网
2025年2月23日
1000
游戏

《三角洲行动》破产解决方法一览

在《三角洲行动》中遭遇资金匮乏？别担心！本文将为您详细讲解摆脱经济困境的策略，助您重返战场！摆脱破产困境的技巧：一、善用制式装备券: 进入战斗前，检查您的“行前准备”界面，查看是否拥有制式装备券。如有，即可使用。制式装备分为三种等级：新…

PHP中文网
2025年2月23日
1000
编程技术

php高级工程师面试问哪些

PHP高级工程师面试主要考察以下六个方面：基础知识（数据类型、对象编程）、框架和技术栈（Laravel、Composer）、设计模式和最佳实践（单例模式、SOLID原则）、项目经验（大型项目参与）、趋势和新技术（云计算、微服务）、软技能（沟…

PHP中文网
2025年2月23日
1000
编程技术

php程序员需要掌握的技能有哪些

PHP 程序员必备技能：1. 核心 PHP 语言基础，包括语法、数据类型、控制流和函数；2. 面向对象编程；3. Web 开发：HTML、CSS、JavaScript、HTTP 协议、服务器端编程；4. 数据库：SQL 查询语言、DBMS、…

PHP中文网
2025年2月23日
1000
编程技术

vscode英文翻译

VSCode是一款由微软开发的轻量级开源代码编辑器，用于构建和调试现代 Web 和云应用程序。其特点包括跨平台、轻量级、可扩展、集成终端和代码调试功能。VSCode的优点是免费开源、易于使用、功能强大、社区活跃，支持多种语言。其缺点是可能对…

PHP中文网
2025年2月23日
1000
编程技术

vscode中文意思

Visual Studio Code (VS Code) 是一款由 Microsoft 开发的开源代码编辑器，专用于现代 Web 应用程序的构建和调试。主要特性包括：智能代码完成功能内置调试器扩展支持版本控制集成跨平台支持VS Code 的…

PHP中文网
2025年2月23日
1000