OpenAI最新研究表明当前AI模型仍无法媲美人类程序员

PHP中文网 • 2025年3月4日 14:33:36 • IT业界 • 阅读 2

openai 最新研究表明：ai 编程能力仍逊于人类程序员，即使是最先进的模型也无法胜任大多数编程任务。

OpenAI CEO 萨姆·奥尔特曼曾预测，AI 模型将在年底超越“低级别”软件工程师。然而，OpenAI 研究人员近期发表的论文却挑战了这一说法。研究人员使用名为 SWE-Lancer 的新基准测试工具（基于 Upwork 上 1400 多个软件工程任务）对 o1、GPT-4o 和 Claude 3.5 Sonnet 三款大型语言模型 (LLMs) 进行了评估。

SWE-Lancer 基准测试涵盖两类任务：独立任务（修复漏洞）和管理任务（高层次决策）。测试中，模型无法访问互联网，避免直接抄袭现有答案。

结果显示，虽然这些 LLM 完成任务的速度远超人类，但它们只能解决一些表面问题，无法深入理解漏洞的根本原因，提供的解决方案往往“错误或不完整”。这些“半成品”解决方案，对于熟悉 AI 协作的人来说并不陌生——AI 擅长生成看似合理的答案，但经不起仔细推敲。

Claude 3.5 Sonnet 的表现优于 o1 和 GPT-4o，但在多数情况下答案仍然是错误的。研究人员强调，实际应用中，AI 模型需要具备更高的可靠性。

总而言之，这项研究表明，尽管先进的 LLM 能够快速处理一些细节任务，但其编程能力远不及人类工程师。虽然 LLM 技术不断进步，但目前仍不足以取代人类程序员。然而，令人担忧的是，一些 CEO 已经开始解雇人类程序员，转而使用这些尚不成熟的 AI 模型。

以上就是OpenAI最新研究表明当前AI模型仍无法媲美人类程序员的详细内容，更多请关注【创想鸟】其它相关文章！

发布者：PHP中文网，转转请注明出处：https://www.chuangxiangniao.com/p/2460833.html

AI claude 工具

0 0

关于作者

PHP中文网签约作者

347.1K 文章

0 评论

1 粉丝

php中文网提供大量免费、原创、高清的php视频教程，并定期举行公益php培训！可边学习边在线修改示例代码，查看执行效果！php从入门到精通，一站式php自学平台！

小米接入DeepSeek-R1模型智能助手“超级小爱”再升级

上一篇 2025年3月4日 14:33:29

揭秘"灵动舞台"独特体验: 越狱插件开发者Tom T.推出全新应用

下一篇 2025年2月19日 21:19:21

IT业界

小米接入DeepSeek-R1模型智能助手“超级小爱”再升级

小米超级小爱携手deepseek-r1，开启智能新纪元！小米公司今日宣布其智能语音助手“超级小爱”正式集成deepseek-r1 ai模型，这一合作迅速引发热议，登上微博热搜榜。 DeepSeek公司专注于AI技术研发，其R1模型拥有强大的…

PHP中文网
2025年3月4日
2000
IT业界

你的下一款丑手机！iPhone 17被吐槽设计杂乱无章

最新爆料：iphone 17系列产品线大调整，plus机型或将被取消，并新增air机型！知名爆料人majin bu曝光了iphone 17系列四款机型的cad设计图，引发热议。新系列包含：iphone 17 air、iphone 17、ip…

PHP中文网
2025年3月4日
2000
透过荣耀西研所揭秘HONOR Turbo X技术为什么这么强

荣耀magicbook pro 14及honor turbo x即将发布，续航能力超12小时，堪比苹果macbook！荣耀产品线总裁方飞在采访中透露了这一消息。究竟honor turbo x如何实现如此卓越的性能？让我们走进荣耀西安研究所…

PHP中文网
2025年3月4日 • IT业界
2000
IT业界

特斯拉设计团队人才流失！两位顶级设计师已离职

特斯拉设计团队核心成员相继离职，引发行业关注。近日，两位资深设计师david imai和bernard lee双双离开特斯拉，其中一人更是特斯拉设计工作室的创始成员。此举或将对特斯拉未来的设计方向产生影响。 David Imai，曾任特斯拉…

PHP中文网
2025年3月4日
2000
小米15 Ultra外观公布：双拼色设计双长焦四摄镜头！

小米15 ultra将于2月27日晚7点正式发布！官方首次曝光其惊艳外观，让我们一睹为快！这款手机采用独特的双色设计，上半部分为银色，下半部分则以黑色素皮革材质呈现，横握时宛如经典徕卡相机。醒目的红色“Ultra”标识点缀于右上角，复古气…

PHP中文网
2025年3月4日 • IT业界
3000
开发AI应用仅需10行代码！商汤大装置开源开发平台LazyLLM

商汤大装置开源开发平台lazyllm：10行代码构建ai应用！ “Lazy”（懒惰）——商汤以此命名LazyLLM，旨在为开发者提供便捷高效的AI应用开发体验。无需复杂操作，轻松构建强大应用！ LazyLLM现已在GitHub开源：项目地…

PHP中文网
2025年3月4日 • IT业界
4000
IT业界

蚂蚁数科提出创新跨域微调框架ScaleOT 入选全球AI顶会AAAI 2025

大模型在实际应用中，模型微调至关重要。然而，传统微调方法面临数据隐私和模型知识产权的双重挑战。上传数据存在安全风险，而共享模型则可能导致知识产权泄露和安全漏洞。蚂蚁数科、浙江大学、利物浦大学和华东师范大学联合团队在AAAI 2025大会上…

PHP中文网
2025年3月4日
4000
IT业界

夸克AI搜索上线“深度思考”：答案详尽、全面、可信任

夸克AI搜索迎来重大更新，核心亮点在于全新融入的“深度思考”能力。这项升级让夸克AI搜索能够精准捕捉用户需求，深入理解其深层意图，即使面对复杂或个性化的问题，也能快速提供详尽、全面且可靠的答案，助力用户高效完成信息查找、分析和方案制定。 “…

PHP中文网
2025年3月4日
4000
IT业界

腾讯元宝发布电脑版，为工作和学习场景提效

腾讯元宝电脑版正式发布，助力高效工作学习！腾讯AI助手“腾讯元宝”电脑版已于3月1日正式上线，支持Windows和macOS系统，旨在为用户的工作和学习提供高效助力。新版电脑端继承了移动端和网页端核心功能，并新增诸多便捷特性，例如划词翻…

PHP中文网
2025年3月4日
2000
IT业界

中国首个AI原生IDE：字节跳动发布AI编程工具Trae国内版

字节跳动推出国内首个ai原生集成开发环境 (ai ide) trae 国内版，助力开发者提效。trae 国内版搭载 doubao-1.5-pro 模型，并支持切换至 deepseek r1 & v3 “满血版”模型。开发者可通过 t…

PHP中文网
2025年3月4日
2000