历时400多天，国产大模型全面赶超GPT-4？

SEO优化专员 • 2025年1月5日 11:55:02 • AI智能 • 阅读 2

稍微留意下近期的新闻，“赶超GPT-4”正在成为国产大模型的新热点。

百度文心一言、商汤日日新以及阿里云刚刚发布的通义千问2.5，均已迈入“全面赶超GPT-4”阵营。

把时间线稍微拉长一些的话，过去大半年时间里，“超越GPT-4”的消息可谓屡见不鲜，即使在报道中刻意加上了多项基准、部分指标等前缀，依然赚足了眼球，成为国产大模型佐证自身能力的有力指标。

简单做个复盘的话，国产大模型对GPT-4的追赶已经进行了400多天，其中“赶超进程”可以粗分为三个阶段。

第一阶段：部分性能超越GPT-4

2023年3月14日，OpenAI正式推出了GPT-4，彼时大多数国产大模型还未开放，少数内测大模型的比较对象还是GPT-3。作为业界标杆的GPT-4，就像是科幻照进了现实，被无数人捧上神坛。

但在短短半年后，GPT-4就出现在了国产大模型厂商的比较名单里。

2024年1月中旬的智谱AI技术开放日上，正式发布了新一代基座大模型GLM-4。按照智谱AI官方的说法：在权威的英文测试榜单中，GLM-4已经整体逼近GPT-4，平均能达到GPT-4 90%以上的水平，在个别项目上表现持平；而在国内企业更加看重的中文任务上，GLM-4的表现全面超过GPT-4。

回头来看，智谱AI和科大讯飞的营销策略还是有些“保守”，百川智能在同一时间段发布的Baichuan 3，对外表示已经在CMMLU、GAOKAO等中文评测中超越GPT-4。

第三阶段：全面赶超GPT-4 Turbo

2023年11月的OpenAI首届开发者大会，GPT-4 Turbo可以说整个活动的焦点，不仅比GPT-4更聪明，文本处理的上限更高，推理的速度更快，价格也更便宜，国产大模型随即迎来了新的比较对象。

再然后就是阿里云刚刚发布的通义千问2.5，根据媒体报道中的说法：模型性能全面赶超GPT-4-Turbo，成为“地表最强”中文大模型；通义千问1100亿参数开源模型在多个基准测评收获最佳成绩，超越Meta的Llama-3-70B，成为开源领域最强大模型。

可以笃定的是，日日新5.0和通义千问2.5只是个开始，后续将有更多国产大模型在能力上超越GPT-4-Turbo。

毕竟科大讯飞早已预热了上半年发布星火认知大模型V4.0的消息，将全面对标GPT-4系列；文心一言4.0的发布已经超过半年，不排除新版本正在准备中，且大概率会在性能上再上一个台阶……

“跑分”的意义在哪里？

不管是一开始的“部分性能超越”，还是现在进行中的“全面赶超”，依据都是第三方评测结果，或者说大模型厂商的主观判断。比如商汤和阿里云争相引用的OpenCompass，就是上海人工智能实验室开源的大模型评测平台。

对于一些大模型沉迷于刷榜、跑分的现象，上海人工智能实验室领军科学家林达华教授曾在媒体采访中直言：通过题海战术提高大模型成绩，对于模型实际能力的反应是失真的，影响了模型研发团队的改进方向和模型的商业落地，“高分低能”伤害的是机构本身；榜单上任何具体的名字只是大模型成长过程中无数次测试中的一次，一时的排名高低并不真正反映模型的能力。

何况很多大模型测试集为了公开透明，测试题目或者提纲都是公开的，大模型厂商不难通过“针对性的训练”来提高分数。只要将足够的的测试题喂给大模型，在开卷考试的机制下，分数总不会太低。

也就是说，分数高并不一定代表大模型的能力强。“跑分”的意义仅仅是让客户或开发者对大模型能力有一个初步的认识，最终的评估因素永远是“能不能解决问题”，“能不能在场景中带来实实在在的生产力”。

特别是在大模型走向落地应用的趋势下，一味炒作“超越GPT-4”、“跑分第一”，妄顾落地应用的实效，可能会适得其反。以大模型应用中比较常见的财报分析为例，如果大模型连一家企业的财报都看不懂，再高的计算分数也不会让客户信服，反而会被排除在合作名单外。

而参考中信证券等机构的研究报告，目前OpenAI的GPT-5正处于红队测试阶段，有望在今年夏天正式发布，可能在多模态理解、长文本输入、zero-shot学习等方面实现重大突破，且性能将远超GPT-4。即使国产大模型花费400多天追平了GPT-4，在相当长一段时间里，仍将处于追赶的姿态。

大模型的价值是解决日常问题的生产力工具，赶超GPT-4的阶段性升级，可以看作是国产大模型有序迭代部署、不断拉近差距的标志，切莫像手机跑分那样，在过度营销的作用下，沦为被群嘲的对象。

发布者：SEO优化专员，转转请注明出处：https://www.chuangxiangniao.com/p/962942.html

大模型

0 0

关于作者

SEO优化专员签约作者

34.1K 文章

0 评论

0 粉丝

这个人很懒，什么都没有留下～

体验了下钉钉AI助理，真羡慕现在的“打工人”…

上一篇 2025年1月5日 11:54:52

微博COO王巍：微博已接入阿里云通义大模型，是通义最早一批外部客户

下一篇 2025年1月5日 11:55:22

AI智能

deepin官宣正式接入大模型，多款自研应用迎智能化升级

今天我们向大家正式官宣 deepin已实现大模型能力接入多款自研应用软件实现智能化升级统信软件高级副总经理、CTO张磊表示：“目前UOS AI实现了国内外主流大模型的能力接入，并封装成deepin的AI底层公共能力；同时，我们也将把U…

SEO优化专员
2025年1月5日
1000
ChatGPT降温背后：大模型发展迎来真正转折点？

作为目前AI领域的“神级产品”，ChatGPT的诞生，即吹响了AI革命的号角，随后包括谷歌、微软、Meta在内的国外科技公司，以及百度、华为、阿里、商汤科技、360、科大讯飞等在内的国内大厂，纷纷在短时间内推出了自家大模型产品。但这场空前…

SEO优化专员
AI智能 2025年1月5日
1000
AI智能

垂直行业大模型“封神”背后，AI数据服务走入“深水区”

文 | 智能相对论作者 | 沈浪由ChatGPT掀起的这股大模型浪潮，从通用领域席卷垂直领域。现阶段，越来越多的行业都在开发专用垂直细分赛道的大模型产品，以加速AI应用的场景化落地进程。譬如，在电商领域，平台和商家正在利用大模型重塑各…

SEO优化专员
2025年1月5日
1000
中农网旗下沐甜科技首发白糖AI大模型内测，助推产业智能可持续发展

拥抱AI，赋能白糖产业创新发展随着新一轮科技革命和产业变革深入发展，行业数字化转型进入深水区，人工智能产业规模快速增长。大模型的出现，将跃升人工智能供给能力，更好应对行业数智化升级面临的挑战，带来新发展机遇。 2023年，随着OpenAI…

SEO优化专员
2025年1月5日 • AI智能
1000
大模型冷思考：企业“可控”价值创造空间还有多少？

文 | 智能相对论作者 | 叶远风毫无疑问，大模型热潮正一浪高过一浪。在发展进程上，从最开始的技术比拼到现在已开始全面强调商业价值变现，百度、科大讯飞等厂商都喊出类似“不能落地的大模型没有意义”等口号。在模型类型上，除了百度文心大模…

SEO优化专员
AI智能 2025年1月5日
1000
AI智能

浪潮信息“拓荒”：一场面向大模型时代的性能“压榨”

文 | 智能相对论作者 | 沈浪全球人工智能产业正被限制在了名为“算力”的瓶颈中，一侧是供不应求的高端芯片，另一侧则是激战正酣的“百模大战”，市场的供求两端已然失衡。然而，大多数人的关注点仍旧还是在以英伟达为主导的高端芯片领域。半导…

SEO优化专员
2025年1月5日
1000
大语言模型数据泄露堪忧，超自动化Agent成解决之道

大语言模型数据泄露堪忧，超自动化Agent成解决之道数据泄露成LLM应用最大障碍，看实在智能如何用AI Agent破解谜题从实在RPA Agent智能体安全机制，看AI Agent如何破解LLM应用安全谜题文/王吉伟阻碍广大企业…

SEO优化专员
AI智能 2025年1月5日
1000
加速大模型落地，容联云发布多款生成式智能服务

基于容联云自主研发的赤兔大模型能力，容联云容犀机器人真正将大模型强大的理解能力、知识学习能力、总结能力、挖掘能力、推理能力融入于实际落地应用中。开创性的打造生成式场景化智能问答、生成式智能辅助、AI运营话术库，帮助企业洞悉更精准的客户真实…

SEO优化专员
2025年1月5日 • AI智能
1000
AI智能

首届通义千问AI挑战赛开赛，参赛者可畅玩通义开源模型家族

12月1日，首届“通义千问AI挑战赛”开赛，参赛者可免费畅玩通义开源模型家族，包括刚刚发布的720亿参数模型Qwen-72B。主办方为参赛者提供价值50万元的免费云上算力和丰厚奖金。赛事分为算法和Agent两大赛道，前者聚焦通义千问大模型的…

SEO优化专员
2025年1月5日
1000
业界最强开源大模型来了！通义千问720亿参数模型正式开源

12月1日，阿里云举办通义千问发布会，开源通义千问720亿参数模型Qwen-72B。Qwen-72B在10个权威基准测评创下开源模型最优成绩，成为业界最强开源大模型，性能超越开源标杆Llama 2-70B和大部分商用闭源模型。未来，企业级、…

SEO优化专员
2025年1月5日 • AI智能
1000

发表回复

登录后才能评论

历时400多天，国产大模型全面赶超GPT-4？

关于作者

SEO优化专员签约作者

发表回复

联系我们

156-6553-5169

历时400多天，国产大模型全面赶超GPT-4？

关于作者

AD推荐 黄金广告位招租... 更多推荐

相关推荐

发表回复

联系我们

156-6553-5169

AD推荐黄金广告位招租... 更多推荐