AI的数据、算法、算力“轮流坐庄”，NLP到了“数据为王”的时代

SEO优化专员 • 2025年1月5日 17:59:01 • AI智能 • 阅读 2

工作人员齐整坐好，每个人都对着电脑全神贯注，一件又一件的“东西”在眼前划过，经过标准化处理就转到下一流程……这实际上是人工智能行业里的数据标注办公区一角。

由于深度学习的研究方向，人力密集型的数据标注工作是推进人工智能技术落地的重要环节之一。

很长一段时间以来，在过往AI的发展中数据的采集与标注行业没有过多地被关注，毕竟，与算法、算力这些高大上的东西相比，AI数据的生产总带着那么几分与AI技术的“科技感”截然不同的形象。

然而，随着AI的发展走向纵深，更多人发现这是一个误解，AI数据产业正在向着高专业化、高质量化 的方向蓬勃发展。

根据2018年智研发布的《2019-2025年中国数据标注与审核行业市场专项分析研究及投资前景预测报告》，2018年该行业市场规模已达到52.55亿元，2020年市场规模有望突破百亿。有行业人士估计AI项目中会有10%的资金用于数据的采集和标记，2020年，数据标注行业最终市场规模将达到150亿。

而分享市场的，既有BAT、京东等互联网巨头，也有云测数据这种专注于高质量交付的专业化数据平台。

庞大的前景下，数据采集与标注也可以分NLP(自然语音处理)、CV(计算机视觉)等几个部分，随着数据需求量的增大、对数据质量要求的提高，其中的NLP越来越成为“硬骨头”，AI数据产业终将面临它带来的难题，也承袭这种难题下空出的市场空间。

AI的数据、算法和算力“轮流坐庄”，NLP到了“数据为王”的时代

芯片制程以及大规模并联计算技术的发展，使得算力快速提升后，AI能力的提升主要集中到了算法和数据上(算力提升当然还有价值，只是相对价值那么明显了，例如不可能对一个物联网终端设备有太多的算力设定要求)。

这方面，多年以来，人工智能技术都呈现“轮流坐庄”的螺旋提升关系：

算法突破后，可容纳的数据计算量往往变得很大，所以会迎来一波数据需求的高潮；而当AI数据通过某些方式达到一个新的程度时，原来的算法又“不够了”，需要提升。

2018年11月，Google AI团队推出划时代的BERT模型，在NLP业内引起巨大反响,认为是NLP领域里程碑式的进步，地位类似于更早期出现的Resnet相对于CV的价值。

以BERT为主的算法体系开始在AI领域大放异彩，从那时起，数据的重要性排在了NLP的首位。

加上两个方面的因素，这等于把NLP数据采集与标注推到了更有挑战的位置上。

一个因素，是NLP本身相对CV在AI数据方面的要求就更复杂。

CV是“感知型”AI，在数据方面有Ground Truth（近似理解为标准答案） ，例如在一个图片中，车、人、车道线等是什么就是什么，在采集和标注时很难出现“感知错误”(图片来源：云测数据)

而NLP是“认知”型AI，依赖人的理解不同产生不同的意义，表达出各种需要揣测的意图，Ground Truth是主观的。

例如，“这房间就是个烤箱”可能是说房间的布局不好，但更有可能说的是里边太热。人类语言更富魅力的“言有尽而意无穷”的特点，应用于AI时，需要被多方位、深度探索。

另一个因素，是AI数据的价值整体上由“饲料”到“奶粉”，对NLP而言这更有挑战。

大部分算法在拥有足够多常规标注数据的情况下，能够将识别准确率提升到95%，而商业化落地的需求现在显然不止于此，精细化、场景化、高质量的数据成为关键点，从95% 再提升到99% 甚至99.9%需要大量高质量的标注数据，它们成为制约模型和算法突破瓶颈的关键指标。

但是，正如云测数据总经理贾宇航所言，“图像采标有很强的规则性，按照规范化的指导文档工作即可，但NLP数据对应的是语言的丰富性，需要结合上下文等背景去理解和处理。”在高位提升这件事上，NLP数据更难。

例如，在订机票这个看似简单的AI对话场景中，想订票的人会有多种表达，“有去上海的航班么”，“要出差，帮我查下机票”，“查下航班，下周二出发去上海”……自然语言有无穷多的组合表现出这个意图，AI要“认得”它们，就需要大量高质量的数据的训练。

由此，我们再来理解商业机会。

数据采集与标注的公司有很多，从巨头的“副业”到AI数据专业化平台，总体而言主要玩家如图所示：

它的需求可能只有初中语文即可。但是，NLP的数据需求早已超过这样的标注太多。

例如，客服询问用户是否购买此商品时，“我要和家人商量一下”、“我会考虑”、“我现在不方便，你一会儿再打过来”，标注人员得准确标注出暂不购买，暂不考虑，拒绝购买或者兴趣较大等多种意图。

一方面，这依赖于平台进行的场景深挖，这也是为什么云测数据智能客服单个场景的意图标注就分为10-20个大类、上百个子类，根据业务需求可能还会有进一步的标注细分，如此数据标注可以更细化、直达需求。

另一方面，这绕不开人员能力的持续培训，把“干体力”的标注工人转化成懂一些专业的业务人员，典型的如云测数据在金融服务领域通过几个月的专业培训，培养出销售人员视角去揣测用户话语中的意图。

举例来看，在客服沟通中，用户回馈“我在开车”这短短的一个语料数据，可能需要标记出“有车一族”、“司机”、“没有明显拒绝”、“可能有兴趣”等多个标注给NLP算法，按云测数据自己的说法，其培训达到的目标，是让标注员工达到成为专业员工的水准。

显然，在NLP标注数据的初期阶段将各大金融机构的AI客服机器人训练到大致相当的初级认知智能水平后，再进行提升、提高销售转化或者服务满意度，都需要质量更高、针对特定需求更强的NLP标注数据。

值得一提的是，在NLP领域不是所有标注都能通过人员培训来解决，医疗、法律等过于专业的领域可能还是依赖专家标注(邀请医生、律师等参与标注)，那是一个更复杂的故事了。

4、工具使用，持续加码“便捷化”

工欲善其事必先利其器，NLP的标注虽然不像CV有很多空间维度的数据需求，但工具提升便捷度进而提升标准效率和准确性的价值仍然不可小觑。

这方面，巨头的脚步更早，在国外，Google Fluid Annotation一度是NLP标注“最好使”的工具，国内，大厂和专业平台的工具也被广泛使用，云测数据在工具上的创新优势很明显。

总体而言，标注工具适合自己的才是最好的。这种根据定制化需求开发贴合实际需要的数据工具对场景化数据的生产，发挥着重要作用。

无论如何，持续加码“便捷化”，是一个不会停止的过程。

NLP数据产业的机会，将会是谁坐庄？

在AI领域，虽然有大厂走在前列，但市场并没有被巨头垄断，中型AI平台也常常崭露头角成为主角。以AI数据服务领域为例，像云测数据这种专注于企业服务的第三方独立平台，以客户为中心的企业基因，一直贯穿在数据交付的始终。

一个典型的表现是，高精确度的NLP数据需要以企业服务的心态与客户仔细对接需求 ，例如，用户需求的场景是什么，如果是订票，AI问答应该主要导向订票，对应的NLP数据也要往这个方向去标注。

这一过程中需要数据服务人员对需求进行拆解、预判甚至提前给出建议，与客户反复沟通确认达成一致后，才能真正地去作业。大厂偏重于技术架构、前沿技术开发、云服务器中心大规模并发能力等建设，很难俯下身好好完成这件事，这时候，AI数据专业化平台更有优势。

此外，影响竞争格局走向的还有数据服务的安全性。

在数据采集与标注行业，复制一份数据在技术上非常简单，也能节省大量的人力和运营成本，但给客户带来的损失却不小(尤其是被竞争对手拿到)，保证数据隐私性和安全性,在AI激烈的竞争环境下几乎成为某些客户的首要决策标准。

总而言之，高专业度、高精准度、高效率、强安全才能赢得AI数据客户尤其是NLP数据客户的选择，不论巨头还是AI数据专业化平台在行业爆发式增长的关口都在努力，落实和推进了诸多动作。NLP数据产业正处在蓝海，一个不会由巨头坐庄的蓝海。

此内容为【智能相对论】原创，仅代表个人观点，未经授权，任何人不得以任何方式使用，包括转载、摘编、复制或建立镜像。

部分图片来自网络，且未核实版权归属，不作为商业用途，如有侵犯，请作者与我们联系。

文 | 李永华

来源 | 智能相对论(ID：aixdlun)

发布者：SEO优化专员，转转请注明出处：https://www.chuangxiangniao.com/p/975534.html

ai技术 ai智能

0 0

关于作者

SEO优化专员签约作者

34.1K 文章

0 评论

0 粉丝

这个人很懒，什么都没有留下～

奔涌吧后浪 | 智媒物联引领商显未来创新之路

上一篇 2025年1月5日 17:58:52

瞻胜传播：AI公司回应“黑客入侵”传言启示数据安全立法应加速

下一篇 2025年1月5日 17:59:13

AI智能

宝安机器人亮相《我和我的祖国》首映礼，共迎国庆

我和我的祖国，一刻也不能分割”，伴随着熟悉的旋律不断被唱响，献礼影片《我和我的祖国》也将于9月30日全国上映，呈现七组普通人与国家大事件息息相关的经历，以小人物见证大时代，唤醒全球华人的共同回忆，随之而来的还有电影《我和我的祖国》全国宣发热…

SEO优化专员
2025年1月5日
3000
孩子放假玩手机管不住？这款学习机帮大忙

作为老师,每次开家长会都要强调学习专注才能高效的观点,还有禁止学生带手机的校规校纪,因为在带过这么多届学生后,我们太了解手机里的游戏娱乐、网络信息对未成年孩子的吸引力与影响程度。如何让孩子戒网瘾专注学习?最近我发现一款非常实用的学习神器——…

SEO优化专员
2025年1月5日 • AI智能
3000
AI智能

AI会议记录神器来了，咪鼠智能麦克风到底有哪些亮点？

AI语音技术飞速发展,越来越多的落地应用让大家深受裨益。咪鼠科技作为一家专注智能人机交互的企业,在办公领域不断渗透,研发了咪鼠智能麦克风这一全新产品,针对会议分享、记录等工作,提供全新高效的体验。 9月28日,2019咪鼠科技新品发布会召…

SEO优化专员
2025年1月5日
3000
从依图科技看中国AI的弯道超越

作者 | 曹亦卿角力加码，你来我往。 10月8日，美国联邦政府宣布，将28家中国实体加入“管制清单”，禁止在列实体购买美国产品。这是一份科技含量相当高的花名册。其中包括大华、海康威视、科大讯飞、依图、旷视、商汤、美亚柏科、颐信等8 家企…

SEO优化专员
AI智能 2025年1月5日
1000
百度安全：AI时代安全行业面临四大威胁，开放是百度未来重心

AI技术的不断进步在推动各行各业持续发展的同时，也给安全行业带来了全新的挑战。10月15日，百度安全总经理马杰在媒体沟通会上表示，面对AI时代的四大安全威胁，百度安全将以更开放的态度联合更多的合作伙伴一起应对AI时代全新的安全挑战。 (模型…

SEO优化专员
AI智能 2025年1月5日
3000
AI+IoT行业盛会来到第三年，涂鸦智能又将带来什么新惊喜？

导语：一年一度的AI+IoT业内盛会又将到来，进入到第三年的全球智能化商业峰会上，全球化AI+IoT平台涂鸦智能会给我们带来什么惊喜? 每一次创新技术的落地、演变与下沉，都带来了商业范式的变革与社会生产力的提升。正如互联网给社会带来的巨大…

SEO优化专员
2025年1月5日 • AI智能
3000
语音助手鏖战“全双工”，车载会是一个好场景吗？

一方面，作为最接近自然交互的形式，全双工已经成为智能语音领域的“香饽饽”，各大AI语音巨头都在积极布局。另一方面，车载场景的人机交互需求也越来越强烈，在手没有被完全解放的情况下，驾驶员们对更自由、更随性、更解放的语音交互有着更强烈的需求，…

SEO优化专员
AI智能 2025年1月5日
3000
云天励飞天府智城人工智能创新展示中心正式揭牌

2018年8月，云天励飞与双流区政府签订了“天府智城”项目的合作协议。该项目拟在双流区投资建设西南地区的运营中心和人工智能研究院，致力打造国内一流的“AI+”研发创新中心。近日，云天励飞在西南地区的业务发展进一步开花结果。 10月18日，…

SEO优化专员
2025年1月5日 • AI智能
3000
AI智能

为什么说飞桨宣告百度“倒金字塔”智能经济布局彻底成型？

随着最高领导人致信，乌镇互联网大会的受关注度达到了前所未有的高度。这个总是有新观点冒出的窗口里，AI已经连续多年成为热门，今年依旧，但关注点已经从过去的技术、场景应用探讨，变得更加深入和底层。深度学习平台就是其中的代表，百度的深度学习开放…

SEO优化专员
2025年1月5日
3000
“智能经济”背后的百度AI引擎

“今天已经进入了以人工智能为核心驱动力的智能经济新阶段。智能经济将给全球经济带来新的活力，是拉动全球经济重新向上的核心引擎。”百度创始人、董事长兼CEO李彦宏近日在第六届世界互联网大会上如是说。这已经不是李彦宏第一次在公开场合表达对人工智…

SEO优化专员
AI智能 2025年1月5日
3000

发表回复

登录后才能评论

AI的数据、算法、算力“轮流坐庄”，NLP到了“数据为王”的时代

关于作者

SEO优化专员签约作者

发表回复

联系我们

156-6553-5169

AI的数据、算法、算力“轮流坐庄”，NLP到了“数据为王”的时代

关于作者

AD推荐 黄金广告位招租... 更多推荐

相关推荐

发表回复

联系我们

156-6553-5169

AD推荐黄金广告位招租... 更多推荐