这个来自中国的知识提取引擎,看起来比百度还好用

作为文字工作者,我每天都在跟搜索引擎打交道。

比如在写 Facebook 的财报新闻时,Google 可以告诉我它的实时股价、市值、近期高低点等非常有用的信息。

但其实,还有另一个工具比 Google 更好用,那就是 Wolfram Alpha。它比 Google 更进一步,可以用结构化的方式直接列出我可能需要的知识。

举个最简单的例子:我家带宽是 75Mbps (9.375MB/s),要下载一个100GB的文件需要多久?我可以直接用自然语言询问,Wolfram Alpha 不仅会告诉我答案,还会写出公式:

这个来自中国的知识提取引擎,看起来比百度还好用

它不仅是一个数学工具,还是一个很好的知识聚合工具。比如最近电影《小丑》很火,如果我想写关于它的文章,上 Wolfram Alpha 一搜就能找到大量细节,包括并不限于影片信息、排名和票房等。

准确来讲,Wolfram Alpha 并非一个搜索引擎。它的官方定义叫做“计算式知识引擎”,可以用来回答那些没有公开答案,但是计算一下即可得到的问题。而且,它用结构化的方式去展现答案,而不是像搜索引擎那样,把链接一条一条列出来。

接下来介绍今天文章的主角:Magi,一个最近几天在我的技术圈朋友中间小有名气的工具。

Magi(网址 https://magi.com)看起来也像是一个搜索引擎:

这个来自中国的知识提取引擎,看起来比百度还好用

但是只要玩上一次,就会发现,它和你印象中的所有搜索引擎都大不相同。

当我用它搜索词条“易烊千玺”时,得到了下面的结果。

首先,答案提供了对易烊千玺的几个关键描述,如“TFBOYS的成员”、“00后国民偶像代表”等。紧接着,它列出了关于词条主人的几乎全部的重要属性,包括由他出生年月、参演的影视作品、发表的音乐专辑等。

答案的结构化展现方式,和 Wolfram Alpha 颇有类似。

这个来自中国的知识提取引擎,看起来比百度还好用

甚至连千纸鹤(易烊千玺粉丝代称)的应援色都答了出来

更有趣的是,magi.com 还答出了易烊千玺的几个近义项,比如他的昵称、代称和他所养的宠物等等。

有时候,Magi 还能给出一些令我忍俊不禁的结果……

输入了一下“新世纪福音战士”。答案的描述中有“业界有名的劳模”……

又搜了一下小岛秀夫,答案里的“专长”一项我也是醉了……

接下来搜了一下富坚义博。

可能因为职业生涯中大部分时间都在拖稿,magi.com 告诉我富坚的业余爱好是“画画漫画”……

当然,大部分时候 magi.com 给出的答案还是比较靠谱的。

搜索到的答案,每一条都会用以绿、黄、红三种颜色表示其可信度从高到低;在答案的右侧则会提供几条链接,用鼠标划过它们即可看到,答案是从哪个/哪几个具体的来源学习到的:

这个来自中国的知识提取引擎,看起来比百度还好用

你会注意到,magi.com 的结果中,答案在正下方,链接跑到了右边,跟主流搜索引擎的用户界面完全是反的。

这就是 Magi 和主流搜索引擎最大的区别所在:链接对于它不是结果,答案才是。

这是因为 Magi 并非搜索引擎(尽管具有一些搜索引擎的功能)。它实际上是一个基于机器学习的知识引擎,能够检索和提取任何领域自然语言文本,将其中的知识提取出来,形成结构化的数据。

说得简单一点:

我们都知道,互联网上有着大量的,基于文本的信息,当中蕴藏着许多的知识。然而,计算机读不懂互联网上大部分的信息,因为这些信息往往不是以“性别:男”、“国籍:中国”这样的结构化形态,而是以自然语言的形态出现的。

比如,”埃菲尔铁塔的高度“是一个入门级的问题,因为早已有人整理出了正确的答案,写在维基百科和旅游网站上;但是想知道“埃菲尔铁塔的第二节电梯线路有多长”,就很难在搜索引擎上查到准确信息了。这是因为很少有人会把这些细节的数据,以结构化的方式记录在互联网上。

这就是 Magi 想要解决的问题:从开放领域的纯文本当中提取知识,并让其可解析、检索和溯源。

Magi 来自中国团队 Peak Labs,创始人季逸超在开发者圈子内也小有名气。2011年,还在北大附中读书期间,他就独自完成了猛犸浏览器 iOS 的开发。次年,他只用两天时间就完成了 Rasgueado,第一个支持划动手势控制光标位置的 iOS 输入法

2012年,季逸超创办了自己的公司,继续推动浏览器和输入法项目。目前,Peak Labs 主要精力都放在 Magi 项目上,专注于背后的技术,以及相关商业产品的开发。

Peak Labs 并没有计划将 Magi 和 Google、百度之类的主流搜索引擎相提并论。把 Magi 做成一个“搜索引擎”,主要是为了让公众有机会能够体验它背后的技术,感受它能够提供的价值。

即便如此,看起来很像搜索引擎的 magi.com,实力还是不容小觑。事实上,为了这个示范性质的产品,Peak Labs 并没有选择小聪明的方式,从其他搜索引擎抓取结果,而是从零开发了一套互联网搜索引擎。

”我们的结果的摘要比一般的搜索引擎都长,是的,我们是故意为之。这足以证明我们的结果不可能来自其他搜索引擎,“季逸超在官网上写道。

根据用户输入问题、关键词和表达式的不同,magi.com 可以用不同的方式来呈现答案——具体的呈现方式也展现了 Magi 系统的能力。

比如,输入“打车软件公司”,Magi 系统可以把它知道的所有手机叫车公司,以“集合”的方式列在答案里。

这个来自中国的知识提取引擎,看起来比百度还好用

而在百度上,得到的结果如下。可以看到百度的知识图谱也提供了类似的结果,只是看起来有四、五年没有更新过了:

这个来自中国的知识提取引擎,看起来比百度还好用

再比如,如果输入“八角 大料”,Magi 系统会发现这两个关键词其实是同一个东西,它就会以“断言”的形式给出答案。

magi.com 告诉我,八角和大料是“近义项”,是“又称”、“也称”的关系。

Magi 系统可以24小时不间断地进行学习。它的时效性也还算不错,Peak Labs 宣称实时新闻当中的知识,Magi 只需要 5 分钟就可以掌握,而且还可以采纳新的信息源进行交叉验证,实现自动纠错。

如果你在 magi.com 的首页停留一会,就能看到它当前正在学习的链接:

这个来自中国的知识提取引擎,看起来比百度还好用

除了自主开发的全网规模搜索引擎以外,Peak Labs 还开发了基于注意力机制的神经信息提取系统,不依赖无界面浏览器的分布式抓取系统(爬虫程序 MagiBot),以及支持混合处理170多种语言的自然语言管道。

这四者结合在一起,才是 Magi 系统的全貌。

作为 EVA 粉,这里不得不打断一下:Magi 以及它的四个子系统,名称全部来自《新世纪福音战士》(EVA 本身取材自圣经等其他西方宗教经典),而且命名里也有彩蛋:

Magi(三贤者,多个系统组成的超级计算机)

搜索引擎 Ramiel(雷天使,)

神经信息提取系统 Ireul(恐怖天使,拥有学习和进化能力)

自然语言处理管道 Arael(鸟天使)

爬虫程序 Matarael(雨之天使,外貌像蜘蛛)

Peak Labs 在官网指出,目前的 Magi 技术还没有完全成熟。

确实如此。目前通过 magi.com 可以观察到一些问题,比如很多可以在主流搜索引擎中轻易找到的答案,magi.com 给不出来(通常是因为它还没有学到);

比如搜索“世界上最富有的人”时,我想要的是 Magi 能告诉我当前谁最富有,但它只能告诉我最富有的那一群人:

这个来自中国的知识提取引擎,看起来比百度还好用

比如消歧义的把控,容易导致答案混乱(这一点季逸超自己在知乎上[1]也有所提到):

这个来自中国的知识提取引擎,看起来比百度还好用

再比如,碰到一些实在太“复杂”的词条,magi.com 就凌乱了……

这个来自中国的知识提取引擎,看起来比百度还好用

不过正如前面提到,这个搜索引擎并不是 Peak Labs 的最终产品——他们的真正目的,是借助搜索引擎背后 Magi 系统的力量,提供企业级的服务。

Peak Labs 的官网指出,他们希望未来的 Magi 系统能够成为“知识领域的 ImageNet”。它已经展示出的开放领域信息提取能力,可以应用到企业客户所在的细分领域内,变成一个更加强大的信息抽取系统,让每一个领域、每一家企业都可以轻松地打造属于自己的知识图谱。

这个来自中国的知识提取引擎,看起来比百度还好用

“也许在不远的未来,伴随着整个行业的进步,Magi 所构建的包容万事万物的结构化网络,将成为通向可解释人工智能的基石。”Peak Lab 的网站这样写道。

——希望这个愿景能够实现。(就算实现不了也没关系啊!拿 magi.com 搜些奇怪的东西,还是能得到不少笑料的……)

如果你对 Magi 的技术细节感兴趣,可以点击下方“阅读原文”到 Peak Labs 网站进一步了解。季逸超在知乎的回答也做了更加详尽的阐述。

作者:杜晨 来源:硅星人

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。

发布者:卢松松,转转请注明出处:https://www.chuangxiangniao.com/p/1108707.html

(0)
上一篇 2025年1月14日 05:57:25
下一篇 2025年1月14日 05:57:51

AD推荐 黄金广告位招租... 更多推荐

相关推荐

  • 互联网引流渠道指南

    今天说说互联网每个引流渠道的特点和引流大致玩法。 要想精准引流有效客户粉丝,必须弄清楚当下互联网的渠道分类和每个渠道的特性,结合自身业务选择最优渠道才能事半功倍,用最少的投入换最大的回报,用人话说:什么人在什么平台玩,你要清楚这群人符不符合…

    2025年1月14日
    200
  • 小红书聚光平台新手入门投放指南

    小红书聚光平台上线2年多了,有人知道这个平台,也有很多人不知道。 不过没关系,今天我从头到尾,告诉你有关聚光平台的所有信息,内容很干,请大家搬个小板凳坐下认真阅读。 本内容适合广告主、广告投手。 一、什么是聚光平台 聚光平台是小红书推出广告…

    2025年1月14日 IT业界
    300
  • 闲鱼无货源从0~1,新手10天卖货100单的实战分享

    导语:失败是什么?没有什么,只是更走近成功一步,成功是什么?就是走过了所有通向失败的路,只剩下一条路,那就是成功的路。 大家好,我是峰少。 从4月18号加入生财以后看了很多精华贴和大家的项目实操分享,我一直在想自己能做点什么,怎么更好的参与…

    2025年1月14日 IT业界
    200
  • 抖音魔术类目也能月入过万

    有很多人反映原创视频不好拍,没颜值、没才艺、也没技术…… 总结起来就是——“太难了,不能轻轻松松赚钱,不是一个好项目!” 那如何快速拍出优质视频,吸粉变现两不误? 今天介绍的,利用人性好奇心,或许是一条捷径——魔术短视频! 为什么说魔术是“…

    2025年1月14日 IT业界
    200
  • 今天分享个你照着读就可以赚钱的项目

    再多努力一下,从天而降的星星就是你! 赚钱就是看对时机,时机选的对了,平常看起来不太光彩的事情,也别有那么一番意思,还能让你有借口赚到钱! 互联网有通过直播刷颜值赚钱的,有靠口才直播卖货赚钱的,有靠文笔不错输出内容赚钱的,但是你却告诉我你什…

    2025年1月14日
    100
  • ​羊群共情,财富跃迁

    羊群相聚,定无高见; 若有引领,定做收割。 收割羊群,撸羊毛,卖羊肉,熬羊汤,榨干你。 赚得盆满钵满。 上次探究了与庄家站在一起,才能在房产、投资、投机项目里,分一杯羹,甚至实现财富跃迁。 如果墨守成规,人云亦云,羊群效应,定无法出类拔萃,…

    2025年1月14日
    100
  • 没有对公账户、营业执照,已冻结的微信小程序也能注销成功

    大概是在2017年前后,心血来潮注册了公司营业执照,后面感觉还是更习惯于一个人摸爬滚打、自由自在,大约过了一年多的时间就注销了,不过在注册完营业执照之后,我用公司身份注册了一个微信小程序,在营业执照注销以后,这个微信小程序也被我搁置了,可能…

    2025年1月14日 IT业界
    100
  • 各大论坛精准被动引流布局玩法

    论坛引流,可能很多人觉得过时了,确实过时了,但是只要有人的地方,就有流量,往往这种过时的小流量平台审核更宽松,引流更轻松。 这样吧,先给大家上几个案例: 你们自己看,不管是做影视类的,还是做手工零食产品类的,通过论坛发帖,就可以轻松获得精准…

    2025年1月14日 IT业界
    100
  • 流量借力玩法

    其实我们在互联网做的绝大部分引流操作,都是流量借力。当下,大部分巨头占据着互联网、移动世界的头部地位。除了它们以外,另一些在当今互联网世界占据主流和一线位置的企业,在风投资金的支持下,也开始瓜分头部世界。对于新创业团队来说,越来越难以挤入“…

    IT业界 2025年1月14日
    200
  • 一个适合懒人操作的赚钱项目

    有人和我说,自己搞了个项目,就差投资人。其实呢?他自我感觉良好。 您这个项目真赚钱,注意这三个字,真赚钱,那么您不该为本金发愁,因为愿意借钱给你的人要排长队,至少我就愿意。 若是你为这个事发愁。那么,只有三个可能。 A、你是漏网之鱼,是金子…

    IT业界 2025年1月14日
    100

发表回复

登录后才能评论

联系我们

156-6553-5169

在线咨询: QQ交谈

邮件:253000106@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

联系微信