如何利用Node.js将语音转换为文本

译者 | 李睿

审校 | 孙淑娟

本文将简要概述语音识别技术及其常见应用,并演示一个免费的语音到文本的API,该API可用于以MP3和WAV文件格式转录音频。这个演示将包括逐步指令使用“即运行Node.js代码”示例调用这个API。  

如何利用Node.js将语音转换为文本

语音识别技术的概述  

人们通常将语音识别技术视为当代技术领域的一个相对较新的补充,而这只是一部分事实。语音识别技术已经存在了半个多世纪,从上世50年代初的一些先驱公司开发的功能有限的数字/文字识别系统开始。,尽管语音识别技术有着悠久的历史,过去十年来在智能消费类设备领域得到了广泛应用,但语音识别仍然是当今市场上较为抽象的技术之一。这是因为各种语音识别技术都跨越了计算机科学、计算语言学和数学/统计学等领域,需要各个领域的大量输入才能获得准确的语音到文本结果。

在(非常)高的级别上,为了让语音识别技术实施其最基本的任务,必须首先对给定的音频文件进行预处理以优化其质量。然后将其分解为更小的分量信号并进行排序。这些经过排序的信号必须足够小,以便数学模型可以将其与某些音素(结合在一起生成单词的特定于语言的声音;例如“eeee”或“ahhh”噪音)匹配,这有助于与该语言中的短语或句子进行比较。归根结底,语音识别服务的目标很简单:尽可能准确地猜测录制的音频中使用了哪些单词,并不断改进和扩展其语言数据库,直到猜测达到可接受的准确性水平。

这种复杂且固有的有限信息猜测系统甚至使最基本的语音识别服务也依赖于语言和方言,因为它们依赖于音频质量。语言、口音、词汇的变化以及背景噪音的存在都会产生边界,这对于单个语音到文本模型很难克服。此外,这种复杂性反映了一个基本事实,即语音识别服务是高度资源密集型的,依赖于庞大并且不断增长的参考数据集进行语音比较,需要相当大的计算能力才能有效利用这些数据集。这些因素共同使得训练一个全新的语音到文本模型成为一项艰巨的任务。

语音识别的应用  

语音识别在很大程度上是由于在更大的技术市场上出现了一些无处不在的创新,尤其是近乎无限的云计算数据存储解决方案的增长,语音识别已成为人们现在在日常生活中认识到的高效而有用的消费者服务。人们可以直接采用手机、固定电话和办公室设备进行沟通和对话,以自动查询所需要的信息,记录和组织自己的想法供以后使用,以及听到大声宣读的短信,等等。

目前,消费者应用只是语音识别技术应用的冰山一角。语音识别的许多相互关联的过程的进步创造了扩展音频转录输出的机会,并鼓励越来越多的商业应用程序进行语音到文本转换。在人们的周围有很多这样的例子。许多虚拟会议平台现在使用语音识别服务(通常是实时的)对团队演示文稿进行转录,生成的文本可以方便地存储给任何可能错过会议的人。聊天机器人利用语音识别帮助人们在手机上进行选择,这些对话中转录的音频可以用于其他用途:为未来更好的客户服务实践提供信息。人们可能参加的讲座、访谈、演讲和其他演讲活动可以通过个人设备进行录制和转录,以消除人工抄录笔记的工作。例如,这些转录可以通过自然语言处理(NLP)模型进行处理,以从转录文本中寻找以前看不到(或听不到)的见解。

值得一提的是,实用的内容调节和搜索引擎优化功能也可以从可扩展的语音到文本分析服务中获得——而这次是在企业数据存储环境中获得。考虑到大多数客户端上传内容的不可靠性,自动转录上传到网站的音频文件可以轻松调节父级音频文件的语言,以确保其对所有听众安全(例如查看是否包含极有争议的语言、仇恨言论或任何形式的对个人或团体的骚扰)。这显著减少了内容审核人员的工作量,并提高了其效率。这些相同的转录文件还可以用于生成有用的关键字,从而使音频文件更容易从大型数据库中搜索和检索。

示范:CloudMersive语音到文本API  

将语音识别作为一项服务加以利用的一种方法是通过包含Cloudmersive语音到文本API。该API目前支持MP3或WAV格式,并采用深度学习人工智能模型提供高精度的音频转录。其API参数非常简单,只需要输入音频文件和Cloudmersive API密钥(API密钥可以通过在其网站上注册一个免费帐户获得,该帐户每月最多生成800个API调用)。以下将演示如何使用互补Node.js代码段构建API调用。  

第一步是安装Node.js SDK。这可以通过运行以下命令来做到:  

npm install cloudmersive-speech-api-client --save

登录后复制

另外,可以将以下这一代码段添加到其软件包中。  

"dependencies": {
"cloudmersive-speech-client": "^1.1.5"
}

登录后复制

在安装完成之后,可以使用以下代码块构建API调用。此时,需要确保已经准备好以下参数:  

(1)MP3或WAV音频文件。  

(2)CloudMersive API密钥。  

var CloudmersiveSpeechApiClient = require('cloudmersive-speech-api-client');
var defaultClient = CloudmersiveSpeechApiClient.ApiClient.instance;
// Configure API key authorization: Apikey
var Apikey = defaultClient.authentications['Apikey'];
Apikey.apiKey = 'YOUR API KEY';
var apiInstance = new CloudmersiveSpeechApiClient.RecognizeApi();
var speechFile = Buffer.from(fs.readFileSync("C:empinputfile").buffer); // File | Speech file to perform the operation on.Common file formats such as WAV, MP3 are supported.
var callback = function(error, data, response) {
if (error) {
console.error(error);
} else {
console.log('API called successfully. Returned data: ' + data);
}
};
apiInstance.recognizeFile(speechFile, callback);

登录后复制

这样就完成了API的构建,无需进一步的代码段。成功的API呼叫将返回包含API转录结果的Textresult字符串。务必记住的是,输入文件中的音频质量将对API创建准确转录的能力产生重大影响,因此建议在实施这一操作之前尽可能预处理和优化音频质量。

原文标题:​​How to Leverage Speech-to-Text With Node.js​​,作者:Brian O’Neill

以上就是如何利用Node.js将语音转换为文本的详细内容,更多请关注【创想鸟】其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。

发布者:PHP中文网,转转请注明出处:https://www.chuangxiangniao.com/p/1644732.html

(0)
上一篇 2025年2月18日 18:28:43
下一篇 2025年2月18日 18:29:02

AD推荐 黄金广告位招租... 更多推荐

相关推荐

  • Windows系统如何使用语音识别? Windows开启语音识别功能的方法

    语音识别技术正变得越来越普遍,而windows系统也不例外。windows系统内置了语音识别功能,可以让您通过语音控制计算机,极大地提高了工作效率。如果您对如何开启和使用windows系统的语音识别功能感到好奇,那么这篇文章正是为您准备的。…

    2025年2月22日 互联网
    100
  • 使用EasyWeChat和PHP开发微信小程序的语音识别功能

    使用easywechat和php开发微信小程序的语音识别功能 随着微信小程序的推出,越来越多的开发者开始关注和使用微信小程序。微信小程序拥有丰富的功能和灵活的开发环境,为开发者带来了无限的可能。其中,语音识别功能是微信小程序中常见的一个功能…

    编程技术 2025年2月22日
    100
  • Node.js与MongoDB实战教程

    Node.js与MongoDB实战教程,这两种方法还有第二个可选参数{safe:true},这个参数的作用对于第一种方法,如果加上了这个参数,那么当 首先要确保mongodb的正确安装,安装参照: 然后下载nodejs的mongodb的dr…

    数据库 2025年2月22日
    100
  • PHP和机器学习:如何进行语音识别与语音合成

    php和机器学习:如何进行语音识别与语音合成 引言:随着机器学习和人工智能的迅猛发展,语音识别和语音合成已经成为了生活中一个重要的技术应用。在PHP中,我们也可以利用机器学习的能力,实现语音识别和语音合成的功能。本文将介绍如何利用PHP进行…

    编程技术 2025年2月22日
    100
  • Node.js 操作 PostgreSQL 数据库

    这篇node.js操作postgresql数据库,采用的是两个文件的方式实现,一个文件相当于客户端,实现连接数据库,调用相应的函数,而另一 上一篇node.js访问postgresql数据库,主要是在同一个文件里面实现对数据库的操作。见 这…

    数据库 2025年2月22日
    100
  • 聊聊宝塔如何安装NodeJS Api并配置https

    本文由宝塔教程栏目给大家介绍宝塔面板安装nodejs api 程序并配置https教程,希望对需要的你有所帮助! 宝塔面板安装NodeJS Api 程序并配置https教程 本文又名: 宝塔使用pm2 启动node服务并绑定域名 先参考作者…

    2025年2月22日
    100
  • AIkimiya测试网上线BTC交易费用的定价市场,可以做多和做空GAS费了?

    alkimiya最近在其测试网上线了btc交易费用的定价市场,这标志着该平台在区块空间资源管理领域迈出了重要一步。用户现在可以针对特定时期内的btc平均交易费指数,建立多头或空头头寸。alkimiya的这一创新不仅限于比特币,预计将很快推出…

    2025年2月22日
    100
  • 找不到node.dll怎么解决

    找不到node.dll文件,通常意味着你的系统缺少node.js运行环境的必要组件。这会导致依赖node.js的应用程序无法运行。解决这个问题的关键在于重新安装或修复node.js。 我曾经在帮助一位朋友搭建一个简单的服务器时遇到过类似的情…

    2025年2月21日
    100
  • 人工智能:语音识别技术

    今天给大家介绍一下关于语音识别相关的知识,希望对大家有所帮助! 1、什么是语音 语音指的是人类通过发声器官发出来具有一定意义、用来沟通交流的声音。 计算机中语音存储:以波形文件的方式存储,通过波形反映语音的变化,从而可以获取音强、音长等参数…

    AI智能 2025年2月21日
    100
  • vue如何使用phpstudy

    使用 PHPStudy 集成 Vue.js需要:安装 PHPStudy、Nginx、MySQL、PHP、Vue.js CLI 和 Node.js。创建 Vue.js 项目,并将其配置为 PHPStudy 网站。在 PHPStudy 控制面板…

    2025年2月21日
    100

发表回复

登录后才能评论