谷歌宣布推出开源Android语音识别转录工具LiveTranscribe的语音引擎
谷歌宣布了Android语音识别转录工具Live script的开源语音引擎。
这家公司希望通过这样做,任何开发者都可以为长时间的对话提供字幕,减少因网络延迟和断线造成的交流障碍。源代码现在可以在GitHub上获得。这意味着无论你是出国还是结交新朋友,Live script都能帮你沟通。
沟通可以实时畅通(只要有网络),沟通可以实时畅通(只要有网络)。
谷歌在今年2月发布了Live Transcription。这个工具使用机器学习算法将音频转换成实时字幕。与Android即将推出的直播字幕功能不同,直播转录是全屏体验,使用智能手机的麦克风(或外置麦克风),依托Google Cloud Voice API。实时转录可以实时说出70多种语言和方言的标题。另一个主要区别是,Live script可以在18亿台Android设备上使用(当Live Caption在今年晚些时候推出时,它只适用于部分Android Q设备)。
在云上工作
谷歌的云语音API目前不支持发送无限音频流。此外,依靠云意味着网络连接、数据成本和延迟存在潜在问题。
因此,语音引擎将在超时到达之前关闭并重新启动流请求,包括在长时间静默期间重新启动会话,以及在语音中检测到暂停时关闭。在会话之间,语音引擎也在本地缓冲音频,然后在重新连接时发送它。因此,谷歌避免了截断的句子或单词,并减少了对话中丢失的文本量。
从70多种语言和方言中选你的右,从70多种语言和方言中选你的右。
为了降低带宽要求和成本,谷歌还评估了不同的音频编解码器:FLAC,AMR-WB和Opus。FLAC(无损编解码)可以保持准确性,不会保存太多数据,编解码延时明显。AMR-WB可以存储大量数据,但在噪声环境下准确率较低。
同时,Opus允许数据速率比大多数音乐流媒体服务低很多倍,同时仍然保留音频信号的重要细节。谷歌还将使用语音检测在长时间沉默期间关闭网络连接。
总体而言,该团队能够“在不影响准确性的情况下,将数据使用量减少10倍”。
为了比云语音API进一步降低延迟,在实时转录中使用了定制的Opus编码器。编码器只是提高了比特率,以至于“延迟在视觉上无法区分未压缩音频的传输”。
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
【别克gl8商务车怎么样】别克GL8自推出以来,凭借其出色的舒适性、空间表现和品牌口碑,成为国内高端商务用车...浏览全文>>
-
【别克gl8商务车油耗是多少】别克GL8作为一款经典的商务车型,凭借其宽敞的内部空间、舒适的乘坐体验和较高的...浏览全文>>
-
【别克gl8商务车油耗多少】别克GL8是一款非常受欢迎的中大型MPV,广泛用于商务接待、家庭出行以及出租车等场景...浏览全文>>
-
【别克gl8商务车价格多少】别克GL8作为一款经典的商务车型,凭借其舒适性、空间表现以及品牌口碑,深受企业用...浏览全文>>
-
【别克gl8商务车价格】作为一款在国内市场广受好评的中高端商务车型,别克GL8凭借其宽敞的内部空间、舒适的乘...浏览全文>>
-
【别克gl8商务车多少钱】别克GL8作为一款经典的商务车型,凭借其舒适性、空间表现和品牌口碑,在国内市场上一...浏览全文>>
-
【别克gl8商务车的参数是怎样的】作为一款在商务用车市场中备受青睐的车型,别克GL8凭借其宽敞的空间、舒适的...浏览全文>>
-
【别克gl8商务车参数】作为一款在市场上备受关注的中高端商务车型,别克GL8凭借其宽敞的空间、舒适的驾乘体验...浏览全文>>
-
【别克gl8商务车报价参数配置】别克GL8作为一款经典的商务车型,凭借其宽敞的内部空间、舒适的乘坐体验以及较...浏览全文>>
-
【别克excelle是哪款车】“别克Excelle”这一名称在汽车市场中并不常见,可能是对别克某款车型的误写或翻译差...浏览全文>>