当前位置:主页 > 互联网 >

互联网

【bob直播平台】Google开源LiveTranscribe的语音引擎,为长篇对话提供字幕

时间:2021-12-12 08:27 点击次数:
  本文摘要:发送到无限宽度的音频流。另外,赖云意味着网络连接、数据成本和延迟存在潜在问题。结果,语音发动机在超时前重新启动流量催促,包括长时间静音期间新的开始不会说话,每次在语音中检测到停止时重新启动。在对话中,语音发动机还在当地缓冲器的声音中,在新的连接中发送。 因此,谷歌防止了切断的句子和单词,增加了不会说话的文本量。为了减少比特率市场的需求和成本,谷歌还评价了FLAC、AMR-WB和Opus不同的音频编码解码器。

bob直播平台

发送到无限宽度的音频流。另外,赖云意味着网络连接、数据成本和延迟存在潜在问题。结果,语音发动机在超时前重新启动流量催促,包括长时间静音期间新的开始不会说话,每次在语音中检测到停止时重新启动。在对话中,语音发动机还在当地缓冲器的声音中,在新的连接中发送。

因此,谷歌防止了切断的句子和单词,增加了不会说话的文本量。为了减少比特率市场的需求和成本,谷歌还评价了FLAC、AMR-WB和Opus不同的音频编码解码器。FLAC(可用编码解码器)可以保持准确性,节省大量数据,具有显着的编码解码器延迟。AMR-WB虽然可以节省大量的数据,但是在喧嚣的环境中精度却很低。

与此同时,Opus允许数据速度比大多数音乐流媒体服务低很多倍,同时保持音频信号的最重要细节。谷歌不会在长时间的静音期间用于语音检查重启网络连接。总的来说,团队需要构建数据使用量增加10倍,而不影响准确性。为了比Cloud更延迟,LiveTranscribe用于定制Opus编码器。

编码器正好提高了比特率,不能区分视觉上没有压缩的声音。LiveTranscribe语音引擎功能谷歌列出语音引擎的以下功能(不包括说明者的识别):无限流媒体。反对70多种语言。

可以修改网络丢失(在网络和Wi-Fi之间转换时)。文字丢失,只会延迟。强烈扩大网络损失。

即使网络已经供电数小时,也不会有新的联系。当然,没有连接就不能进行语音识别。

可以精彩地完成Opus、AMR-WB和FLAC代码。包括文本格式库,可视化ASR信赖度、发言人ID等。可以扩大离线模型。内置反对语音检测器,在缩短静音期间可作为暂停ASR,节约资金和数据。

bob直播平台

内置反对音箱识别,可根据音箱编号标记或着色文本。字幕不会随着对话的理解而调整文档,认为这些库与生产应用LiveTranscribe中运营的库完全一样。谷歌已经开展了普遍的现场测试和单元测试,但测试本身并不开源。

但谷歌显然获得了APK,开发人员可以在不构建代码的情况下试用该库。(公共编号:)via:安卓.comventurebeatventurebeat的原始文章。下一篇文章发表了注意事项。


本文关键词:【,bob,直播,平台,】,Google,开源,LiveTranscribe,bob直播,的

本文来源:bob直播-www.l33tapp.com

Copyright © 2005-2021 www.l33tapp.com. bob直播平台科技 版权所有 备案号:ICP备51962031号-2

在线客服 联系方式 二维码

服务热线

079-67648621

扫一扫,关注我们