亚马逊Alexa科学家找到了改善语音和声音识别的方法

像Alexa这样的助手如何辨别声音?答案在于两份亚马逊研究论文，这些论文计划于今年在德国亚琛举行的声学，语音和信号处理国际会议上发表。Alexa演讲小组的高级演讲科学家Ming Sun今天早上在一篇博文中详细介绍了他们。

“我们开发了一种更好地表征媒体音频的方法，通过检查较长持续时间的音频流而不仅仅是对短音频片段进行分类，”他说，“[和]我们使用半监督学习来训练从外部数据集开发的系统音频事件检测。“

第一篇论文讨论了媒体检测的问题 - 即，识别从助手捕获的声音何时来自电视或收音机而不是人类发言者。为了解决这个问题，Sun及其同事设计了一种机器学习模型，该模型可以识别媒体声音中常见的某些特征，无论内容如何，都可以从语音中划分出来。

他们的系统包括几个递归神经网络(RNN) - 按顺序处理顺序数据的AI模型和前面输入和输出中的输出因子 - 以及一个特征提取卷积神经网络。独特地，RNN以金字塔形式“堆叠”在彼此之上，使得每个层仅具有与其下方的组件一样多的组件。

对于每五秒钟处理的音频片段，RNN生成矢量形式的单个输出(即，数学表示)，其表示它属于几个声音类别中的任何一个的可能性。同时，另一个神经网络 - 也是一个RNN - 跟踪片段之间的关系。

该团队尝试了一种设计，该设计将更高级别的RNN(RNN负责做出关于媒体声音是否存在的最终决定)放置在其他RNN的中间层和顶层之间，以便它从中间层接收输入并通过它的输出到顶层。在实验中，这是他们表现最好的架构，据报道错误率降低了24%。

听到声音

另一篇论文提出了一种新的半监督学习方法 - 一种涉及对少量标记数据进行训练和一组较大的未标记数据的技术 - 用于音频事件检测。

Sun指出，半监督学习倾向于改善机器学习模型的预测，但它有时会加剧错误，因为未标记的数据并不总是由AI系统正确排序。

为了缓解这种情况，他和同事们采用了“三训练”技术，通过随机抽取语料库中的数据，他们创建了三种不同的训练集 - 总共39,000例。然后，他们在所有三个数据集上训练了三个AI模型并保存了它们的副本，用于标记另外540万个样本。对于每个样本，只有当两个其他模型在标签上达成一致时，他们才利用机器标记的数据重新训练模型。

最后，研究人员总共使用了七种不同的模型来对测试集中的例子进行分类：三个初始模型和三个再训练模型以及第七个训练模拟前六个集合结果的模型。对三种声音的样本 - 狗声，婴儿哭声和枪声 - 汇集所有六种模型的结果导致误差分别比标准的自我训练模型减少了16%，26%和19%。同时，第七个模型将相同三个样本集的错误率分别降低了11%，18%和6%。

亚马逊Alexa科学家找到了改善语音和声音识别的方法

猜你喜欢：

最新文章：