导航菜单

新的Azure集成锥形参考设计扬声器

导读 以及一种将会议中的每部手机和笔记本电脑变成临时语音识别阵列的方法。Build 演示强调了边缘设备和云处理的组合如何更好地协调工作,以及
2021-11-09 11:11:13

以及一种将会议中的每部手机和笔记本电脑变成临时语音识别阵列的方法。Build 演示强调了边缘设备和云处理的组合如何更好地协调工作,以及潜在改进可以理解多个命令并消除唤醒词的未来智能扬声器。

每个人都在说话,Azure 在听

语音到文本并不难,但试图跟踪一个完整的语音重叠的对话要困难得多。这就是微软说它已经破解的坚果,本周在 Build 上展示了一个新的对话转录系统。它对现有的 Azure 语音服务进行按摩,以支持实时、多人、远场语音转录和说话者归属的组合。

微软的系统在去年的 Build 上进行了预览,但现在它正在公开发布。有一个门控预览,它正在接受应用程序,以及与埃森哲、Roobo 和埃维诺等供应商的合作,以将对话转录系统商业化。

在 Build 演示中,会议设备能够跟踪多人谈话,不仅可以正确转录他们,而且即使在“串扰”期间也能这样做。它使用音频和视频信号,通过视听融合来帮助识别谁在说什么。不出所料,边缘设备不负责处理:相反,数据处理全部在 Azure 云中完成。

有一个新的视频和麦克风阵列参考设计

去年,微软对新硬件进行了简短的预览。这个黑色的圆锥形小工具——内衬看起来像散热片——顶部有一个鱼眼镜头,承诺不仅可以听到和看到房间里的每个人,还可以转录他们。那来了,你会毫不意外地听到,来自一大堆人工智能。

例如,尖顶扬声器可以在与会者进入房间时自动识别他们,以便知道每个人何时都在场。通过识别不同的声音和语音模式,它可以转录多人对话,根据谁说了什么自动分解文本。与此同时,与 Cortana 的集成可以帮助在日历上找到每个人都有空的时间,以及可供他们使用的房间。

现在,微软将其作为开发人员参考设备提供,配有 360 度麦克风阵列和 360 度摄像头。该公司已经为想要试用 Devices SDK 的用户提供了多种选择,从简单的多麦克风阵列到Azure Kinect等智能相机,这款锥形扬声器也将加入其中。定价和可用性尚未确定,但微软告诉我们它只会作为有限的私人预览版提供给系统集成商。这些运营商是否选择基于相同技术制造商业产品还有待观察。

不过,您甚至可能不需要特定的会议麦克风

不过,微软正在寻求超越特定硬件的更好的协作会话和会议。被称为丹麦项目,它有效地将一组带有常规麦克风的现有设备(例如智能手机和笔记本电脑)转变为动态的临时虚拟麦克风阵列。

这个想法是,您不需要专业品质的远场麦克风来执行对话转录等操作。取而代之的是,您几乎可以将每个人的手机或笔记本电脑(或两者)连接起来,丹麦项目将使用它来改进语音识别,这比任何一台设备都可能做到。微软表示,尽管语音重叠,但通过 7 个输入音频流,它仍实现了22.3% 的字错误率(WER)。

然而,它不仅适用于会议室。例如,微软建议丹麦项目系统可用于支持更多即兴的基于语音的相遇。例如,通过多个 Microsoft Translator 应用程序,在多个电话上全部链接在一个虚拟麦克风阵列中,可以实现更好的实时翻译。

家庭智能音箱接下来可能会受益

如果您没有参加多人会议的习惯,您可能想知道这对您有什么好处。好消息是,允许微软进行对话转录的相同研究也可以改进未来的智能扬声器。

微软指出:“虽然智能扬声器今天已经上市,但它们中的大多数一次只能处理一个人的语音命令,并且在发出这样的命令之前需要一个唤醒词。” 然而,随着 Azure 语音服务的新增功能,未来的智能扬声器可以更加适应被说话的时间,即使在多人交谈时也能理解请求和命令,甚至可以处理复杂的多部分指令一次由多人同时发行。

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢:

最新文章: