自动韵律识别|以利沙摩西实验室

韵律，语言的音乐(音高，持续时间，响度和音色)承载了语言的非语言部分:情感，态度，强调，对话动作，权力关系等。比较，例如，“I 'm a .医生(某人坚持自己的头衔)我医生”(指的是我而不是其他人)。虽然文字完全相同，但传达的信息却不一样。

因此，无论是对于理解说话人的意图，还是对于沟通语境，韵律都是一个至关重要的信息来源。值得注意的是，在语音技术中，它在很大程度上仍未被利用。这是由于理论差距和信号处理的困难。WIS的韵律实验室正在开发应对这两个挑战的方法:我们提供工具来增强语音和语言依赖的应用程序——对话系统、呼叫中心、自动翻译——在阅读人类情景时。

我们的方法是基于检测自然产生的韵律单位。我们的第一个算法检测这些意义单位的边界。该算法在ASR系统的输出上非常容易实现，可用于提高ASR系统的精度。

最新的成就是无人管理的分类韵律单位。在没有人类标记的情况下，仅基于韵律，分类器将犹豫聚在一起;问题;讽刺的问题;大量演讲者参与;等等。因此，韵律模式的“一致性”就产生了。此外，我们正在探索更高层次的韵律结构——单元类型的序列——这成为我们的韵律语法．

将韵律整合到语音识别系统中可以彻底改变自然语言处理。想象一下，一个应用程序可以在对话中宣布非语言意图(例如，“对方很不安，正在等待你对X的回应”)，或者一个自动翻译器，根据你的语调创建正确的语法，甚至是一个Siri，当你听起来心烦意乱时，它会上传舒缓的鲜花。

自发言语中韵律边界的自动检测
伯龙·T.，鲍姆·D.，弗雷什·D.，马塔隆·N.，埃尔曼·N.，温雷布·E.，伯龙·D.和摩西·E. (2021) PLoS ONE。16, 5, e0250969。
PDF