自动韵律识别

韵律,语言的音乐(音高,持续时间,响度和音色)承载了语言的非语言部分:情感,态度,强调,对话动作,权力关系等。比较,例如,“I 'm a .医生(某人坚持自己的头衔)医生”(指的是我而不是其他人)。虽然文字完全相同,但传达的信息却不一样。

因此,无论是对于理解说话人的意图,还是对于沟通语境,韵律都是一个至关重要的信息来源。值得注意的是,在语音技术中,它在很大程度上仍未被利用。这是由于理论差距和信号处理的困难。WIS的韵律实验室正在开发应对这两个挑战的方法:我们提供工具来增强语音和语言依赖的应用程序——对话系统、呼叫中心、自动翻译——在阅读人类情景时。

我们的方法是基于检测自然产生的韵律单位。我们的第一个算法检测这些意义单位的边界。该算法在ASR系统的输出上非常容易实现,可用于提高ASR系统的精度。

最新的成就是无人管理的分类韵律单位。在没有人类标记的情况下,仅基于韵律,分类器将犹豫聚在一起;问题;讽刺的问题;大量演讲者参与;等等。因此,韵律模式的“一致性”就产生了。此外,我们正在探索更高层次的韵律结构——单元类型的序列——这成为我们的韵律语法

将韵律整合到语音识别系统中可以彻底改变自然语言处理。想象一下,一个应用程序可以在对话中宣布非语言意图(例如,“对方很不安,正在等待你对X的回应”),或者一个自动翻译器,根据你的语调创建正确的语法,甚至是一个Siri,当你听起来心烦意乱时,它会上传舒缓的鲜花。

自发言语中韵律边界的自动检测
伯龙·T.,鲍姆·D.,弗雷什·D.,马塔隆·N.,埃尔曼·N.,温雷布·E.,伯龙·D.和摩西·E. (2021) PLoS ONE。16, 5, e0250969。
PDF