基于WFST的语音识别解码器

Posted by lili on August 8, 2019

本系列文章介绍基于WFST的语音识别解码器的理论知识。前面的微软Edx语音识别课程最后一个实验因为没有足够的理论知识,很难读懂其中的代码,因此本系列文章介绍这些缺失的内容。

  • 8/8更新语音识别系统概述本文回顾WFST之前的解码器基础知识,便于没有基础的读者了解最基本的Viterbi算法和Beam搜索算法、Word Lattice等基本概念。

  • 8/23更新WFST介绍本文介绍语音识别里用到的WFST的基本概念,重点介绍WFST的复合、确定化、weight pushing、最小化和ε消除等算法。

  • 9/5更新基于WFST的语音识别解码器算法,本文首先介绍基于WFST的语音识别系统,然后解释语音识别系统的不同模块怎么用WFST来表示以及怎么把这些WFST组织成单一的搜索网络。最后我们介绍使用完全复合后的WFST来进行识别的时间同步Viterbi Beam搜索算法。因为文章内容较长,读者一次阅读内容太多,另外作者更新一次时间也太长,因此以后会完成一部分更新一部分。

语音识别系统概述

WFST介绍