本系列文章介绍基于WFST的语音识别解码器的理论知识。前面的微软Edx语音识别课程的最后一个实验因为没有足够的理论知识,很难读懂其中的代码,因此本系列文章介绍这些缺失的内容。
-
8/8更新语音识别系统概述,本文回顾WFST之前的解码器基础知识,便于没有基础的读者了解最基本的Viterbi算法和Beam搜索算法、Word Lattice等基本概念。
-
8/23更新WFST介绍,本文介绍语音识别里用到的WFST的基本概念,重点介绍WFST的复合、确定化、weight pushing、最小化和ε消除等算法。
-
9/5更新基于WFST的语音识别解码器算法,本文首先介绍基于WFST的语音识别系统,然后解释语音识别系统的不同模块怎么用WFST来表示以及怎么把这些WFST组织成单一的搜索网络。最后我们介绍使用完全复合后的WFST来进行识别的时间同步Viterbi Beam搜索算法。因为文章内容较长,读者一次阅读内容太多,另外作者更新一次时间也太长,因此以后会完成一部分更新一部分。
语音识别系统概述
WFST介绍
- 显示Disqus评论(需要科学上网)
FEATURED TAGS
人工智能
深度学习
chatbot
PyTorch
Java
BERT
git
编程
OCR
汪曾祺
语音识别
Kaldi
Linux
XLNet
情感分析
sentiment analysis
语法纠错
Transformer
Tensorflow
Huggingface
Ubuntu
TensorFlow
深度学习框架
Tensor2Tensor
机器翻译
微信
wechat
automation
selenium
webdriver
pywinauto
CentOS
GPU
Appium
t2t
代码阅读
中英翻译
公众号
爬虫
ocr
tesseract
pytesseract
python
默认参数
位置参数
VPN
JSON
Jackson
huggingface
PagedAttention
vLLM
Pre-training
LLM
CPT
weather
forecasting
graph neural networks
qlora
quantization
transformers
cmake
pip
pipenv
conda
padding
vscode
debug
source code
build
Speech
ASR
linux
pytorch
extension