本系列文章是作者学习微软在Edx上的语音识别课程DEV287x的笔记。
(6/6增加模块三:声学模型;6/15增加模块四:语言模型;7/15增加模块五:解码器)
这是一个非常好的课程,尤其是实验的设计,通过实际的代码让我们一步步完成特征提取;神经网络声学模型训练;语言模型训练和基于WFST的解码器实现。
我在《深度学习理论与实战:提高篇》里虽然介绍了语音识别的基础理论,也试图提供实战的例子,比如HMM和WFST代码示例、Kaldi简介和DeepSpeech理论与实战等内容。但是这些例子都是孤零零没有联系的,读者很难了解全貌,那本书中缺乏一个完整的从头到尾的基于WFST的HMM-DNN的例子。虽然End-to-end的语音识别系统在是学术界研究的重点,但是目前业界流行的还是HMM-DNN的基于WFST解码器的系统。在那本书里没有介绍WFST尤其是解码器的代码,只是简单的介绍了流行的Kaldi系统的用法,但是Kaldi的代码过于复杂,不适合初学者了解WFST的基本原理。
最近找到了这个课程,花时间学习了一遍,觉得这个课程的例子非常好,因此借这个课程把之前那本书的缺陷弥补一下。另外这个课程的理论讲到太少了,比如WFST的解码器,只是提供了代码,而没有任何介绍,这让学习者很难看懂其中的代码,因此我也对其中不够详细的地方做一些补充。
课程介绍
模块一:背景和基础知识
模块二:语音信号处理
模块三:声学模型
模块四:语言模型
模块五:解码器
- 显示Disqus评论(需要科学上网)
FEATURED TAGS
人工智能
深度学习
chatbot
PyTorch
Java
BERT
git
编程
OCR
汪曾祺
语音识别
Kaldi
Linux
XLNet
情感分析
sentiment analysis
语法纠错
Transformer
Tensorflow
Huggingface
Ubuntu
TensorFlow
深度学习框架
Tensor2Tensor
机器翻译
微信
wechat
automation
selenium
webdriver
pywinauto
CentOS
GPU
Appium
t2t
代码阅读
中英翻译
公众号
爬虫
ocr
tesseract
pytesseract
python
默认参数
位置参数
VPN
JSON
Jackson
huggingface
PagedAttention
vLLM
Pre-training
LLM
CPT
weather
forecasting
graph neural networks
qlora
quantization
transformers
cmake
pip
pipenv
conda
padding
vscode
debug
source code
build
deep learning
Speech
ASR
linux
pytorch
extension
Deep Learning