课程介绍 - 李理的博客

这个模块介绍课程相关的信息。更多本系列文章请点击微软Edx语音识别课程。

Welcome
关于课程
- 概览和Schedule
- 实验准备
  - 获得代码
  - 下载数据和安装软件

Welcome

视频Before We Start

介绍和吹嘘微软的宏伟目标，看看就可以了。

视频Welcome

介绍4个老师，看看就行了。

Welcome

再次热烈欢迎大家来上课！

关于课程

概览和Schedule

《语音识别系统》是一个高级(复杂有难度的)课程，总共需要4周，总共需要12-16个小时来完成。学习这个课程需要安装一些软件，请参考”开始实验”部分。学习者需要一些Python编程的基础、概率统计和基本的机器学习知识。

Schedule

《语音识别系统》是一个学生可以自己制定学习计划的课程，它有6个模块(module)组成。我们期望大致需要花费16个小时来完成课程，当然不同的学生会有不同的情况。课程的作业是比较开放式的，因此学生们可能会花费多于或者少于16个小时的时间。我们鼓励你完全理解课程的内容。你投入的时间越多，收获也越多。

模块结构

课程分为6个模块，每个模块涵盖语音识别过程的一个步骤。

模块1-6包括多个教学的内容、视频和小测试(注：小测试必须花99$才能看，因为这是用来考核打分用的，我没有参加因此不介绍)。每个模块包含一个测试，每个测试12分，因此课堂测试总共12x6=72分。剩下有一个最后的测试28分，总结100分。

模块概览

模块1 | 背景和基础知识

模块2 | 语音信号处理

模块3 | 声学模型

模块4 | 语言模型

模块5 | 解码器

模块6 | 高级声学模型

实验准备

为了后续课程，我们首先需要准备实验环境。下图是不同模块的实验需要依赖的软件和数据。

获得代码

git clone https://github.com/MicrosoftLearning/Speech-Recognition

下载数据和安装软件

我们需要安装Python3.6和CNTK2.3，这两个版本都经过测试。作者安装的是CNTK2.6，也是可以工作的。具体的安装请参考官网。

下载LibriSpeech的dev数据，这是下载链接。

我们把它解压到Speech-Recognition下，因为代码很多地方都假设LibriSpeech的数据在这个位置，所以不要放到别的地方，最终的目录结构类似于：

lili@lili-Precision-7720:~/codes/Speech-Recognition$ ls
Experiments  M1_Introduction              M3_Acoustic_Modeling  M5_Decoding
LibriSpeech  M2_Speech_Signal_Processing  M4_Language_Modeling

OpenFst请在这里下载，然后自己编译。另外语言模型部分需要SRILM，不过一般不需要安装，在前面git clone的里面就带了，如果有问题可以去这里下载，注意它的版权。

FEATURED TAGS

人工智能深度学习 chatbot PyTorch Java BERT git 编程 OCR 汪曾祺语音识别 Kaldi Linux XLNet 情感分析 sentiment analysis 语法纠错 Transformer Tensorflow Huggingface Ubuntu TensorFlow 深度学习框架 Tensor2Tensor 机器翻译微信 wechat automation selenium webdriver pywinauto CentOS GPU Appium t2t 代码阅读中英翻译公众号爬虫 ocr tesseract pytesseract python 默认参数位置参数 VPN JSON Jackson huggingface RoPE PagedAttention vLLM Pre-training LLM CPT weather forecasting graph neural networks qlora quantization transformers cmake pip pipenv conda padding vscode debug source code build deep learning Speech ASR linux pytorch c++ extension Deep Learning DeepSeek Attention MoE cs336 bpe tokenizer

FRIENDS

Li Li