摘要 | 第5-8页 |
ABSTRACT | 第8-11页 |
专业术语中英文对照表 | 第19-21页 |
主要符号对照表 | 第21-22页 |
第一章 绪论 | 第22-40页 |
1.1 说话人识别简介 | 第22-29页 |
1.1.1 说话人识别概述 | 第22-25页 |
1.1.2 说话人识别的发展历史及现状 | 第25-28页 |
1.1.3 说话人识别的应用 | 第28-29页 |
1.2 说话人识别的难点和挑战 | 第29-33页 |
1.3 说话人确认系统的评价标准 | 第33-34页 |
1.4 说话人确认系统的标准测试数据集 | 第34-38页 |
1.4.1 NIST SRE数据库 | 第35-37页 |
1.4.2 RSR 2015数据库 | 第37-38页 |
1.5 论文的组织结构 | 第38-40页 |
第二章 改进的HMM-SVM文本相关识别算法研究 | 第40-70页 |
2.1 基于信号层的声学特征提取 | 第40-45页 |
2.1.1 语音端点检测 | 第40-42页 |
2.1.2 语音的特征提取与规整 | 第42-45页 |
2.2 基于模型层的说话人建模 | 第45-56页 |
2.2.1 高斯混合模型GMM | 第46-51页 |
2.2.2 支持向量机SVM | 第51-56页 |
2.3 HMM-SVM建模算法 | 第56-65页 |
2.3.1 HMM-SVM识别框架 | 第56-57页 |
2.3.2 HMM-UBM建模框架 | 第57-60页 |
2.3.3 HMM-SVM超向量核函数 | 第60-62页 |
2.3.4 扰动属性映射NAP | 第62-64页 |
2.3.5 后端分数规整 | 第64-65页 |
2.4 基于RSR 2015文本相关说话人识别的实验 | 第65-68页 |
2.4.1 语料配置 | 第65-66页 |
2.4.2 前端预处理与特征提取 | 第66页 |
2.4.3 特征提取与规整 | 第66页 |
2.4.4 基线系统 | 第66-68页 |
2.5 本章小结 | 第68-70页 |
第三章 基于因子分析的文本无关说话人识别算法研究 | 第70-120页 |
3.1 因子分析模型导论 | 第71-74页 |
3.1.1 GMM的低维本征音(Eigenvoice)表示 | 第71-72页 |
3.1.2 基于概率的主成分分析PPCA | 第72-74页 |
3.2 联合因子分析JFA | 第74-88页 |
3.2.1 说话人系数与信道系数 | 第74-76页 |
3.2.2 JFA的最大似然表达 | 第76-84页 |
3.2.3 JFA模型参数估计 | 第84-87页 |
3.2.4 JFA说话人识别框架实现 | 第87-88页 |
3.3 基于i-向量的说话人识别框架 | 第88-94页 |
3.3.1 线性区分性分析LDA | 第91-93页 |
3.3.2 类内方差规整WCCN | 第93-94页 |
3.4 i-向量框架下基于概率的线性区分分析模型PLDA | 第94-106页 |
3.4.1 PLDA隐变量的变分贝叶斯估计 | 第96-99页 |
3.4.2 似然计算与模型更新 | 第99-101页 |
3.4.3 PLDA的分数计算与双方差矩阵模型 | 第101-103页 |
3.4.4 用于规整i-向量的本征因子放射EFR | 第103-106页 |
3.5 实验与结果 | 第106-117页 |
3.5.1 基于JFA的文本无关说话人识别实验 | 第106-110页 |
3.5.2 基于i-向量框架的文本无关说话人识别实验 | 第110-115页 |
3.5.3 基于i-向量和PLDA的文本无关说话人识别实验 | 第115-117页 |
3.6 本章小结 | 第117-120页 |
第四章 改进短时语音场景下识别性能的AFSA算法 | 第120-142页 |
4.1 短时语音稀疏性分析 | 第120-130页 |
4.1.1 Baum-Welch统计量分析 | 第120-121页 |
4.1.2 稀疏训练数据下的Baum-Welch统计量偏移 | 第121-127页 |
4.1.3 稀疏数据下因子分析模型的过拟合问题 | 第127-130页 |
4.2 自适应1阶Baum-Welch统计量分析(AFSA) | 第130-134页 |
4.3 实验与结果 | 第134-140页 |
4.3.1 基于i-向量框架下的改进AFSA的文本无关说话人识别实验 | 第134-137页 |
4.3.2 调节因子q的参数选择 | 第137-140页 |
4.4 本章小结 | 第140-142页 |
第五章 减高斯分析(CRA)与字典向量建模(L-vector) | 第142-160页 |
5.1 引言:文本相关与文本无关说话人识别 | 第142-144页 |
5.2 减高斯分析(CRA) | 第144-149页 |
5.2.1 Baum-Welch统计量的局部合理性 | 第144-145页 |
5.2.2 CRA的实现 | 第145-147页 |
5.2.3 0阶Baum-Welch统计量规整 | 第147-149页 |
5.3 用于文本相关说话人识别的字典向量(L-向量) | 第149-151页 |
5.3.1 一种改进的余弦核函数 | 第151页 |
5.4 实验与结果 | 第151-158页 |
5.4.1 基于CRA的改进i—向量系统的文本无关说话人识别实验 | 第151-154页 |
5.4.2 基于CRA+L-向量的改进i-向量系统的文本相关说话人识别实验 | 第154-158页 |
5.5 本章小结 | 第158-160页 |
第六章 说话人识别系统在移动端的应用与工程化实现 | 第160-172页 |
6.1 国内声纹锁应用的市场现状 | 第160-162页 |
6.2 声纹锁的软件架构与人机交互 | 第162-167页 |
6.2.1 软件架构—注册阶段 | 第162-165页 |
6.2.2 软件架构—验证阶段 | 第165-167页 |
6.2.3 软件的人机交互界面 | 第167页 |
6.3 工程化探索:不足之处与改进 | 第167-169页 |
6.4 本章小结 | 第169-172页 |
第七章 总结与展望 | 第172-176页 |
7.1 本文的工作总结 | 第172-174页 |
7.2 未来研究展望 | 第174-176页 |
参考文献 | 第176-188页 |
致谢 | 第188-190页 |
攻读学位期间发表的学术论文 | 第190-192页 |
攻读学位期间申请的专利 | 第192-194页 |
攻读学位期间参与的项目 | 第194页 |