【Udemy中英字幕】A Tutorial on Speaker Diarization

站长

2023-02-02 Udemy 0 558

郑重承诺丨视频中英文字幕配套课件

升级会员

增值服务：免费提供代找课服务：

42.9 金币

VIP折扣

折扣详情

体验会员
免费
包月会员
免费
包年会员
免费
永久会员
免费

开通VIP尊享优惠特权

点赞 (0) 收藏 (0)

立即下载升级会员

微信扫码咨询

站长

联系Ta

进入TA的商铺联系官方客服

信息属性

详情介绍

演讲者定向化教程

说话人分类：从无监督方法到有监督方法的旅程

讲师：Quan Wang，Chao Zhang

双语IT资源独家Udemy付费课程，独家中英文字幕，配套资料齐全！

用不到1/10的价格，即可享受同样的高品质课程，且可以完全拥有，随时随地都可以任意观看和分享。

你将会学到的

说话人二元化的基本概念
说话人二值化常用算法
说话人分类的最新学术进展
说话人二值化的编码示例
使用流行工具包的实践项目，包括 SCTK、pyannote-metrics、pyannote-audio 和 uisrnn

课程内容

5 个章节 • 16 个讲座 • 总时长 3 小时 26 分钟展开所有章节

要求

音频和语音处理的基础知识
机器学习和神经网络的基础知识
Python 编程基础
有说话人识别经验（推荐先学习王权博士的说话人识别课程）

说明

本课程是关于说话人二值化技术的教程。

说话人二值化是语音处理中的高级课题。它解决了“谁在什么时候说”或“谁说了什么”的问题。它与许多其他技术高度相关，例如语音活动检测、说话人识别、自动语音识别、语音分离、统计和深度学习。它已经在众多场景中找到了不同的应用，例如自动生成会议记录、医疗记录分析、媒体索引和检索以及二次语音识别。

在本课程中，我们将首先介绍说话人分类的基本概念和应用，然后是评分和指标。然后我们将介绍说话人分类中的无监督方法，从常用的模块化框架开始，然后介绍聚类算法，重点介绍谱聚类及其扩展。接下来，我们将讨论聚类算法的问题，并介绍说话人二分化中的监督方法。我们将主要讨论4种有监督的说话人二分化方法，即UIS-RNN、PIT/EEND、TS-VAD和DNC。最后，我们将讨论说话人区分的挑战和未来的研究方向。

对于那些想要深入研究说话人分类的人，我们还包括来自顶级演讲会议（如 ICASSP 和 SLT）的讲师的视频讲座作为额外的学习材料。

除了讲座视频外，我们在每节课后还提供了小测验，以帮助您更好地理解我们在讲座中涵盖的主题。

此外，说话人二值化是一项非常实用的技能。因此，我们精心准备了各种编码实践和项目，让您熟悉各种研究人员和科学家使用的最流行的工具包，包括 SCTK、pyannote-metrics、pyannote-audio 和 uisrnn。

本课程非常适合从事音频和语音处理工作的学生、研究人员、开发人员或产品经理。