智能声纹识别解决方案

一、方案概述

　　声纹是一种非接触生物特征，同人脸、虹膜、指纹、指静脉、掌纹等人体生物特征一样，具有身份唯一性，即通过说一句话可以唯一确定一个身份。声纹识别，相比较其他认证技术，更加方便，更加安全。

　　北京中科汇联科技股份有限公司（以下简称“中科汇联”）根据信息化发展的现状和各行业对信息安全的需求，与清华大学语音与语言中心合作，进行声纹识别核心技术研发，并形成国内领先的声纹识别引擎，实现“说话识人”的声纹识别服务。为信贷风控反欺诈、电话客服中心身份认证、移动端金融身份认证以及安全监控提供无接触、无感知、无隐私的智能识别服务。

二、功能架构

三、方案优势

1.技术沉淀

　　中科汇联智能声纹识别技术团队语音和语言技术中心成立于2007年2月，其团队人员来自清华大学信息科学技术学院相关课题组，语音和语言技术中心包括三个实验室，分别是语音识别实验室(ASR Lab)、声纹识别实验室(VPRLab)、自然语言处理实验室(NLPLab)，还聘请国际和国内知名专家组成顾问委员会委员，以指导其建设和研发具有自主知识产权的技术和应用，推动应用基础研究和技术创新。

2.国家标准制定

　　以下所有标准，中科汇联&清华语音语言实验中心，均作为起草单位，参与起草工作。

　　《安防声纹确认应用算法技术要求和测试方法》公安部GA/T 1179-2014

　　《安防生物特征识别应用术语》公安部 TC100/SC22010

　　《声纹识别应用系统技术要求》公安部 TC100/SC22012

　　《自动声纹识别（说话人识别）技术规范》工信部 2008

　　《移动金融基于声纹识别的安全应用技术规范》JR/T0164—2018

　　金融领域-信标委生物特征识别标准工作组 TC28/SC372009

　　目前，中国建设银行、中国民生银行、浦发银行、光大银行、广发银行等银行，已经上线声纹产品，为金融安全提供全方位保障。在国外，英国巴克莱银行、美国花旗银行、澳大利亚国家银行、万事达卡机构等都已开始引入声纹技术。

3.语音质量检测

　　语音质量检测是声纹识别系统的第一道关口。中科汇联智能声纹识别解决方案提供了三种语音端点检测的方法，分别为：基于能量的语音端点检测、基于深度说话人特征的语音端点检测以及基于深度发音特征的语音端点检测。在不同应用场景下，通过合理地应用三种端点检测方法，高效精确地实现人声和非人声的检测、有效音和无效音的分离。

　　考虑到实际应用中常见的语音质量问题，我们基于上述语音端点检测算法，提出了基于无效语音段能量大小的音量检测、基于信噪比SNR的噪音检测、基于高频分量统计的伪截顶检测等，从多个角度评估输入音频的语音质量。

4.噪音鲁棒性

　　中科汇联智能声纹识别解决方案为了提高声纹识别系统的噪音鲁棒性，我公司针对不同噪音类型，在特征域和模型域上分别采取了相应措施。

　　在特征域，对于平稳加性噪音，提出了基于功率谱减法，实现噪音抑制；对于复杂噪音（卷性、缓变、冲激噪音），我们提出了基于降噪自动编码器（DenoisingAuto-encoder）的噪音补偿模型，将带噪语音特征映射到干净语音特征，实现噪音消除。

　　在模型域，我们采用数据增强的训练机制，将噪音数据通过随机高斯的形式加入到声纹模型的训练中，使得训练后的模型对噪音数据具有更强的鲁棒性。

5.短语音鲁棒性

　　中科汇联智能声纹识别解决方案为了提高短语音鲁棒性，提出了基于短时帧级别的模型训练机制，使模型能够在极短的语音时长（约0.3秒）下即可完成声纹识别。在此基础上，我们在模型训练中引入了更多高阶的统计信息和正则化准则，进一步提升了模型在短语音条件下（2~3秒）的识别精度。

　　除了上述在算法层面的解决方法，中科汇联智能声纹识别解决方案还结合具体业务场景，设计与使用者相关的对话内容，例如提出相关问题，或要求朗读协议内容。这样一来可以收集到足够长的有效语音，二来通过对话内容，比如相关问题的答案，可以进一步判断用户的身份，进一步提高安全性。

6.模型小型化

　　中科汇联智能声纹识别解决方案采用模型小型化的方法，解决实际应用中的问题。

　　采用基于矩阵或者张量分解的压缩方法，通过若干个低秩矩阵或者张量的累积实现对原始矩阵的重构，以此达到网络存储压缩的目的。

　　采用定点化训练的方法，实现对网络参数的量化。此外，还可以采用局部敏感哈希或汉明距离度量等方法，将高精度的声纹模型映射到一个近似的二进制空间，完成声纹模型的二值化，并通过汉明距离即可快速实现两个声纹模型的比对。

　　采用基于神经元或连接边的网络裁剪，实现对网络拓扑结构的压缩和对网络的稀疏化，完成网络压缩。

7.快速自适应

　　中科汇联智能声纹识别解决方案采用声纹模型快速适应方法，解决了在特定应用场景中，受录音设备、业务内容影响的问题。

8.防录音攻击

　　中科汇联智能声纹识别解决方案从特征域和模型域等角度采取了不同的检测策略，解决了声音模仿、语音合成、声音转换和录音重放等题。

9.实用性

　　中科汇联声纹识别解决方案可与全国公安局在用的刑专平台无缝对接，采集的数据通过平台进行分发。可与全国公安分局在用的标准化人员信息采集系统无缝对接，通过标准化人员信息采集系统进行数据采集、入库，实现对采集数据的统一管理、应用。

四、成功案例

　　北京市公安局昌平分局、房山分局声纹库

人工智能交互

数智内容管理

元宇宙与AI决策

SaaS云服务

技术底座

AI+政府

AI+企业

AI+金融

AI+教育

AI+医疗

智慧物联