基于人脸和声纹的多生物特征融合技术研究

更新时间：2016-07-05

近些年来，利用生物特征信息来实现身份认证的技术由于克服了传统身份认证技术的缺点而变得越来越普及[1]。但就目前而言，已有的生物特征身份识别技术大都是基于单一生物特征的。众所周知，每一种生物特征形态都有它本身的优缺点，也不存在一种最优的生物特征能满足所有的需求。单生物特征认证技术主要有以下局限性：(1)不确定性。采集到的数据受噪声影响使得识别结果可能不可靠，并且每一种生物特征在辨识能力方面都有它理论上的极限值；(2)非普遍性。一些用户可能缺失某种生物特征或其某种生物特征受损伤；(3)安全性。冒充者可能冒充合法用户来攻击生物识别系统[2]。为解决上述问题，近年来，基于多生物特征融合的身份认证技术逐渐兴起，融合系统由于利用了不同生物特征之间的互补信息，克服了单生物特征认证系统的缺点，提高了身份认证的安全性和准确性[3]。

本文选择人脸和声纹两种特征进行融合，首先这些生物特征是与生俱来的，具备唯一性且不易被复制。其次，这些特征易采集且采集隐蔽性较强，采集设备成本低。

1 识别算法

1.1 人脸识别算法

人脸识别技术是指通过计算机技术对人脸的视觉特征信息进行提取，然后根据特征信息进行身份识别。目前常用的人脸识别算法有：基于几何特征的方法、基于局部特征的方法、基于机器学习的方法和基于子空间的方法等[4]。人脸识别的基本过程包括图像预处理、特征提取与选择、特征识别这几个阶段[5]。完整的人脸识别过程如图1所示。

本文人脸识别算法通过局部二值模式[6](Local Binary Pattern，LBP)算法来实现。LBP算法用于人脸识别的优势在于它可以准确地描述图片的局部纹理，一般图像识别中，仅使用全局特征是不够的，获得的识别率较低，更多的时候，表征一副图像的特征也缺少不了局部特征。本文使用的LBP算法就是这样一种表征局部特征的方法。

图1 人脸识别基本过程

LBP算法记录中心像素点与邻域像素点的比对信息，并与阈值做比较。将得到的结果以二进制形式写入原位置，作为该点的值

(1)

其中，(xc,yc)代表中心元素，它的像素值为ic,ip，代表邻域内其他像素的值。s(x)是符号函数，定义为

(2)

在识别时，先将所有图片统一成一定的尺寸，再将图片划分为块即子区域，并在子区域内根据LBP值统计其直方图，以直方图作为其判别特征。本文利用卡方统计量来度量两个LBP特征之间的距离，公式为

(3)

其中，S和M分别为两个直方图特征向量。

1.2 声纹识别算法

本文采用经典MFCC算法来获得语音的各特征参数，梅尔倒谱系数(Mel Frequency Cepstral Coefficient，MFCC)是一种听觉感知频域倒谱参数，由于MFCC参数能够从人耳对声音频率的高低的非线性心理感觉的角度反映短时幅度谱的特征[8]，因此无论在声纹识别领域，还是在语音识别领域都有广泛的应用。

由于说话人系统是以概率模型为基础的，所以如何对其表示就在于似然函数的表达。GMM[9]模型是统计概率模型，其能通过对说话人特征分布的有效统计来区分说话人，其统计参量能有效的表示说话人的特征。GMM的似然函数定义如下

图2 声纹识别基本过程

声纹识别(Voiceprint Recognition,VR)，又称说话人识别(Speaker Recognit-ion,SR),是一种根据语音波形中反映的说话人生理和行为特征的语音参数，自动识别说话人身份的技术[7]。其目的是从语音信号中提取出代表着说话人个人身份的个性信息，从而实现说话人身份的识别。声纹识别的基本过程如图2所示。

采用EpiData 3.01软件建立数据库,进行双份录入、核查,并采用SPSS 17.0软件进行统计分析。两组定量资料比较采用t检验或秩和检验,多组资料比较采用方差分析;定性资料统计分析主要采用卡方检验，等级资料比较采用秩和检验。

(4)

留苗密度。留苗密度要根据土地的肥力来定，一般下等地亩留苗3-4万株；中等地亩留苗5-6万株，高水肥地亩留苗7-8万株。

(5)

gi(x)是期望为μi，协方差为∑i的高斯混合概率密度函数

GMM模型易于理解、计算量较小，并且对语音没有文本相关的要求，但GMM系统需要充足的语音来训练模型，通常情况下，登录的说话人语音长度有限，不能覆盖整个声学空间[10]。针对这种情况，本文采用GMM-UBM模型。通用背景模型(Universal Background Model,UBM)实际是一个由大量说话人通过采集大量语音信号进行训练得到的模型，使用该模型来表征说话人无关的特征空间。对于单个说话人个体的模型，就是说话人自身的GMM模型来自适应UBM而得到的模型。这样，说话人语音所覆盖的发音情况可用自身的语音建立模型，而没有覆盖到的发音情况可以用说话人无关的特征分布来近似表达，通过这种方法涵盖了所有的发音情况，提升了系统性能。经过特征提取和建模，识别时在未知说话人的模型中，得到似然概率最大的模型对应的说话人即为识别结果

田间除草采用机械中耕除草、人工与化学除草相结合的方法。苗前化学除草：选用爱玉优、乙草胺、异丙草胺、噻吩磺隆等药剂。苗后化学除草：一般在玉米苗后3～5叶期，禾本科杂草3叶前，阔叶杂草2～4叶期施药。选用烟嘧磺隆、硝磺草酮、莠去津等药剂，以上药剂在施药时可加喷液量0.5%～1%的植物油或多功能喷雾助剂。

(6)

导游词是在导游讲解过程中使用的一种应用性文体，它有别于演讲稿和朗诵稿，为了保持文体一致，在创作中要善于使用导游语言，应设置导游词必要的称呼和问候。

x=arg{max[L(X|λs)]}

(7)

2 融合策略

2.1 信息融合概述

目前，多生物特征融合方法主要分为3种：特征层融合、匹配层融合、决策层融合[12]。特征层融合是指采集到的不同生物特征的数据经过前端处理后提取特征描述向量，然后将这些低维特征向量通过某种方法融合成新的高维特征向量。特征层融合的好处是可以最大限度的利用丰富的特征信息，但也存在着各特征向量不兼容难以直接进行融合的缺点。匹配层融合是不同匹配得分的一种整合，每个匹配得分都是单生物特征的一个识别结果，并且这些匹配过程都是相互独立的。这些匹配得分通过某种融合算法得出最终的判决结果。决策层融合是最高层次的整合，它的输入是单生物特征识别的逻辑输出，通过某些逻辑规则这些逻辑输出最终融合成一个识别结果。

其中，M是高斯混合分布的维数，即高斯混合模型中单高斯分布的个数，wi是第i个高斯分布的权重，并满足

信息融合又称数据融合，也可称为传感器信息融合，其主要目的就是融合多个信息源来提高系统性能[11]。

本文采用的生物特征为语音和人脸图像，特征之间不具有很强的关联性，如果直接在特征层进行融合，不仅处理起来非常复杂且达不到好的效果。因此本文选择在匹配层进行融合，图 3为融合的基本流程。

图3 融合基本流程

2.2 基于MPM的融合策略

最小最大概率机[13](Minimax Probability Machine，MPM)是由 Lanckriet等人提出的一种基于最小错分概率的新型分类算法。其优势在于可以最小化最坏情况下未分类数据错分的概率[14]，通过控制错分概率以达到分类最大化的目的。本文通过对数据的训练生成MPM融合函数，该融合函数对输入的匹配得分值向量可以最大化的区分两类问题(类内匹配和类间匹配)并输出。假设x和y为二维分类问题的两个随机变量，服从分布分别为随机变量x和y均值和方差，x，y∈Rn ，根据最小最大概率机的分类思想，该分类问题的实现就是通过找到一个最优分类超平面：aTz-b=0(a,z∈Rn，b∈R)，将两类样本在已知样本估计的均值和方差的前提下，按照最大概率分离。对于线性不可分问题，最小最大概率机的实现思路就是通过寻找一个映射函数φ:R2→Qn，将数据从低维空间映射到高维空间，从而使低维空间的线性不可分问题转化为高维空间的线性可分问题。本文在最优分类面确定完以后，选取函数作为融合函数，其中a1,b1为经过优化后的取值。该融合函数的输出表示了特征点到最优分类面的距离。因此，待识别的匹配得分值向量s(s=[s1,s2]T)的融合匹配得分值表示为利用融合后得分值s′进行判决，可更好的区分类内匹配和类间匹配。

3 实验及分析

为了对提出的方法进行分析和评价,本文选取了昆士兰大学的Vidtimit多模态数据库进行测试。该数据库包含43人的面部视频和与之相关的语音，是从事多模态音视频融合研究的一个典型数据库。视频序列最终被保存为分辨率512×384的jpg格式，语音则保存为单声道,量化精度为16 bit，采样率为32 kHz的wav格式。本文将该库中一张人脸图像和一段语音作为一个记录, 因此该库包含43人共430个记录，每人10个记录, 每个记录包含一张人脸图像和一段语音。

本文试从受水区水厂取用两大类水源供水利润的形成，来分析南水北调工程供水价格与受水区水资源费之间的关系，结合目前受水区供水成本现状、调水工程公益性与市场化问题的思考，探讨受水区水价的形成。

实验时，将43人的Vidtimit数据库分为2组：选取10人100个记录用于训练，通过训练得到融合函数，其余33人共330个记录用来测试。将同组中的记录两两进行匹配，训练集中类内匹配即同类匹配数为次，类间匹配即异类匹配数为次，将他们用于MPM参数的训练。测试组中类内匹配为次，类间匹配为次。本文的核心就在于类内匹配和类间匹配的判断，首先分别计算两个子系统的匹配得分值，然后利用MPM对匹配得分值进行融合，最后利用阈值对融合后的得分值进行判断，通过调整阈值最终可得到多组实验结果。由于本文用的人脸和声纹分属于不同的子模块，因此得到的匹配分数的形式也是不同的。显然这两种匹配值是不可以直接当作融合系统的输入值，必须要对其进行归一化处理。常用的归一化方法有：Min-Max方法、Media-MAD方法、Z-Score方法等[15]，本文采用了Min-Max方法进行归一化处理，使其分布在相同的数值范围。具体公式为

(8)

式中，为规范后的匹配得分值；dn为规范前的匹配得分值；dmax和dmin分别表示同类生物匹配得分值的最大值和最小值。

C大学计算机科学与技术系三年级本科生，发放问卷100份，回收98份，未填写大学英语四级考试分数的无效问卷3份，获得有效问卷95份，有效问卷比例95%。统计中以大学英语四级考试成绩的500分为界，分成两组。英语成绩500分以上者35份，为了平衡分界线上下的人数，分别从500分以上和500分以下的样本中各随机抽取30个样本，共计选取60份数据样本作为研究对象。

图4是经过测试后得到的接收特性曲线。表1是单生物特征认证和融合后的认证算法等错误率(Equal Error Rate，EER)比较。通过比较可以得知，本文的融合方法使整个系统等错误率降低到0.97%，相比声纹识别和人脸识别两种方法分别下降了2.15%和0.96%。实验结果表明，相比单生物特征的方法，本文所用融合算法在认证性能上有了明显提高，证明了本文采用的融合算法的有效性和可行性。

图4 单生物特征方法与融合方法ROC特性比较

表1 单生物特征方法与融合方法等错误率比较

声纹人脸融合EER/%3 121 930 97

4 结束语

本文提出了一种基于最小最大概率机的多生物特征融合算法。实验结果表明, 本文的多生物特征融合认证方法比单生物特征方法在性能上有了明显改善,等错误率明显降低，证明了该融合算法的有效性。

参考文献

[1] 王骕,胡浩基,于慧敏.基于数字水印的人脸与声纹融合识别算法[J].浙江大学学报:工学版,2015,49(1):6-14.

[2] 李雨凇.基于支持向量机的多生物特征融合技术研究[D].无锡:江南大学,2011.

[3] 李彦明.多通道生物认证关键技术的研究[D].兰州:兰州理工大学,2014.

[4] 陈倩.多生物特征融合身份识别研究[D].杭州:浙江大学,2007.

[5] 黄华盛,杨阿庆.基于PCA算法的人脸识别[J].电子科技,2015,28(8):98-101.

[6] Ahonen T,Hadid A,Pietikainen M.Face description with local binary patterns:application to face recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,28(12):2037-2041.

[7] 蔡莲红,贾珈,郑方.言语信息处理的进展[J].中文信息学报,2011,25(6):137-141.

[8] 常飞,乔欣,张申.基于MFCC特征提取的故障预测与评价方法[J].计算机应用研究,2015,32(6):1716-1719.

[9] Reynolds D,Quatieri T,Dunn R.Speaker verification using adapted gaussian mixture models[J].Digital Signal Processing,2000,10(13):19-41.

[10] 王军.复杂环境下说话人确认鲁棒性研究[D].北京:清华大学,2015.

[11] 周新科,邬艳艳.数据融合方法在医疗案例检索中的应用[J].电子科技,2017,30(3):45-48.

[12] 李彦明.基于确认模式的多通道生物认证技术研究[J].甘肃科技,2014,30(9):35-37.

[13] Lanckriet G,Ghaoui L,Jordan M,et al.Minimax probability machine[C].California:Proceedings of Advances in Neural Information Processing Systems,2002.

[14] 王晓初,王士同,包芳.基于数据分布一致性最小最大概率机[J].计算机工程与应用,2016,52(16):79-84.

[15] 王婧,彭亚雄,贺松.基于指纹和声纹的身份认证技术研究[J].微型机与应用,2016,35(8):51-52.

作者

张瑛杰，彭亚雄

出处

《电子科技》 2018年第05期

上一篇：高温超导多工器的设计

下一篇：基于最小二乘法的脉冲压缩技术研究

《电子科技》2018年第05期文献

多路光纤传输中的数据处理与时序控制研究作者：孔文青，李紫航，宋万杰

基于凯塞窗的谐波检测算法作者：李晨，李川，姜飞，张长胜

改进的无线传感器网络DV-Hop节点定位算法作者：童宇行，黄鹏，刘玉红

直流电子式电流互感器校验仪设计与实现作者：王光峰，张长胜，李川，曹敏，李波

基于单元分解的多粒子纠缠态的纠缠度量方法作者：苏沛源

基于Internet的轴承运行状态远程监测系统设计作者：朱耀楚，范玉刚

基于视觉检测板球系统的RBF-PID控制研究作者：苑仁令，向凤红，毛剑琳，郭宁

基于随机森林算法的Android恶意代码特征分析作者：刘贺翔，李英娜，张长胜，任小波，李川

拓展搜索邻域的平滑A*算法机器人路径规划作者：任玉洁，付丽霞，张勇，毛剑琳

高温超导多工器的设计作者：华德训，顾月

基于人脸和声纹的多生物特征融合技术研究作者：张瑛杰，彭亚雄

基于最小二乘法的脉冲压缩技术研究作者：王传志，李学华，秦正霞，孙清

模糊神经网络控制的自适应前照灯系统研究作者：刘熙明，王义，李超

复杂多制式雷达脉冲信号自动测试软件的设计作者：张馨恬，黄响，范斐

基于标签和评分差值信息熵的协同过滤算法作者：侯继昌，陈家琪

提高量子点发光效率的环形光子晶体结构设计作者：王锐，张浩，马奎，杨发顺

表面缺陷检测中工件与光源相机位置关系研究作者：李智慧，华云松

基于MOS电流模逻辑的4/5双模前置分频器设计作者：朱艳霞，梁蓓，杨发顺

M0.98Al2Si2O8:0.02Eu2+(M=Ca,Sr,Ba)荧光粉发光性能的研究作者：靳天雨，崔瑞瑞，刘勇，张弛，邓朝勇

基于视觉的无人机巡检违章违停系统设计与实现作者：梁定康，钱瑞，陈义豪，肖建

关于脉冲功率放大器脉宽和占空比的测量作者：吴小帅

基于Word2vec和SVM的微博情感挖掘与仿真分析作者：缪广寒

基于全局和局部信息融合的图像显著性检测研究作者：张昆

基于新型逆变器的UPS电源系统的开发与设计作者：赵鹤群

一种移动式智能工具车的开发与设计作者：张敏