更全的杂志信息网

基于卷积核分解的深度CNN模型结构优化及其在小图像识别中的应用

更新时间:2009-03-28

1 概述

小图像识别是计算机视觉中的重要任务之一,在遥感图像分析、小物体检测及低质量图像理解等方面具有重要应用。但小图像具有象素少、分辨率低的特点,包含有效信息有限,其分类与识别难度较大。传统基于手工特征的方法设计复杂,特征可辨别能力有限,尤其在小图像分类与识别任务上,难以取得较高的性能,不能满足人们的需求。深度CNN(Convolutional Neural Networks,卷积神经网络)技术采用“端到端”的训练机制,将特征提取和模型训练融为一体,通过多次使用前向和反向传播算法,对参数进行优化,中间无需人工干涉;它将传统特征设计变成模型设计,简化了特征设计过程。深度 CNN技术已在多种视觉任务上取得了惊人的突破,在图像分类与识别[1-4]、目标检测[5-6]、图像分割[7-8]及视频人体动作识别[9-10]等领域均取得了当前最优的结果,其性能远远高于传统方法。

这样的画很多,这些画里面只有一张是好的,一个人歪歪扭扭地推着一辆独轮车。只有这张是李老师看得过去的。所以李老师觉得重在教育和引导,说明周小羽的心里并不完全是黄色和暴力。

在小图像识别领域,深度CNN技术也取得了重要进展,在多个数据集上已达到或超过人眼水平。但目前使用深度CNN技术对小图像进行识别时,其模型深度一般较浅,特征变换层次不够,特征抽象程度和表达能力不强;但众多研究已经证明,特征变换的深度是提高特征可辨别能力的关键因素,是提升性能的重要保证[1-4,11];而大多数较深的模型却是针对大图像的视觉任务而设计,难以直接应用到小图像识别上,且较深的模型往往会带来神经元个数及参数个数较多,模型运算复杂度较高的弊端。本文应用卷积核分解的原理,在当前流行的超深度模型VGG19的基础上,对其中的大多数卷积核进行分解,调整多个阶段的卷积层个数,减少多个层次的输出通道数,设计了 KDS-DCNN(Kernel Decomposition Super Deep CNN)模型。该模型不但进一步增加了线性和非线性变换层次,同时进一步减少了模型中神经元个数和参数规模,降低了运算复杂度。在 CIFAR-10[12]和 CIFAR-100[12]两个数据集上均达到了当前最优水平,在 SVHN(Street View House Number,街景数字)数据集[13]上也取得了较高的识别率。

在作物生长的关键时期,镁的丰缺会显著影响矿质元素在各器官的同化速率和转移速率。如在玉米、小麦等谷类作物的灌浆期,充足的镁营养可加速其它营养元素向籽粒中的转移和累积,增加穗数和千粒重,有效增加干物质的累积,提高作物产量。

2 相关工作

图像的分类与识别工作,在传统方法中,一般使用基于局部特征描述子的方式提取图像特征,如HOG(Histogram of Oriented Gradients,梯度方向直方图)[14]、SIFT(Scale Invariant Feature Transform,尺度不变特征变化)[15]等;接着使用K-means或 GMM(Gaussian Mixture Model,混合高斯模型)等聚类算法生成视觉单词码本;然后使用码本对图像特征描述子进行量化,每张图像生成一个维度较低的特征向量并作为该图像的最终表示;最后使用各种分类工具对特征向量进行训练和分类(如:SVM(Support Vector Machine,支持向量机)等)。这些方法具有坚实的理论基础,能够针对具体问题对算法进行有效调整;但这些模型所使用的特征缺少图像整体空间结构信息,识别性能较差。为克服此问题,此后出现了SPM(Spatial Pyramid Match,空间金字塔匹配)模型[16],这种方法充分考虑了图像中的空间信息,将不同尺度下的特征融合在一起,作为图像的表达,显著提高了识别性能。但这些传统方法,其特征均基于手工设计,设计过程复杂,特征变换层次不够,抽象及表达能力不强;尤其是在小图像识别方面,由于图像较小,图像内物体及场景边界较为模糊,其能够提取的特征描述子有限,最终生成的特征向量可辨别能力差,性能难以大幅提升。

首先使用了数据扩增技术,保持原图像大小不变,按照28×scale大小截取图像左上角、右上角、左下角、右下角和中间部分图像块,scale=[1.0,0.85,0.75,0.66],然后将截取后的图像块进行水平翻转,并将所有图像块缩放到28×28大小;因此,每张图像共得到 40个图像块,整个训练集扩增为原来的 40倍[24]。在测试时,不对测试图像进行缩放,直接取其左上角、右上角、左下角、右下角和中间部分28×28大小图像块及其水平翻转图像块进行测试,然后计算所有图像块的概率均值,最终得到预测分数,分值最高者所对应的类别标号即为预测标签。我们使用 GPU加速训练过程,并使用最小batch_size机制和随机梯度下降算法加快收敛速度。为保证内存不溢出,将batch_size设置为20;初始学习率设置为0.01,使用多项式下降策略在每次迭代之后对学习率进行调整,经过实验发现,在三个数据集上,迭代 30万次时,模型已收敛到最优,此时学习率将下降到0.0001左右。同时为了防止模型陷入局部最优,在参数更新时,添加了动量因子,其值设置为 0.9;为了防止过拟合,还采用了两种机制,其一是使用了Dropout机制,将其添加在两个全连接层之后,其值设置为 0.7;其二是添加权值衰减因子,其值设置为0.0005。模型开发配置环境为 Ubuntu14.0、Caffe[25]、LIBSVM3.17[26]和 Matlab2013a。

以上模型均为针对大图像的识别而设计,在小图像上无法使用。Lin等人根据小图像的特点设计了NIN(Network In Network,网中网)模型[20],它通过在两个使用不同大小特征图的卷积层之间增加更多的非线性变换,进一步增强特征的抽象能力;但NIN模型由于使用了较大的卷积核,使得参数规模和模型复杂度较高。Springenberg等人提出All-CNN模型[21],它使用全卷积的方式以消除传统CNN网络中使用降采样层和全连接层的情况,通过增大卷积步长对特征图进行降采样,通过多次使用大于1的步长,最终使得特征图退化为1×1大小,将所有特征图连接起来,形成特征向量。其他还有针对小图像分类与识别的技术如DropConnect[22]和Maxout[23]等,两者均为防止网络过拟合而设计,功能与Dropout技术类似,其验证模型前者只使用3个卷积变换,后者虽然变换层次稍多,但参数规模巨大,模型复杂度过高。因此以上模型也存在着或特征变换层次不够、特征表达能力不强,或参数较多、复杂度高的缺点。为克服此问题,一方面需要进一步增加网络的深度,另一方面需要对模型参数和复杂度进行限制。我们根据卷积核分解的原理,在VGG19模型的基础上,设计了KDS-DCNN模型。

3.2.4 林木管护工作建设 秦安县将凤山景区延伸段一期工程区域划定为县直机关义务植树责任区,各单位组织职工对各自的责任区进行补植、除草、浇水等工作,在明确职责的同时,也调动了全社会参与造林绿化的积极性,为造林绿化工作营造了浓厚的舆论氛围。严格按照“属地管理”的原则,17个镇负责对各自辖区内的林木和行道树进行全面管护,确定镇、村、组管护人员,明确管护责任,确保每个造林区域和地段有人管、有人护。各镇在林业部门技术人员的指导下,根据土壤墒情变化,及时浇水,并对树盘全部进行覆膜保墒、树干涂白,确保了新造林的成活率和林木的保存率。

3 KDS-DCNN模型

3.1 模型原理

如图1所示,(a)中使用3×3大小的卷积核对特征图进行卷积后,得到神经元{5};而在(b)中,第一次使用2×2大小的卷积核对特征图进行卷积后,得到神经元{a,b,c,d},再次使用2×2大小卷积核对特征图进行卷积,同样得到神经元{5}。但在使用2×2卷积核时,比使用3×3卷积核多了一次非线性变换,加深了网络的层次和深度。

  

图1 模型原理图Fig.1 Fundamental of the model

由(1)式和(2)式可知,模型参数主要与卷积核大小、上层通道数和下层通道数有关;模型复杂度除与卷积核大小、上下层通道数有关外,还与本层所生成特征图大小有关。

 

在PCB设计时,需要使用接地器件实现“0”参考点。用于射频接地的器件有3种,分别是“0”电容、微带线和射频电缆。射频模块采用“0”电容接地;通过“0”电容与“无穷大”电感相互配合,尽可能降低电路干扰[32]。

 

在加深网络深度的同时,也减少了网络参数的个数和模型复杂度。设表示参数个数,.表示模型运算复杂度。在深度CNN中,其参数规模主要集中于卷积层和全连阶层,而模型复杂度也主要取决于卷积运算和全连接运算。可以使用式(1)、式(2)对其进行计算[11]

考虑两种情况,首先假设上层通道与下层通道数相同,设为;特征图大小设置为,则对于第l层来说,其参数个数为:,模型运算复杂度为:;分解后的小卷积核大小设置为,则原卷积核可分解为=个小卷积核的叠加,此时,使用小卷积核叠加后的参数个数 及模型复杂度为: = = m ;其卷积核大小设置为:

 

由于,则有:

此时,仍有(7)式成立。

 

其次,当上层通道数与下层通道数不同时,一般有,此时对于第l个卷积层,其卷积核分解后,若为奇数,可设堆叠的第一个和最后一个小卷积核输入通道数为,输出通道数为,其中小卷积核的输入输出可交替使用,则参数规模和复杂度为:

 

所有实习同学均采用同一套试题,在同一时间地点闭卷形式进行考核,考题内容包括泌尿外科基础和病例分析,实习结束后进行考试,考试成绩的组成包括:基础知识占50%,病例分析占50%。

为偶数,各小卷积核的输入和输出通道数不能交替使用,否则下层卷积输入通道数与原未分解时的下层卷积输入通道数不能匹配,导致后续输入和输出通道数的连锁反应,可能会使分解失去意义。此时为限制参数个数和复杂度,我们使用了两种方式。其一是在模型较低层,可在输入输出通道数变化的层次,不对卷积核进行分解;由于较低层输入输出通道数较少,此时参数规模和复杂度对整个模型影响不大。其二,在模型较高层,保持输入和输出通道数不变,便于卷积核分解。

3.2 模型结构

按照上述数据集的一般使用规则,在CIFAR-10和 CIFAR-100数据集中,首先使用训练集中的40000张图像进行训练,剩余的10000张图像用于验证,以寻找最佳迭代次数,防止过拟合;然后将验证集中的图像重新合并到训练集中再次训练,一直迭代到最佳迭代次数,停止训练。在SVHN数据集上,将训练集和扩展训练集进行合并,首先从原训练集中选择4000张,并从扩展训练集中选择2000张图像作为验证集,其余作为训练集,寻找最佳迭代次数;然后将验证集和训练集合并重新训练,一直训练到最佳迭代次数为止。

如表1所示,为限制参数规模和模型复杂度,本文大幅减少了输出通道的个数,在卷积层仅使用64和128。在顶层两个全连接层,VGG19模型中每个全连接层输出通道均为4096,而本文则使用512。由于第一个卷积层Conv1_1的输入通道为3,输出通道为64,不宜将其卷积核分解为两个2×2的小卷积核,否则,分解后的卷积层输出通道难以确定,若直接使用64,则其复杂度将会增加。因此将卷积核大小保持不变。同理,Conv2_1卷积层,由于输入通道为64,输出通道为128,同样不适宜做卷积核分解。在Stage3、Stage4和Stage5中,每个阶段比VGG19少用了一个卷积变换,但在Stage2中,连续使用6个带2×2卷积核的卷积层以做补偿。本文的模型共有 28个卷积层,加上三个全连接层,共有31个权重层,其深度远大于VGG19模型。

 

表1 VGG19结构和KDS-DCNN模型主要结构Table 1 Configuration of VGG19 and the proposed KDS-DCNN model

  

说明:上表中,Conv表示卷积操作;FC表示全连接操作;Categories表示数据集中的类别数;KDS-DCNN结构中,Layer/number列,Layer表示层的类型和标号,number表示连续使用同样配置的层的个数

 

VGG19 KDS-DCNN layer Kernel size Output number Layer/number Kernel size Output number Conv1_1 3×3 64 Conv1_1/1 3×3 64 Stage1 Conv1_2 3×3 64 Conv1_2/2 2×2 64 Conv2_1 3×3 128 Conv2_1/1 3×3 128 Stage2 Conv2_2 3×3 128 Conv2_2/6 2×2 128 Conv3_1 3×3 256 Conv3_1/2 2×2 128 Conv3_2 3×3 256 Conv3_2/2 2×2 128 Conv3_3 3×3 256 Conv3_3/2 2×2 128 Stage3 Stage4 Conv3_4 3×3 256 -- -- --Conv4_1 3×3 512 Conv4_1/2 2×2 128 Conv4_2 3×3 512 Conv4_2/2 2×2 128 Conv4_3 3×3 512 Conv4_3/2 2×2 128 Stage5 Conv4_4 3×3 512 -- -- --Conv5_1 3×3 512 Conv5_1/2 2×2 128 Conv5_2 3×3 512 Conv5_2/2 2×2 128 Conv5_3 3×3 512 Conv5_3/2 2×2 128 Stage6 Conv5_4 3×3 512 -- -- --FC1 -- 4096 FC1 -- 512 FC2 -- 4096 FC2 -- 512 FC3 -- Categories FC3 -- Categories

3.3 模型复杂度分析

深度CNN模型的复杂度可从三个方面进行分析,首先是参数规模,其次是模型运算时间复杂度,最后是神经元个数。其参数规模和模型运算复杂度可由(1)式和(2)式得出,神经元个数可由下式计算得出:

 

设数据集中小图像大小为32×32,使用图像剪切数据扩增技术,剪切的图像块大小为28×28,即= 2 8;每层卷积核高和宽相同,即 ;所有图像均为 3通道彩色图,即 = 3 ,则KDS-DCNN模型的复杂度如表2所示。

 

表2 KDS-DCNN模型复杂度Table 2 The model complexity of KDS-DCNN

  

Type Value Nneus.(×105) 3.83 Nparas.(×106) 2.99 T_Comp.(×108) 1.45

4 实验验证

4.1 数据集

本文使用了当前流行的小图像公开数据集CIFAR-10、CIFAR-100和SVHN来验证模型效果。CIFAR-10和CIFAR-100数据集中各包含60000张32×32的彩色图像,其中50000张用于训练,10000张用于测试;CIFAR-10中所有样本共分为10类,CIFAR-100则分为100类。SVHN数据集共包含近99289张32×32的彩色街景数字图像,其中73257张用于训练,26032张用于测试,此外,还有53万多张额外训练图像。如图2、图3和图4所示,其为放大后的图像示例。可以看出,各数据集图像较为模糊,分辨率较低,且很多图像背景较为复杂,干扰较多,识别困难。

  

图2 CIFAR-10数据集部分图像Fig.2 Examples from CIFAR-10 dataset

  

图3 CIFAR-100数据集部分图像Fig.3 Examples from CIFAR-100 dataset

  

图4 SVHN数据集部分图像Fig.4 Examples from SVHN dataset

我们采用VGG19模型作为卷积核分解的基础模型。VGG19模型是为较大图像的分类与识别而设计,共包含 16个卷积层和两个全连接层,其卷积核统一使用 3×3大小。VGG19模型参数达到了145M 以上,且复杂度极高;同时由于较高层降采样之后,特征图较小,如果输入图像较小,其3×3大小的卷积核可能会超出特征图大小,使得卷积操作无法进行。我们在VGG19的基础上对大部分3×3大小的卷积核进行了分解,将其卷积层分解为两个叠加的带2×2大小的卷积核的卷积层;同时,由于输入图像较小,在模型高层,其特征图更小,更多的卷积和非线性变换对提升最终特征的表达能力作用有限。因此,我们将在模型高层中的部分卷积和非线性变换操作放入模型较低层中,以保证变换的深度。

上式中,d表示网络深度(此处指卷积层个数),k w 分别表示第l层中卷积核的高和宽(一般有:l),分别表示本层所生成特征图的高和宽,当l=1时,若输入为3通道彩色图像,则 = 3 ;当l>1时,若横向和纵向卷积步长为,横向和纵向特征图补位栏数为,则有:

康复员轮岗到特殊教育中心,协助特殊教育老师对孤残儿童进行教育。通过实践,了解到孤残儿童的身心发育情况,学习到科学的教育方法。通过交流、融合,有利于他们在今后工作中,更好地根据儿童的身心发展,设计适合儿童的康复计划和活动。

4.2 实验设置

深度CNN技术自出现以来,已在多个视觉任务上取得重大突破。CNN技术起源于 LeCun等人,其研究组设计的 LeNet5模型[17]通过多次卷积、降采样和激活操作,在手写体数字识别上获得了较高的识别率,达到了商用级别;但限于当时的软硬件条件限制,难以使用更多的层次对特征进行变换,在场景较为复杂的图像识别上,难以取得很好的效果。Krizhevsky等人结合了深度学习的思想和CNN技术,设计了Alex-Net模型[1],在Imagenet数据集上大幅提升了分类识别性能,效果达到了当时最优。该模型深度达到了8层,特征变换层次明显增加,并创造性地使用了LRN(Local Response Normalization,局部响应归一化)归一化技术和 Dropout技术,防止过拟合的发生。此后,在Alex-Net模型的基础上,又出现了 ZF-Net[18]、Chatfied-Net[19]等深度模型,对Alex-Net中的部分层次做了优化,进一步改善了识别效果。以上几个模型深度有限,特征抽象程度有待于进一步增强。Szegedy等人设计了Inception组件,并在其基础上设计了GoogLeNet模型[2],其卷积层个数达到了59个,性能优越,且其比 Alex-Net模型参数更少,复杂度更低。Zisserman领导的VGG工作组设计了VGG16/19模型[3],它的结构较为简单,所有下层变换均只依赖于来自于上层的特征图,且其所有卷积层使用相同大小的卷积核,其特征图降采样只使用最大值池化变换;VGG模型变换层次较多,性能与GoogLeNet相近,但该模型由于在顶层池化层和全连接层对接时,池化层所生成的特征图过大,导致参数及模型复杂度急剧增加,其参数规模比GoogLeNet模型高近25倍。

4.3 实验结果

本文使用了两种分类工具对提取的特征进行分类,首先采用SVM分类器。为降低复杂度,我们放弃了传统方法中使用全连接层 FC2层特征的做法,而是只提取全连接层 FC3层的特征,对于CIFAR-10和SVHN数据集来说,其特征维度为10,对于CIFAR-100来说,其特征维度为100;我们使用了训练迭代 30万次的模型分别对训练图像和测试图像提取特征,然后将其送入SVM分类器。其次使用Softmax函数直接对测试样本的特征进行分类,省去了重新提取训练样本特征的步骤。

 

表3 各模型在CIFAR-100上的实验结果及性能对比Table 3 Performance comparison with the state-of-the-art methods on CIFAR-100

  

Model Error Rate(%)Stochastic Pooling[27] 42.51 Conv. Maxout[23] 38.57 NIN[20] 35.68 All-CNN[21] 33.71 KDS-DCNN(SVM)(our) 31.77 KDS-DCNN (Softmax)(our) 29.46

 

表4 各模型在CIFAR-10上的实验结果及性能对比Table 4 Performance comparison with the state-of-the-art methods on CIFAR-10

  

Model Error Rate(%)Stochastic Pooling[27] 15.13 Conv. Maxout[23] 9.38 DropConnect[22] 9.32 NIN[20] 8.81 All-CNN[21] 7.25 KDS-DCNN(SVM)(our) 6.42 KDS-DCNN (Softmax)(our) 6.02

 

表5 各模型在SVHN上的实验结果及性能对比Table 5 Performance comparison with the state-of-the-art methods on SVHN

  

Model Error Rate(%)Stochastic Pooling[27] 2.80 Conv. Maxout[23] 2.47 DropConnect[22] 1.94 NIN[20] 2.35 KDS-DCNN(SVM)(our) 2.30 KDS-DCNN (Softmax)(our) 2.17

如表3和表4所示,无论是使用SVM,还是使用Softmax,我们的模型在CIFAR-10和CIFAR-100数据集上均超过了当前最优的结果,尤其是使用Softmax,在 CIFAR-100数据集上其识别错误率比当前最优的All-CNN模型降低4个百分点以上,在CIFAR-10数据集上识别错误率也比All-CNN低了1个百分点以上。在SVHN数据集上,我们的结果仅比文献[22]高了0.23个百分点(如表5所示),但均低于其他方法。该实验结果充分证明了KDS-DCNN模型的有效性。

4.4 模型复杂度对比

在模型运算复杂度方面,KDS-DCNN模型训练和测试占用内存更少,训练好的模型更小,测试速度更快。如表6所示,模型在训练时,只需234M左右的内存空间,绝大部分 GPU显卡都能满足,因此其硬件要求配置低;其训练好的模型大小只有12M左右,是Alex-Net模型的1/20,是VGG19原模型的1/40;在测试时,给定一副图像,只需大概2.87 ms即可识别出图像内容。

学生:搜集信息是在课前完成的,学生扮演的是学校维修小组物料员的角色,现在维修小组需要一批电阻,规格和数量见物料清单,为了完成这个任务,学生必须了解物料员的具体工作和电阻的相关知识,学生搜集资料自主学习。

 

表6 KDS-DCNN模型训练内存需求、模型大小及每张图像测试运行时间Table 6 The required memory, model size and comsuming time for each test image during training in KDS-DCNN model

  

Memory Required(M) Model Size(M) Time(ms/per image)≈234 ≈12 2.87±0.1

从理论上将模型神经元个数、参数规模和运算复杂度三个方面与其他模型进行了对比,结果如图5所示。在神经元个数方面,KDS-DCNN模型要高于Maxout、All-CNN等模型,但低于NIN模型;在参数规模方面,与NIN和All-CNN模型相比也相对较高,但远低于文献[23]中Maxout所用模型。在运算复杂度方面,我们的模型只有1.45,低于所有已列出的其他模型。

  

图5 模型复杂度对比(神经元、参数及时间复杂度)Fig.5 Comparison of model complexity (number of neuron,parameter scale and time complexity)

5 结束语

小图像的识别在多个科研及工业领域具有重要研究和应用价值,但由于其图像中所含像素少,分辨率低,用于识别的信息有限,因此识别较为困难。传统方法一般基于手工设计特征,设计过程复杂,且由于特征变换次数少,层次不深,表达能力弱,难以大幅改善识别效果。深度CNN技术通过一系列的卷积、降采样和激活等线性及非线性变换,特征鲁棒性更好,可辨别能力更强。本工作根据小图像的特点,为克服当前用于小图像识别的主流 CNN模型中深度不够的缺点,依据卷积核分解原理,提出并设计了KDS-DCNN模型。该模型在VGG19模型的基础上,将大部分带 3×3卷积核的卷积层分解为两个堆叠的带2×2卷积核的卷积层,其权重层个数达 41个。为限制模型参数规模及运算复杂度,本工作首先在输出通道数有变化的层次保持卷积核不变,其次在网络高层降低了每层的输出通道数,极大地降低了参数个数和模型的运算复杂度。实验证明,该模型效果显著,在 CIFAR-10和 CIFAR-100数据集上其识别率均超过了当前几个主流模型。这表明,CNN模型的深度仍然是提高识别率的关键,模型越深,特征变换层次越多,其特征抽象越充分,表达能力越强;同时基于卷积核分解的技术能够在增加模型深度的同时,进一步降低参数规模和运算复杂度。因此该工作对于深度CNN模型的设计和在小图像识别上的应用具有很大的启发和借鉴意义。

但本文所设计的 KDS-DCNN模型只是依据VGG19模型而设计,层次仍然不够多,且VGG19模型结构较为单一,没有考虑其不同尺度下的特征情况;而在GoogLeNet中,其Inception结构充分考虑了多尺度特征图的情况,且其卷积层数更多。因此我们下一步工作将在 GoogLeNet模型的基础上对卷积核进行分解,设计出性能更优的深度模型。同时,复杂度是限制深度CNN模型进一步走向应用的主要障碍,KDS-DCNN模型虽然较其他模型在运算复杂度方面有所降低,但在限制参数规模方面仍没有突破性进展。因此我们的另一项工作是继续在卷积核分解基础上,研究进一步降低模型复杂度的算法,以设计出更优化的模型。

参考文献:

[1]Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks[C]. Proceedings of Advances in Neural Information Processing Systems. Massachusetts: MIT Press, 2012, 25(2):2012.

[2]Szegedy C, Liu W, Jia Y, et al. Going Deeper with Convolutions[C]. Proceedings of Conference on Computer Vision and Pattern Recognition. Los Alamitos:IEEE Computer Society, 2014:1-9.

[3]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[C].Proceedings of International Conference on Learning Representations(ICLR), 2015.

[4]He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[OL]. [2016-01-19]. http://arxiv.org/pdf/1512.03385v1. pdf, 2015.

[5]Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C].Proceedings of Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society, 2014:580-587.

[6]Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[C].Proceedings of Advances in Neural Information Processing Systems. Massachusetts: MIT Press, 2015.

[7]Long J, Shelhamer E, Darrell T. Fully Convolutional Networks for Semantic Segmentation[C].Proceedings of Conference on Computer Vision and Pattern Recognition .Los Alamitos: IEEE Computer Society,2015: 3431-3440.

[8]Chen L C, Papandreou G, Kokkinos I, et al, Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs[C]. Proceedings of International Conference on Learning Representations(ICLR), 2015.

[9]Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]. Proceedings of Advances in Neural Information Processing Systems.Massachusetts: MIT Press, 2014: 568–576.

[10]Wang L, Qiao Y, Tang X. Action recognition with trajectory-pooled deep-convolutional descriptors[C].Proceedings of Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society, 2015: 4305-4314.

[11]He K, Sun J. Convolutional neural networks at constrained time cost[C]. Proceedings of Conference on Computer Vision and Pattern Recognition. Los Alamitos:IEEE Computer Society, 2015: 5353–5360.

[12]Krizhevsky A. Learning multiple layers of features from tiny images[D].Troonto: University of Toronto,Department of Computer Science, 2009.

[13]Netzer Y, Wang T, Coates A, et al. Reading digits in natural images with unsupervised feature learning[C].Proceedings of Advances in Neural Information Processing Systems: Workshop on Deep Learning and Unsupervised Feature Learning.Massachusetts: MIT Press, 2011.

[14]Dalal N, Triggs B. Histograms of Oriented Gradients for Human Detection[C]. Proceedings of Conference on Computer Vision and Pattern Recognition. Los Alamitos:IEEE Computer Society, 2005:886-893.

[15]Lowe D. Distinctive Image Features from Scale-Invariant Key points[J]. International Journal of Computer Vision,2004, 60(2):91-110.

[16]Lazebnik S, Schmid C, Ponce J. Beyond bags of features:Spatial pyramid matching for recognizing natural scene categories[C]. Proceedings of Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society, 2006: 2169-2178.

[17]Lecun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[C]. Proceedings of the IEEE. Los Alamitos: IEEE Computer Society,1998: 2278–2324.

[18]Zeiler M D, Fergus R. Visualizing and Understanding Convolutional Networks[C].Proceeings of European Conference on Computer Vision. Heidelberg: Springer,2014:818-833.

[19]Chatfield K, Simonyan K, Vedaldi A, et al. Return of the devil in the details: Delving deep into convolutional nets[C].Proceedings of British Machine Vision Conference. Durham : British Machine Vision Association, 2014.

[20]Lin M, Chen Q, Yan S C. Network In Network[C].Proceedings of International Conference on Learning Representation, 2014.

[21]Springenberg J T, Dosovitskiy A, Brox T, et al. Striving for Simplicity: The All Convolutional Net[C].Proceedings of International Conference on Learning Representation, 2015.

[22]Li W, Zeiler M D, Zhang S, et al. Regularization of neural networks using dropconnect[C].Proceedings of International Conference on Machine Learning. New York: ACM Press, 2013:1058–1066.

[23]Goodfellow I J,Warde-Farley D, Mirza M, et al.Maxout networks[C].Proceedings of International Conference on Machine Learning. New York: ACM Press,2013:1319–1327.

[24]Wang L, Xiong Y, Wang Z. Towards Good Practices for Very Deep Two-Stream ConvNets[OL]. [2016-01-19].http://arxiv.org/pdf/ 1507.02159v1.pdf, 2015.

[25]Jia Y, Donahue J. Caffe: Convolutional Architecture for Fast Feature Embedding[C]./Proceedings of ACM Multimedia. New York: ACM Press, 2014.

[26]Chang C C, Lin C J. LIBSVM: A library for support vector machines[J]. ACM Transactions on Intelligent Systems & Technology, 2011, 2(3):389-396.

[27]Zeiler M D, Fergus R. Stochastic Pooling for Regularization of Deep Convolutional Neural Networks[C].Proceedings of International Conference on Learning Representations, 2013.

 
罗富贵,李明珍
《井冈山大学学报(自然科学版)》2018年第02期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息