基于AlexNet的南通蓝印花布纹样分类
于翔 沈美
【摘要】? ? 非物质文化遗产的灵活与生动自然是承载当地文化的最好的载体,也越来越受到社会各方面的重视。对非物质文化遗产的传承与保护研究,多以人文、艺术等学科的角度加以研究,却很少利用信息技术。利用先进的信息技术,结合人文、艺术等学科,以新的角度及方法,创造性地开展、实现非物质文化遗产的传承与保护,是新技术在非物质文化遗产保护领域研究工作的一项重要研究方向。本文以我国非物质文化遗产之一----南通蓝印花布为对象,利用深度学习、神经网络等人工智能技术与艺术、人文等学科相结合,对其纹样进行分类,开展南通蓝印花布纹样数字化的分析、研究,不但为南通蓝印花布纹样的传承与创新研究提供了新思路,而且也为其它非物质文化遗产的传承与保护探索出一条新的道路。
【关键词】? ? 南通蓝印花布? ? 深度学习? ? AlexNet? ? 图像分类
引言
南通蓝印花布作为我国最早成功申报的国家非物质文化遗产项目之一。经过数年的摸索、研究与实践,工艺美术大师吴元新先生于1996年创办全国第一家集收藏、展示、研究、传承为一体的南通蓝印花布博物馆,并进行了大量的理论性研究与挖掘,收藏、整理出明清以来实物及图片资料上万件,保存的上万的纹样纸版,出版《中国蓝印花布纹样大全》藏品卷、纹样卷等等;为保护传统的蓝印花布印染技艺,弘扬蓝印花布夯实了理论基础。
然而,种类繁多的蓝印花布纹样所承载的文化内涵是什么?有什么美好的寓意?又该如何解读?这些关键的内容却一直锁在专家这个“深闺”内,普通大众只能从纹样形状去简单了解!如何让这些关键的内容走出专家的“深闺”,走入普通大众的这片沃土,显然,数字技术是关键!其中,利用近年来快速发展的人工智能、机器学习等新技术,结合艺术、人文等其它学科来对其纹样进行语义分析、整理并分类是是解决该问题的重要方向!例如赵海英、陈洪、 贾耕云等利用机器学习对民族文化图案进行语义标注[1]、张浩、徐丹利用深度学习对少数民族绘画进行情感分析[2]等等。因此,本文立足最新的人工智能、深度学习技术,首先对南通蓝印花布纹样从艺术、人文等学科多维度、多角度地分类、解读、整理、分析后分割、提取并数字化,随后利用深度学习中的AlexNet模型对其纹样进行分类,实验、分析并总结出南通蓝印花布纹样在AlexNet模型中不同学习率下的分类准确率,为我国传统文化纹样的传承与保护尽一份绵薄之力,也为承载我国优秀传统文化的非物质文化遗产——南通蓝印花布的传承与保护添砖加瓦。
一、相关工作
图像的识别与检测是机器视觉中很重要的一个分支。目前,这方面的研究与应用主要集中在人脸、文字等公共领域方面;而对于非遗中的个例--南通蓝印花布纹样,尤其是针对南通蓝印花布纹样的收集、整理訓练数据集,则仍处于空白阶段!因此,在实地调研的基础上,收集一手资料,通过对蓝印花布的纹样和素材进行数字化采集、整理、分析,并对其纹样进行分类、整理后提取出纹样,建立相关样本数据后利用深度卷积CNN中的AlexNet网络对纹样数据进行分类实验,最终确定相关实验数据。
1.1 南通蓝印花布纹样数据收集、整理与分析
相关理论方面的研究。上世纪九十年代中期开始,我国工艺美术大师吴元新先生在南通创建全国首家集收藏、展示、研究、传承为一体的南通蓝印花布博物馆,并进行了大量的理论性研究。例如整理收藏明清以来实物及图片资料上万件,保存的上万的纹样纸版,出版《中国蓝印花布纹样大全》藏品卷、纹样卷等等;为保护传统的蓝印花布印染技艺,弘扬和传承民间传统蓝印花布夯实了理论基础。
在吴元新先生及南通蓝印花布博物馆努力支持的基础之上,根据前面大量的理论分析与实践研究,分别从色彩、题材、组织形式以及相对位置四个维度对南通蓝印花布纹样进行归纳与总结出蓝印花布图案的内容形式一般分为以下三类:一是几何纹样,以几何形体为基础,通过变化组织而成。二是植物花卉纹样,富有吉祥意义。三是动物纹样[3]。图1展示了这三类中的部分样本。
1.2 南通蓝印花布纹样数据的处理
南通蓝印花布纹样数据的处理分为数据采集与清洗、数据提取与分类、数据增强、数据区分几步。
1.2.1 南通蓝印花布纹样原始样本数据采集与清洗
南通蓝印花布纹样数据是本研究的核心,也是对南通蓝印花布纹样数字化资源进行“立体式”分析的基础与前提。因此,本文的数据采集是通过尼康D1500对南通蓝印花布博物馆馆藏蓝印花布实物进行拍摄后,形成5000多幅照片;随后经过专人的挑选,去除模糊、表面磨损、布匹折痕等问题照片后,最终以3000多幅照片做为南通蓝印花布纹样原始数据样本。
1.2.2 南通蓝印花布纹样数据提取与分类
基于深度学习、神经网络等人工智能技术,对南通蓝印花布纹样大规模采样后从艺术、人文等学科多角度、多维度地开展分析、提取、整理与归类,明确纹样与其承载的文化内涵之间的关系,揭示纹样与其承载的文化内涵之间的关系,并最终提取南通蓝印花布纹样原始数据并分为10余个大类,80余小类。
1.2.3 南通蓝印花布纹样数据增强
数据增加是深度学习、神经网络等人工智能技术数据准备的重要技术手段。本课题对采集、分类后的南通蓝印花布纹样数据进行了基于深度学习的数据增强技术手段进行扩充,包括随机的明亮度、饱和度、对比度以及色调调整,还有上下、左右、沿对角线的随机翻转和概率。最后对所得的数据归一化为统一的224*224分辨率。
1.2.4 南通蓝印花布纹样数据区分
利用CNN进行分类的实验数据必须划分为训练与验证两部分数据,使每个类别的数据在训练与验证部分都占有一定比例。本文中的样本数据是按8:2的比例进行划分的,即80%的数据用于训练,其余20%用于验证。在3000余张图像中,大约有2400余张图像用于训练,600张图像用于验证。
二、卷积神经网络
卷积神经网络,简称 CNN,其最显著的特点是局部感受野的特征;卷积神经网络由输入层、卷积层、池化层以及全连接层主要的网络层构成,另外还有有激活层、Dropout 层、局部正则化层等等[4]。20世纪90年代末,卷积神经网络最初被用来手写字母的识别。2012 年 Krizhevsky 与 Hinton等人构建了深度卷积神经网络结构 AlexNet 并获得了ILSVRC-2012图片分类竞赛的冠军。[5]
2.1 AlexNet模型
AlexNet模型是2012 年 Krizhevsky 与 Hinton[5]等人提出,并在ImageNet图像分类任务竞赛中AlexNet一鸣惊人,对128万张1000个分类的预测结果大大超过其他算法模型准确率。AlexNet一共有八层,前面5层是卷积层,后面3层是全连接层,整个网络结构如图2所示:
AlexNet是在LeNet的基础上加深了网络的结构,能够学习更丰富更高维的图像特征。其最突出的特点之一是针对sigmoid梯度饱和导致训练收敛慢的问题引入了ReLU:f(x) = max(0, x)。ReLU是分段线性函数;收敛速度比饱和激活函数快其函数图像如图3所示。
其次,相对于一般如线性模型使用正则的方法来防止模型过拟合,AlexNet模型使用Dropout随机忽略一部分神经元,从而有效地避免了模型的过拟合;防止神经网络的过拟合。最后,AlexNet使用双GPU来训练数据,提高了训练速度。
三、训练过程与结果分析
3.1 实验环境及样本准备
实验操作平台为 Ubuntu 18.04,64位操作系统,Inter Core i5 9600KF CPU, NVIDIA GTX TITAN GPU and 8 GB RAM,核 心 频 率 1645~1785MHz,深度学习平台采用Tensorflow 框架,数据可视化采用Tensorboard。
实验中采用的原始蓝印花布图像共656张,包括植物纹样如梅花、兰花、竹子等;动物纹样如蝙蝠、凤凰、蝴蝶等;神话人物纹样、几何纹样共3000余张,通过上述数据增强手段创建蓝印花布纹样样本数据1万余张。随后将80%的共计约8000余张样本做为训练数据,20%约2000余张样本做为验证数据进行区分。部分样本数据截图如图4所示:
3.2训练过程及分析
在进行AlexNet网络训练时,每次随机选择200张图像进行训练,选择200张图像进行交叉验证,在网络优化方法选定梯度下降法(Gradient Descent)的前提下,对比学习率分别为0.001与0.002下训练损失值以及验证准确率的变化趋势,分别如图5、图6所示。
经多次实验后分别计算2种学习率下AlexNet模型的平均准确率分别为85.4%和89.7%。另外,根据训练损失值和验证准确率的变化趋势数据可以看出, 南通蓝印花布纹样在学习率为0.002的AlexNet模型下,其训练效果更为理想,对南通蓝印花布纹样的分类准确性更高。
四、结论
南通蓝印花布做为我图首批非物质文化遗产,无论是理论方面,还是实践方面,利用新技术实现传承与创新不但对南通蓝印花布,而且对其它非物质文化遗产都具有重大意义。采用最新的深度学习技术,结合人文学科、艺术以及中国传统文化对南通蓝印花布纹样进行高效分析是非常有必要的。然而,目前这方面的研究还很少,一方面原因是因为大部分的相关研究从人文学科的角度开始的,很少利用计算机技术结合人文学科对其研究[6];另一方面原因主要是对蓝印花布纹样的数据采集。现已查到的相关技术研究所采集的数据都主要来源于网络,鲜有对蓝印花布实物进行大规模数据采集,从而极大地限制了深度学习相关技术在蓝印花布纹样上的应用研究[7]。
本文在南通蓝印花布博物馆吴远新老师大量的理论研究基础上,直接采集南通蓝印花布博物馆馆藏蓝印花布实物照片,提取出大量的原始蓝印花布数据。随后利用数据增强的技术手段对所提取的纹样数据进行扩充;最后利用深度学习中的AlexNet模型,明确梯度下降的优化方法下,根据纹样的文化内涵特征,建立相应的数据样本,并按8:2的比例区分为训练样本和验证样本;分析、比较不同学习率对南通蓝印花布纹样数据分类的影响,实验最终表明在0.002的学习率下,AlexNet模型对南通蓝印花布纹样分类具有更高的准确性。
参? 考? 文? 献
[1]赵海英, 陈洪, 贾耕云, 鄭桥.基于字典学习的民族文化图案语义标注[J].中国科学,2019,49(2) : 172–187
[2]张浩, 徐丹. 基于深度学习的少数民族绘画情感分析方法[J].中国科学,2019,49(2):204–215
[3]张钟慧敏.蓝白之美的艺术之魅—南通蓝印花布纹样特色浅析 [D].江苏.苏州:苏州大学,2015,9
[4]张 琦 , 张荣梅 , 陈 彬. 基于深度学习的图像识别技术研究综述 [J].河北省科学院学报,2019,36(3):28-36
[5] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks. In Proc. The 26th Annual Conference on Neural Information Processing Systems, December 2012, pp.1106-1114.
[6]鲁东明、刁常宇、刘德智《文物数字化技术与应用》,第二届中华文化遗产数字化及保护研讨会,第27—36页
[7]贾小军,邓洪涛,刘子豪,叶利华.基于VGGNet卷积神经网络的蓝印花布纹样分类 [J].光 电 子 · 激 光,2019,30(8):867-875