浅谈人工智能与图像艺术

2024.07.09

李天耿旭朴

摘要：人工智能技术不仅深刻地改变着人们的生产和生活方式，也在通过艺术创作解构和颠覆人类的思维模式。本文以图像艺术为例，从风格迁移、图像生成和草图渲染3个方面对深度学习及其应用进行介绍，以期对图像艺术创作有所参考和启发。

关键词：神经网络;深度学习;高校工程风格迁移;生成对抗网络（GAN）

0 引言

以深度学习为代表的人工智能技术（Artificial Intelligence，AI）已成大势所趋，并渗透包括艺术在内的各行各业。深度学习是一种使用深度人工神经网络对数据进行表征学习的方法，旨在模拟人脑识别能力的人工神经网络（简称“神经网络”）。其诞生于20世纪四五十年代，此后数十年间的发展起起伏伏，几经波折，直到近年来才以“深度学习”之名大放异彩。[1]2012年，“深度学习之父”Geoffrey Hinton的研究组在号称人工智能“世界杯”的“ImageNet大规模视觉识别挑战赛”（ImageNet Large Scale Visual Recognition Challenge，ILSVRC）中以远超第二名的成绩斩获冠军，深度学习一战成名。[2]2016年，Google研发的围棋人工智能程序AlphaGo更以4：1的战绩完胜韩国棋手李世石，刹那间舆论沸腾，人工智能技术开始为社会大众所瞩目。2017年，国务院印发《新一代人工智能发展规划》，认为“人工智能的迅速发展将深刻改变人类社会生活、改变世界，深刻改变人类生产生活方式和思维模式”。

神经网络通常由多层神经元组成，神经元用于模仿生物体的神经细胞，很多神经细胞连接在一起形成复杂的神经系统。与婴儿大脑发育类似，各神经元最初都处于随机的混沌状态，并不具有识别和记忆功能，神经网络需要使用大量已知数据进行训练和学习，才能具备一定的“认知”能力。深度学习之“深”，首先体现在神经网络的层数上，传统神经网络往往只有三层，即输入层、隐含层和输出层，而用于深度学习的“深度神经网络”动则十多甚至数十上百层。更为重要的是，深度神经网络中引入了可以让机器自动总结并学习数据特征的网络机制，从而可以克服传统神经网络中人工设计特征的局限性。

深度学习首先在图像分类、语音识别和自然语音理解等方面取得了巨大成功，近年来，以深度学习为核心的人工智能技術得到了学术界和工业界的广泛关注，人工智能正深刻地改变着我们的生产和生活方式。与此同时，人工智能介入艺术创作也成为大势所趋，谷歌的Deep Dream作画，阿里的AI鲁班设计海报，人工智能正在解构和颠覆人类的思维模式。深度学习在图像艺术方面出现了很多非常出彩的应用，本文将从风格迁移、图像生成和草图渲染3个方面对深度学习进行分析，以期对图像艺术创作有所参考和启发。

1 风格迁移

风格迁移是指在保留原图像基本内容（内容图像）的条件下，把另一幅图像的风格（风格图像）应用到该图像上。人类历史上出现了很多颇有影响的画派和很多著名的画家，如果把他们的风格与一些现代照片的内容进行组合，则能产生很多奇妙的作品。这个概念其实早已有之，但深度学习的出现使得风格迁移取得了突破性的进展，而与此同时，风格迁移也成为深度学习最成功的应用之一。如图1所示，最左侧一列是厦门大学的三张风景照片;中间一列从上到下分别是三张典型的毕加索立体主义画、莫奈印象主义画和中国水墨山水画;最右侧一列是作者使用Gatys等提出的深度学习方法[3]，把每行中间图像的风格应用到左侧照片得到的新生成的图像。

这种风格迁移方法使用了深度学习中的卷积神经网络（Convolutional Neural Networks，CNN），并假定图像的内容和风格是可以进行分离的。CNN主要由多层可以处理可视化信息的很多较小计算单元组成（即卷积）;每层的计算单元相当于一组滤波器，经过训练后，它们能获取图像的一些特定特征;后一层神经元以前一层的输出作为输入。这样随着神经网络层数的增加，后层神经元的感知视野不断增大，提取的特征也越来越复杂，越来越能够捕捉到与图像中的主要物体相对应的高层次特征，而不会受限于具体的像素值。因此，CNN在图像识别领域取得了极大成功，同时，这些高层次特征往往也正是图像中所包含的主要内容。

关于图像的风格，Gatys等认为风格在一定程度上近似于图像的纹理，纹理对应于图像的局部统计特征，而CNN中的滤波器就相当于各种局部特征识别器。据此，Gatys等提出了一种基于CNN的风格提取方法，即计算同层神经网络中不同滤波器响应的特征图的相关性，结合多个网络层的相关性即可得到稳定的图像风格的多尺度表示。[4]从图1的试验可以看出，这种方法所提取的纹理在很大程度上与图像的风格基本是吻合的。

深度学习中风格迁移的基本流程如下：

第一，准备内容图像和风格图像，并以内容图像或白噪声图像作为初始的基准图像。

第二，用CNN模型分别计算基准图像与内容图像的内容损失和基准图像与风格图像的风格损失。

第三，以内容损失和风格损失的最小化为优化目标，调整基准图像的值。

第四，重复步骤二、三，使基准图像在内容上接近内容图像的同时，风格上与风格图像越来越相似。

2 图像生成

正如前面所述，CNN的经典应用之一是图像识别。2014年，Ian Goodfellow等人另辟蹊径，提出了一种新的深度学习模型——生成对抗网络（Generative Adversarial Net，GAN）。[5]如图2所示，GAN模型中包含了两个CNN：生成器（G）和辨别器（D），X表示从已知的图像库中抽取的某张图像，G可以从噪声中生成伪图像Y，D可以对X或Y进行真假图像的鉴别。G与D的关系类似于艺术画的伪造者与鉴别者，伪造者的目标是创作出以假乱真的艺术画作，而鉴别者的目标是判断他看到的画作是艺术大师本人的作品还是模仿出来的。刚开始的时候，伪造者和鉴别者的水平都不高，鉴别者很容易判断图像的真伪;但随着神经网络的训练，两者不断地进行对抗和学习，伪造者不断改进自己的图像生成模型，伪造的画作会让鉴别者识别错误。这是一个对抗双方都不断学习提高的过程，也正是GAN的神奇所在。

GAN一经提出就备受瞩目，衍生出许多种形态，Facebook的AI领头人Yann LeCun表示，GAN是“近十年来机器学习领域最有趣的想法”。GAN不仅引起了学术界和工业界的极大兴趣，甚至也有一些艺术家尝试用其进行艺术创作，GAN及其变式在图像生成方面显示出了异乎寻常的艺术潜力。2018年10月25日在纽约佳士得的拍卖会上，由巴黎艺术组合Obvious利用GAN模型生成的画作《Edmond de Belamy》，被拍出了43.25万美元的高价。该画作基于14～20世纪的15000幅经典肖像画生成，虚构了Edmond de Belamy这个角色，成为历史上第一个拍卖的人工智能艺术品。

图2? GAN基本原理

下面给出一个GAN在动漫设计中应用的例子。人物是动漫创作的核心，无论是传统手绘，还是计算机辅助绘画，动漫人物的绘制都是一个非常复杂的过程，而且对绘画师的要求很高。2017年，6名来自复旦大学、卡内基梅隆大学、石溪大学和同济大学的学生，合作建立了一个名为MakeGirlsMoe的网站（make.girls.moe）。用户只需要设置一系列面部和服饰特征，如发色、发型、眼镜颜色，是否佩戴眼镜、帽子、丝带，以及是否有脸红、微笑、张嘴等面部表情，网站就可以快速生成一个高质量的定制版动漫人物形象（如3所示）。

MakeGirlsMoe网站后台的核心实际上就是一个改进的GAN模型。[6]深度学习需要大量的先验数据进行神经网络的训练，这些数据的质量会直接影响图像生成的效果。因此MakeGirlsMoe的设计者从日本游戏商Getchu的网站获取了三萬多张训练所需的动漫人物头像，这些头像出自专业的动画师之手，因而图像质量较高。为满足用户对人物特征定制的需要，MakeGirlsMoe的设计者使用了一种基于深度学习的图像分析工具——Illustration2Vec，对这些动漫人物的特征如发色、发型、表情等进行标注。

3 草图渲染

人工智能在互联网上爆红的应用之一是草图渲染，其中以Edges2cats和Fotogenerator最为有名。Edges2cats可以以随手绘制的线条图为基础，自动生成一张猫的图片;而Fotogenerator则可以根据线条草图，生成一个人的头像。它们的典型效果分别如图4和图5所示。Fotogenerator上线后访问者太踊跃，服务器负荷过大，以至于开发者不得不将其关闭。

事实上，Edges2cats和Fotogenerator采用了同一种深度学习方法——Pix2Pix，这也是一种改进的GAN模型。[7]Pix2Pix使用大量的成对图像进行训练，让神经网络自动学习到从输入图像到输出图像的映射关系，从而可以实现诸如线条图到实物图、灰度图到彩色图、白天图到黑夜图等多种图像类型的转换。Edges2cats和Fotogenerator实现的都是从线条图到类似实物照片图的转换。需要注意的是，训练样本的多样性直接决定了神经网络学习得到的能力。以Edges2cats为例，开发者大约训练了两万多对猫的照片与线条图，所以不管用户画什么样的草图，生成的都是类似于猫的图片;而如果用户所画草图中猫的五官比较怪异或与训练图像差异较大的话，则可能得到一些非常奇怪甚至恐怖的图像。

4 结语

人工智能与艺术的关系，在艺术界和理论界引起了不小的讨论，在2017年《美术观察》第10期[8]与《中国美术报》第90期[9]的两场专栏里，人工智能能给艺术带来什么？人工智能的创作究竟能否算得上“艺术作品”？人工智能会消解“艺术家”的概念吗？它是否会让艺术变得廉价？艺术创造和自由意志是否无法被机器所取代？……种种疑问，无不透露着人们对这一崭新的艺术创作方式的复杂心态。

毕竟，长久以来，无论是模仿说，主（客）观精神说，还是观念说，任何一种艺术理论都将艺术的本质视为人类独特的创造力的体现，是机器所无法取代的精神生产活动，而人工智能的出现似乎在逐步挑战这个边界。2018年，AI绘制画作《Edmond de Belamy》在纽约佳士得拍卖行以43.25万美元的高价拍出，这更像是在某种程度上证明它的创造潜力。无论如何，目前的人工智能在艺术领域的应用尚在初级阶段，它究竟会对艺术产生怎样的影响力，需要更多的实践研究进行开拓。

参考文献：

[1] Hinton G E， Salakhutdinov R R . Reducing the dimensionality of data with neural networks[J]. Science，2006，313（5786）：504-507.

[2] Krizhevsky A， Sutskever I， Hinton G E . Imagenet classification with deep convolutional neural networks[A]. Advances in neural information processing systems[C]. 2012：1097-1105.

[3] Gatys L A， Ecker A S， Bethge M . Image Style Transfer Using Convolutional Neural Networks[A]. 2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）[C]. IEEE， 2016.

[4] Gatys L A ， Ecker A S ， Bethge M . Texture synthesis using convolutional neural networks[A]. International Conference on Neural Information Processing Systems[M]. MIT Press， 2015.

[5] Goodfellow I J， Pouget-Abadie J， Mirza M，etal. Generative adversarial nets[A]. International Conference on Neural Information Processing Systems[M]. MIT Press，2014：2672-2680.

[6] Jin Y，Zhang J，Li M，etal . Towards the Automatic Anime Characters Creation with Generative Adversarial Networks[J]. arXiv preprint arXiv，2017.

[7] Isola P，Zhu J Y，Zhou T，etal . Image-to-Image Translation with Conditional Adversarial Networks[C]. Proceedings of the IEEE conference on computer vision and pattern recognition，2017：1125-1134.

[8] 孟繁玮，缑梦媛.人工智能与艺术的未来[J].美术观察，2017（10）：13.

[9] 李振伟，等.人工智能：会给艺术带来什么？[J].中国美术报，2017（90）.

作者简介：李天，博士，硕士生导师，在《文学评论》、《新美术》和《社会科学战线》等期刊发表学术论文多篇，出版专著《CG影像艺术——虚拟与现实的界限》和诗集《校园抒怀——人在翔安》等，主要研究方向：新媒体艺术和当代美学等。

通讯作者：耿旭朴，博士，主要研究方向：深度学习、图像处理和遥感技术等。