基于人工智能技术的影片内容分析方法研究

    刘开南++张步城

    

    

    

    从谷歌人工智能AlphaGo击败围棋大师,到无人机、无人车、智能语音识别等技术取得突破性进展,人们发现人工智能已经成为日常生活的一部分,即使是文化艺术领域也受到冲击,带来新的方法和手段变革。人工智能创作影视作品、音乐作品、美术作品的新闻层出不穷。2017年11月CCTV2《机智过人》机器人PK人类作词作曲节目中,机器人与著名音乐制作人仅差两票;谷歌办人工智能画展,画作拍出8000美元。然而,人工智能的这些成果,其技术实现的前身是计算机大数据和人工智能算法对人类自然语言与语义,从识别图像中目标物体开始,模拟人类智慧进行逆向创作(逆向工程)的成果,是以深度学习为代表的计算机视觉计算、自然语言语义分析、语音识别与翻译等技术的成熟表现。视频计算成为当今人工智能最热门的应用,其对视频图像信息的语义识别、分类检索、自动跟踪等技术实现,为电影内容分析提供了新的技术和方法。

    一、 电影数据技术焕发新的生机

    电影产业研究在美学、传播学研究的同时,离不开大数据支撑,电影本体的研究亦如此。一些西方学者,如澳洲学者巴里·索特(Barry Salt),早在电影研究中引入了大数据,他将电影形式细化为各种镜头参数,并统计和镜头相关的数据,继而根据数据来评判某个导演甚或某个时代的视听风格,该电影的数据分析方法主要是以人工方式完成数据表示与计算。

    在信息时代的今天,美剧《纸牌屋》和中国电影《小时代》是当今影视大数据运用最成功典型案例,两部作品应用大数据统计计算方法,在品牌、口碑、艺术和经济价值等方面取得了可喜的业绩,开创了大数据在影视行业应用的新时代。目前,大数据技术已经成为影视投资与营销的主要技术手段,并且在业界也形成了成熟的技术工具产品,如谷歌的“电影票房预测模型”,该模型能够提前一个月预测电影上映首周的票房收入,准确度高达94%。

    这些电影大数据应用,大都是关注观众层面的行为数据、消费数据以及市场环境方面的数据,对于电影内容分析的研究,由于受技术条件、语义分析难度、艺术与美学量化表示等因素制约,还处在探索阶段。然而,不容忽视的是,电影内容的分析对于电影创意、内容管理、结构规律以及各元素关系规律、电影多样化发展有着更加积极的意义。从电影内容要素分析与人工智能成熟技术入手,探索电影内容分析方法和实现的技术手段,形成电影评估、内容创作、电影营销的闭环系统,从而推动电影创作与营销水平的提升,是值得业界内外潜心研究的新课题。

    二、 电影大数据应用的主要原理

    大数据4V特征的核心是价值(Value),如图1 “影视大数据应用系统图”所示,应用人工智能与机器学习算法,对获得的社交媒体及小说、剧本、影视作品数据源信息进行特征属性识别,对离散的信息采用分类模式,对线性信息应用回归模式,根据先验经验或标准实现对属性特征的分类与回归预测,从而实现市场预测、内容评估、营销分析,并指导创意、创作、影视作品内容制作和对影视作品进行线上线下、智能推荐等营销活动,最终实现影视作品更高质量生产和最大化推广。

    大数据研究的前提条件,是有全样本或足够量的大样本数据,而一部影视作品、小说剧本本身或影视作品所产生的社交媒体信息,都是影视大数据应用的数据源,随着大数据在影视行业的成功应用,电影行业对电影从创意到营销各过程数据采集与存储越来越重视,大数据数据源已不是主要应用障碍,应用的核心与关键技术已从基于统计的数据处理方法,向人工智能技术和机器学习方法飞速跃变,更加注重对电影元素特征属性的精准识别、分类回归及特征属性间关系发现与预测的研究。

    美剧《纸牌屋》是Netflix通过对电视剧消费行为习惯和消费者特征属性分析,识别并抽取消费者的行为和特征属性,应用关联方法进行特征匹配。其成功的关键技术是大数据背后的人工智能算法对特征的识别与抽取和关系匹配,形成对受众群体的精准定位决策分析。

    《小时代》是《纸牌屋》案例的中国复制,其核心是对上映前后社交媒体用户对小说和观影用户群特征的识别,为影片发行营销策略提供了决策依据,并针对性地开展系列线上线下活动,引发了这个群体的观影热情,成功实施营销策略。《小时代》和《纸牌屋》代表了当今电影业大数据主要应用领域,即电影市场营销和电影市场评估与预测。

    这些电影大数据应用,大都是关注观众层面的行为数据、消费数据以及市场环境方面的数据,主要应用在票房营销预测、影视消费者行为及影视延伸产品消费习惯分析。

    随着人工智能技术高速发展,尤其是深度学习算法在视觉计算、语音识别和自然语言处理技术的成功应用,对于电影内容要素的分析研究,也提升到一个新的高度,基于图像语义分析技术,可以对电影结构、场景、镜头、人物、对话旁白等进行视觉和自然语言识别,得到电影各要素的特征属性标签,实现对电影作品的特征元素电子标签画像。从而实现创意、创作、制作全过程辅助决策,提升电影作品质量。

    三、 人工智能在电影内容分析中的应用

    近年来,国内外的很多研究机构都开展了基于深度学习算法的图像目标识别、图像语义、自然语言和语音识别的研究,并卓有成效,在识别的准确性、精度和速度,在图像内容分类、通用目标检测、语义分割等视觉领域取得了突破性的進展被广泛应用。

    (一)人工智能视觉计算技术原理

    目前,人工智能技术主要以基于卷积神经网络(CNN)为主,随着不同场景应用也衍生了很多优秀的算法模型,如著名的SIFT特征、AlexNet、RCNN、GoogLeNet、Faster RCNN、SOLO、SSD等。不管卷积神经网络的结构如何变化,其基本过程主要包括图像输入、区域特征抽取、神经卷积特征计算、区域对象分类四部分,如图2以电影《悲惨世界》为例,其核心是把特征提取和分类器进行有机的整合,通过随机梯度下降的方式进行反向传播,不断的对卷积模板参数和全连接层的参数进行优化,使得最终学习到的特征和分类器接近最优,获得分类特征。

    本文采用深度递归卷积神经网络算法实现平台搭建、检测与验证工作,如图3所示:

    ①部分是机器学习的特征抽取,即模拟人类识别类别特征(所谓“见多识广”),采用的数据集关系到类别特征准确性,应用公开的MNIST、ImageNet数据集、PASCAL VOC训练集、COCO等图像训练数据集,获取各大类别特征,如人、各类动物、各类车等;②部分是对具体的分析电影中特定目标(可多目标对象,本案例以冉·阿让为例)进行特征向量识别;③应用深度递归卷积神经网络CAFFE对电影影片(或者场景、镜头片段)中的类别、场景、对话进行特征划分与识别,并将类别特征等输入到分类器中,与②部分电影特定需求目标对象匹配分类;④对电影视频中场景、景别、人物等进行识别、标定,合成电影场景、镜头内容语义。

    由于电影视频本身包含数据量大,每秒由多帧静态图像组成,而每帧图像包含丰富的信息,为实现对电影内容高效、准确、高精度识别和检索目标,在电影深度递归卷积神经网络网络算法上,通过调节LOSS函数来提升对象识别精度的方法和策略,实现快速准确目标检测与定位。

    (二)电影要素人工智能识别方法

    由于电影是门综合性艺术,人工智能应用也不是万能的,它必须依赖数据输入才可以达成目标,所以,电影内容的人工智能分析方法的难点在于,电影内容各要素的数据化表示方法和表示方式。如电影冲突中刺激反应模式的冲突类型,以《集结号》为例,谷子地看见了刘团长的墓,镜头给到谷子地形成一次冲突;《辛德勒的名单》辛德勒看见了全程屠杀的场面,镜头只要给了主人公的面部表情,完成一次冲突;《唐山大地震》中李元妮背对观众,看见离散多年的女儿走进院子,没有动,这又是一次冲突等等,这些很难用数据化方式表示,人工智能也无从发挥作用。

    为了使电影视觉计算分析高效、准确,电影内容人工智能分析可采用电影分类、场景、镜头、人物、冲突等由大到小,逐步细分的分析方法,减少计算机视频计算的强度。在数据预处理阶段,降低电影信息维度,减少电影深度递归卷积神经网络计算强度,如应用工具软件Color Director,对电影镜头进行自动切分。以《悲惨世界》为例,共自动分割成1362个镜头场景,再应用计算机视频计算程序对每个镜头进行减帧和降低分辨率处理,以此降低计算量,提高计算速度。

    由于电影是一门集视觉、听觉为主的综合艺术,人工智能电影内容分析方法也是采用电影深度递归卷积神经网络分别对视觉计算、声音识别、自然语言处理等多模态的综合应用,实现对电影各场景、镜头、人物等图像语义、对话语义、情感分析特征抽取与识别,并以时间点为基准实现综合应用。如对动作片和爱情片电影分类时,可以采用视觉计算打斗(人距离、枪支、器械等)和接吻(2人嘴之间的距离等)镜头数,以及语音对话识别伤亡、爱情关键词等来实现类别特征表示与分类。

    电影的叙事结构是电影内容的有效组织形式,结构判别主要以剧情场景转折来识别显性的冲突,识别突发事件等。目前主要转折冲突识别从对白、动作、看见、听见等方面,进行人工智能的深度学习技术完成场景与镜头、人物与语言、景别与色彩光线等语义识别与分析。如对场景识别中强烈对比的环境变化(晴天VS暴雨、雪)、剧烈的突发事件(爆炸、车祸)、人物的语音识别(哭泣、叫喊)、悲观话语语义识别分析等,体现不同程度的情节转折与冲突。这些是计算机技术能够有效地理解含义,且可以替代人类完成约60%的工作,随着人工智能技术的不断发展,这个比例也会逐渐增大。

    (三)电影内容人工智能分析应用

    以《悲惨世界》(Les Misérables)为例,应用人工智能技术对电影的人物关系进行分析,具体分析流程如图4所示。

    经过上述六步流程,将一部《悲惨世界》电影通过计算机自动分割为1362个镜头,并实现对有人物镜头进行筛选、保存为单独的静态图像,同时将电影角色人物特征进行人工智能识别,与镜头中保存的人物静态图像进行匹配检索,识别并记录出图像中角色名字,同时选择2个人物角色的图片进行关系from-to记录,形成电影人物关系表,再应用计算机数据可视化技术实现电影内容中人物关系的构建,用于分析电影场景、镜头、人物角色等关系。

    结语

    在研究大数据电影行业应用基础上,厘清大數据技术的本质,应用人工智能技术对电影内容分析及其特征识别,并通过对电影内容要素分析、内容要素语义识别与抽取,语义关系的构建方法研究,深入研究电影内容创意、结构规律以及内容各要素关系规律,进而分析大量同类电影,发现规律,形成特征标准,形成指导电影评估、内容创作、内容管理、电影营销的闭环系统,推动电影创作与营销水平的提升。人工智能技术对电影内容的分析方法还在研究探索,随着人工智能技术的不断创新,人工智能技术的电影分析方法和手段也将在电影创作、制作、评论、欣赏、营销推荐等各环节中得到更为广泛的应用。