标题 | 基于百度人工智能的拍照切题系统设计 |
范文 | 吴旭东 罗荣良 史庭蔚 陈云 摘要:近年来教育行业借助着互联网的蓬勃发展,智能化和信息化的程度大幅提升。而教师对于纸质试卷的错题、难题整理依然存在着效率较低的问题,基于百度人工智能拍照切题系统的设计充分利用人工智能技术,对图片自动进行畸变校正处理和百度OCR图文识别,并通过训练好的EasyDL平台对题目的题干和选项进行分类,更好地满足多种不同形式的教学,有效提高教师效率和教学效果,成为人工智能+教育背景下教师进行教学任务的好帮手。 关键词: 百度人工智能; 畸变校正; EasyDL; 百度OCR; 文本分类 中图分类号: TP181? ? ? ? 文献标识码:A 文章编号:1009-3044(2021)03-0199-02 Abstract:In recent years, the education industry has greatly increased the degree of intelligence and informatization with the vigorous development of the Internet. The design of the Baidu Artificial Intelligence (AI) camera-based question cutting system makes full use of AI technology to automatically correct distortion and Baidu OCR image recognition, and classifies question stems and options through the trained EasyDL platform to better meet the needs of different forms of teaching and learning. Improve teacher efficiency and teaching effectiveness, and become a good helper for teachers to carry out teaching tasks in the context of AI + education Key words:Baidu AI; distortion correction; EasyDL; Baidu OCR; text classification 引言 教育培训作为我国教育行业重要组成部分,在互联网浪潮下不断向信息化、智能化方向转型,实现了利用图片进行识别搜题的题库系统,但识别搜题结果未达到预期目标。就这一问题,本文提出了一种提高图片搜题识别率的技术方案,利用畸变校正技术[1]对问题图片进行校正后调用百度OCR进行图文识别,调用训练好的EasyDL平台文本识别模型对文本信息题干、选项进行分类,裁剪出试卷中各个题目,作为预处理后的图像来进行识别搜题。 1 系统相关技术 1.1 EasyDL开发平台 百度自主研发的飞桨平台为从事深度学习行业的开发人员提供了一整套工具。目前飞桨平台有开源版和企业版,本文利用开源版本中的EasyDL平台。飞桨平台具有快速的请求处理能力以及人性化的操作界面,极大地改善了用户的体验。 EasyDL是一个对文本、图像等进行识别并生成算法模型,还能够精准匹配用户识别功能需求的服务平台。该平台的操作界面清晰简洁,平台自动生成的算法模型对用户透明,对大多数没有深度学习基础的用户十分友好。在该平台下,用户只需要简单的上传数据并对相关数据打上标签,就能够轻松获得一个专属的算法模型。 1.2 透视矫正 OpenCV作为一款主流的图像处理函数库,给开发者提供了丰富的机器学习和计算机视觉方面的诸多算法,在图像识别以及图像处理领域得到了广泛应用。函数库中的Canny边缘检测函数和霍夫直线检测函数[2]专门用于获得图片轮廓,可用于计算图片区域的定位以及版面区域的划分。 为了对图片进行更有效的二值化,图片需要去噪声预处理,使用非局部平均去噪算法(NL-Means)对图片进行去噪处理,使图片在去噪后能够最大限度地保持清晰度且不丢失细节。其中,函数库中的cv2.fastnlmeansdenisingcolored方法为对彩色图片进行去噪处理一种解决方法。 对图片进行二值化处理,一张彩色图片需要变成灰度图之后才能进行二值化。每张图片的颜色都可以表示为像素点构成的像素矩阵。灰度化是指将一张彩色图片中的每个像素点的RGB值变为相等的过程,该值就是需要的灰度值。二值化就是根据设定的灰度阈值,将灰度图中高于阈值的灰度值修改为1,低于阈值的灰度值修改为0的过程。二值化的作用是使图片中的黑白轮廓更加明显。常用函数库中的cvtColor方法对图片进行灰度化,使用threshold方法对灰度图进行二值化。 在同一平面内,若干平行线通过该平面的投影后相交的一点称為灭点。灭点可以表示出三维立体的三个方向,对在二维图像中构建三维立体极为重要。试卷轮廓的四角坐标,可作为imutils.perspective.fourpointtransform(透视变换)方法的四个参数,用于对图片进行透视矫正。 1.3 图像文字识别 百度AI平台提供的图文识别技术能够获取附带文字位置信息的识别结果还[3]。 2 系统设计 本系统构架如图1所示。 图中各流程说明如下: 2.1 图像预处理 本系统使用OpenCV库,先对上传图片中不规范书卷进行透视矫正,针对双面试卷进行左右分割,然后除噪、二值化预处理。 2.1.1 透视矫正 上传的图片会因为人为拍摄的因素而出现倾斜的现象,极大影响了图像识别,因此本系统需要针对倾斜的照片进行透视矫正预处理。 使用OpenCV库中的Canny边缘检测函数和霍夫直线检测函数,在原图中找到试卷轮廓中四角的坐标,利用透视灭点原理将透视图转换为正视图,并根据四个点进行裁剪图像,继而得到规整的试卷图像。 2.1.2 双面试卷分割 百度OCR是按照从左到右的原则对双面试卷进行识别,而按照人类的阅读习惯是同页内容优先,自左向右再自上而下阅读。由于两者读取顺序不同,会直接导致识别结果以及分割结果的不同,所以需要对这种试卷进行左右分割。 检测出双面试卷中存在的空白区域,以该区域的中线切割源图像,具体步骤如下: 导入源图像,使用OpenCV工具对该图像进行二值化预处理。根据预先设置的位置截下感兴趣的区域(ROI),获得ROI区域每一列黑色像素的比例ArrayRate。遍历ArrayRate找到所有连续白色中列数最多的区域,即得到一个连续并近似纯白的区域[4]。蓝色为起始,红色为重点,默认蓝色和红色正中间是所要的截取线,如图2所示,还原比例后,通过截取线将双面试卷截取为左右两部分。 2.2 图像识别 本系统选用了百度OCR通用文字识别带位置版,用于获取附带文字位置信息的识别结果。 2.3 文本分类 EasyDL经典版支持创建8种模型:单标签文本分类、情感倾向分析、多标签文本分类、声音分类、视频分类、图像分割、物体检测和图像分类。本系统是基于EasyDL平台[5]的单标签文本分类技术的模型,经过训练后可用于区分试卷中的题干与选项。具体流程分为5个步骤,分别是: 1) 创建模型,确定模型名称,并填写模型的功能描述。 2) 准备数據,上传数据集,并对数据集加上标签,按照标签对数据集进行分类。 3) 训练模型,选择对应的数据标签进行模型训练。训练完成后查看模型评估报告,然后对模型功能进行校验。 4) 迭代模型,结合模型评估报告和校验结果不断扩充数据,再通过调整训练数据和算法进行多次训练,得到较好的模型效果。 5) 发布模型,将训练完成的模型部署在服务器上。 2.4 切割试卷 每个经过百度OCR处理后的图片返回的识别结果对象包含文本内容Text、文本位置Location,其中Location中又包含了top、left、height、width四个位置信息。通过文本分类模型,对题干与选项进行标记,使用以下步骤来划分题目: 1) 如果某一行被判断为题干,则表示该行为新题的区域。上一题的所有内容(该内容包括文本和位置信息)已经全部保存在一个question content集合中。 2) 将上一题的question content集合插入result集合后,清空question content集合并开始新题内容的保存。 识别对象被正确地归到一道题中时,利用四个位置信息得到一个整体的区域,如图3所示。 3 结论 本文深入研究了试题的拍照识别与分类过程中所遇到的问题。针对图片上传不规范、识别准确度较低等问题,通过百度人工智能技术、畸变校正以及EsayDL平台的综合运用,设计了该系统,大幅提高了试卷录入、分类的效率,减少了教师的工作量。具有较高的研究价值。 参考文献: [1] 唐维,任国强.基于射影矩阵变换的名片透视图像矫正[J].电脑知识与技术,2013,9(25):5711-5715. [2] 周雨楠,张俊伟.基于Tensorflow和OpenCV的手写体阅卷系统[J].电子世界,2020(13):99-101. [3] 唐涛,马泽.基于OCR的空间坐标自动提取——以广东省清远市清新区不动产存量数据整合为例[J].江西科学,2018,36(6):1024-1028,1038. [4] 魏传义,陈勤,张旻.基于投影的文本图像版面分割算法研究[J].现代计算机(专业版),2016(10):33-38. [5] 刘洋,史煜,曹雪倩,等.自动化机器学习在眼部疾病识别及分类中的初步应用[J].中国数字医学,2019,14(3):44-45,49. 【通联编辑:唐一东】 |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。