人工智能在类案推送下的应用探索
汪政辉
关键词人工智能 类案推送 法律适用统一
中国的司法质量及司法能力在不断完善,但与此同时,人民群众最关心的还是审判是否公正,所谓的公正,即包含裁判是否稳定。同样的一个纠纷,是不是能够得到稳定的裁判输出,当权利受到侵害,或者说社会、企业团体、人民群众遇到同样的问题,会不会每次都受到公平相同的裁判,执法是否统一和稳定。一、类案推送的评判标准
对于类案的标准也需要站在具体的需求场景中去分析,类案的应用在大部分场景中其实是为了保证司法办案人员的心理确信,特别是较为复杂的案件。以民事案件为例,对难以把握裁判结果的案件,争议焦点一致、案件标的基本一致,参考程度更大;而针对需要审理思路的案件,则只需要争议焦点基本相似即可,对于类似案件有一个判例审理经验的共享。
刑事案件的出发点为定罪和量刑,即案件的具体罪名的构成要素以及刑法总则中与量刑有关的要素信息,即刑法总则中有关量刑的要素及分则中对于罪名的犯罪构成要素及不同罪名中的要素信息。如何判断两个刑事案件的类似性,基于不同的需求存在不同的场景区分。第一种需求:案情相似的案件查找。这种案件解决的基本问题为类似案件的量刑以及类似案件的首先需要案件罪名一致,这同时包含了一人或多人数罪多罪名的案件的罪名一致性;其次案件的总则量刑要素一致,例如两个案件嫌疑人均是自首方式到案、且均是累犯,嫌疑人均是残疾人;最后确定分则中不同罪名的犯罪构成,即案情信息是否一致。这种方式可以较为精确的定位,但存在的问题是对于同案的罪名不同判的场景下,办案人员在难以把握案由的情况下如何推送准确的类案。第二种需求,案件裁判要旨一致的案件查找,针对某些特殊案件,难以查找到相似案例的情况下,需要基于案件的相似或者相同裁判要旨进行检索,推送类似案例,例如案件均涉及到诈骗罪与盗窃罪区分的问题,那么如何界定该案件是盗窃罪还是诈骗罪,对于此类此罪彼罪的问题寻找相似或者相同裁判要旨的案例,确定相似案件的法律适用情况及案件办案思路。二、人工智能技术现状
目前,人工智能总体属于发展阶段,我国人工智能水平与国外相比,差距仍然不小,我国的人工智能建设起步晚,但是前景十分广阔,追赶之势十分迅猛。人工智能的感知智能技术目前相对于较强,对于图片文字印刷体的识别能力较强,而对于中文的认知技术能力,由于才刚刚起步,顶尖技术仅能做到语言内容的查找,且大段信息识别的效果较差,需要将所识别的内容要素碎片化才可达到可用的效果。
人工智能的优势在于辅助查找,以及替代人完成繁重重复的简单工作。目前感知智能应用较为广泛的目前有人脸识别、语音与文字的转换、翻译以及图片转文字的OCR能力。而自然语言处理技术需要集合真实的场景,以人的经验和理解对机器进行训练,从而输出可以进行自动语义识别的模型,所以针对不同场景会输出不同功能的模型,从这方面来说认知智能技术难度要高于感知智能,不仅仅需要技术的积累,更需要对于场景的深入了解及细分。
目前人工智能技术在司法行业的应用主要包括了纸质卷宗的电子化,即将纸质卷宗中的内容转换为可复制可粘贴的文本信息;案件信息识别,即将案件卷宗中犯罪嫌疑人信息、发破案情况、案件事实等信息进行识别,输出有关发破案经过的辅助案件审查工作等等。在司法行业应用较为成功的例子当属上海“206工程”的证据校验功能,其能够对于证据材料进行识别,输出证据中所存在的瑕疵及问题,辅助办案人员进行证据合法性审查,推动司法规范化。三、類案的现状及存在问题分析
(一)类案应用现状分析
现有的类案在真实办案中的使用情况不容乐观。对于类案相关应用产品的了解,主要基于两个方面的信息点:一是通过网上的相关发布消息及公司网站的推广了解,进行相关信息的调研及产品试用;二是深入各法院检察院对检察官法官的日常工作中,所使用的相关类案产品及类案检索方式进行了解。基于前期很多调研,及相关专利资料以及论文的内容来看,目前类案的研究主要都是参与司法行业的企业所做的专利或者各法院研究室、各学者所做的关于类案推送的研究。其中应用推广现状较好的,可提供较完整数据的,在办案人员日常办案或者专家学者、律师日常工作提供推送、检索功能的主要有这几个产品:法信类案推送(由司法大数据研究院主导建立,是中国首个法律知识和案例大数据融合服务平台,2016年3月31日在中国最高人民法院上线)、上海二中院C2J(由上海二中院自主研发,上海全市推广)、北大法宝类案推送(由北京大学法制信息中心与北大英华科技有限公司联合推出的智能型法律信息一站式检索平台)。
在对于整体市场情况及相关功能了解的基础上,对相关产品进行了试用,确定基础上应用情况阐述目前大部分厂商所做产品的推送的使用方式主要为:(1)用户主动输入案情进行相似案件检索,一般在搜索框中输入案件案情进行检索;(2)用户选择案件标签(例如自首、入户盗窃、盗窃虚拟财产等与案情相关的标签)进行检索;(3)用户输入文书(目前主要为判决书、起诉书、起诉意见书),基于文书中的案情信息推送类似案件。
对以上的产品的类案推送的产品使用方式以及所推送的相关结果的维度及准确度进行分析,相关产品的后台逻辑一般分为两种:
第一种是依靠关键词以及分类检索的类案搜索功能,例如北大法宝、C2J。该种检索逻辑仅仅只能根据判决书或者相关典型案例中所出现的关键字来进行匹配搜索,而且一定要精确匹配上。例如输入搜索“匕首”,只能搜到文中带有“匕首”字词的判决书,而“小刀”“水果刀”等凶器均无法输出;搜索“到案后如实供述犯罪事实”并无法搜索出坦白的情节,即使可以搜到也只能搜到判决书中明确提到“到案后如实供述犯罪事实”内容的案情。
第二种是基于低级自然语言检索能力进行的全文匹配,例如法信、擎盾。即用户主动将案情全览输入进行检索或者用户输入某个文书(例如起诉书、判决书),基于对于案情的识别结果推送出相似的案件。但是经过试用并不能得到相似的案情,目前相关案情的搜索都仅仅只能搜索出极为简单的案情描述,且推送的结果并不准确。例如搜索“盗窃1000元”可以搜索出来与盗窃的价值1000元物品相关的案件,虽然搜索结果较粗;如果输入的搜索内容相对较为细致,例如“在2019年10月20日,王某某在上海市某小区入户盗窃苹果手机,手机价值4000元”,则出现两种情况,识别不出内容或者推送内容的关联度较粗并不是办案人员所需要的。
第三种是基于标签选择式的案情检索功能,例如法信,但此种检索的方式标签的设置维度较粗。这种方式相对来说更为准确一点,选择标签之后,以标签设置的维度为前提可以推送出与选择的标签相关联的案件的判决书。但仍然存在推送结果维度较粗的情况,所推送的内容也并不能达到理想化的状态,即推送的内容可以辅助进行案件审查。实际并没有推送和实际需要的类似案例。
综上所述,目前市面上的类案推送的产品实现逻辑均存在效果不好的问题,所推送出来的案件并不是办案人员需要的,案情的相似度并不高,仍然需要办案人员去一个个查找;同时办案人员从案件里面得到案件的办案思路及案件具体的细节描述的需求并没有得到满足,法律适用的思路也极为有限,并没有得到较好的应用。
(二)现有问题及难点分析
以下就现有的类案推送产品及其在办案场景下的应用情况综合来说主要存在以下问题
1.人工智能技术的不成熟
背景中已经提及,目前人工智能技术,特别是认知智能技术才刚起步,现有的人工智能技术的认知水平程度上来说也只有五六岁儿童的智力水平,人工智能技术尚在探索阶段,技术并不成熟。同时目前针对人工智能技术中认知技术的开发也是与实际的用户场景紧密结合的,目前人们对于这块的行业认知程度的不同,也导致了技术落地的难度加大。
2.数据积累不全面
目前的数据积累的不全面主要体现在目前的类案产品所推送的案例仅仅只局限于判决书,即使是公报案例也只是提供一些简单的案件关键信息及裁判要旨,但对于具体的案例办案思路及争议焦点、学界意见相对是缺失的,而且很多案件对于案件走向极为关键的细节案情也并无提及。办案人员实际需要的,其实是案件的整体走向,案件的争议焦点,案件的审判结论,学界意见等等。而对于办案人员来说,推送案件的全面数据,包括所推送案件的办案思路,案件的争议焦点归纳,相关学者的意见等等信息恰恰是能够辅助案件审查的关键,提升办案人员的心理确信。
3.数据质量无保障
产品所推送的裁判文书数据来源并不确定,其次文书所涉及的案件的办案质量也无法保障。目前类案推送产品的文书资源来源基本来源于裁判文书网的判决书数据以及最高检发布的指导案例及最高法、各省、直辖市、自治区高级人民法院、检察院发布的典型案例。指导案例及典型案例相对质量较高,但是裁判文书网的案件数据并没有进行筛选过,很多数据甚至存在错别字情况。
4.业务理解不充分
目前普遍存在一个问题,即对于司法办案业务熟悉了解的人对于技术并不了解,而对于技术了解的人对于司法办案业务及法律知识并不了解,现在很多高校已经开设了人工智能法学专业,为这方面的问题提供了一种解决思路。四、解决思路及路径
对于目前所存在的问题,在智慧司法这一背景下,为了达到类案推送的实际作用,不仅仅是技术方面的推动,最重要的其实是底层的法学知识、法律资源及案件审查方法论的支撑,即类案推送的知识维度+推理模型构建,这样才能为司法所用,为办案人员所用。如图1所示,建立底层的基础数据及知识库显得尤为重要,这就需要法律法规、裁判文书、案例库以及法学知识的支撑,但只有基础数据并没有办法实现有效的利用,如何在海量的数据中找到办案人员所真正需要的,这时候就需要知识库将数据进行分类,碎片化,便于检索、推送。建立类案的知识图谱,将法律推理形式拆解为完整的制定法规则.案件事实.裁判结论.裁判思路,在此论证结构下类案同判的法律推理构成要素为指导性案例中的裁判要点和裁判规则,形成了案件相似性判断以及价值论辩的内部证成以及外部证成过程。最后基于人工智能的底层能力基础及计算机技术将知识与数据相结合,形成真正的应用平台。
(一)建立完备的法律大数据体系
数据的收集要保证足够完整,不出现纰漏,保证法律资源数据的完整性与及时性。从文书数据方面来说,尽管最高人民法院2013年所建立的裁判文书网构建裁判文书的统一收集渠道,但数据库中所包含的文书主要是近几年的,缺乏长时间的验证及司法经验的提炼,数据不完整,参考价值有限。从法律法规依据方面来说更新的法律法规,司法解释,指导意见等需要及时更新,在大数据及人工智能技术蓬勃发展的背景下,充分利用数据收集所带来的红利。
(二)形成完备的知识架构体系
法律数据碎片化的质量与程度决定了类案推送结果的质量,只有建立完备的知識架构习题,才能将法律科学技术与法律业务场景紧密结合起来,确定案件审查的逻辑,确定标签体系的合理性,类案推送的结果才能具有最佳的数据匹配效果。这就需要具有法律业务知识的人加入知识架构体系的建立中,完善现有产品的知识架构体系。
(三)技术快速迭代升级
认知智能技术优化程度决定了识别效果的准确性,至少需要达到准入门槛,这就需要基于所构建的完备的知识架构体系对模型进行精确化训练。第一步,准确识别所构建标签体系的内容,将判决书等文书进行碎片化处理,形成一个个碎片化的审查依据;第二步,将碎片化的审查依据基于知识的逻辑进行重组排列并一一对应起来,形成准确的类案推送结果。
(四)确定统一的证据证明标准
在立法上利用补充详细的司法解释等手段来实现法律适用统一,明确法律适用的范围以及证据证明标准,基于办案经验及分析近年来的案件证据体系来确定案件的证据体系,输出案件情形所需要的不同案件证据体系,明确各类案件情形证据的证明力及证明标准,确定统一的规则,形成完整证据链条。通过明确事实认定和情节认定的证据体系依据,增强办案人员内心确信,提升整体办案质量。五、结语
缓解人案矛盾以及统一法律适用是当下检法系统面临的更加迫切的问题,已经不断有在这方面进行探索的产品应用的出现,但在调研的过程中不断会收到基层办案人员对于科技手段运用在办案场景中表现出了极大的抵触情绪和方案。如何缓解这一矛盾以及如何推动法律适用统一成为了当前比较迫切解决的问题之一。通过将大数据及人工智能技术融入司法办案中,实现类案知识推送的精细化,是解决当前问题的重要举措。我相信在不久的将来,人工智能能够融入司法办案过程中,与司法办案过程紧密结合,实现“让人民群众在每一个司法案件中感受到公平正义”。