实在智能RPA学院智|法律人工智能的认知、现状和未来之认知篇


只有了解法律人工智能的“真实当下”才能预判和迎接它的“可能未来”

人工智能主要研究如何让机器来模拟人的智能,来处理一些特定的场景和应用问题。

“高大上”的大数据统计界面,只是对数据的统计,不是人工智能;百度与Google等搜索引擎、今日头条等新闻推荐、中英翻译系统,应用了人工智能技术。人工智能的价值往往体现在它能够具体解决哪些具体问题上。



一、系统具有人类的“智能”吗?


可以做图灵测试判定。图灵测试,指测试者在与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向测试者随意提问。进行多次测试后,如果有超过30%的测试者不能确定出被测试者是人还是机器, 那么这台机器就通过了测试,被认为具有智能。


二、人工智能三阶段:感知、认知、判断


“感知”就像人类的感官,如视觉、听觉等器官帮助我们更好地观察世界与感知万物。例如:图像识别模仿了人类的视觉能力,语音识别模仿了人类的听觉能力。

“认知”是更为深层次地知道,指通过思考,有意识参与的情况下达到的认识。具有常识的机器智能能够在感知的基础上进行“认知”,从而为“判断”奠定基础。

“认知计算”,通常是指机器通过对自然语言(可能是音频、视频、图片或者文本)的理解,基于行业“常识”对行业知识进行理解。比如,2003年IBM的Watson就在智力问答比赛中打败了人类冠军。


三、法律检索


法律人的检索需求是法律大数据首先应当满足的基础需求。但目前有许多不足:数据受限、关键词检索精确度不足、分析困难(不能自动进行文书分析)等。

法律人检索过程

检索任务分析——>提炼关键词——>使用检索系统检索——>目标案例整理审核——>撰写检索分析报告


检索系统的三阶段


1)属性相似阶段。案件属性相似包括罪名、审判级别、审判程序、判决时间、审理法院等维度,它实现了简单的检索。

2)文本相似阶段。文本相似是常见的模式,它经历了从词语匹配到语句匹配,最终到篇章匹配。相似的文本,但法律意义上可能有天壤之别,如:犯罪“数额较大”和“数额巨大”。

3)要素相似阶段。法律要素是指影响法官裁量的最小颗粒度的法律事实。如故意伤害罪中,【持械】是影响定罪量刑的要素,但案件中的表示可能有“拿砍刀”,“抡起棍棒”,“掏出匕首”。我们需要检索的是否有持械这个要素,而不是具体工具。


刑事案件中的定罪

法律中也有细分领域存在明确的判定规则,比如,刑事案件找那个跟量刑相对的定罪。

法律知识图谱的构建过程

1)法律业务专家按照犯罪构成理论去构建知识图谱。

2)根据故意伤害罪的法律特征,精细化拆分犯罪构成要素,定义基本的法律模式图。

3)从法律数据中抽取相关知识点以及知识点之间的逻辑关系,将这些实体信息挂接到要素上。


刑事量刑辅助系统:推送类似量刑情节的真实案例,提供量刑分析报告


四、机器学习


维基百科上对机器学习的几种定义:

“ 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能 ” 。

“ 机器学习是对能通过经验自动改进的计算机算法的研究 ” 。

“ 机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。” 一种经常引用的英文定义是:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E 。

可以看出机器学习强调三个关键词:算法、经验、性能。

机器学习要发挥作用需满足的条件

首先,用于训练的标签数据必须对解决特定问题确实实际有效。

尝试模拟季节和法律服务费用之间的关系很可能是徒劳无功的,机器只能模拟学习实际存在的关系。


其次,训练过程中必须尽可能穷尽有影响的因素。

如果比较大的影响的因素或者特征存在,但该因素在训练过程中没有做为机器学习系统的输入,那么机器学习的效果可能受较大影响,或无法完成有效的学习。


例子1:手写字体识别

手写字体识别,运用了机器学习中的一种“分类算法”,它根据输入的手写图片,通过算法模型的不断学习迭代,分类到对应的标准字集合中,而在过程中并不需要设定固定的分类逻辑和步骤。如下图:

例子2:垃圾邮件分类

在邮箱的使用过程中,系统会根据不断的模型训练和反馈不段的自我优化,当一个新邮件进入邮箱时尝试自动判断是否属于垃圾邮件。

在这个过程中不可避免地会有误判,此时用户通过操作纠正系统的认定,系统在后台记录这次操作对应的行为数据并加入下一次自学习循环。用户反馈形成新的训练数据,在使用过程中不断的优化。


两类机器学习:监督学习与无监督学习

监督学习的例子:一个根据案件特征因素评估刑事法律服务价格的系统。系统的输入是案件的特征,如罪名、犯罪严重程度、所在地区、犯罪人经济状况、刑期大致范围等,输出是法律服务价格。

无监督学习的例子:仅通过案件的特征,想让机器得出一些规律性的结论。


围棋 vs 法律

Alpha Zero横空出世: 在没有使用任何人类棋局数据进行训练的情况下,三天之内通过自我对弈自学成才,将曾打败过李世石的Alpha Go版本赶下神坛,迅速击溃所有前代版本。Alpha Zero使用了强化学习,它让AI自行发现采取何种“行动”能够获得最大【回报】。


围棋虽然运算量极大,但规则清晰确定,胜负判定简单分明。围棋的世界,封闭、明确、不存在随机性;法律,这个包罗了人类万千情态的领域却不是这样,每个部门法有很多争议,从一审到二审到再审判决结果可能各不相同。

数据权:未来是AI云端的数据竞争时代


数据保护 vs 数据流动

1)【大众点评诉百度案】百度地图页面大量显示来自于大众点评网的完整点评信息,法院通过《反不正当竞争法》中的基本原则,对如何利用数据进行了规范。争议焦点,是对数据进行收集后如何进行利用才算合法。法院看重大众点评的整体商业模式,并认可了大众点评对用户点评的加工整理是一个劳动成果。

上海浦东法院一审判决,百度公司停止不正当竞争行为,赔偿大众点评公司经济损失300万元及合理费用23万元。


2)【数据分析公司hiQ诉LinkedIn案】hiQ一直利用LinkedIn平台上的公开数据,提供员工行为测评服务。但2017年5月LinkedIn确向hiQ发函,要求其停止爬取数据,同时以技术手段阻止hiQ继续获得数据。hiQ指出LinkedIn的行为违反了反垄断法的精神,将其在“职业社交网络服务市场“的市场力量,“传到“到“数据分析市场”;并且违反了“必需设施原则”。2017年6月,hiQ想加州北部地区法院提起诉讼,指控LinkedIn违法,包括违反了加州不公平竞争法。

2017年8月,法院发出临时禁令,要求LinkedIn24小时内移除任何妨碍hiQ获取其公开数据的技术障碍。

当前数据争议的研究重点是公共领域的界定。