实在智能RPA学院智|法律人工智能的认知、现状和未来之认知篇

2020-04-21 03:26:37

只有了解法律人工智能的“真实当下”才能预判和迎接它的“可能未来”人工智能主要研究如何让机器来模拟人的智能，来处理一些特定的场景和应用问题。“高大上”的大数据统计界面，只是对数据的统计，不是人工智能；百度与Google等搜索引擎、今日头条等新闻推荐、中英翻译系统，应用了人工智能技术。人工智能的价值往往体现在它能够具体解决哪些具体问题上。一、系统具有人类的“智能”吗？可以做图灵测试判定。图灵测试，指测试者在与被测试者（一个人和一台机器）隔开的情况下，通过一些装置（如键盘）向测试者随意提问。进行多次测试后，如果有超过30%的测试者不能确定出被测试者是人还是机器，那么这台机器就通过了测试，被认为具有智能。二、人工智能三阶段：感知、认知、判断“感知”就像人类的感官，如视觉、听觉等器官帮助我们更好地观察世界与感知万物。例如：图像识别模仿了人类的视觉能力，语音识别模仿了人类的听觉能力。“认知”是更为深层次地知道，指通过思考，有意识参与的情况下达到的认识。具有常识的机器智能能够在感知的基础上进行“认知”，从而为“判断”奠定基础。“认知计算”，通常是指机器通过对自然语言（可能是音频、视频、图片或者文本）的理解，基于行业“常识”对行业知识进行理解。比如，2003年IBM的Watson就在智力问答比赛中打败了人类冠军。三、法律检索法律人的检索需求是法律大数据首先应当满足的基础需求。但目前有许多不足：数据受限、关键词检索精确度不足、分析困难（不能自动进行文书分析）等。法律人检索过程检索任务分析——>提炼关键词——>使用检索系统检索——>目标案例整理审核——>撰写检索分析报告检索系统的三阶段1）属性相似阶段。案件属性相似包括罪名、审判级别、审判程序、判决时间、审理法院等维度，它实现了简单的检索。2）文本相似阶段。文本相似是常见的模式，它经历了从词语匹配到语句匹配，最终到篇章匹配。相似的文本，但法律意义上可能有天壤之别，如：犯罪“数额较大”和“数额巨大”。3）要素相似阶段。法律要素是指影响法官裁量的最小颗粒度的法律事实。如故意伤害罪中，【持械】是影响定罪量刑的要素，但案件中的表示可能有“拿砍刀”，“抡起棍棒”，“掏出匕首”。我们需要检索的是否有持械这个要素，而不是具体工具。刑事案件中的定罪法律中也有细分领域存在明确的判定规则，比如，刑事案件找那个跟量刑相对的定罪。法律知识图谱的构建过程1）法律业务专家按照犯罪构成理论去构建知识图谱。2）根据故意伤害罪的法律特征，精细化拆分犯罪构成要素，定义基本的法律模式图。3）从法律数据中抽取相关知识点以及知识点之间的逻辑关系，将这些实体信息挂接到要素上。刑事量刑辅助系统：推送类似量刑情节的真实案例，提供量刑分析报告四、机器学习维基百科上对机器学习的几种定义：“ 机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能 ” 。“ 机器学习是对能通过经验自动改进的计算机算法的研究 ” 。“ 机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。” 一种经常引用的英文定义是：A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E 。可以看出机器学习强调三个关键词：算法、经验、性能。机器学习要发挥作用需满足的条件首先，用于训练的标签数据必须对解决特定问题确实实际有效。尝试模拟季节和法律服务费用之间的关系很可能是徒劳无功的，机器只能模拟学习实际存在的关系。其次，训练过程中必须尽可能穷尽有影响的因素。如果比较大的影响的因素或者特征存在，但该因素在训练过程中没有做为机器学习系统的输入，那么机器学习的效果可能受较大影响，或无法完成有效的学习。例子1：手写字体识别手写字体识别，运用了机器学习中的一种“分类算法”，它根据输入的手写图片，通过算法模型的不断学习迭代，分类到对应的标准字集合中，而在过程中并不需要设定固定的分类逻辑和步骤。如下图：例子2：垃圾邮件分类在邮箱的使用过程中，系统会根据不断的模型训练和反馈不段的自我优化，当一个新邮件进入邮箱时尝试自动判断是否属于垃圾邮件。在这个过程中不可避免地会有误判，此时用户通过操作纠正系统的认定，系统在后台记录这次操作对应的行为数据并加入下一次自学习循环。用户反馈形成新的训练数据，在使用过程中不断的优化。两类机器学习：监督学习与无监督学习监督学习的例子：一个根据案件特征因素评估刑事法律服务价格的系统。系统的输入是案件的特征，如罪名、犯罪严重程度、所在地区、犯罪人经济状况、刑期大致范围等，输出是法律服务价格。无监督学习的例子：仅通过案件的特征，想让机器得出一些规律性的结论。围棋 vs 法律Alpha Zero横空出世: 在没有使用任何人类棋局数据进行训练的情况下，三天之内通过自我对弈自学成才，将曾打败过李世石的Alpha Go版本赶下神坛，迅速击溃所有前代版本。Alpha Zero使用了强化学习，它让AI自行发现采取何种“行动”能够获得最大【回报】。围棋虽然运算量极大，但规则清晰确定，胜负判定简单分明。围棋的世界，封闭、明确、不存在随机性；法律，这个包罗了人类万千情态的领域却不是这样，每个部门法有很多争议，从一审到二审到再审判决结果可能各不相同。数据权：未来是AI云端的数据竞争时代数据保护 vs 数据流动1）【大众点评诉百度案】百度地图页面大量显示来自于大众点评网的完整点评信息，法院通过《反不正当竞争法》中的基本原则，对如何利用数据进行了规范。争议焦点，是对数据进行收集后如何进行利用才算合法。法院看重大众点评的整体商业模式，并认可了大众点评对用户点评的加工整理是一个劳动成果。上海浦东法院一审判决，百度公司停止不正当竞争行为，赔偿大众点评公司经济损失300万元及合理费用23万元。2）【数据分析公司hiQ诉LinkedIn案】hiQ一直利用LinkedIn平台上的公开数据，提供员工行为测评服务。但2017年5月LinkedIn确向hiQ发函，要求其停止爬取数据，同时以技术手段阻止hiQ继续获得数据。hiQ指出LinkedIn的行为违反了反垄断法的精神，将其在“职业社交网络服务市场“的市场力量，“传到“到“数据分析市场”；并且违反了“必需设施原则”。2017年6月，hiQ想加州北部地区法院提起诉讼，指控LinkedIn违法，包括违反了加州不公平竞争法。2017年8月，法院发出临时禁令，要求LinkedIn24小时内移除任何妨碍hiQ获取其公开数据的技术障碍。当前数据争议的研究重点是公共领域的界定。

上一篇文章

36氪专访实在智能,解密RPA+AI技术解决方案

下一篇文章

实在智能RPA学院|“猜心思”的Hard模式：问答系统在智能法律场景的实践与优化

金融服务商

通信运营商

零售电商

跨境电商

政府及公共服务

能源及制造业

医药行业

更多行业客户

实在智能RPA学院智|法律人工智能的认知、现状和未来之认知篇