实在智能RPA学院|少年,看你骨骼清奇,送你一份AI武林秘籍:知识图谱


一、图谱一出,谁与争锋(图谱简史)

如果把人工智能领域比作江湖,机器学习和深度学习堪称武林中的屠龙刀、倚天剑,而知识图谱则是一部葵花宝典级的武林绝学。

知识图谱并非武林新生独创,其江湖地位久远。相传在六十年前,江湖上有三大门派:其一是连接派(神经网络),其二是经验派(机器学习),其三是符号派(知识工程)。三大门派明争暗斗,十余年后一部武林秘籍从符号派悄然流传于武林之中,受限于当时的环境,初出茅庐,其功力还未受到其他门派的重视,名号也毫无大侠之风——语义网络。当时语义网络由相互连接的节点和边组成,节点表示概念或者对象,边表示他们之间的关系(is-a关系,比如:打狗棒是一种兵器;part-of关系,比如:精钢是兵器的一部分)。在表现形式上,语义网络侧重于描述概念与概念之间的关系(门派武功剑谱等的层次分类体系),几十年后,符号派经历语义网络、逻辑描述、元数据、OWL等血雨腥风的磨砺,经历从弱语义到强语义的尝试,因了谷歌等一代宗师的继承研习,集各家所长,发扬光大而重出江湖,凝结出这部惊世绝学——知识图谱。知识图谱虽传承了语义网络衣钵,但更偏重于描述实体之间的关联(包括人物、兵器、武功等)。二者还有一个最显著的差异就是规模,传统语义网可称为小擒拿手,知识图谱则为禅宗大法。


二、得图谱者得天下(图谱作用)

知识图谱历经多年沉淀,集众家之长,以不变应万变:搜索引擎,问答系统,社交网络,电商平台,反欺诈,智能投顾等等。追溯其核心的应用能力,有如下几个方面。

1.为NLP输入浑厚内力

机器对自然语言的理解,需要有如下条件:足够大的数据规模,丰富的语义关系,完美的数据结构,优良的数据质量。知识图谱天然具备此要素:知识图谱规模巨大,实体可达到亿级;关系多样,目前通用的知识图谱,均有包含数千种常见语义关系;结构友好,SOP三元组的结构对于机器而言能够高效处理;质量精良,知识图谱可以充分利用大数据的多源特性进行交叉验证,也可利用众包保证知识库质量。所以知识图谱成为了让机器理解自然语言所需的背景知识的不二选择,使NLP内力骤增。

2.对XAI见招拆招

XAI(可解释人工智能)是人工智能的一个新兴分支,用于解释人工智能所做出的每一个决策背后的逻辑,有人称之为”人工智能的圣杯”。

日常生活中我们的问答搜索等,都涉及解释这件事。问几个问题:(1)神雕为什么会飞?因为鸟有翅膀;(2)为什么提到杨过会想到小龙女?因为他们是神仙眷侣;(3)为什么鹤顶红会致命?因为鹤顶红是一种毒药,俗称砒霜。三个答案,分别用属性、关系、概念来对问题做解释,而这三者,恰恰是包含于知识图谱里。因此,解释离不开知识图谱。知识图谱的应用不仅如此,它可应用于更多的人工智能场景,包含辅助问答、辅助决策、辅助搜索、常识推理等。

3.ML(DL)攻击力++

知识图谱与深度学习结合,可称霸武林。一种是将知识图谱的语义信息输入到深度学习模型中,将离散化的知识表示为连续化的向量,从而使得知识图谱的先验知识能够称为深度学习的输入;另外一种是利用知识作为优化目标的约束,指导深度学习模型的学习过程,通常是将知识图谱中的知识表示为优化目标的后验正则项。反之,在知识图谱的构建和扩展中,又依赖深度学习的强力支撑,阴阳互补,可以大成。


三、欲练此功,先修内功(图谱构建)

凡上乘武功,皆需内力深厚,外功扎实,绝不是一朝一夕即可练就,效仿葵花宝典,如若自宫,必不成功。郭靖的降龙十八掌至刚至柔,是因二十余年九阴真经的内力沉淀其中。知识图谱的修炼一般分四个等级。

1、内功心法:知识抽取(实体抽取,语义抽取,关系抽取,属性和属性值抽取)

所需技能:爬虫,NER(命名实体识别),ML,正则,相似度计算,马尔科夫逻辑网,DeepDive框架。

2、苦练招式:知识表示(SPO三元组,稠密低维实值向量)

常规招法:距离模型、单层神经网络模型、双线性模型、神经张量模型、矩阵分解模型、翻译模型。

升级招法:Trans系列、KG2E模型。

3、内外兼修:知识融合(实体对齐,本体构建、质量评估、属性校正)

所需技能:概率模型,机器学习,聚类算法。

4、集大成者:知识存储和推理。

必杀技能:图数据库,基于符号逻辑、OWL本体、图、TransR、分布式知识语义表示、深度学习等的推理方法)

四、法律图谱,初涉江湖



2018年底,实在智能包小黑苦练内功,实现了垂直领域法律知识图谱的构建和应用,在民事案由的智能评估中发挥智慧大脑的作用。法律知识图谱初现武林,秉公平正义之举,怀为国为民之心,修千家之好,迎百家之客,期待为人工智能发展和人类进步尽绵薄之力。

参考文献:肖仰华《知识将比数据更重要,得知识者得天下》