首页 > 互联网

产物司理的学问图谱入门实操

日常生活中不是所有的事物都可以用这三个数据类型来被描述,比如一个人、一张图片、一段视频,这些东西应该怎么描述呢?根据Web技术领域权威标准机构W3C指定的知识图谱描述标准,所有的知识应该用资源描述框架(Res…

产物司理的学问图谱入门实操

1.1 什么是学问图谱

人工智能的终极目的,是让盘算机可以运用人类思索题目的体式格局来处置惩罚题目,到达智能化从而解放人类的脑力,让人们的生涯越发便利,越发有用力。虽然自90年代以来互联网手艺已蓬勃生长了30年,然则盘算机的才还远远达不到人们希冀的智能化水平,基础的缘由在于如今盘算机关于数据的存储和运用体式格局,与人脑思索题目的体式格局另有着本质上的分辨。

如今已网页为主要载体的互联网信息,都是以字符串、数组等半组织化的数据范例组合而成的超文本链接。关于盘算机而言,任何一个以笔墨来示意的信息都是0和1组成的二进制字符串,个中的差别只是文本存储空间所占大小的差别,笔墨所示意的语义信息并不能被盘算机所明白。

而人却可以从差别的笔墨中解读差别的信息,这是由于人可以明白差别的笔墨所指代的差别寄义,而且可以根据一些划定规矩,对笔墨之间的关联举行推理。

举个简朴的例子来说,当看到“他儿子本年出生了”这段笔墨时,我们可以揣摸出文中的“他”应当有个老婆,也就是“儿子”的母亲,而且儿子的岁数是如今是0岁。虽然笔墨中并没有明白的表达这些信息,但可以根据基础知识揣摸出这些信息,这些基础知识或许划定规矩我们称之为“学问”。

那末,有无可以让盘算机可以明白这些笔墨所代表的实在寄义,做到像人一样经由历程学问对这些信息举行明白和推理呢?

万维网之父蒂姆·伯纳斯·李(Tim Berners-Lee)曾说过:“我有两个妄想:第一个是衔接天下上的每一个人,如今这个妄想已经由历程互联网完成了,第二个妄想是衔接天下上的每一个事物,这个荣耀的使命交给了语义网。”

时至今日,这项手艺已阅历了语义收集、本体论、语义网、链接数据、学问图谱几个阶段。

在2012年,谷歌初次将学问图谱手艺运用在搜刮引擎中,以提拔搜刮的才。在过去没有运用学问图谱手艺时,用户搜刮某些信息,搜刮引擎会将搜刮的关键词与网站的文本做婚配,根据婚配度来展示对应的网页信息,所以假如用户想晓得一个题目的答案,但却不晓得答案的关键词应当搜什么的时刻,往往会搜不到自身想要的结果。

但引入学问图谱以后,引擎会根据学问图谱来展示相干信息,用户可以运用自然言语来举行搜刮,搜刮引擎剖析用户的题目以后根据学问图谱来查询对应的结果,自此正式最先了学问图谱在产物中的运用。

如今各大搜刮引擎也都邑根据学问图谱来展示搜刮的内容,比方在百度中搜刮“中国的都城”,搜刮的结果会直接显现“北京市”相干的百度百科信息,如图所示。

产物司理的学问图谱入门实操

经由历程学问图谱的构建,用户可以运用自然言语来查询相干的信息,越发相符人的头脑体式格局,从而更疾速的协助用户找到所需的信息。如今除了搜刮引擎以外,学问图谱还普遍运用于交际、金融、教诲、医疗等多个范畴。接下来,我们离别细致引见一下学问图谱的手艺要点。

1.2 对象、实例与RDF学问示意

起首,我们须要相识一下怎样形貌一个“学问”。在之前的章节,我们提到过数据分为三种范例,离别是名义数据、登记数据和一连数据。然则一样平常生涯中不是一切的事物都可以用这三个数据范例来被形貌,比方一个人、一张图片、一段视频,这些东西应当怎样形貌呢?这里要用到面向对象的观点。

什么是对象呢?我们刚说的一个人、一张照片、一段视频,都可以称之为一个对象,对象中包含了林林总总的属性,比方人有名字,岁数,身高这些属性,每一个人都邑有这些属性,但属性的值可以不一样,当我们把属性的值具象化以后,就可以够定义到一个详细的人,比方张三,那末张三就称之为人这个对象的实例。

如图所示:

产物司理的学问图谱入门实操

关于对象而言,假如互相之间存在包含关联,则称之为父类对象和子类对象。比方把人作为一个对象,这个对象实在可以进一步细分为男子和女人,那末人就是男子的父类对象,男子是人的子类对象,张三则是男子这个子类对象的实例。如图所示:

产物司理的学问图谱入门实操

相识了对象、类与实例之间的关联以后,我们就可以够进入到学问图谱的正题——学问示意了。根据Web手艺范畴威望范例机构W3C指定的学问图谱形貌范例,一切的学问应当用资本形貌框架(Resource Deion Framework,RDF)举行形貌,并对其他与学问图谱相干的手艺举行了定义,如图所示:

产物司理的学问图谱入门实操

RDF中的R示意页面、图片、视频等任何具有一致资本标识符(Uniform Resource Identifier,URI)的资本,D示意属性,即特征和资本之间的关联,F示意模子以及形貌的语法。简朴来说,每一条RDF学问表述都可以以一个主谓宾的语句情势涌现,比方{中国,都城是,北京},个中“中国”“北京”是两个实体,而“都城是”则示意两个实体之间的关联。

在RDF中老是两个实体,以及两个实体之间的关联三者组成,所以RDF又简称三元组,如图所示:

产物司理的学问图谱入门实操

须要注重的是,每一个RDF的实体都要有一个唯一的URI举行标识,但RDF也是许可空缺节点存在的,同时实体资本也可以许可匿名资本的存在,即不标识详细的资本,只标识资本的范例,作为衔接别的实体的桥梁。

虽然RDF是学问图谱的基石,但其自身关于事物的形貌才异常有限,根据RDF的定义我们可以发明,组成RDF的三元组中,两个实体都具有唯一标识,因而缺乏泛化笼统的才,没法对统一个种别的事物举行定义和形貌。举个例子来说,我们可以经由历程RDF来形貌中国的都城是北京,但假如愿望归结出一切国度与都城之间的关联以及他们的属性,仅仅用一条实例的RDF是没法完成的。

学问的泛化才关于学问图谱完成智能化而言异常主要,只要具有归结出笼统学问的才,才掩盖更普遍的学问。那末要怎样做才处置惩罚RDF的这个题目呢?

我们在之前解说了父类、子类与实例之间的关联,关于RDF而言也可以经由历程类似的组织来对学问举行泛化的形貌,这就是我们接下来要讲到的本体言语——RDFS和OWL。

1.3 RDFS与OWL本体言语

RDFS是最基础的本体言语,个中的S示意Schema,可以示意某些实例的笼统属性。详细而言,包含的中间辞汇如表所示:

产物司理的学问图谱入门实操

举例来说,我们可以经由历程来示意父类与子类之间隶属的关联。如图所示,中国事国度这个类的实例,北京是都市这个类的实例,而都市和国度又都是区域这个父类的子类,经由历程RDFS可以清楚的分别出类与实例之间的条理关联,并经由历程类之间的关联衔接来推理出更多的学问。

在本例中我们可以揣摸一个国度的都城是某一个都市如许的学问,如许就可以够泛化的涵盖一切国度与都城都市之间的关联衔接,这类关于学问的泛化在语音智能问答产物中是异常主要的手艺,我们会在后续的文章中对智能问答产物做细致解说。

产物司理的学问图谱入门实操

虽然经由历程RDFS可以示意一些简朴的语义,但在更庞杂的场景下,RDFS语义表达才显得太弱,在表达学问的才上依旧存在缺点,缺乏诸多经常使用的特征。

比方关于部份值域的属性定义:RDFS中经由历程rdfs:range定义了属性的值域,该值域是全局性的,但没法示意该属性运用于某些详细的类时具有的特别值域限制;没法示意多个类、实例和属性之间是等价照样不等价;没法示意多个类之间是订交关联照样互斥关联;没法对某些属性值的取值局限举行束缚;没法示意某些属性具有通报性、函数性等特征等。

由于RDFS没法很好的满足学问的示意需求,W3C在2002年宣布了OWL本体言语(OWL,Web Ontology Language)作为RDFS的扩大,并将其作为语义网中示意本体的引荐言语,如今OWL已迭代至OWL2版本,最初的OWL又称之为OWL1。

相较于RDFS,OWL扩大了异常多的形貌属性,弥补了RDFS的不足之处,比方增添了等价性声明、通报关联声明、对称性、数值束缚等。以下为主要的中间形貌辞汇:

产物司理的学问图谱入门实操

除了以上枚举的几种以外,OWL另有异常多的属性形貌辞汇,在构建学问图谱时须要相识这些属性辞汇,并具有相干范畴的专业学问才正确的形貌出学问的特征,假如须要相识更多的OWL相干形貌,可以经由历程W3C的官方文档检察。

2. 学问图谱构建流程 2.1 学问建模

学问图谱从掩盖的学问面来分,可以分为通用学问图谱(General-purpose Knowledge Graph,GKG)和行业学问图谱(Domain-specific Knowledge Graph,DKG)两种范例,行业学问图谱因运用的场景是面相特定的范畴,故又称范畴学问图谱。虽然他们都是学问图谱,但在学问示意、学问猎取和学问运用层面来看,二者又有很大的分辨,如表所示。

产物司理的学问图谱入门实操

第一是从学问广度来看,通用学问图谱掩盖的学问面较宽,主要涵盖的是一样平常生涯中的基础知识性题目,比方Google搜刮引擎的学问图谱就是面相全范畴的通用学问图谱,在2012年宣布时就包含了5亿多个的实体,10亿多条的关联,中文的典范通用学问图谱有复旦大学学问工厂试验室研发并保护的大范围通用范畴中文百科学问图谱(CN-Dbpedia),该项目包含900多万的实体信息以及6700多万的三元组关联,已在问答机械人、智能玩具、伶俐医疗、伶俐软件等范畴产生了3.5亿次API调用量。

行业学问图谱的广度平常较窄,平常只涵盖某一个专业范畴的相干学问,如今除搜刮引擎和语音助手运用的学问图谱外,大多半的学问图谱项目都是行业学问图谱。典范的运用比方美国帕兰提尔(Palantir)公司的政务范畴学问图谱, GeoNames的环球地理学问图谱(该数据库包含了近200种言语的1100万个地名和200万种别号),以及国内包含了中医养生、中医美容等内容的中医药学问效劳系统(TCM knowledge service system)等,如图所示。

产物司理的学问图谱入门实操

第二是从学问深度来看,通用学问图谱的层级系统平常较浅,关于学问的泛化而言平常没有太多的归结,这与通用学问图谱猎取学问的体式格局有关,也跟通用学问图谱的运用场景有关,关于通用学问图谱而言多半的运用场景都是基于某个详细的实体。而行业学问图谱的层级系统平常较深,比方在电商范畴的商品分类中,关于打扮的分类就不仅仅只是上衣和下装这么简朴,种种作风、时髦元素、样式、材质都有可以组成差别的类。

第三是从学问颗粒度来看,通用学问图谱的颗粒度平常比较粗,而行业学问图谱平常颗粒度较细。在通用学问图谱中,组成学问的基础单位平常是一个完全的文档或许资本,比方一篇文章,一首歌,一个视频等。然则关于行业学问图谱而言,须要的颗粒度根据营业的差别要分别为更细的颗粒度,以教诲范畴的学问图谱为例,一个数学公式、一篇语文课文中的一句话、一个英文单词都有可以组成自力的学问实体,才满足门生关于个性化进修的需求。

正由于通用学问图谱和行业学问图谱的运用场景有很大的差别,让这两种学问图谱的学问猎取体式格局有着显著的分辨,关于学问猎取体式格局而言可以根据人工介入度的差别分别为自顶向下和自底向上两种要领。

详细来说,行业学问图谱大多采纳自顶向下的学问猎取要领,这类要领是经由历程范畴专家手工将学问举行整顿和归结,编辑为学问图谱的数据组织。

该要领的长处在于可以满足产物关于学问专业性的及威望性的请求,比方医疗范畴的学问图谱关于学问的专业性就有着严厉的请求,必需由具有相干才的专家来举行编辑。同时,手工编辑也可以将学问图谱设想的观点和局限限制在可控的局限内。

比方“古龙”这个实体假如是在文学学问图谱上,代表的是一个作家,但假如放在美妆学问图谱中,代表的则是一款香水,假如不对学问图谱的运用局限举行限制章很有可以涌现歧义。

专家介入编辑让行业学问图谱具有相对较高的正确性,但同时也带来了许多的弊病,起首是奋发的人力本钱,平常编辑一个学问图谱须要竖立一个专家团队,团队中的成员须要同时具有范畴学问以及盘算机学问,人力市场上能满足前提的人异常希少,人工本钱居高不下。

根据相干材料,Google编辑一条RDF三元组的人工本钱均匀须要0.8美金。怎样能做到项目统筹本钱与结果是每一个做学问图谱的产物司理要思索的题目。

别的一个不足之处是行业学问图谱可以有多个数据编辑者或数据泉源,致使数据的花样不一致,这类数据术语称之为多源异构数据,怎样制订相干的划定规矩,将差别花样的数据转化为一致的花样也是产物司理在定义数据处置惩罚划定规矩时须要斟酌的题目。

通用学问图谱多采纳自底向上的要领猎取学问,这类要领是基于行业现有的范例数据库举行转换,或从现有的高质量数据源中提取学问本体以及本体之间的关联,主要运用于搜刮、引荐、问答等营业场景。

因其强调学问的广度,数据主要来自于互联网上的公然信息,所以很难天生完全的全局性的本体层举行一致的治理。但由于学问猎取的自动化水平较高,所以关于一些新的观点和新的关联可以很好的涵盖。

从学问的运用层面来看,通用学问图谱的学问相对希罕,所以学问推理链条较短,平常来说推理操纵都是基于高低文的一到两步的推理,假如超越这个很轻易涌现语义漂移(semantic drift)征象,让推理的结果答非所问,人工智能秒变人工智障。而行业学问图谱的推理链条可以较长,更合适须要举行庞杂推理和盘算的场景。

2.2 组织化与半组织化学问猎取

从差别的泉源、差别组织的数据中举行学问提取存入到学问图谱,这一历程我们称之为学问猎取。从学问的泉源大抵可以分为三类,离别是组织化数据转换、半组织化数据提取和非组织化文本数据提取。

(1)组织化数据转换

语义网的目的是发起以RDF为范例数据模子的数据网,但当前大多半Web数据源是由关联型数据库(RDB)驱动的,因而怎样将RDB数据集向RDF数据集举行映照一直是语义网范畴的研讨热点。

组织化数据转换就是指将关联型数据库数据,转换为RDF组织学问图谱的学问猎取体式格局。W3C在2012年特地为此制订了一个范例R2RML(Relational database to RDF Mapping Language)。这是一种可以用于示意从关联型数据库到RDF数据集的自定义映照的言语,经由历程这类映照关联,我们可以将关联型数据库中的数据转换为自定义的学问图谱组织。

虽然这类转换并没有直接天生真正的RDF数据集,仅仅只是在数据库和学问图谱的本体中间做了一重映照关联,然则经由历程示意映照关联的mapping文件,系统可以将对RDF三元组的查询等操纵翻译成对应的SQL语句,疾速将企业过去积聚的数据转化为学问图谱,这类转化后的数据自身以及数据之间的关联都相符营业的须要,可以让产物疾速落地举行迭代。

(2)半组织化数据

半组织化的数据是指没有根据RDF花样,然则却有着肯定规律的收集数据,经由历程收集爬虫爬取完全的网页信息以后,再经由历程包装器(wrapper)将其转换成学问图谱数据。

半组织化的数据泉源主要有两个,一是维基百科、百度百科这类百科网站的信息表格(infobox),别的则是泉源于各种网页中的文本、列表数据,如图所示。

产物司理的学问图谱入门实操

在百度百科中搜刮乔布斯的相干词条会发明如许一个表格,表格中细致记录了乔布斯与其他实体之间的关联,与搜刮的词条之间构成了一个完全的 RDF三元组,比方乔布斯的国籍是美国。经由历程对百科网站的infobox举行信息抽取,可以疾速取得高质量的学问实体。然则,经由历程infobox只能抽取到实例层数据,关于类层面的关联还须要经由历程别的体式格局来举行构建,比方自顶向下由范畴专家构建。

关于其他的网页信息而言,抽取数据时须要过滤掉网页中含有的广告、外链等冗余信息,只保存有现实须要的学问信息,这须要根据网页的HTML代码标签构建专用的网页包装器。

假如给每一个网页都开辟一个特地的包装器,不仅须要投入大批的开辟人力,而且通用性会比较差,为相识决这个题目,可以先对须要爬取的网页举行聚类,针对聚类来设想包装器会大幅进步学问猎取的速率。

经由历程爬虫和包装器抽取互联网的公然信息会面对一个题目,就是跟着网站的更新迭代,网页的信息组织可以会发作转变,既是一个笑容的更改也可以会致使底本构建的包装器失效没法再继续事情。关于这个题目最简朴的方法是从新竖立一个新的包装器以顺应网站的晋级,然则假如爬取的网站数目异常多,这类做法不只效力很低而且会给开辟人员带来很重的事情累赘。

为了能保持包装器的一般事情,我们可以对须要收集的数据举行数据标注,用机械进修的要领对数据的特征举行进修并构建出模子,进而在全部网页站点下运用模子自动天生新的包装器举行数据的抽取。

2.3 非组织化学问猎取

与全部互联网的数据比拟,百科类网站的学问库只是九牛一毛,除了网页中半组织化的数据以外,还存在着海量的无组织网页文本数据。怎样将这些文本数据中的学问抽掏出来是许多盘算机科学家的研讨方向。

比方华盛顿大学Oren Etzioni传授主导的开放信息抽取(open information extraction,OpenIE)项目,该项目从1亿个网页中抽取了5亿条数据,如图所示。另有卡耐基梅隆大学Tom Mitchell传授主导的永不住手的言语进修(never ending language learning,NELL)项目,这个项目从公然网页中抽取了5万万条数据。

产物司理的学问图谱入门实操

(1)实体抽取

从无组织的文本中抽取学问,起首须要辨认文本中的实体,这个历程称之为做定名实体辨认(Named Entity Recognition,NER),定名实体辨认属于自然言语处置惩罚中的一项基础使命,同时也是关联抽取、事宜抽取、机械翻译、问答系统等多个NLP使命的基础事情,其目的是从文本中抽掏出具有特定意义的实体,平常包含实体类、实践类、数字类三个大的种别,以及人名、地名、组织机构、时候、日期、钱银、百分比。

除此以外,也可以根据项目的须要指定特定范畴内的实体,比方书名、疾病名、事宜名等,只如果营业目的须要的实体,都可以做为实体抽取对象。

在中文文本数据中举行实体抽取比拟英文文本数据而言难度更大,起首是由于英语中的实体定名有异常显著的情势标志,每一个单词之间用空格离隔,而且实体的每一个词第一个字母是大写,所以辨认的难度相对轻易。而中文没有类似英文文本中空格之类的边境标识符,所以要做定名实体第一步是要肯定词与词之间的边境,将词与词之间间离隔来,这个历程称之为分词。

第二点是定名实体自身的组成比较庞杂,不停会有新的实体称号涌现,比方新的人名,地名,物品名等,而且定名实体的长度也没有限制,差别的实体可以会有差别的组织,比方少数民族人名或许翻译的外国人名,难以竖立大而全的实体数据库,分词手艺关于这部份的实体辨认相对来说难度会高许多。

第三点是在差别的文本材估中,定名实体之间可以会涌现嵌套的状况,互相交织以及互相包含,须要根据高低文才揣摸出定名实体实在的意义。比方“北京大学的门生列入了活动会”,可以分别为“北京大学/的/门生/列入/了/活动/会/”,也可以分别为“北京/大学/的/门生/列入/了/活动会”,差别的分别要领会构成实体辨认的差别。

关于分词,我们会在后续的自然言语处置惩罚章节细致解说。这里仅对定名实体的经常使用手艺要领做一个概述。如今关于定名实辨认的主要要领分为三种:基于划定规矩和辞书的要领、基于统计和机械进修的要领以及前二者夹杂运用的要领。

基于划定规矩和辞书的要领是由言语学家或营业专家手工组织划定规矩模板,定义好须要抽取的定名实体,以字符串的婚配作为主要的手腕,这是定名实体抽取最早运用的要领,提取的结果异常精准,然则这类系统大多依靠于学问库和辞书,系统的泛化性不高,关于差别的系统须要从新编写划定规矩,而且人力投入过大,建立的时候周期也较长,只合适于那些不会有太多新实体的范畴学问图谱构建。

基于统计和机械进修的要领主要包含隐马尔可夫模子(HMM)、前提随机场(CRF)、长短时间影象收集(LSTM)、最大熵模子(MaxEnt)等要领。这类实体抽取的要领关于特征的挑选请求较高,须要从文本中挑选对该项使命有影响的种种特征,并将这些特征到场到特征向量中。

根据特定定名实体辨认的特征,斟酌挑选能有用反应该类实体特征的特征鸠合。主要做法是经由历程对练习预感所包含的言语信息举行统计和剖析,从练习预估中挖掘出特征。有关特征可以分为详细的单词特征、高低文特征、辞书及词性特征、停用词特征、中间词特征以及语义特征等。

基于统计的要领对语料库依靠比较大,但可以用来建立和评价定名实体辨认系统的大范围通用语料库又比较少,平常是运用维基百科或主流纸媒的标注作为基础练习语料,这类语料库虽然在威望性和正确性上有保证,然则在时效性上交织,关于新词的辨认才较差。

实体辨认手艺阅历了屡次迭代,从初期的基于划定规矩和字典的要领,到传统的机械进修要领,再到深度进修要领,以及近期的迁徙进修和半监视进修要领。

如今,将神经收集与CRF模子连系的CNN/RNN-CRF是实体辨认的主流模子,基于神经收集组织的实体辨认要领,继续了深度进修要领的长处,无需大批人工特征,只需词向量和字向量就可以到达主流水平,到场高质量的辞书特征可以进一步提拔结果,而在将来,迁徙进修和半监视进修举行实体辨认手艺方向研讨的重点。

(2)实体消歧

不论是英语照样汉语,组成文本的基础单位都是词,然则统一个词在差别的高低文中可以代表差别的寄义,比方英语的“play”就有玩、饰演、播放、竞赛等寄义,而汉语的“打”字除了用作介词和量词以外,用作动词时就有25个差别的意义。实体消歧就是明白多义词在文中详细指代意义的手艺,经由历程实体消歧,就可以够根据当前的语境,正确竖立实体链接。

实体消歧可以看作是基于高低文的分类题目,同其他自然言语处置惩罚的使命一样,夙兴的实体消歧也是采纳基于划定规矩和辞书的要领。但这类要领的局限性太大,后续逐步被机械进修的要领庖代。我们晓得机械进修分为有监视进修和无监视进修,运用在实体消歧上也分为有监视的实体消歧要领和无监视的实体消歧要领。

基于有监视的进修实质上是经由历程竖立分类器,经由历程分别多义词的高低文种别的要领来分辨多义词的词义,罕见的要领有基于互信息的消歧要领,基于贝叶斯分类器的消歧要领以及基于最大熵的消歧要领。

举例来说,“苹果”一词偶然指生果,偶然指科技公司,但假如与“吃”组成高低文,那末就可以够根据贝叶斯几率盘算出这个词应当是指生果而不是科技公司。

无监视的实体消歧主要采纳聚类算法举行,先对每一个实体差别的意义抽取其高低文的特征组成特征向量并举行聚类,当碰到须要举行实体消弭的文本时,让文本与之前构建好的特征向量聚类之间的类似度盘算来分辨实体的意义。

在一项测试试验中,采纳KNN(k=1)要领举行实体消歧的类似度盘算,终究取得了均匀正确率83.13%的结果。这类要领本质上照样基于词袋模子(bag of words),并没有斟酌高低文之间的联络,所以关于一些庞杂的实体分辨上结果不佳。

不论是采纳有监视的进修照样无监视的进修,实体消歧终究的结果都依靠于练习集数据的完全性和正确性,所以如今在这一范畴还未构成异常完美的处置惩罚计划,怎样可以进步实体消歧的正确度有待专家学者的进一步研讨。

(3)指代消解

在我们一样平经常使用语中大批的存在指代词,用来简化言语增添沟通的效力。比方有如许一段文本:“乔布斯在2007年宣布了第一代iPhone,他示意这款手机抢先其他手机五年”,在这句话中的“他”指代的是“乔布斯”,而“这款手机”指代的是“第一代iPhone”。

明白这些代词所指代的详细寄义,将这些指代项关联到正确的实体对象中的手艺历程就是指代消解,又称共指消解或参照消解。为了让学问抽取越发正确且不脱漏文本中的相干信息,必需对文本中的指代词举行指代消解。代消解不仅在学问抽取中起着主要的作用,而且在机械翻译,文本摘要等自然言语运用中最基础的一项手艺。

根据北京大学的王厚峰传授的研讨,指代平常分红两种回指(Anaphora,也成指导性指代)和共指(Coreference,也成同指)两种状况,回指是示意当前的指导代词与上文涌现过的词存在语义关联性,而共指则是两个实体名字指向的真是天下中的统一实体,可以自力于高低文存在。比方“阿里巴巴团体首任董事长”和“马云”就是共指。

在汉语中的指代主要有一下三种典范的情势:

人称代词(Pronoun)

比方:【李明】怕高妈妈一个人待在家里孤单,【他】便将家里的电视搬了过来。

指导代词(Demonstrative)

比方:【许多人都想制造一个优美的天下留给孩子】,【这】可以明白,但不完全正确。

有定形貌(Definite Deion)。

比方:【商业制裁】似乎成了美国政府在对华关联中习用的大棒,但是,【这根大棒】果真如美国政府所愿望的那样灵验吗?

指代消解的基础道理是先组织一个先行语候全集,然后再从候全集合做多选一的挑选。代表的要领是1998年Hobbs提出的质朴Hobbs算法,这是一种基于句法剖析树的搜刮,经由历程遍历桔子的语法数来推断词语词之间是不是可以互相替代,另一种指代消解要领是1983年Grose和Sidner提出的中间理论(Center Theory)。

这类要领以为文本中的形貌是应当是连接的,而经由历程语义的连接性就可以够找到文本中受关注的实体。但这类两种要领只适用于指代词与被指代词间隔较近的回指情境,在现实运用上有肯定的局限性。

如今指代消解最新的研讨成果是2017年的端到端神经共指消解算法(End-to-end Neural Coreference Resolution),其基础道理是找到一个句子中一切涌现过的定名实体和代词,并对他们地点的句子举行特征向量组织,盘算词与词之间的特征向量,然后将代词和实体举行两两婚配盘算共指婚配得分,以此来完成指代消解。

虽然指代消解题目已阅历了多年的研讨和生长,但到如今为止,多半的研讨成果照样在回指的研讨上,关于共指还没有较好的全自动指代消解手艺和要领,有待专家学者的进一步研讨。

(4)关联抽取

辨认实体与实体之间的语义关联是学问抽取中的一项中间使命,只要将实体之间经由历程关联联络起来构建成RDF三元组,才构成学问收集。比方:王思聪是万达团体董事长王健林的独子,可以抽掏出(王思聪,父子关联,王健林)、(万达团体、董事长、王健林)两组三元组实例。

最早的关联抽取使命可以追溯至1998年,当时是根据触发词作为关联辨认的根据,然后添补关联模板槽抽取文本中特定的关联,比方“董事长”这个关键词组织为X的董事长是Y如许的模板,而跟着机械进修算法和深度神经收集算法的生长越来越多的研讨把关联抽取做成分类使命处置惩罚。

比方采纳半监视进修的bootstrapping要领,根据“模板天生→实例抽取”的流程重复迭代,先给定一个种子实体的文本鸠合,比方,接着从文本中抽掏出包含种子实体的文本,比方,从而将这个关联抽掏出来,然后用新发明的关联模板抽取更多新的三元组实例,婚配出一切X的都城是Y如许的花样。在这个历程当中会发明X与Y除了都城这个关联实体以外,另有可以涌现其他的关联,经由历程重复迭代不停抽取新的实例和模板直至没法再发明相符前提的关联位置。

这类要领的长处是构建本钱较低,合适大范围的学问库构建,同时可以发明一些未经人工定义的隐含关联。但在现实运用中也面对着许多的题目,最罕见的题目是在迭代的历程当中轻易涌现噪声实例和模板,涌现语义漂移的征象,结果的正确率较低。

别的一点是由于没有经由人工定义关联,致使关联语义没有归一化,统一种关联可以会有多种差别的表达体式格局,比方“都城是”也可以表达为“都城位于”、“设为都城”等,这些表述现实上是统一种关联,怎样将这些自动发明的关联举行聚类规约是如今还未处置惩罚的题目。

关联抽取的优劣决议了学问图谱中学问的范围和质量,除了上述的基于模板婚配和半监视进修的要领以外,采纳监视进修的Pipeline、LSTM-RNN的算法也是比较热点的计划。

(5)事宜抽取

事宜抽取可以视为关联抽取的强化版,是将文本中的事宜以组织化的情势显现出来。事宜抽取的第一步是辨认事宜及其范例,其次要辨认出事宜所触及的属性,末了须要肯定每一个元素在事宜中与事宜自身的关联。

以金融范畴构建投融资的范畴学问图谱为例,实践抽取的流程是先定义事宜的触发词,即一个事宜指称中最能代表事宜发作的词,平常是动词或名词。然后定义事宜的主体元素及其对应的属性。再根据属性找到对应的值。如图所示。事宜的触发词是“融资”,事宜的主体是“自若”,与事宜相干的属性融资轮数、召募资金、领投方、跟投方和投前估值。

产物司理的学问图谱入门实操

事宜的主体和其他的属性之间实在可以构建出一对多的多元关联,如上图的自若与其他属性组成的多元,其本质是6个三元组,每一个三元组的主语都是触发词这个事宜,谓语离别是融资事宜的属性,而宾语离别是抽掏出来的值。

我们晓得学问图谱分为通用学问图谱和范畴学问图谱,事宜抽取也可以分为适用于通用学问图谱的开放域事宜抽取,以及适用于范畴学问图谱的限制域事宜抽取。上文例举的金融范畴融资事宜抽取就是一个限制域的事宜抽取。

关于限制域的事宜抽取,由于目的明白,所以平常都是预先定义好目的事宜的范例以及每种范例包含的详细事宜元素,并给出肯定数目的人工标注数据作为练习集特征,后续采纳形式婚配的要领或采纳机械进修的要领举行事宜抽取。

开放域的事宜抽取由于在事宜辨认之前关于可以的事宜范例和事宜组织都是未知的,所以这类事宜抽取重如果基于无监视的要领和散布假定理论。即假如候选事宜触发词或许候选事宜元素具有类似的语境,那末这些候选事宜触发词倾向于触发雷同范例的事宜。

总之,关于无组织的文本数据举行学问抽取虽然已阅历了多年的生长,但目在各个子使命中依旧存在许多未处置惩罚的题目有待专家学者的进一步研讨。

小提示:在部份自然言语处置惩罚的研讨报告中,实体抽取和实体消歧齐集并称之为实体链接(Entity Linking),或称实体链指使命。

2.4 学问融会

我们在上文引见了学问图谱的多种数据泉源,然则这些数据源中抽取的学问泉源普遍,学问的质量可以良莠不齐,也可以存在数据重合的部份,所以须要对学问举行融会,将差别数据源的学问一致范例,构成高质量的学问库。在差别的文献中,学问融会可以有差别的叫法,如本体对齐,本体婚配,实体对齐等,本文一致称之为学问融会。

学问融会主要包含有三种范例:

  • 第一种是统一个实体有多种差别的表达体式格局,比方鲁迅原名是周树人,字豫才,关于这些差别的称号都须要规约到统一个实体下。另
  • 一种是统一种表达在差别的语境下可以指代的是差别的实体,即一词多义,比方“苹果”有多是指美国苹果公司,也有多是指生果。
  • 第三种是跨言语的学问融会,统一个实体在差别的言语或区域可以有差别的定名,比方腾讯公司的英文是Tencent。

在现实事情中,学问融会是数据预处置惩罚不可或缺的一部份,学问融会的优劣直接决议了学问库的质量,也决议了学问图谱项目的胜利与否。

最基础的学问融会要领是学问卡片融会,即上文提到的百科类网站infobox信息,差别的百科网站关于统一个实体的形貌可以有差别,所以可以将统一个实体在差别的百科类网站中举行搜刮查询,将查询信息兼并成为一个归一化以后的学问卡片,即可完成学问融会。

然则关于绝大多半的学问融会而言并不会像学问卡片的融会如许简朴,我们晓得差别的本体实例是由他们所具有的属性决议的,假如两个差别的实体,属性都是雷同或许近似的,那末我们就可以够根据肯定的划定规矩将实体举行融会。所以要推断实体是不是是统一个实体,是实体的属性是不是类似来推断,属性的类似度决议了实体的类似度。

学问融会的流程平常分为四步,离别是数据预处置惩罚、数据预分组、属性类似度盘算和实体类似度盘算。

  • 数据预处置惩罚

将差别数据源的数据一致花样,比方去除标点符号,洗掉脏数据等,这一步平常须要人工举行,相干的要领可以参考前面章节的数据预处置惩罚部份。

  • 数据预分组

这一步重如果为了加速学问融会的效力,下降盘算的难度。假如不举行分组的话,那末后续的实体比较历程就须要巨大的盘算量。经常使用的数据分类要领可以采纳产物司理指定范例举行分组,也可以运用机械进修的要领举行无监视聚类分组或有监视的分类举行分组。

  • 属性类似度盘算

根据差别的数据范例,须要采纳差别的要领。假如融会的数据对象是纯字符串范例的数据,可以运用编辑间隔(levenshtein distance),这是一个器量两个字符串之间类似度的算法,指两个字符串之间,由字符串A转换到另一个字符串B所须要起码的插进去、删除、替代等操纵的次数,操纵次数越少意味着两个词越类似。

假如要融会的是鸠合范例的数据,可以经由历程jaccard类似系数举行盘算,公式以下:

当两个鸠合A和B交集元素的个数在A与B的并集合所占比例,称之为jaccard系数,jaccard值越大申明类似度越高,假如完全一致的两个鸠合则类似度为1。类似的余弦类似度也可以用来盘算鸠合范例的数据。

假如是整篇文档范例的数据,可以线经由历程TF-IDF算法找出文档的关键词,再经由历程余弦类似度盘算关键词鸠合的类似度,以此推断文档的类似度。别的,运用词袋模子也可以用来盘算文档的类似度,这两个要领我们会在后续章节细致解说。

  • 实体类似度盘算

这是学问融会的第四步也是末了一步,经常使用的要领是聚类和聚合两种。聚类算法在之前的章节细致讲过K-means聚类,在盘算实体类似度的时刻,K-means聚类经常和Canopy聚类合营运用,Canpy聚类最大的特点是不须要事前指定K值。除了这两种聚类要领外,条理聚类和相干性聚类也可以用于实体类似度的盘算。

另一种盘算实体类似度的要领是采纳聚合算法,根据属性类似度的结果盘算出类似度的得分向量,然后根据机械进修的分类算法,比方逻辑回归、决策树以及支撑向量机等。

3. 实操案例:Protégé构建漫威好汉关联图谱

学问图谱手艺方才处于起步阶段,如今业内并没有一款通用的本体编辑东西,多半要举行学问图谱构建的项目,须要先开辟一套学问图谱本体辑软件东西,然后再在这基础之上举行图谱的构建事情。

本章节的实操案例,我们将运用Protégé来举行,这是一款由斯坦福大学医学院生物信息研讨中间基于Java言语开辟的本体编辑和学问猎取软件,主要用于语义网中本体的构建,虽然不支撑多人协同编辑,但已是如今比较成熟的开源学问图谱编辑东西,包含了全部图谱天生、可视化展示以及学问推理的历程。而且软件自身是开源的,所以可以基于源码对软件举行恰当的革新,以相符公司项目须要。异常合适产物司理明白学问图谱的相干手艺道理。Protégé的主界面如图所示。

产物司理的学问图谱入门实操

3.1 构建本体

起首,我们须要构建本体,当翻开Protégé软件时会默许翻开“Active Ontology”菜单栏,在该菜单下的“Ontology IRI”输入项中,会有一个默许的本体前缀名,我们可以把它改成自定义的称号,就像给变量设置变量名一样,这里我将其设置为“http://www.KnowledgeGraph.com”,如图所示。

假如想要新建一个本体,点击File菜单栏下的New选项即可。

产物司理的学问图谱入门实操

3.2 构建类

当我们构件好本体以后,点击“Entities”选项卡举行本体编辑,起首挑选该选项卡下的“Classes”标签竖立新的类。如图所示,在这个页面中,左边是一切的类,用树形组织展示了类之间的对应关联,假如选中左边的某个类,可以在右边设置这个类的相干形貌。我们会看到已有了一个owl:Thing的类存在,这是系统默许的一切类的父类。

产物司理的学问图谱入门实操

单击选中Thing,在其左上角点击图标可以竖立子类,在弹出的菜单中的Name输入项中设置子类的称号,这里我们输入“影戏”,然后点击肯定。接着选中新竖立的影戏类,并点击中间的图标竖立竖立兄弟类,兄弟类的称号我们设置为“人物”,并在人物类下再构建两个子类,离别定名为“男子”和“女人”如许就完成了类的竖立。

固然,也可以在相干的类上单击鼠标右键,在弹出的菜单中挑选“Add subclass”以及“Add sibling class”来竖立子类和兄弟类,结果和点击按钮是一样的。

假如想要删除某个类,只须要选中类以后点击最右边的图标即可删除。

3.3 设置类之间的关联

我们竖立四个类,如今可以对这4个类设置一些属性了,在本例中,男子与女人是互斥关联,一个人的实例只能是男子或女人中的某一个,所以我们可以运用“Disjoint With”属性来举行形貌。

选中女人类,然后点击右边的“Disjoint With”属性右边的加号按钮,在弹出的菜单中挑选男子类,然后点击肯定即可完成一个关联的竖立。一样的操纵我们可以设置人物和影戏也为互斥的类,如图所示。

产物司理的学问图谱入门实操

3.4 构建对象属性

挑选“Object properties”标签进入对象属性编辑的页面,与“Classes”页面异常类似,只是用主题色彩的差别加以分辨。左边已有了一个系统默许的“owl:topObjectProperty”属性,点击左上角的按钮或许鼠标右键点击可以竖立一个子属性,并在弹出的输入框中输入属性的称号。

我们可以竖立一个“主演”的属性,竖立终了后,在右边的“Deion”中点击“Domains”选项右边的加号按钮,在弹出的菜单中左边是挑选“主演”,右边是属性对应的类,挑选“人物”,然后点击肯定按钮将主演和人物关联起来,示意主演的主语肯定是某个人物,如图所示。

产物司理的学问图谱入门实操

接下来设置属性的取值局限,点击“Ranges”选项右边的加号按钮,将“主演”的取值局限设置为“影戏”,点击肯定即可。

如许我们就完成了一个对象属性的构建,在后续的学问推理中会用到这个属性,如图所示。

产物司理的学问图谱入门实操

3.5 构建数据属性

挑选“Data properties”标签进入数据属性编辑的页面,在左边已有了一个系统默许的“owl:topDataProperty”属性,点击左上角的按钮或许鼠标右键点击可以竖立一个子属性,并在弹出的输入框中输入属性的称号。

我们可以竖立一个“好汉名”的属性,来示意超等好汉的称谓,竖立终了后,在右边的“Deion”中点击“Range”右边的加号,并挑选“Built in dataypes”选项卡,挑选“xsd:string”然后点击肯定,将这个数据属性的取值局限限制为字符串,设置终了以后如图所示。

产物司理的学问图谱入门实操

3.6 构建实例

点击“Individuals”选项卡进入实例编辑页面,点击左上角的图标竖立一个新的实例,在弹出的菜单中输入实例称号“小罗伯特·唐尼”,点击肯定即可完成实例的竖立,我们用一样的要领继续竖立“斯嘉丽·约翰逊”、“钢铁侠1”、“复仇者同盟1”三个实例。

选中“小罗伯特·唐尼”的实例,在右边窗口中点击“Types”的加号按钮,在弹出的界面中挑选“Class Hierarchy”标签,然后从类中挑选“男子”,示意这个实例是属于男子这个类的。

接着,在右边的“Property assertions”设置窗口下,点击“Object property assertions”右边的加号按钮,在弹出的菜单中会有两个输入框,左边须要输入对象属性,右边输入别的的实体,我们在左边输入“主演”,右边输入“钢铁侠1”,点击肯定按钮即完成了一个三元组的竖立。

以后须要设置实例的数据属性,点击“Data property assertions”右边的加号界面,在弹出的菜单左边挑选好汉名的属性,然后在右边填写详细的属性值,示意该人物在影戏中的好汉名叫什么,这里我们填入“钢铁侠”并点击肯定,终究的设置结果如图所示。

产物司理的学问图谱入门实操

遵照一样的操纵流程将“斯嘉丽·约翰逊”的属性也设置完成,将“钢铁侠1”的Types设置为“影戏”,然则先保存“复仇者同盟1”的type为空状况,看看怎样让Protégé对这个实例的所属类举行自动推断,完成学问推理。

3.7 学问推理

在顶部菜单中点击“Reasoner”菜单并挑选“HermiT”选项,将其变成选中状况,然后再次点击“Reasoner”菜单,会发明“Stare Reasoner”变成了可挑选状况,点击该按钮,系统会对学问举行自动推理盘算,待盘算完毕以后,我们选中“复仇者同盟1”的实体,会发明它的Types已设置为“影戏”了,点击右边的问号图标可以检察到推理的逻辑根据。

如图所示,之前我们定义了小罗伯特·唐尼和斯嘉丽·约翰逊主演了复仇者同盟1,而主演的Range取值局限是影戏,所以可以就此揣摸出复仇者同盟1是一部影戏。

产物司理的学问图谱入门实操

3.8 图谱可视化

在顶部的“Windows”菜单下挑选“Tabs”下的OntoGraf选项,顶部会增添“OntoGraf”菜单,切换到该菜单并点击左边的类称号,即可在画布中显现类的图标,假如类有子类或许实例,则会在图标上涌现一个加号,双击带加号的图标可以下钻睁开检察一切的类和实例。鼠标移动到线上,就可以够显现这条线代表的关联称号。经由历程鼠标拖动图标可以很直观的检察到本体之间的关联

产物司理的学问图谱入门实操

版权声明

本文仅代表作者观点,不代表本站立场。如有侵权,请邮件248745074@qq.com删除
本文系作者授权发表,未经许可,不得转载。
本文地址:https://www.ishunhua.com/hlw/12698.html

舜华网

网站地图 |

Powered By 舜华网 版权所有

使用手机软件扫描微信二维码

关注我们可获取更多热点资讯

联系我们:248745074@qq.com