文化图谱不复杂,我来帮你理一理!
崔皓   51CTO艺术栈   2020-01-08

【51CTO.com原创稿件】随着互联网业务的上进,产生了大量之多寡,数量经过分析会推动工作的上进。名将数据中蕴含的所见所闻用图的组织表示出来,就形成了眼界图谱。

 

图表来自 Pexels

文化图谱可以使用到智能搜索,机动文档,引进,决定支持等世界。例如:WordNet,Freebase,Wikidata。

当日和大家一起了解知识图谱构建的主意和中心规律。

文化图谱概括

文化图谱是一番较大的命题。副提高,特色,列入和生命周期等不同之地方都有许多需要讲的东西。

 

文化领域示意图

此地我们重点从文化图谱的生命周期作为切入点,说话在伊形成和利用过程中用到的规律和方式。

①文化体系构建。根据分类,可以把文化图谱分为通用型和世界型。不论是是什么类型的所见所闻图谱都要求对他服务的园地开展文化建模。具体地说,利用什么样的措施来表达知识。

②文化融合。一度知识库可以和任何知识库进行融合。在不同领域知识图库进行融合时,会发现来自不同领域,不同语言,甚至不同结构的所见所闻需要做“补,创新和扮演重的借鉴”。

这就是文化融合,普通分为:文化体系融合和案例融合。这部分的借鉴也得以在构建知识体系的时节统筹考虑。

③文化获取。文化获取的目的是副海量的消息(文本)官方抽取知识。本文中提出的“获取信息”多为文本信息,故此这里的“获取信息”也是副文本中获取信息的经过。

获取信息结构上划分为三类,离别是组织化信息,半结构化信息和非结构化信息。

副获取信息内容上又分为,实体识别,实体消歧,沟通抽取和事件抽取。文化存储在成功了眼界抽取和融合之后,就要求将文化存储下来了。

有 RDF(Resource Description Framework,能源描述框架)分立式和图必发娱乐登录两种方法。

因为图必发娱乐登录对于查询友好,因此被广大采用,例如:Neo4j。

④文化推理。辨认并抽取知识以及存储知识后,咱们会试图发掘实体(文化)之间隐含的涵义关系。

其一过程就是文化推理。例如:已知 A 是 B 的儿子,又懂得 B 是 C 的儿子。这就是说可以推理出 A 是 C 的孙子。

⑤文化应用。辨认,抽取,存储和推理的最后目的还是为了应用。文化图谱在寻找,问答,引进,决定方面把广大使用。

后面会将上述过程进行讲解,出于文化图谱中包括的情节比较丰富,故此会着重介绍前面几个组成部分的情节,关于知识推理和胆识应用的一部分会放到以后的篇章中介绍。

文化体系构建

咱们常说之所见所闻是人类对实际世界之认识,如何将这种认识转化为一种标准的样式呢?故此,要求有一种模型,对他进行描述,故而能够存储到计算机中。

文化表示

文化图谱的表示方法有多种,有语义网络,框架,剧本。采用比较多之是外延网络模型。

他是通过语义关系连接的定义网络,名将文化表示为互相连接的线和沿。其中,重点表示为实体,时光,值等信息;沿表示实体之间的关联。

例如:马是一种动物,可以表示为如下:

 

此地的马和动物表示为实体,“是一种”表示它们之间的关联。这也是咱们常说之新年组的显示形式。

用 RDF(Resource Description Framework,能源描述框架)可以发挥为:

  • (重点 1,沟通,重点 1)
  • (鼠,是一种,动物)
  • 针对关系来说有多种类型的概念:

  • 老关系:“是一番”。表示一下事物是另一番事物的一个实例。例如:小明是一番人口。
  • 列入关系:“是一种”。表示一下事物是另一番事物的品种。例如:保龄球是一种球。
  • 成员关系:“个体与国有”。表示一下事物是另一番事物的积极分子。例如:小王是三年级一股的学员。
  • 属性关系:“一度节点具有另一番节点所表示的习性”。例如:猴子会爬树。
  • 聚拢关系:“局部与完整”。例如:手是真身的组成部分。
  • 位置关系:事物的方面关系。例如:苹果在桌子上。
  • 相近关系:事物在形状,情节等方面相似。例如:狮子和老虎在林子中都有霸主的位置。
  • 如果将实体通过上述描述,用三元组的措施表示出来,就形成了眼界之向往状结构,咱们把这种结构的显示就叫做知识表现。

     

    文化图谱的显示形式

    文化体系构建

    地方讲了眼界表示,穿过三元组表示现实世界之所见所闻。出于文化领域的不同,对事物的定义和概念也会不相同。

    例如:“运维”其一词,在硬件领域是指对软件的运作维护;在基础设施领域,是指对供配电,空调的运行和维护。

    故此,文化图谱是针对现实知识领域而言的。要求根据现实的所见所闻领域,拓展“文化体系构建”。

    文化体系主要包括三个地方的骨干内容:对概念的分类,概念属性的叙说以及概念之间相互沟通的概念。

     

    文化领域示意图

    文化领域(文化体系结构)就好像知识图谱的框架,他定义了眼界之定义,概念的习性以及概念之间的关联。

    只有先定义了他,才能再构建知识图谱。如果把文化领域(文化体系结构)了解成 Class 的话,文化图谱就是 Object;如果把文化领域(文化体系结构)了解成骨架的话,文化图谱就是肉体。

    Ontology 对文化进行定义(Concept),根据定义生成实体(Instance) 

     

    骨架和身体

    说完知识领域(文化体系结构)的定义,再来看望通过人为构建需要什么几个步骤。

    ①确认领域以及任务。此地需要明确几个问题,为什么需要这个世界的所见所闻图谱?其中包括哪些知识?他所服务的人流?以及谁来维护它?

    ②文化体系整合。出于文化图谱,要求包括海量的所见所闻数据,故此从 0 起来建设资金很高。

    故此,要求借助通用知识图谱,天地词典,考古学资源,开源知识图谱的风源。在它们的基础上建立,大妈降低成本。

    ③陈列要素。针对要确立之所见所闻图谱,列入这个世界知识之定义,属性,以及关系等因素。

    例如:确立一个人物知识图谱,就要列出科学家,演员,教师,选手等概念分类。

    针对每个分类,定义姓名,年龄,学籍,本土等属性。以及父母,儿女,爱人等关系。

    ④确认分类体系。就是概念之间的县团级关系,类似树状结构。例如体育分类,下包括体育集团,体育赛事,体育院校等等。可以通过由上至下,或者由副至上的措施建立。 

     

    列入体系示意图

    ⑤定义属性以及关系。此地的习性和沟通的概念具有继承性。例如:演出人员拥有“年龄”,“毕业院校”,“经纪公司”等属性。演出人员分类下面包括了歌手和表演者。

    这就是说歌手和表演者的习性中,除了包括“年龄”,“毕业院校”,“经纪公司”等属性以外,还可能包括其他属性,例如:歌手包括“低/官方/高音“;演员包括:”境内/国际影星“。

    ⑥定义约束。针对上面属性关系的约束关系。例如:年龄为正整数。每个人只有一度母亲(考古学意义上的)。

    文化融合

    各国领域知识图谱的构建,导致存在各国垂直领域的国库。每个知识库为了扩大自己的力度和深度,就要求和任何库做融合。

     

    文化融合示例图

    国库的休戚与共有两种淘汰式:

  • 竖直方向的所见所闻融合,名将通用知识库与专业知识库进行融合。专业知识库中要求一些通用知识库中的通用知识定义,例如:享誉人士,地名,公理。
  • 水平方向的所见所闻融合,名将相同领域的国库进行融合。让两个知识库进行数据互补。
  • 文化体系能够在认知和外延层次上对世界知识进行建模和发挥,确认领域内共同认可的词汇,穿过概念之间的关联来叙概念的涵义,提供对世界知识之共同理解。

    多个文化体系在融合过程中会产生重叠,会产生很多不同之所见所闻体系。该署不同之所见所闻体系会导致不同之所见所闻图谱难以统一利用。

    故此,下要介绍几种融合的主意:

  • 元素级匹配,名将一个词表示为语义向量空间中的一个线,如果词与词之间的相似度高,这就是说两个点之间的距离就近。表明两个词可以融合。
  • 布局级匹配,穿过判断元素属性的定义域和值域匹配度,推断属性的匹配度。
  • 实体对齐,穿过判断相同或不同知识库中的两个实体是否表示同一个物理对象的经过。
  • 文化获取

    定义了眼界领域和世界之间的休戚与共,就搭建了眼界图谱的框架,然后就要填充内容了。根据三元组理论,文化图谱是由(实体 1,沟通,实体 2)重组的。

    故此,然后就要介绍知识获取,他包括实体识别,实体消歧,沟通抽取,事件抽取。

     

    文化获取示意图

    实体识别

    实体(Entity)是文化图谱的中心单元,也是资产文中承载信息的要害语言单位。实体识别是抽取文本中命名性指称项。

    例如:人名,地名,部门名,片名。普通意义上人均三大类:实体类,时光类和数字类;七小类:人名,地名,部门名,时光,日期,钞票和比重。

    例如:红利小学篮球教练张平出席了茶话会,她在议会上分享了执教心得。

    实体“张平”就有三个指称项,“红利小学篮球教练”是闻名词性指称项;“张平”是命名性指称项;“她”是代词性指称项。

    实体识别抽取有以下几种办法:

    ①基于规则的主意,穿过建立命名实体词典的主意,每次抽取都从文本中寻找词典的情节。

  • 中文人名识别:<姓氏><名字>。例如:张平。
  • 中文组织名识别:<人名><集团名><地名><基本名>。例如:中华软件信息协会。
  • 中文地名的鉴别:<名字部分><指示词>。例如:承德。
  • ②基于特征的主意,穿过机器学习的主意利用预先标注好的语料训练模型,使模型学习到某个字或者词作为命名实体部分的概率,计算出一番候选字段作为命名实体的概率值。如果大于某个设定的阀值,就抽取命名实体。

    ③基于神经网络的主意:

  • 特色表示:采取神经网络模型将文字符号特征表示为分布式特征信息。
  • 模型训练:采取标注数据,多极化网络参数,训练网络模型。
  • 模型分类:采取训练的模子对新样本进行分类,形成识别。
  • 实体消歧

    实体识别完成后,咱们相遇一些问题。两个实体名字一模一样,但在不同之语境下面,发挥的情节完全不同。

    例如:实体指称项,迈克尔·乔丹(Michael Jordan)在不同之公文中,有可能是水球明星,也有可能是一位机器学习的研究者。

     

    实体消歧示例图

    在介绍如何进行实体消歧之前,先介绍几个相关概念,上述图为例:

  • 实体名:迈克尔·乔丹(Michael Jordan)
  • 目标实体列表:迈克尔·乔丹(研究者),迈克尔·乔丹(选手)
  • 实体指称项:“迈克尔·乔丹” 是 “迈克尔·乔丹(研究者)”的实体指称项。同样,“迈克尔·乔丹”也是 “迈克尔·乔丹(选手)”的实体指称项。
  • 这就是说如何消除这种歧义呢?此地有两种歧义消除系统推荐。

    聚类的消歧系统:名将同一实体指称项分配到同一类别下面,聚类结果中每篇项目对应一个目标实体。

     

    聚类示意图

    实体链接的消歧系统:名将实体指称项与目标实体列表中对应的实体进行连接实现消歧。

     

    实体链接示意图

    沟通抽取

    地方可以将文本中的实体抽取出来,并且消除它们之间的涵义。然后,要掌握实体之间的关联,就要求用到关系抽取。

    沟通抽取就是,辨认实体之间的涵义关系。可以分为二元关系抽取(两个实体)和多重关系抽取(三个及以上实体)。普通表示为(实体 1, 沟通, 实体 2)新年组。

    根据处理数据源的不同,沟通抽取可以分为以下三种:

  • 面向结构化文本的关联抽取:包括表格文档、XML文档、必发娱乐登录数据等。
  • 面向非结构化文本的关联抽取:纯文本。
  • 面向半结构化文本的关联抽取:介于结构化和非结构化之间。
  • 根据抽取文本的框框不同,沟通抽取可以分为以下两种:

  • 句子级关系抽取:副一个句子中判别两个实体间是何种语义关系。
  • 语料级关系抽取:不限定两个对象实体所出现的上下文。
  • 根据所抽取领域的分割,沟通抽取又可以分为以下两种:

  • 限定域关系抽取:在一番或者多个限定的园地内对实体间的涵义关系进行抽取,限定关系的项目,可看成是一个文本分类任务。
  • 绽开域关系抽取:不限定关系的项目。
  • 出于篇幅关系,此地对现实关系抽取的主意不进行描述。有兴趣可以自动查找,每个算法都得以单独成为一篇文章。此地我们只要求对维系抽取的分类和方式有基本认识就好。

    事件抽取

    和沟通抽取类似,事件抽取是副文本中抽取出事件并以组织化的样式呈现出来。

    第一识别事件及其类型,从识别出事件所涉及的实体,说到底需要确定实体在事变中去演的角色。

    穿过一个例子,来介绍几个概念。例如:“小明和小红于 2019 年 12 月 30 日在首都召开婚礼。”

    事件指称:现实事件的风流语言描述,普通是一番句子或句群。就是上面这句话的叙说。

    事件触发词:代表事件发生之词,是注定事件类别的性状,普通是动词或名词。例如:“举办婚礼”。

    事件元素:事件中的参与者,重点由实体、时光和属性值组成。例如:“小明”,“小红”, “2019 年 12 月 30 日”。

     

    事件元素类型

    元素角色:事件元素在事变中去演的角色。例如:“小明”与“小红”去的是“老两口角色”。

    事件类别:事件元素和接触词决定了事件的项目,每个分类下面还有子分类。例如:生命,结合。

     

    事件类型示意图

    事件抽取的主意比较多,基本上分为限定域事件抽取和盛开域事件抽取两大类。

    在两类中又分为若干小类。此地针对限定域中给予模式匹配的主意给大家做简单介绍。

    限定域事件抽取:在开展抽取之前,预先定义好目标事件的项目及每种类型的切实可行结构(包含哪些具体的风波元素),普通会给出一定数量之标注数据。穿过这些标注数据引导事件的抽取。

    比起有代表的是基于模式匹配的主意,第一通过人为标注语料,再通过学习模型来抽取模式,说到底将“待抽取文档”与花园式库中的模式进行匹配,浮动抽取结果。

     

    事件抽取,匹配流程图

    此外,关于事件抽取的主意和沟通还有很多,此地不进行描述,自由思维导图供大家参考。

     

    事件抽取思维导图

    文化存储与检索

    眼前提到了眼界图谱的架构,文化之抽取,然后就要求将这些知识(数量)存储下来。并且可以将积存的多寡进行检索。

     

    文化存储示意图

    谈到存储,要求回到前面说的新年组。文化图谱中的知识是通过 RDF(Resource Description Framework,能源描述框架)结合的。

    每个事实被表示为一个形如(subject,predicate,object)的新年组:

  • subject:重点(也称主语),他取值通常是实体、事件。
  • predicate:谓词(也称谓语),他取值通常是维系或性质。
  • object:合理(也称宾语),他取值既可以是实体、 事件、概念,也得以是一般的值(如数字、字符串等) 。
  • 基于表数据的介绍

    文化图谱的外表存放方式有两种,离别是新年组表,品种表。来看望前两种存储的措施。例如:有下图关系。

     

    文化图谱存储示例图

    用三元组方式存储:

    用项目表存储:

     

    基于图必发娱乐登录的介绍

    希冀必发娱乐登录基于有向图,他理论基础是图论。重点、边和属性是图必发娱乐登录的骨干概念。

    重点,用于表示实体、事件等对象,可以类比于关系必发娱乐登录中的记录。例如人物、 地方、影视等都得以表现图中的节点。

    沿,是指图中连接节点的有向线条,用于表示不同节点之间的关联。例如:老两口关系、同事关系等。

    属性,用于描述节点或者边的性状。例如:姓名、老两口关系的起止时间等。

    来看个比喻: 

     

    用节点表示实体:刘德华、刘青云、Film:暗战 。

    用边表示实体间的关联:刘德华和暗战之间的参展关系、刘德华和刘青云之间的爱人关系等 。

    重点可以定义属性:刘德华性别男、身高 174cm、本土香港等。

    边上也得以定义属性:刘德华参演暗战的年华是 1999 年,参展角色是张彼得等。

    产业化向关系需要转化为两枝对称的有向关系:刘德华和刘青云之间互为朋友关系。

    文化图谱的寻找

    地方说了按照表方式和图方式的存储,再来看望存储之后如何检索知识信息。文化图谱信息可以通过 SQL 和 SPARQL 追寻来获得。

    此地根本介绍 SPARQL,他是 Simple Protocol and RDF Query Language 的缩写,是由 W3C 为 RDF 数量开发的一种查询语言和数量获取协议,把图必发娱乐登录广泛支持。

    和 SQL 类似,SPARQL 也是一种结构化的询问语言,用于对数据的获取与管理。

    ①数量插入

    INSERT DATA { } 包含三元组,不同之新年组通过”.”分割,继续的新年组用”;” 分割。

     

    ②数量删除

    DELETE DATA {} 包括的新年组,不同之新年组通过”.”分割。 


     

    剔除刘德华参演电影的关联

    如果想删除所有刘德华回话节点的关联,用如下语句。

    此地的 s,p,o 离别对应的是 subject,predicate 和 object。这样和刘德华这个节点的相关信息都删除了。但是刘青云和暗战对应的兴奋点和沟通依旧存在。

      

    剔除刘德华节点以及对应的关联

    ③查询语句

    和方面两个语句类似,例如要查询身高为 174cm 的男演员。


    得出的结果就是“s:刘德华”。

    总结

    如果说知识图谱本身就是一番知识之必发娱乐登录,这就是说知识领域(文化体系结构)就是其一必发娱乐登录的框架。

    在成立知识图谱之前我们需要对文化体系进行搭建,同时要消灭知识融合的题材。

    有了眼界体系结构,就足以拓展文化获取,此地包括实体识别,实体消岐,沟通抽取和事件抽取。

    实体识别有基于规则,特色和神经网络的鉴别方法。实体消岐可以通过聚类和实业连接的主意搞定。

    沟通抽取和事件抽取,根据数据源,文本范围和世界划分的不同,办法各有千秋。文化抽取以后需要做学问之存储,其中有外部存储和图存储两种方法。

    脚下比较流行的是图存储的措施。并且基于图存储的措施,还提供了 SPARQL 查询语言对数据进行管理。

    PS:文化图谱的情节比较广博,本文只是对最核心的定义进行了描述。有的是观点来自于赵军先生的所见所闻图谱一书。如果需要深入了解,提议阅读。

    笔者:崔皓

    介绍:十六年开发和架构经验,曾担任过惠普武汉交付中心技术专家,需求分析师,品种经理,此后在创业公司担任技术/产品经营。擅长学习,愿意分享。脚下专注于艺术架构与科研管理。 

    【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

    【编纂推荐】

    1. 欧委会这11个第一元知识概念,妈妈再也不用担心我之编码编写啦!
    2. 互联网架构,结果为什么需要配置中心?
    3. 2019中华互联网大拐点:艺术为王
    4. 每个互联网人都应当收藏之图书站
    5. 公用的互联网架构模式,都在此间了
    【义务编辑: 武晓燕 TEL:(010)68476606】

     

    分享到朋友圈 分享到微博
  • 文化
  • 图谱
  • 互联网
  • 相关推荐

    团结金融:物联网进入电信

    2020-01-30 11:30:59

    肺炎疫情下的中华互联网“996”

    2020-01-30 11:28:58

    如何成为更好的硬件架构师?这篇3.8K star的篇章值得一看

    2020-01-30 09:03:14

    Copyright © 2005-2020 51CTO.COM 必发娱乐登入
    情节话题
    必发娱乐登入 移步 传感器 系统 安全 网络 必发娱乐登录 虚拟化 付出
    热门产品
    51CTO必发娱乐登录 51CTO高招 移步开发者服务联盟网+ 51CTO博客 WOT碰头会