中国专利搜索 世界专利搜索 专利分类查询 专利引用检索 专利族检索
登陆 | |

一种关联频度计算的基于数据图谱、信息图谱和知识图谱框架的语义建模及抽象增强方法
有权
阅读授权文献

Semantic modeling and abstraction enhancing method for associated frequency calculation on the basis of data atlas, information atlas and knowledge atlas

申请号:201710394911.0 申请日:2017-05-30
摘要:本发明是一种关联频度计算的基于数据图谱、信息图谱和知识图谱框架的语义建模及抽象增强方法,主要用于从初始需求描述和应用场景中获得合理的类及对象图,属于分布式计算和软件工程学技术交叉领域。在数据图谱上表达离散的实体、对象、属性和操作,记录每个实体、对象、属性或操作的频度,包括结构频度、时间频度和空间频度;在信息图谱上标记结点间的交互关系,计算交互频度即交互次数,当交互频度大于设定阈值时集成多个结点,产生的新结点作为实体继续标记结构频度、时间频度和空间频度;在知识图谱上对类之间的关系运用关系抽象规则进一步抽象,并可对需求表达的完整性进行补充,提升开发效率。
Abstract: The invention discloses a semantic modeling and abstraction enhancing method for associated frequency calculation on the basis of a data atlas, an information atlas and a knowledge atlas, is mainly used for obtaining reasonable categories and object diagrams from initial requirement description and an application scene, and belongs to the cross field of distributed calculation and software engineering technologies. On the data atlas, a discrete entity, object, attribute and operation is expressed, the frequencies, which include a structure frequency, a time frequency and a space frequency, of each entity, object, attribute or operation can be recorded; on the information atlas, an interaction relationship between nodes is labelled, an interaction frequency, i.e., an interaction time is calculated, a plurality of nodes are integrated when the interaction frequency is greater than a set threshold value, and a generated new node is taken as an entity to continuously label the structure frequency, the time frequency and the space frequency; and on the knowledge atlas, the relationship among the categories on the knowledge atlas is subjected to further abstraction by a relationship abstraction rule, requirement expression integrity is supplemented, and development efficiency is improved.
申请人: 海南大学
Applicant: UNIV HAINAN
地址: 570228 海南省海口市美兰区********(隐藏)
发明(设计)人: 段玉聪 邵礼旭
Inventor: LIXU SHAO; YUCONG DUAN
主分类号: G06F17/30(2006.01)I
分类号: G06F17/30(2006.01)I G06F17/27(2006.01)I G06N5/02(2006.01)I
  • 法律状态
2019-07-23  授权
2017-09-05  实质审查的生效 IPC(主分类):G06F 17/30申请日:20170530
2017-08-11  公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
  • 其他信息
主权项  1.一种关联频度计算的基于数据图谱、信息图谱和知识图谱框架的语义建模及抽象增 强方法,其所包含的步骤如下:
步骤1)获取用户需求描述,需求可以由一个或多个用户来描述,多源的需求存在冗余 性和不一致性,如果开发者以研究的方式收集用户的需求,用户群体会非常大,用户对需求 的描述将会非常混乱;
步骤2)基于步骤1得到的需求描述,提取关键词并将关键词以结点的形式表达在数据 图谱上,记录每种关键词出现的结构频度Str_f、时间频度Tem_f和空间频度Spa_f,本发明 定义结构频度为数据出现在不同数据结构中的次数,限定每次计算在内的数据结构必须是 数据所在最大数据结构(例如以图结构中树结构出现的频度按图结构计算,不再计算树结 构的频度),时间频度为数据在不同时间出现的次数,空间频度被定义为数据在不同空间位 置出现的次数;
步骤3)基于步骤2中记录的数据的结构频度、时间频度和空间频度,将时间频度为1的 结点标记为对象,并根据公式1计算数据的总频度frequency:
frequency=Str_f*Tem_f*Spa_f (1)
步骤4)基于步骤3得到的数据的总频度,根据公式2和公式3计算数据在数据图谱上的 支持度support(ri)和置信度confidency以删除错误或无用数据,Frequency(DG)表示数据 图谱上所有结点的频度总和,删除数据的条件是必须同时满足支持度和置信度的阈值要 求,阈值过大不利于图谱表达的准确性,过小会不利于表达的完整性,可以根据计算图谱反 馈的结果信息动态调整:


步骤5)基于步骤4)得到的数据图谱,由领域专家或学者对现有数据进行清洗,统一含 义相同但表达方式不同的数据,减少小频率出现的数据;
步骤6)基于步骤5得到的图谱,对图谱上结点表示的关键词进行词性分析,将名词和名 词短语当作属性或类,将动词或动词短语当作操作;
步骤7)基于步骤6得到的信息图谱,根据公式4计算结点间交互的频度,结点间交互的 频度表示结点之间交互的次数,P表示结点之间所有完整的交互路径:
frequency(E1,E2)=∑P(E1→E2) (4)
步骤8)基于步骤7得到的信息图谱,根据公式5计算有交互关系的多个结点的综合频度 Total_frequency, FrequencyDG表示存在交互关系的结点在数据图谱上的频度之和, FrequencyIG表示实体在信息图谱上的交互频度,α和β是数据图谱频度和信息图谱频度所占 权重,可由训练得出:
Totalfrequency=αFrequencyDG*βFrequencyIG (5)
步骤9)基于步骤8得到的信息图谱,计算连通结点的内聚性,根据公式6将实体内聚性 确定为内部交互度和外部交互度的比值,DegreeEI表示圈定范围后的实体集与外部实体之 间的交互,DegreeII表示圈定实体之间的内部交互,在外部交互度和内部交互度的计算中, 我们忽略了实体之间的关系方向,计算多次后将具有最大cohesion的不同连通实体以属性 和操作的形式集成,在信息图谱上以新结点的形式表达,增强模型的内聚性并提高抽象度:
步骤10)基于步骤9得到的信息图谱,转到数据图谱上标记新产生的结点的结构频度、 时间频度和空间频度;
步骤11)基于步骤10)得到的信息图谱,完善实体之间的语义关系,结点之间可能存在 选择关系、序列关系、并行关系和互斥关系以及诸如“与”,“或”,“异或”,“非”等逻辑关系, 在知识图谱上能通过信息推理和实体链接提高知识图谱的边密度和结点密度,知识图谱的 无结构特性使得其自身可以无缝链接,信息推理需要有相关关系规则的支持,通过推理得 到的新关系的正确度Cr根据公式7进行计算,P表示实体1和实体2之间的一条路径,Q表示所 有路径,θ(π)表示训练权重,当正确度超过某一设定阈值时认为该关系成立:
步骤12)基于步骤11得到的知识图谱,查找结点之间的关系是否有成环的现象,若有, 根据关系抽象规则,对知识图谱进行简化,删掉不必要的连接关系。
公开号  107038262A
公开日  2017-08-11
专利代理机构  
代理人  
颁证日  
优先权  
 
国别 优先权号 优先权日 类型
CN  201710394911  20170530 
国际申请  
国际公布  
进入国家日期  
  • 专利对比文献
类型 阶段 文献号 公开日期 涉及权利要求项 相关页数
SEA  US2010005117A1  20100107  全文 
SEA  CN103593792A  20140219  全文 
SEA  CN106355628A  20170125  全文 
注:不保证该信息的有效性、完整性、准确性,以上信息也不具有任何效力,仅供参考。使用前请另行委托专业机构进一步查核,使用该信息的一切后果由用户自行负责。
X:单独影响权利要求的新颖性或创造性的文件;
Y:与检索报告中其他 Y类文件组合后影响权利要求的创造性的文件;
A:背景技术文件,即反映权利要求的部分技术特征或者有关的现有技术的文件;
R:任何单位或个人在申请日向专利局提交的、属于同样的发明创造的专利或专利申请文件;
P:中间文件,其公开日在申请的申请日与所要求的优先权日之间的文件,或会导致需核实该申请优先权的文件;
E:单独影响权利要求新颖性的抵触申请文件。
  • 期刊对比文献
类型 阶段 期刊文摘名称 作者 标题 涉及权利要求项 相关页数
  • 书籍对比文献
类型 阶段 书名 作者 标题 涉及权利要求项 相关页数