首頁 » 我们习惯将网页称为节点

我们习惯将网页称为节点

该专利向我们展示了一个与数据图相关的示例,人物、地点、事物、概念等实体可以存储为节点,这些节点之间的边可以指示节点之间的关系(人们可以了解这些实体的事实)。在搜索引擎优化中,我们习惯将网页称为节点,将这些页面之间的链接称为边。这种对实体的方法是查看节点和边的不同方式,我们最近看到人们谈论实体的提及而不是提及页面的链接。当谈论像网络这样的大型数的标题描述据库时,这是 SEO 思考像实体这样的真实对象的一种方式。我所知道的第二项 Google 专利(临时专利)是 1999 年的,与事实和如此庞大的数据库有关。我在  《Google 的第一个语义搜索发明获得专利》中写到了这一点 。

我还写了一篇关于谷歌最近的一项专利的

文章,该专利描述了搜索引擎如何读取网络并从中提取实体信息,并将网络用作 手机号码数据 大型分布式数据库。这篇文章是  谷歌知识图谱的实体提取。

人们可以找到很多关于预训的信息,比如 BERT,它可以用单词的部分标记文档中的单词,并识别和辨别实体,以便从页面中提取它们并被搜索引擎学习。

另请参阅此博客中的以下文章:

谷歌如何从非结构化内容中识别和解释实体? (优质的)

自然语言处理在数据挖掘、实体和搜索查询中的作用(高级)

这项最新专利描述称,在的标题描述这样的 社交销售 数据图中,“马里兰州”和“美国”等节点可以通过“在国内”和/或“有州”的边连接起来。人们还了解到,这种数据图的基本单位是元组,它包含两个实体和实体之间的关系。这些元组可以表示真实的事实,例如: B.“马里兰州是美国的一个州。”元组还可以包含其他信息,例如例如背景信息、统计信息、审计信息等。

向数据图中添加实体和关系通常是一个手动的标题描述过程,这使得创建大型数据图变得困难且缓慢。而且创建大型数据图的困难可能导致许多作为事实存在但尚未添加到图中的实体之间的“缺失”实体和“缺失”关系。缺失的实体和关系降低了数据图的实用性。一些方法从文本中提取句法和语义知识,例如B. 来自网络,并将其与来自数据图的语义知识相结合。

建立对数据和事实之间关系的准确性的确定性

从文本和数据图中提取的知识被用作输入来训练预测数据图元组的机器学习算法。

训练有素的机器学习算法可以为给定的关系产生多个加权特征,每个特征代表两个实体可能如何相互关联的推断。

特征权重的绝对值可以表示决策中的相对重要性。谷歌在其他专利中表示,他们衡量了这种关系之间的可能准确性,并将这些权重称为“关联分数”。

然后可以使用训练过的机器学习算法通 消費者數據 过分析大型语料库中的文档和数据图中的现有信息来创建额外的元组。

这种方法为数据图提供了大量的附加元组,可以大大扩展这个数据图。

在一些方法中,每个预测元组可以与一个置信度值相关联,并且只有满足阈值的元组才会自动添加到数据图中。

您可以在博客中前面提到的帖子中找到更多信息。

剩余元组所表示的事实可以在添加到数据图之前进行手动验证。

 

返回頂端