Google 的知识图谱如何运作?
为了能够使用实体作为信号,Google 必须首先能够在文本中识别提及指的是特定实体。这就是命名实体识别( NER ) 的用武之地。Google 使用 NLP(自然语言处理)算法分析网页内容,该算法能够检测专有名词并确定它们是否对应于已知实体(人物、公司、地点、作品等)。
这种 NER 技能变得至关重要:Google 依靠它来剖析页面,而 SEO 可以使用类似的工具(例如,Google Cloud 的 NLP API 或 Python 中的 spaCy 库 - 我们在 SEOQuantum 上很喜欢它)来识别从文本中提取了哪些实体。当 Google 识别出页面上的某个实体时,它可以将其与其唯一的知识图谱标识符(例如,巴黎市的标识符为kg:/m/02mjmr )相关联,从而整合有关该实体的信息。
挑战在于消除歧义。同一个名称可以指代多个实体(Java 语言与 Java 岛、Apple 品牌与水果)。 Google 使用上下文来解决歧义:文本中的其他词语、页面的整体主题,甚至结构化标记的存在等线索