随着 2018 年 BERT 的推出,谷歌正式确认他们将自然语言处理用于谷歌搜索。自然语言处理作为机器学习的一个子领域,旨在更好地理解书面和口头形式的人类语言,并将非结构化信息转换为机器可读的结构化数据。 NLP的子任务包括翻译语言和回答问题。我们很快就会明白这项技术对于谷歌等现代搜索引擎有多么重要。
一般来说,NLP 的功能可以大致分为以下几个过程步骤:
数据提供
数据准备
文本分析
文本丰富
NLP 的核心组件是标记化、词性标注、词形还原、依存关系解析、解析 建筑师数据库 标记、命名实体识别、显著性评分、情感分析、分类、文本分类、内容类型提取、基于结构的隐含含义识别。
标记化:标记化是将句子分成不同术语的过程。
按词性标记单词:词性标记是将单词按词性进行分类,如主语、宾语、谓语、形容词……
词语依赖关系:词语依赖关系根据语法规则创建词语之间的关系。这个过程也代表了单词之间的“跳跃”。
词形还原:词形还原确定一个单词是否具有不同的形式,并将变体规范化为基本形式。例如,动物的基本形式是动物,或好玩的、游戏。
解析标签:标签对依赖关系或两个通过依赖关系连接的单词之间的关系类型进行分类。
命名实体的分析和提取:从前面的帖子中我们应该熟悉这个方面。这会尝试识别具有“已知”含义的单词并将其分配给实体类型的类别。一般来说,命名实体是人、地点和事物(名词)。实体还可以包含产品名称。这些通常是触发知识面板的词语。但是,那些不能触发自身知识面板的术语也可以是实体。
来自 NLP API 演示的语法分析示例,来源:Google
自然语言处理可用于识别搜索查询、句子和文本部分中的实体,并将各个组成部分分解为所谓的标记并将它们相互关联。语法理解也可以通过 NLP 以算法的方式进行开发。
随着自然语言处理的引入,谷歌在解释搜索查询、文本和语言时也能够解释更多名词以外的内容。自 BERT 以来,动词、副词和形容词对于确定上下文也变得重要。通过识别标记之间的关系,可以建立引用并解释人称代词。
举个例子:
“Olaf Kopp 是Aufgesang的SEO主管。他从2005年起就开始涉足网络营销。”
在自然语言处理出现之前,谷歌无法对人称代词“他”做任何事情,因为无法引用实体“Olaf Kopp”。对于索引和排名,仅考虑了Olaf Kopp、SEO 主管、Aufgesang、2005 和在线营销等术语。
自然语言处理不仅可以识别搜索查询和内容中的实体,还可以识别它们之间的关系。
需要考虑的是整个段落和文本中的语法句子结构以及引用。名词或句子中的主语和宾语可以被识别为潜在实体。动词可用于建立实体之间的关系。使用形容词来确定对实体的情感。
通过向量进行自然语言处理
自然语言处理还使回答特定问题变得更加容易,这代表了语音搜索应用的重大发展。
自然语言处理在谷歌 2021 年推出的段落排名中也发挥着核心作用。
自 2018 年推出 BERT 以来,谷歌一直在谷歌搜索中使用这项技术。 2021 年推出的段落排名基于自然语言处理,因为借助新的可能性,谷歌可以更好地解释单个文本段落。