什么是自然语言处理以及它是如何工作的?

你有没有想过像 Siri 和 Cortana 这样的虚拟助手是如何工作的?他们怎么理解你在说什么?

嗯,部分答案是自然语言处理。这个有趣的人工智能领域在过去几年中取得了一些巨大的突破,但它究竟是如何运作的呢?

继续阅读以了解有关自然语言处理的更多信息、它的工作原理以及如何使用它来使我们的生活更加方便。

什么是自然语言处理?

自然语言处理(NLP)是计算机理解人类语言的方式。例如,当您与AlexaSiri等声控虚拟助手交谈时,他们会聆听、理解您的讲话并根据您所说的内容执行操作。

传统上,人类只能通过特定命令编写的编程语言与计算机进行通信。代码具有内在的结构和逻辑性,相同的命令将始终产生相同的输出。

相比之下,人类语言是非结构化的,而且要复杂得多。同一个词或句子可以根据屈折变化和上下文具有多种含义。而且,有许多不同的语言。

那么人工智能是如何理解我们在说什么的呢?

NLP 是如何工作的?

NLP 是用机器学习训练的。机器学习是人工智能的一个分支,它将大量数据转化为一种算法,该算法可以训练自己产生准确的预测。算法拥有的数据和时间越多,效果就越好。这就是为什么今天的 NLP 机器比十年前要好得多的原因。

NLP 通过预处理文本然后通过机器学习训练的算法运行它来工作。

预处理步骤

以下是 NLP 机器将使用的四个常见预处理步骤。

  • 标记化:标记化是将语音或文本分解为更小的单元(称为标记)的过程。这些要么是单独的词,要么是从句。标记化很重要,因为它允许软件确定存在哪些单词,从而导致 NLP 处理的下一阶段。
  • 词干提取和词形还原:词干提取和词形还原是将每个词简化为其词根的简化过程。例如,“跑”变成“跑”。这使 NLP 能够更快地处理文本。

词干是一个简单的过程,涉及从一个字删除任何词缀。词缀是单词开头和结尾的附加内容,使其含义略有不同。但是,当相似的词具有不同的词根时,词干提取可能会导致错误。想想“骆驼”和“来了”这两个词。尽管具有完全不同的含义,但词干可能会将“骆驼”简化为“来了”。

词形还原更为复杂和准确。它涉及将一个词减少到它们的引理,这是一个词的基本形式(如在字典中找到的)。词形还原考虑了上下文,并基于单词的词汇和形态分析。一个很好的例子是“关怀”。词干提取可能会将“关心”简化为“汽车”,而词形还原将准确地将其简化为“关心”。

另一种技术与这两个过程一起使用,称为停用词删除。这是简单地删除对语音含义没有任何相关信息的单词,例如“at”和“a”。

机器学习算法任务

一旦文本经过预处理,NLP 机器就可以根据其意图做几件事。

  • 情感分析:对文本的情感进行分类的过程。例如,产品评论是正面的、中性的还是负面的。
  • 主题分类:这是确定文本主要主题的地方。 NLP 机器可以用它们所涉及的主题来标记文档、段落和句子。
  • 意图检测:这是确定特定文本背后的意图的过程。例如,它可以帮助企业确定客户是要退订还是对产品感兴趣。
  • Part-of-Speech-Tagging:标记化后,NLP 机器将用标识符标记每个单词。这些包括将单词标记为名词、动词、形容词等。
  • 语音识别:这是将语音转换为文本的任务,由于人与人之间在口音、语调、语法和语调上存在差异,因此特别具有挑战性。
  • 命名实体识别:识别诸如“英格兰”或“谷歌”之类的有用名称的过程。这与共指解析相结合,确定两个词是否指代同一事物,例如“Alice”然后是“she”。
  • 自然语言生成:这与语音到文本相反,是 NLP 机器生成语音或文本以进行交流的方式。

为什么 NLP 如此重要?

自然语言处理是一个庞大且不断发展的领域,包含许多功能。 NLP 的一些主要用途是:

  • 分析在线信息:企业和研究人员可以使用 NLP 将大量基于文本的数据分析为可用信息。例如,社交媒体评论、评论、客户支持票,甚至文章。 NLP 可以分析这些趋势和对业务价值的见解。
  • 语言翻译: Google Translate 等应用程序使用 NLP 机器将一种语言转换为另一种语言。
  • 拼写和语法检查:文字处理器和 Grammarly 等应用程序会检查您的文本是否存在拼写和语法错误、可读性、被动语态等,以改进您的写作。
  • 交互式语音响应 (IVR):电话机器人允许人类与计算机操作的电话系统进行通信以执行重定向和其他任务。
  • 虚拟助理: Siri、Cortana、Bixby、Google Assistant 和 Alexa 等个人助理使用 NLP 来聆听您的查询并根据您所说的内容做出响应或执行操作。
  • 预测文本:您的智能手机会根据几个字母或您在句子中已经写下的内容自动提供预测词。智能手机会根据您通常键入的句子进行学习,并提供您最有可能使用的单词。事实上,Microsoft Word很快就会将此作为一项功能来实现
  • 聊天机器人:许多网站现在都有虚拟客户服务机器人,它们会在客户被转介给人工接线员之前尝试为他们提供帮助。

机器人对话者

自然语言处理正在改变我们与机器人交流的方式以及它们与我们交流的方式。彭博新闻使用名为 Cyborg 的人工智能系统来制作其近三分之一的内容。与此同时,福布斯、卫报和华盛顿邮报都使用人工智能来撰写新闻文章。

而这一切都归功于 NLP!