什么是 AI 偏见以及开发人员如何避免它?

人工智能能力呈指数级增长,人工智能现在被用于从广告到医学研究的各个行业。在面部识别软件、招聘算法和医疗保健等更敏感的领域使用人工智能,引发了关于偏见和公平的争论。

偏见是人类心理学的一个经过充分研究的方面。研究经常暴露我们无意识的偏好和偏见,现在我们看到人工智能在其算法中反映了其中的一些偏见。

那么,人工智能是如何产生偏见的呢?为什么这很重要?

人工智能如何变得有偏见?

为简单起见,在本文中,我们将机器学习和深度学习算法称为 AI 算法或系统。

研究人员和开发人员可以通过两种方式将偏见引入 AI 系统。

首先,研究人员的认知偏差可能会意外地嵌入到机器学习算法中。认知偏见是人类无意识的感知,会影响人们的决策方式。当偏见与人或人群有关并可能伤害这些人时,这将成为一个重要问题。

这些偏差可以直接但意外地引入,或者研究人员可能会在本身受偏差影响的数据集上训练 AI。例如,可以使用仅包含浅肤色面部的数据集来训练面部识别 AI。在这种情况下,AI 在处理浅肤色面孔时会比处理深色面孔表现更好。这种形式的人工智能偏见被称为负面遗产。

其次,当人工智能在不完整的数据集上进行训练时,可能会出现偏差。例如,如果 AI 是在仅包括计算机科学家的数据集上进行训练的,它就不会代表整个人群。这导致算法无法提供准确的预测。

现实世界人工智能偏见的例子

最近有多个报道充分的人工智能偏见例子, 说明允许这些偏见蔓延的危险

美国医疗保健优先

2019 年,机器学习算法旨在帮助医院和保险公司确定哪些患者将从某些医疗保健计划中受益最大。基于大约 2 亿人的数据库,该算法偏爱白人患者而不是黑人患者。

确定这是因为算法中关于黑人和白人之间不同的医疗保健费用的假设错误,并且偏差最终减少了 80%。

指南针

替代性制裁的惩教罪犯管理分析(COMPAS)是一种人工智能算法,旨在预测特定人员是否会再次犯罪。与白人罪犯相比,该算法对黑人罪犯产生了两倍的误报。在这种情况下,数据集和模型都有缺陷,引入了严重的偏差。

亚马逊

亚马逊用来确定申请人适合性的招聘算法在 2015 年被发现严重偏向男性而不是女性。这是因为数据集几乎只包含男性及其简历,因为大多数亚马逊员工都是男性。

如何阻止人工智能偏见

人工智能已经彻底改变了我们在各个行业的工作方式。让有偏见的系统控制敏感的决策过程是不可取的。充其量,它会降低基于人工智能的研究的质量。在最坏的情况下,它会积极损害少数群体。

有一些人工智能算法已经被用于通过减少人类认知偏见的影响来帮助人类决策。由于机器学习算法的训练方式,它们可以比处于相同位置的人类更准确、更少偏见,从而做出更公平的决策。

但是,正如我们所展示的,反之亦然。允许人类偏见被人工智能煮熟并被人工智能放大的风险可能会超过一些可能的好处。

归根结底,人工智能的好坏取决于它所训练的数据。开发无偏见的算法需要对数据集进行广泛而彻底的预分析,以确保数据没有隐性偏见。这比听起来更难,因为我们的许多偏见都是无意识的,而且通常很难识别。

防止人工智能偏见的挑战

在开发人工智能系统时,必须评估每一步是否有可能将偏见嵌入到算法中。防止偏见的主要因素之一是确保公平而不是偏见被“融入”算法。

定义公平

公平是一个相对难以定义的概念。事实上,这是一场从未达成共识的辩论。更困难的是,在开发人工智能系统时,必须从数学上定义公平的概念。

例如,就亚马逊的招聘算法而言,公平是否看起来像一个完美的 50/50 男女员工分配?还是比例不同?

确定功能

AI 开发的第一步是准确确定它要实现的目标。如果使用 COMPAS 示例,该算法将预测罪犯重新犯罪的可能性。然后,需要确定明确的数据输入以使算法能够工作。这可能需要定义重要的变量,例如以前的犯罪次数或所犯罪行的类型。

正确定义这些变量是确保算法公平性的一个困难但重要的步骤。

制作数据集

正如我们所讨论的,人工智能偏见的一个主要原因是不完整、不具有代表性或有偏见的数据。与面部识别 AI 的情况一样,在机器学习过程之前,需要彻底检查输入数据的偏差、适当性和完整性。

选择属性

在算法中,可以考虑或不考虑某些属性。属性可以包括性别、种族或教育——基本上任何对算法任务可能很重要的东西。根据选择的属性,算法的预测准确性和偏差可能会受到严重影响。问题是很难衡量算法的偏见程度。

AI 偏见不存在

当算法由于有偏差的输入而做出有偏差或不准确的预测时,就会出现 AI 偏差。当在算法的开发和训练过程中反映或放大有偏见或不完整的数据时,就会发生这种情况。

好消息是,随着对 AI 研究的资助成倍增加,我们很可能会看到减少甚至消除 AI 偏见的新方法。