跳转到主要内容

INHR AI专家顾问RS Panwar中将

人们普遍认为,人工智能系统,特别是军事应用,会带来重大风险,因此需要对其进行评估和缓解。缓解措施可以在系统生命周期的每个阶段制定,从项目审批到设计和开发、测试和评估、审查(包括法律审查)和部署阶段。发展适当的测试、评估、验证和验证(TEVV)流程,跨越开发和部署阶段,可以说是全面风险缓解框架的最重要方面。虽然这适用于所有支持人工智能的应用程序,但为军事系统开发最佳的TEVV机制需要特别考虑。

 

INHR最近提出了一份《人工智能军事系统测试和评估实践指南》草案,这是国际专家就人工智能在军队中的设计、部署和国际合作进行国际对话的结果。在这里,我们简要介绍一下人工智能技术的风险特征,与传统软件相比,人工智能系统需要特殊的TEVV,以及为什么军用人工智能系统的TEVV更具挑战性。

定义AI

目前的趋势是将人工智能一词视为具有普遍接受的定义,但这与事实相去甚远。虽然《大英百科全书》将人工智能从广义上定义为数字计算机或计算机控制的机器人执行通常与智能生物相关的任务的能力,但欧洲议会最近通过的拟议的《欧盟人工智能法案》提供了更具体的描述。它将人工智能系统定义为使用各种技术和方法生成输出、预测、建议或决策的软件,包括机器学习方法,如监督、无监督和强化学习,基于知识的方法,如逻辑编程和专家系统,以及统计方法,如贝叶斯估计和优化方法。

尽管上面列出了广泛的人工智能,但可以合理地认为,当前与人工智能系统相关的大多数风险主要来自基于神经网络的机器学习技术。在本文中,人工智能一词主要指人工智能/机器学习技术的利用。

人工智能的特点和风险

基于机器学习的人工智能系统具有独特的特征,这些特征是其能力和相关风险的基础。这些特征主要源于它们直接从数据中学习的能力,即使系统被积极部署,这一过程也可以持续下去,通常被称为在线学习。这种直接从数据中提取逻辑流和其他智能的能力也赋予了人工智能系统黑匣子的性质,其中将输入转换为输出的内部工作原理在很大程度上仍然未知,甚至对开发人员来说也是如此。这通常被表示为人工智能系统缺乏透明度或可解释性。最后,近年来,神经网络表现出了非凡的能力,使其赋予人工智能系统的智能呈指数级增长。

人工智能系统的数据中心性引入了来自非代表性、有偏见或错误/故意操纵数据的风险,导致系统出现意外行为。该系统持续学习、部署后转型的潜力及其固有的不透明性在其操作中引入了不可预测性因素。数据驱动的学习和不透明性的结合导致人工智能系统在遇到非典型场景时容易发生灾难性故障,这一特征通常被称为脆性(brittleness)。人工智能系统的日益智能化和随之而来的更大自主权的授权带来了不必要的后果,包括自动化偏见和缺乏问责制。在这种情况下,自动化偏见是指过度依赖自动化系统而没有严格评估其输出或建议的倾向。

AI TEVV的独特之处

由于AI/ML系统的正确功能在很大程度上取决于训练和测试数据的质量,因此与传统软件相比,用于开发和测试的数据集的重要性增加了很多。因此,必须非常认真地管理用于培训和测试目的的数据,仔细检查其相关内容、一致性、统一性和全面性

传统软件可以进行算法(白盒)测试,其中测试输入可以被设计为检查软件中的每个逻辑路径。它也可以进行操作(黑匣子)测试,将测试数据(代表操作条件)输入系统,并验证输出是否符合系统规范。虽然黑盒测试同样适用于人工智能软件,但不可能在人工智能/ML软件中测试逻辑流。然而,虽然某些类型的白盒测试确实可以在人工智能软件上进行,但这些测试与传统软件的算法测试有很大不同。

与AI/ML软件相关的脆性特征可能导致意外故障,有时甚至当系统遇到看似正常的外部输入时也是如此。因此,AI TEVV流程需要以不同的方式设计,并更加严格,尤其是在测试具有高风险的系统时。

基于AI/ML的决策支持系统,如果设计得不透明,自然会导致用户对其建议和其他输出缺乏信任,除非采取措施提高系统的可信度。其中一项措施是使用可解释人工智能(XAI),目前这仍然是一个深入研究的主题,尚未取得重大进展。然而,TEVV过程的设计必须评估用户是否对系统有合理的信心。

AI/ML系统能够直接从数据中学习,而无需进一步编码,这也意味着系统更新可以更频繁地发生,在在线学习的特殊情况下,甚至是实时的。这种以AI/ML系统频繁更新为特征的升级过程也称为连续集成/连续交付(CI/CD)。虽然更新虽然频繁,但仍会间隔一段时间,但仍然可以设置一个合适的、灵活的TEVV,以便在发布前对每个新版本进行测试和评估。另一方面,在连续实时在线学习的情况下,即使这样也可能不可行。在这种情况下,尽管可以制定定期监测和评估程序,但在系统运行期间,未经测试的系统状态可能仍然存在,从而增加了意外后果的风险。

最后,必须设计TEVV流程,以减轻与自动化偏见和缺乏问责制相关的风险,这两种风险都是由于将人类功能过度委托给机器造成的。这些过程不仅要评估机器,还要评估人机协作问题,并验证是否采取了措施来减轻自动化偏差的影响。这些过程还必须严格评估人机界面,以确保在系统故障的情况下,特别是在武器系统的关键功能方面,责任始终在于人,而不是机器。

军事系统的TEVV:特殊考虑

 

军事环境有几个特征,这些特征为人工智能军事系统的测试和评估带来了独特的特征。

战争很少发生,冲突场景中的数据收集具有挑战性,主要利益的数据大多属于无法直接控制的对手系统。因此,作为AI/ML驱动系统的主要燃料,所需的数据质量和数量很少可用。因此,采用数据高效的人工智能技术,以及生成所需数据集和必要测试环境的模拟技术,变得势在必行。

军事行动可能要求在不同的环境中频繁地重新部署系统。由于AI/ML供电系统的性能对其运行的外部环境高度敏感,因此在将其重新部署到新的运行环境之前,可能需要对系统进行再培训并重新评估其性能。因此,TEVV过程必须是动态的,并具有适当的结构,以便在苛刻和时间敏感的操作环境中高效运行。

军事系统,特别是武器系统,固有地具有高风险,因为人的生命危在旦夕。这些系统的使用必须在国际人道主义法规定的限制范围内进行。所有人工智能系统的问责制问题在武器系统中可能会产生特别严重的后果。TEVV程序必须纳入1949年日内瓦四公约第一附加议定书第36条规定的必要法律审查,并确保这些制度不本质上违反国际人道主义法原则。

在冲突场景中,AI/ML系统的脆性特性可能会产生灾难性影响。因此,TEVV过程的设计必须使任何统计测试中出现异常值的概率限制在最低限度。

军事行动的关键目标之一是在敌方的“观察-方向-决定-行动”(OODA)循环中工作。随着自主武器系统和人工智能决策的出现,可以放心地假设OODA循环,尤其是在战术层面,执行速度会更快。因此,存在着行动节奏可能失控的真正风险。在这种情况下,导致不良影响的自动化偏见的普遍性可能要高得多。为了降低这种风险,TEVV过程必须专门评估系统MMI,以评估人类是否将始终牢牢控制操作。

上面已经解释过,如果允许,在线学习可能会导致系统在运行时处于未经测试的状态,从而导致意外和不可预测的影响。在战场环境中,这很容易导致违反国际人道主义法。因此,TEVV过程必须防止在线学习的负面影响,并可能确保在完全自主的致命武器系统的关键功能中永远不允许使用这一功能。

TEVV指南:概念基础

上述考虑为上述人工智能军事系统测试和评估实践指南草案提供了概念基础。这里强调的关切也可以作为对个别做法的解释性评论的有用投入,这些评论可以为政策制定者、开发人员和军事用户提供方便。