AI安全与反启蒙时代
摘要
关于对人工智能模型实施严格许可和监控的提案,很可能无效甚至适得其反,导致权力以不可持续的方式集中,并可能逆转启蒙运动带来的社会进步。在保卫社会与赋能社会自我保护之间的平衡非常微妙。我们应当倡导开放、谦逊和广泛协商,以制定出更符合我们原则和价值观的应对方案——这些方案能随着我们对这项可能造福或危害社会的技术加深了解而不断演进。
执行摘要
人工智能技术发展迅猛,我们尚不知其潜力边界。某中心首席执行官Sam Altman认为AI可能“捕获宇宙中所有未来价值的视界”。但也可能出现问题,有专家警告“AI可能导致人类灭绝的风险”。
这导致许多人提出AI监管方案,包括白皮书《前沿人工智能监管:管理对公共安全的新兴风险》(后文简称“FAR”)以及欧盟《人工智能法案》议会版本中的提议:
- 为AI模型的开发和部署制定标准;
- 创建确保遵守这些标准的机制。
然而,其他专家反驳道:“(对生存风险的)过度关注……‘挤占了更紧迫问题的空间’,并阴险地向专注于其他当前风险的研究人员施加社会压力。”
尽管当前风险很重要,但人类灭绝的威胁是否意味着我们应该无论如何都要推行此类监管?
答案可能是否定的。正如我们将看到的,如果AI强大到足以构成灾难性威胁,该提案可能实际上并无帮助。事实上,它可能让情况变得更糟,因为它会制造一种极端严重的权力失衡,最终导致社会崩溃。这些担忧适用于所有试图确保模型本身(“开发”)安全,而不仅仅是其使用方式的监管。这些监管的影响可能无法逆转,因此我们在立法前应极其谨慎。
FAR和《人工智能法案》旨在监管的模型开发类型是“基础模型”——一种通用AI,能够(以不同程度的成功率)处理几乎所有问题。无法确保任何通用设备(例如计算机或钢笔)永远不会被用于造成伤害。因此,确保AI模型不被滥用的唯一方法是确保无人能直接使用它们。相反,它们必须被限制在一个严格控制的狭窄服务接口中(如ChatGPT,即GPT-4的接口)。
但那些拥有AI模型完全访问权限的人(例如托管服务的公司内部人员)相对于仅限于“安全”接口的人拥有巨大优势。如果AI变得极其强大,那么对模型的完全访问权限对于需要保持竞争力的人以及希望造成伤害的人都至关重要。他们可以简单地从头开始训练自己的模型,或者通过勒索、贿赂或窃取来获取现有模型。这可能导致一个只有拥有海量资源训练基础模型、或道德底线低下去窃取它们的群体,才能接触到人类最强大技术的社会。这些群体可能变得比任何国家都强大。历史上,巨大的权力差异曾导致暴力和社会整体屈从。
如果我们现在以“安全”为名,通过监管来增加权力的集中化,我们就有可能会逆转启蒙时代取得的进步,并进入一个新的时代:反启蒙时代。相反,我们可以坚持开放和信任的启蒙思想,例如支持开源模型开发。开源通过广泛参与和共享促成了巨大的技术进步。开放的AI模型或许也能做到这一点。广泛参与能让更多拥有不同专业知识的人帮助识别和应对威胁,从而提升整体安全——正如我们在网络安全等领域所见。
我们现在可以采取一些干预措施,包括欧盟《人工智能法案》中提出的对“高风险应用”进行监管。通过对应用进行监管,我们关注的是真实的危害,并能让最直接责任方承担责任。《人工智能法案》中另一个有用的方法是监管披露,以确保模型使用者拥有恰当使用所需的信息。
AI的影响很复杂,不太可能有万全之策。在我们创造出先进AI之前,我们无法真正理解其影响。因此,我们不应急于监管这项技术,并应小心避免“治疗”比“疾病”本身更糟。
大问题
AI能力快速提升,许多人要求被保护,也有许多人提供这种保护。最新的是一份名为《前沿人工智能监管:管理对公共安全的新兴风险》(FAR)的白皮书。该文许多作者与某中心和某机构有联系,并与受这两家公司投资者资助的各种组织有关联。FAR声称“需要政府介入,以确保此类‘前沿AI模型’为公共利益服务”。但我们真的能确保这一点吗?代价是什么?
FAR未能解决一个巨大的、赤裸裸的问题。
任何拥有强大AI模型完整版本访问权限的人,比只能通过受限服务访问该模型的人拥有大得多的权力。但很少有人能访问完整模型。如果AI真的变得极其强大,那么这种巨大的权力差异是不可持续的。
尽管表面上满足了各种安全要求,但FAR所推动的监管体系最终会将巨大权力赋予那些根深蒂固的公司(凭借它们拥有原始模型的访问权限),使它们对所有其他参与者(包括试图监管或约束它们的政府)形成信息不对称。这可能导致社会的毁灭。
原因如下:因为这些模型是通用计算设备,不可能保证它们不会被用于有害应用。这就像试图制造一台不可能被误用(例如用于发送勒索邮件)的计算机。完整的原始模型远比任何基于它的“确保安全”的服务要强大得多。原始模型是通用的:它可以用于任何目的。但如果你给人一个通用计算设备,你无法确保他们不会用它来造成伤害。
因此,你只能给他们访问一个服务的权限,该服务提供了通往完整模型的一个小窗口。例如,某中心向公众提供对GPT-4的一个严格控制和调优的文本对话接口,但不提供对GPT-4模型本身的完全访问。
如果你控制着一个强大的模型,该模型是所有信息消费和生产的媒介,并且它是一个专有秘密,你就可以塑造人们的信念、行为——并随心所欲地审查。
FAR所倡导的理念最终将导致除了少数几家公司员工以外的所有人都无法接触AI前沿,而这些公司的支配地位将因这些理念而得以确立。这是社会走向的一条极其危险且脆弱的道路。
竞赛
那么,让我们回顾一下在这些监管提案下会发生什么。我们拥有世界上最强大的技术,一直在快速发展,但只有少数大公司拥有该技术最强大版本的访问权限,允许其以不受限制的方式使用。
接下来会发生什么?
显然,现在所有关心权力和金钱的人都迫切需要找到获得这些模型完全访问权限的方法。毕竟,任何无法接触到史上最强大技术的人都不可能参与竞争。对他们来说,好消息是这些模型本质上只是一堆数字。它们可以极其容易地被复制,一旦你得到了它们,你就可以免费分发给所有朋友。(FAR专门有一节讨论这个问题,称之为“扩散问题”。)
周围有很多擅长数据窃取的专家,他们知道如何利用勒索、贿赂、社会工程学等各种经验证明非常有效的方法。对于那些有分寸不使用此类不光彩手段,但拥有资源的人来说,他们也可以通过花费大约1亿美元来加入具备AI能力的行列。即使是《财富》全球2000强中最小的公司也有70亿美元的年收入,这样的支出完全在其预算范围内。当然,大多数国家的政府也能负担得起这样的费用。当然,根据拟议法规的要求,这些组织都不能直接向公众提供这些模型,但根据定义,每个组织中至少会有一部分人拥有完整模型的权力。
那些渴望权力和财富,但未能获得模型权重访问权限的人,现在有了新目标:进入拥有大型模型组织的权力职位,或者进入做出这些决策的政府部门。那些最初旨在为社会利益开发AI、充满善意的组织,很快就会发现自己变成了追逐企业利润的机器的一部分——所有公司成长过程中都会加入的、由擅长追逐利润的人运营的机器。
事实是,这整个试图控制AI使用的努力是徒劳和无效的。不仅模型的“扩散”无法控制(因为数字信息太容易被窃取和复制),而且对模型训练所需计算能力的限制也无法执行。这是因为现在世界各地的人们可以虚拟地联合起来共同训练一个模型。例如,某中心创建了一个完全去中心化、开放、可扩展的AI云,最近的研究表明,这种方法可以走得很远。
用于训练模型的图形处理单元(GPU),与用于玩电脑游戏的硬件完全相同。目前全球用于玩游戏的计算能力比用于AI的还要多。世界各地的游戏玩家只需在电脑上安装一个小软件,就可以选择帮助训练这些开源模型。组织如此大规模的行动会很困难,但并非没有先例,如 Folding@Home 和 SETI@Home 等项目的成功所示。
开发者已经在思考如何确保普通人能够继续训练这些模型——例如,在最近与 Lex Fridman 的访谈中,某机构创始人 George Hotz 解释了他的新公司 Tiny Corp 正在开发的“Tiny Rack”,其设计前提是:“你能在不引起怀疑的情况下,把最多的电力弄进你家?其中一个答案是电动汽车充电器。”因此,他正在构建一个使用与汽车充电器相同电量的AI模型训练系统。
AI安全社区很清楚这个问题,并提出了各种解决方案。例如,AI政策专家 Yo Shavit 最近发表的一篇有影响力的论文,研究了可以添加到计算机芯片中的监控机制,指出:
“随着先进机器学习系统的能力开始在 geopolitics 和社会秩序中发挥重要作用,可能变得至关重要:(1)政府能够在其境内强制执行关于开发先进ML系统的规则,以及(2)各国能够核查彼此对先进ML开发的潜在国际协议的遵守情况。”
任何解决此问题的方法都必须确保要求所有此类芯片制造商在其芯片中加入监控功能,因为显然,如果有一家公司不这样做,那么所有想要训练自己强大模型的人都会使用该公司的芯片。Shavit 指出,“在硬件层面彻底执行此类规则将需要监控和监管个人对其个人电脑的使用,这在伦理基础上是高度不可接受的。”然而,现实是,要使集中化和控制有效,此类规则是必需的,因为个人电脑通过互联网连接就可以用于训练大型模型。
当自称 AI 安全运动先驱的 Eliezer Yudkowsky 提议空袭未经授权的数据中心,并以核战争威胁来确保那些未能控制计算能力未经授权使用的国家遵守规定时,许多人感到震惊。但轰炸数据中心和对所有计算机进行全球监控,是确保 FAR 所提议的那种安全合规的唯一途径。
监管使用,而非开发
Alex Engler 指出了一种替代强制执行安全标准或模型许可的方法,即“监管有风险的、有害的应用,而不是开源 AI 模型”。大多数监管都是这样运作的:通过责任追究。如果有人做了坏事,他们就会有麻烦。如果有人创建了一个通用工具,而别人用它做了坏事,工具制造者通常不会惹上麻烦。“双重用途”技术,如互联网、计算机、纸笔,并不局限于只有大公司才能使用,任何人都可以制造计算机或造纸。他们不必确保他们制造的东西只能用于社会公益。
这是一个关键区别:监管使用(即,实际将模型投入系统使用——尤其是像医疗这样的高风险系统)与监管开发(即,训练模型的过程)之间的区别。
这个区别之所以关键,是因为这些模型实际上只不过是数学函数。它们输入一堆数字,计算并返回另一堆数字。它们本身不做任何事——只能计算数字。然而,这些计算可能非常有用!事实上,计算机本身也仅仅是计算器(因此得名“计算机”)。它们只有在被使用时(即,连接到某个实际能做事的系统)才是有用的。
FAR 提到了这个区别,声称“AI 能力的改进可能是不可预测的,并且通常需要密集测试才能完全理解。因此,不要求模型在部署前进行充分测试的监管可能无法可靠地防止已部署模型构成严重风险。”这是一个不合逻辑的推论。因为模型在不被使用时不会造成伤害,所以开发模型本身不可能是一项有害活动。此外,因为我们讨论的是通用模型,我们无法确保模型本身的安全——我们只能尝试确保模型使用的安全。
另一个有用的监管思路是考虑保护对敏感基础设施(如化学实验室)的访问。FAR 简要考虑了这个想法,说“对于前沿AI开发,特定行业的监管可能很有价值,但很可能无法解决一部分高严重性和规模的风险。”但它没有进一步研究,而是基于一个假定的、看似“可能”存在的剩余风险子集,去推动一个(正如我们所见)可能颠覆数百年文化、社会和政治发展的方法。
如果我们能够构建先进的AI,我们应该期望它至少能帮助我们识别需要加固的敏感基础设施。如果有可能利用此类基础设施造成伤害,那么它似乎很可能可以被识别出来——如果AI无法识别它,那么它就无法利用它。当然,实际处理已识别的威胁可能并不简单;例如,如果发现台式DNA打印机可能被用于制造危险病原体,那么加固所有这些设备将是一项巨大的工作。但这仍然比限制世界上所有计算设备的工作量要小得多,侵入性也低得多。
这引出了另一个有用的监管路径:部署披露。如果你考虑将任何使用AI的自动化系统连接到任何类型的敏感基础设施,那么我们应该要求披露这一事实。此外,某些类型的连接和基础设施应需要预先进行仔细的安全检查和审计。
通往集中化的道路
更好的AI可以用来改进AI。这一点甚至在更早期能力较弱、资源较少的算法时代就已经多次出现。某机构利用AI改善数据中心能耗、创建更好的神经网络架构以及优化网络参数的方法。模型输出已被用于创建训练新模型的提示词、为这些提示词生成模型答案,并解释答案的推理过程。
随着模型变得更强大,研究人员将找到更多方法来使用它们改进数据、模型和训练过程。没有理由相信我们已经接近这项技术的极限。没有任何数据可以用来明确预测这能走多远,或者接下来会发生什么。
那些拥有完整模型访问权限的人可以比没有访问权限的人更快更好地构建新模型。原因之一是,他们可以充分利用强大的功能,如微调、激活,以及直接研究和修改权重的能力。例如,最近一篇论文发现,微调可以让模型用比基础模型少几个数量级的参数来解决具有挑战性的问题。
这种反馈循环导致集中化:大公司变得更大,其他参与者无法竞争。这导致集中化、竞争减少,进而导致价格更高、创新更少、安全性更低(因为存在单点故障,且更大的利润动机会鼓励冒险行为)。
还有其他强大的力量推动集中化。以某机构为例。某机构拥有比地球上任何人都多的数据。更多数据直接导致更好的基础模型。此外,随着人们使用其AI服务,他们正在获取越来越多的关于这些交互的数据。他们使用AI改进产品,使其对用户更具“粘性”,并鼓励更多人使用,从而获得更多数据,这进一步改善了他们的模型和基于模型的产品。同时,它们越来越垂直整合,因此强大的供应商很少。它们制造自己的AI芯片(TPU)、运营自己的数据中心并开发自己的软件。
对前沿模型开发的监管鼓励更大的集中化。特别是许可制度,这是FAR提出的一种强有力的集中化力量。对前沿模型开发的许可要求新进入者必须申请许可,才能开发与当前技术水平相当或更好的模型。这使得与根深蒂固的参与者竞争更加困难。它还开辟了一条通往监管捕获的极端强大的路径,因为它导致一个非民主的许可委员会拥有决定谁有权构建地球上最强大技术的最终发言权。因此,这样的机构可能成为世界上最强大的群体。
开源与AI启蒙的新时代
替代渴望安全和确定性、走向控制和集中化的,是再次承担我们数百年前承担过的风险:相信人类和社会的力量与善良的风险。正如启蒙时代的思想家们提出“如果每个人都能接受教育会怎样?如果每个人都有投票权会怎样?”这样的难题一样,我们应该问:“如果每个人都能访问AI的全部能力会怎样?”
需要明确的是:提出这样的问题可能不受欢迎。反启蒙运动是一场持续百年的强大运动,抵制“对进步的信念、所有人的理性、自由民主以及社会日益世俗化”。它依赖一个关键假设,正如法国哲学家 Joseph de Maistre 所阐述的那样:“一般而言,如果人类局限于自身,他们太邪恶了,不配拥有自由。”
我们可以从启蒙运动的结果看出,这个前提是错误的。但这个观念就是挥之不去。几十年来,社会学家一直在研究和记录“精英恐慌”——精英阶层倾向于假设普通人会对灾难做出不良反应,因此必须受到控制。但这同样错了。事实上,正如 Rebecca Solnit 所解释的,它不仅仅是错误:“我将这些危机时刻视为大众权力和积极社会变革的时刻。我书中的一个主要例子是墨西哥城,1985年的地震引发了公众对一党制的不满,从而导致了公民社会的重生。”
当我们应对AI误用的威胁时,拥抱对进步和所有人理性的信念是什么样子的?许多专家正在研究的一个想法是,开源模型可能是关键。
模型只是软件——它们是体现为代码的数学函数。当我们复制软件时,我们通常不称之为“扩散”(像FAR那样)。这个词通常与核武器联系在一起。当我们复制软件时,我们称之为“安装”、“部署”或“共享”。因为软件可以自由复制,它激发了一场巨大的开源运动,将这种共享视为一种道义上的善。当所有人都能受益时,为什么要将价值限制在少数人手中?
这个想法很强大。今天,几乎你使用的每个网站都在运行开源网络服务器(如 Apache),而该服务器又安装在开源操作系统(通常是 Linux)上。大多数程序都用开源编译器编译,用开源编辑器编写。像维基百科这样的开源文档具有变革性。起初,这些都被视为疯狂的想法,有很多怀疑者,但最终,它们被证明是正确的。简而言之,如果没有开源,你今天使用的大部分计算机和互联网世界都将不存在。
如果最强大的AI模型是开源的会怎样?仍然会有坏人试图利用它们伤害他人或不公正地致富。但大多数人不是坏人。大多数人将使用这些模型来创造和保护。让拥有不同专业知识和背景的广泛人类社会尽其所能识别和应对威胁,并有AI的全部力量作为后盾,还有什么比这更安全的呢?如果世界顶尖的网络安全、生物武器和社会工程学学者在AI的帮助下研究AI安全,并且你可以访问和使用他们所有的成果,与只有营利公司少数人拥有AI模型的完全访问权限相比,你会感到安全多少?
为了获得完全模型访问的更好功能,并减少商业对以往具有共享文化的开放研究社区的控制,开源社区最近介入并训练了一些相当有能力的语言模型。截至2023年7月,这些模型中最好的已经达到与第二梯队商用廉价模型相似的水平,但不如GPT-4或 Claude。它们的能力正在迅速提高,并且正吸引着来自富有的捐助者、政府、大学以及寻求避免权力集中并确保获得高质量AI模型的公司的越来越多的投资。
然而,FAR中关于安全保证的提案与开源前沿模型是不相容的。FAR提议“在安全部署被证明可行之前,避免前沿AI模型的潜在危险能力被开源可能是审慎的”。但即使一个开源模型以与监管批准的封闭商业模型完全相同的方式、从完全相同的数据训练而来,它仍然永远无法提供相同的安全保证。这是因为,作为一个通用计算设备,任何人都可以将其用于任何目的——包括使用新数据集和新任务对其进行微调。
开源不是万灵药。这仍然需要谨慎、合作以及深入细致的研究。通过使系统向所有人开放,我们确保整个社会既能从其能力中受益,也能努力理解和对抗其潜在危害。某机构和某机构顶尖的AI和政策小组联合回应了美国政府关于AI问责的意见征求,声明:
“为使基础模型增进公共利益,其开发和部署应确保透明度、支持创新、分散权力并最小化伤害……我们认为开源基础模型可以实现所有这四个目标,部分归功于开源的固有优点(促进透明、促进创新、反对集中)。”
此外他们警告:
“如果闭源模型不能被研究人员和技术专家审查,安全漏洞可能在造成伤害之前未被识别……另一方面,跨领域的专家可以审查和分析开源模型,这使得安全漏洞更容易被发现和解决。此外,限制谁能创建基础模型将减少有能力的基础模型的多样性,并可能导致复杂系统中的单点故障。”
实际上,获取最佳AI模型对研究AI安全至关重要的观点,是当今两家最先进的AI公司——某中心和某机构——起源故事的基础。许多人惊讶于这些公司高管大声警告AI潜在的生存风险,但他们自己却在构建这些模型。但这并不矛盾——他们已经解释过,这样做的原因是他们认为,如果无法获得最先进的模型,就不可能正确理解和减轻AI风险。
今天,开源模型的访问权限正面临严重威胁。基于与FAR类似的原则,《欧洲人工智能法案》可能会有效禁止开源基础模型。技术创新政策分析师 Alex Engler 在其文章《欧盟监管开源AI的努力适得其反》中写道:
“理事会对开源进行监管的尝试可能产生一套复杂的规则,危及开源AI贡献者,但可能并未改进通用AI的使用。开源AI模型通过挑战大型科技公司对通用AI的统治,并使公众了解AI的功能,提供了巨大的社会价值。”
首先,不造成伤害
FAR 得出结论:“对解决前沿 AI 模型所带来挑战的最佳监管方法的不确定性,不应阻碍立即行动”。但或许应该阻碍。事实上,AI 政策专家 Patrick Grady 和 Daniel Castro 恰恰建议——不要急于采取监管行动:
‘围绕新技术的恐惧遵循一个可预测的轨迹,称为“技术恐慌周期”。恐惧上升、达到顶峰、然后随着公众熟悉技术及其益处而下降。确实,创意领域其他先前的“生成式”技术,如印刷机、留声机和电影机,也遵循了同样的轨迹。但与今天不同的是,当时的政策制定者不太可能做太多事情来监管和限制这些技术。随着对生成式 AI 的恐慌进入最动荡的阶段,政策制定者应该深呼吸,认识到我们正处于一个可预测的周期中,并将直接针对生成式 AI 的任何监管努力暂时搁置。’
相反,监管者或许应该考虑希波克拉底的医学指导:“不造成伤害”。医疗干预可能有副作用,有时治疗可能比疾病本身更糟。有些药物甚至可能损害免疫反应,使身体过于虚弱而无法抵抗感染。
监管干预也是如此。不仅“确保安全”所带来的集中化和监管捕获影响会对社会造成直接伤害,甚至可能导致安全性下降。如果只有一个大型组织掌握着巨大技术力量的钥匙,我们就会发现自己处于一种脆弱的境地,即社会其他成员无法获得同等的力量来保护自己。权力斗争甚至可能成为触发滥用 AI 并导致社会毁灭的那类事件的导火索。
AI 监管的影响将是微妙、复杂且难以预测的。保卫社会与赋能社会自我保护之间的平衡极其微妙。急于监管似乎不太可能成功走好这根钢丝。
我们还有时间。人类社会整体的能力总和是巨大的,AI 要超越这个能力是一项艰巨的任务。某中心的技术专家 Ted Sanders(曾赢得多次技术预测竞赛)与某机构 AI 总监 Ari Allyn-Feuer 共同完成了一份长达 114 页的关于 AI 发展时间框架的深入分析,结论是“我们估计到 2043 年实现变革性通用人工智能(AGI)的可能性低于 1%”。
重要的是,时间越久,我们了解得越多。不仅是关于技术,还有社会对其的反应方式。我们不应急于实施可能将社会推向一个可能无法逆转的、反乌托邦道路的监管变革。
对先进语言模型安全性的担忧并不新鲜。早在 2019 年初,我写了《关于 AI 零日威胁以及某中心 GPT-2 的一些想法》,这是对某中心当时有争议且(在当时)不寻常的决定——不发布其新语言模型的权重——的回应。在思考这一决定时,我指出:
关于这个话题最深入的分析是《人工智能的恶意使用》这篇论文。该论文的主要作者现在任职于某中心,并且深度参与了模型发布的决策。让我们看看那篇论文的建议:
政策制定者应与技术研究人员密切合作,调查、预防和减轻 AI 的潜在恶意使用。
AI 研究人员和工程师应认真对待其工作的双重用途性质,让与误用相关的考虑影响研究重点和规范,并在可预见有害应用时主动联系相关方。
应在方法更成熟的研究领域(如计算机安全)确定最佳实践,并在适用的情况下引入 AI 领域。
积极寻求扩大参与讨论这些挑战的利益相关者和领域专家的范围。
《人工智能的恶意使用》由来自 14 个机构的 26 位作者撰写,涵盖学术界、民间社会和工业界。主要作者现在是某中心的政策负责人。有趣的是,作为 FAR 的共同起草者,某中心已经偏离这些最初的想法有多远。恶意使用论文中的四点建议充满了谦逊——它们认识到,有效的风险应对措施需要“主动联系相关方”,从“拥有更成熟方法应对双重用途问题的研究领域(如计算机安全)”学习,并“扩大参与讨论的利益相关者和领域专家的范围”。重点不在于集中化和控制,而在于外展和合作。
机器人末日即将来临的想法引人注目且吸引人。FAR 警告我们必须“防范模型可能具有情境意识和欺骗性”,并链接到一篇文章,声称我们当前的路径“很可能最终导致全面的 AI 接管(即 AI 系统可能发动暴力起义或政变)”。正是这类想法会推动我们去做任何能让我们感到更安全的事情。要抵制这种反应需要成熟和冷静的头脑。
古希腊人教导我们傲慢的危险:过度的骄傲、自大或过度自信。当我们过度自信地认为我们知道未来会怎样时,我们很可能会反应过度,并恰恰创造出我们试图避免的未来。如果在我们试图避免 AI 末日的过程中,我们集中控制了世界上最强大的技术,注定让未来的社会回归到一种封建状态,其中最有价值的商品——计算能力——由少数精英拥有,我们会怎样?我们就像国王俄狄浦斯,被预言会杀父娶母,最终却恰恰因为试图避免这一命运的行为而应验了预言。或者像法厄同,过于自信能够驾驭太阳战车,以至于偏离了父亲赫利俄斯设定的中道,几乎摧毁了地球。
《人工智能的恶意使用》指向了一种不同的方法,基于谦逊:与多领域的专家协商,与技术影响群体合作,在一个从经验中学习的迭代过程中。
例如,如果我们采纳他们的建议,并向计算机安全专家学习,我们会学到该领域的一个关键理念是“通过隐匿实现安全”——即,将秘密隐藏作为安全和保障的基础——是无效且危险的。网络安全专家、某中心信息技术政策中心主任 Arvind Narayanan 和 Sayash Kapoor 在最近的分析中详细说明了由许可和类似监管(即“只有少数几家公司能够开发最先进的AI”)将导致的五大“主要AI风险”:
- 单一文化可能加剧安全风险
- 单一文化可能导致结果同质化
- 定义可接受言论的边界
- 影响态度和观点
- 监管捕获。
我们是如何走到这一步的?
我认识的每一位花时间使用过 GPT-4 和 Bard 等工具的人,都对其能力感到震惊——包括我自己!尽管它们有很多错误(即“幻觉”),但它们几乎能为任何话题提供各种帮助。我每天都使用它们,从获取编程帮助到为我女儿寻找游戏点子。
正如 FAR 所解释:
“基础模型,例如大型语言模型,是在大规模、广泛的自然语言和其他文本(如计算机代码)语料库上训练的,通常从预测下一个‘标记’这一简单目标开始。这种相对简单的方法产生了具有惊人广泛能力的模型。因此,这些模型比许多其他类别的 AI 模型具有更通用的功能。”
它接着说:
“在关注可能具有危险、涌现能力的基础模型时,我们对前沿 AI 的定义排除了专用模型,即使这些模型可能具有足够危险的能力。例如,优化化合物毒性或病原体毒力的模型可能导致有意的(或至少是预见的)伤害,因此可能更适合用更有针对性的法规来覆盖。我们的定义侧重于可能拥有危险能力的模型,而不仅仅是那些确实拥有这些能力的模型。”
因此,作者提议“负责任的前沿 AI 开发和部署的安全标准”以及“授权监督机构识别和制裁不合规行为;或通过许可前沿 AI 的部署,甚至可能是其开发”。他们提议这样做是为了“确保”模型“为公共利益服务”。
假设这些提案被接受并制定了相关法规。接下来会发生什么?有两种可能:
- AI 能力的增长遇到瓶颈,因此尽管 AI 可能是一项非常重要的技术,但我们没有达到可能毁灭社会的超级智能,或者
- AI 能力继续发展,直到它成为人类历史上迄今为止最强大的技术力量。某中心首席执行官 Sam Altman 的预言成为现实,即拥有这项技术的人可以“或许捕获宇宙中所有未来价值的视界”。
在情况(1)下,没什么更多可讨论的。FAR 提出的法规,最坏的情况是不必要的,并可能导致对一个相当有价值的产品空间进行监管捕获。这很可惜,但我们可以忍受。但这并不是 FAR 提案旨在应对的情况——对于像现有技术那样的滥用风险,我们已经有很多简单、易于理解的方法,通常基于对滥用的责任追究(即,如果你使用某项技术做了坏事,你会有麻烦;制造该技术的人通常不会惹上麻烦,除非他们存在疏忽或以其他方式明显且直接地促成了坏事)。
因此,我们应该关注情况(2)——即 AI 确实变得非常重要的情形。需要明确的是,没有人确定这会发生,但许多长期研究 AI 的人认为这是一个真实的可能性。
人类最强大的技术
我们现在正处于“通用人工智能”时代,这得益于“通用”或“基础”模型,例如某中心的 GPT-4、某机构的 Bard 和某机构的 Claude。这些模型是通用计算设备。它们可以(以不同程度的成功率)回答你抛给它们的几乎所有问题。
随着基础模型变得更强大,我们应该期望研究人员找到更多方法来使用它们改进数据、模型和训练过程。当前的模型、数据集创建技术和训练方法都相当简单——基本思想可以用几行代码概括。有很多相当明显的路径可以极大地改进它们,没有理由相信我们已经接近这项技术的极限。因此,我们应该预期在未来的几个月和几年里,技术发展的周期会越来越快。没有任何数据可以用来明确预测这能走多远,或者接下来会发生什么。许多研究人员和 AI 公司高管认为,可能没有实际的限制。
但训练这些模型成本高昂。得益于技术进步,训练相同规模的模型越来越便宜,但模型本身却越来越大。GPT-4 的训练可能花费了大约 1 亿美元。目前所有最强大的模型,GPT-4、Bard 和 Claude,都是由美国(分别是某中心、某机构和某机构)和中国的大公司训练的。
共同建设
已经有许多监管举措在实施,包括白宫科技政策办公室的《人工智能权利法案蓝图》、国家标准与技术研究院的《人工智能风险管理框架》,以及拜登保护美国人免受算法歧视的《第 14091 号行政命令》。
AI 社区也开发了共享重要信息的有效机制,例如数据集文档、模型报告模型卡和生态图。监管可以要求数据集和模型包含关于其构建或训练方式的信息,以帮助用户更有效、更安全地部署它们。这类似于营养标签:虽然我们不禁止人们吃太多垃圾食品,但我们努力为他们提供做出明智选择所需的信息。拟议的欧盟《人工智能法案》已经包含了对此类信息的要求。
尽管我们可以借鉴许多优秀的工作,但还有更多事情要做。AI 世界发展迅速,我们每天都在学习。因此,重要的是要确保我们做出的选择能为未来保留选择权。现在为我们自己选择一条路并决定以不可阻挡的势头猛冲下去还为时过早。相反,作为一个社会,我们需要能够快速并以知情的方式应对新出现的机遇和威胁。这意味着让所有相关领域的广泛专家以及受影响社区的成员参与进来。
我们为政策制定机构建设的能力越强越好。如果决策者对 AI 缺乏深入了解,他们别无选择,只能听从行业意见。但正如某机构网络政策中心国际政策主任 Marietje Schaake 所说,“我们需要让 CEO 远离 AI 监管”:
“想象一下,某机构首席执行官向国会解释,由于金融产品对立法者来说太复杂,银行应该自行决定如何防止洗钱、启用欺诈检测和设定流动性贷款比率。他会被轰下台。愤怒的选民会指出,在全球金融危机中,自我监管的结果有多好。从大型烟草到大型石油,我们艰难地认识到,企业无法制定无私的法规。它们既不独立,也无法创造制衡自身的力量。”
我们还应注意,不要让引人入胜的科幻场景分散我们对当前真实伤害的注意力。变形金刚神经网络架构(为包括 GPT-4 在内的所有顶级语言模型提供支持)的共同创造者 Aiden Gomez 警告:
“这项技术确实存在风险。有理由担心这项技术、谁使用它以及如何使用它。因此,把所有时间都花在争论我们的物种是否会因为超级智能 AGI 的接管而灭绝上,这是对我们时间和公众注意力的荒谬浪费……我真的希望公众知道一些更奇幻的风险故事[是没有根据的]。它们分散了应该进行的对话的注意力。”
反启蒙时代
如果面对一种新的力量,面对不确定性,面对对我们安全的威胁,我们退缩到集中化、控制、将权力限制在少数人手中的确定性中,那会怎样?这就是反启蒙时代。是带来启蒙时代的原则的倒退。
我们将创造一个“拥有者”和“未拥有者”的世界。“拥有者”(大公司、有组织犯罪、政府、以及所有说服亲朋好友为他们获取权重副本的人、所有访问黑客分发这些权重的暗网网站的人、所有复制它们的人……)可以构建越来越好、根据 FAR 的说法可用于大规模宣传、生物和网络威胁开发,或者仅仅用于确保你击败所有竞争对手并垄断最具战略性和盈利性行业的模型。
“未拥有者”对社会提供的价值很小,因为他们只能通过提供有限(但“安全”)应用的狭窄门户访问 AI。
推动对 AI 能力的商业控制是危险的。创造了“休克疗法”这一术语(指“利用公众在集体冲击后的迷茫……来推行激进的亲企业措施”的残酷策略)的 Naomi Klein 现在警告说,AI “很可能成为一个可怕的进一步剥夺和破坏的工具”。
一旦我们走上这条道路,就很难回头。事实上,这可能是不可能的。技术政策专家 Anja Kaspersen、Kobi Leins 和 Wendell Wallach 在他们的文章《我们是否在自动化邪恶的平庸和极端?》中指出,部署糟糕的解决方案(例如设计不良的监管)可能需要数十年来纠正,如果该解决方案对某些人有利可图的话:
“基于 AI 的工具的快速部署与含铅汽油的推广有很强的相似性。汽油中的铅解决了一个真正的问题——发动机爆震。含铅汽油的发明者 Thomas Midgley 了解铅中毒,因为他自己也患上了这种疾病。还有其他危害更小的解决方法,只有在立法者最终介入,制定正确的激励措施以抵消销售含铅汽油所获得的巨额利润时,这些方法才得以开发。”
随着集中化,我们将创造“拥有者”和“未拥有者”,而“拥有者”将能够访问一种使他们远比其他人强大的技术。当巨大的权力和财富差距被创造出来时,它们会被那些最渴望权力和财富的人攫取,历史告诉我们,暴力是消除这种差异的唯一途径。正如 John F. Kennedy 所说,“那些使和平革命不可能的人,将使暴力革命不可避免。”也许,拥有 AI 的力量以及维持控制所需的监控,即使是暴力也将成为一种无效的解决方案。
如果我们确实开始朝着这个方向前进,让我们睁大眼睛,明白它将把我们带向何方。
启蒙时代的脆弱性
在人类历史的大部分时间里,未来是可怕的。是不安全的。是未知的。我们以最简单、最明显的方式回应:集体将信任寄托在比我们更强大的他人身上,以保护我们的安全。大多数社会将教育和权力等危险工具限制在少数精英手中。
但后来情况发生了变化。西方产生了一种新思想。如果还有另一种方式可以确保安全:相信整个社会的总体善良,而不是信赖强大的精英?如果每个人都有机会接受教育?有投票权?接触到技术呢?这——尽管还需要几个世纪的进步才能完全实现其承诺——就是启蒙时代。
既然我们中这么多人生活在自由民主国家,很容易忘记这是多么脆弱和罕见。但我们可以看到,世界各地的国家现在正滑向威权领导人的怀抱。正如 Hermann Göring 所说:“总能引导人民听从领导人的命令。这很容易。你只需要告诉他们正在遭受攻击……”
让我们明确一点:我们没有遭受攻击。现在不是放弃我们为平等和机会来之不易的进步的时候。没有人能保证你的安全,但我们可以共同努力,与 AI 一起构建一个为我们所有人服务的社会。
附录:背景
本文最初是对《前沿人工智能监管:管理对公共安全的新兴风险》(FAR)的红队评估。尽管红队评估在政策提案中并不常见(主要用于计算机安全领域),但它或许应该是,因为政策提案可能存在难以预见、未经仔细分析的风险。在《欧盟人工智能法案》议会版本(其中包含了对基础模型开发的全面新监管)发布后,连同其他我受邀审查的、来自其他司法管辖区的类似私人监管提案,我决定扩展我们的分析范围,以涵盖对模型开发的更广泛监管。
在撰写本评估的过程中,我与来自监管、政策、AI 安全、AI 能力、网络安全、经济学和技术转型领域的 70 多位专家讨论了这些问题,并查阅了 300 多篇学术论文。Eric Ries 和我一起录制了几次专家访谈,我们将在未来几周内发布。
我们的观点是,社会成功过渡到 AI 未来最重要的基础是整个社会的参与、投入和知情。因此,我们正在努力建设一个跨学科社区资源,以帮助应对先进 AI 潜在机遇和威胁的人们。这个资源将被称为“AI 答案”。您正在阅读的这篇评估是该项目开发过程中产生的第一个公开成果。如果您是该领域的政策制定者或决策者,或者从事您认为其成果可能对该领域有用的任何领域的研究,我们希望收到您的来信!
致谢
在本文的整个撰写过程中,Eric Ries 一直是我亲密的合作者,我对他给予的智慧、耐心和坚韧深表感激。非常感谢以下评审人提供的详细反馈:Percy Liang、Marietje Schakke、Jack Clark、Andrew Maynard、Vijay Sundaram 和 Brian Christian。特别要感谢 FAR 的作者之一 Yo Shavit,他非常慷慨地花费时间帮助我加强对他自己论文的这篇批评!我也感谢与 Andy Matuschak 进行的许多深入交谈,他深思熟虑的分析对本文观点的形成至关重要。我还要感谢 Arvind Narayanan、Sayash Kapoor、Seth Lazar 和 Rich Harang,感谢 Eric 和我与他们进行的精彩对话。感谢来自某中心的 Jade Leung 和来自 Governance.ai 的 Markus Anderljung 同意接受评审过程,并为我们提供了 FAR 的预发布版本以供研究。
脚注
虽然对该论文的作者公平地说——我还没有在任何地方看到提到或解决这个问题。↩︎
如果 AI 能力持续发展且没有限制,这种情况将会发生。↩︎
前沿模型的成本可能继续上升。生成式 AI 初创公司 inflection.ai
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)