泸州市网站建设_网站建设公司_悬停效果_seo优化-晋中市网站建设公司

原文：towardsdatascience.com/how-artificial-intelligence-might-be-worsening-the-reproducibility-crisis-in-science-and-technology-47134f639f24

人工智能已经成为科学研究中的一个重要工具，但人们越来越担心这些强大工具的误用正在导致科学及其技术应用的可重复性危机。让我们探讨导致这种有害影响的根本问题，这些问题不仅适用于科学研究中的人工智能，也适用于人工智能开发和利用的各个方面。

人工智能，或 AI，已经成为社会和一般技术的一个组成部分，每个月都在医学、工程和科学领域发现几个新的应用。特别是，AI 已经成为科学研究和新基于技术产品开发中的一个非常重要的工具。它使研究人员能够识别出人类肉眼可能不明显的数据模式，以及其他类型的计算数据处理。所有这些都无疑带来了一场革命，在很多情况下，这种革命以改变游戏规则型的软件解决方案的形式出现。在众多例子中，一些如能够进行“思考”的大型语言模型，具有卓越能力的语音识别模型，以及 Deepmind 的AlphaFold 2 程序，它彻底改变了生物学。

尽管人工智能在社会中的地位日益增长，但人们越来越担心这些强大工具的误用正在加剧已经非常严重且危险的危机，即威胁到科学和技术的可重复性问题。在这里，我将讨论这一现象背后的原因，主要关注那些广泛适用于数据科学和人工智能开发（而不仅仅是科学应用）的高层次因素。我相信这里提出的讨论对所有参与人工智能模型开发、研究和教学的人来说都是宝贵的。

关于科学中的可重复性问题以及基于 AI 科学的特定问题

首先，让我们看看什么是可重复性，以及它存在的问题，尤其是在科学和技术领域。

可重复性是支撑科学方法的一个主要原则，它指出实验结果，或者更相关的是，训练或执行 AI 模型的结果必须是可重复的。这意味着它们必须完全可复制和可重复。

要使 AI 项目具有可重复性，论文和代码应该足够清晰，以界定条件、输入数据、网络架构、算法以及 AI 构建过程中的任何其他元素。在一个理想的开源世界中，所有这些元素都应该足够清晰地提供，以便其他人能够忠实地复制和重复原始开发者的工作。

从上述定义一开始，你可能就看到了它与专有模型相关的明显问题。出于明显的原因，这类模型的全部细节永远不会公开，当然，控制版权侵权也是不可能的。但即使对于可能开放的模型，不完整的描述也非常普遍。结合以下我将讨论的其他问题，这些都共同导致了科学、工程和技术中可重复性问题日益严重。

在 AI 中，可重复性对于确保使用 AI 模型的新科学模型或科学工作的有效性和可靠性至关重要。更广泛地说，模型的可重复性在社区中培养了一种信任感，这对于 AI 科学工具被科学界接受是必不可少的。

可重复性还促进了知识和知识的积累与整合，因为新的研究可以在之前的研究基础上建立，并确认或挑战其结果。此外，可重复性还促进了创新和创造力，因为研究人员可以使用现有的数据和一定程度的确定性来探索新的问题和假设。

然而，可重复性并不总是容易实现，有许多因素会影响它。尽管我们在这里特别讨论的是 AI 工具在科学、工程和技术发展中的应用中的可重复性问题，但核心因素基本上都包含在支撑科学可重复性的指导方针中。但在 AI 领域，这有一个前提，即许多这些因素可能比在科学中扮演更重要的角色。

数据质量和可用性当然，科学依赖于数据，数据必须良好。在这个阶段，基于 AI 的科学的一个显著特点是，与可以仅用相对较少数据点进行拟合的分析模型相反，AI 模型需要大量数据进行训练。

在一项研究中使用的数据应该是准确、完整和一致的，并且应该使其他希望重现该研究的研究人员能够访问。然而，数据质量可能会因错误、噪声、异常值、缺失值或不一致性而受损。数据的可用性也可能受到伦理、法律或技术障碍的限制，或者由于对隐私、竞争或批评的担忧，研究人员不愿意分享他们的数据。在人工智能的背景下，这一点尤为重要，因为人工智能模型需要大量的数据进行训练，这些数据必须可靠，在整个输入域中分布均匀，无问题和无偏见，并且要适当管理，不保留有缺陷的点，并且非常小心地丢弃被标记为异常值的数据点。

模型细节和透明度这就是专有系统、知识产权、保留专利和其他与版权相关的问题通常介入的地方。

理想情况下，至少对于开源项目来说，研究中使用的方法和模型应该被清楚地描述和记录，并且应该使其他希望重现该研究的研究人员能够访问。对于具有许多不同子网络、架构、激活函数、偏差项、预处理和后处理模块以及其他元素的庞大而复杂的 AI 模型，这可能非常困难实现。即使没有恶意，也可能因为数量和复杂性而遗漏某些元素。在涉及许多人的大型开源项目中，简单的误解可能导致整个组件被错误地描述。即使通过 GitHub 等资源共享源代码和模型，也可能忽视解释输入必须如何处理或数据如何整理的需要。

模型细节可以简单地省略，或者模糊不清，或者完全错误。透明度可能因为方法或模型的复杂性或专有性质而不足。此外，某些方法和模型可能存在隐藏的假设、参数或依赖关系，这些可能会影响其性能和泛化能力。

特别注意，在人工智能模型开发中，调整大量参数和程序以优化训练和测试结果是非常常见的。这些做法通常不透明或未记录，并且通常由主观指标和“直觉”来指导，以改善损失和性能。

在所有这些之上，解释 AI 模型内部工作原理的极端困难进一步加剧了这一因素，尤其是在负责准备文档的人不是开发者本身的情况下。

数据泄露和操纵的风险用于训练人工智能系统的数据应与测试数据充分分离，结果（即训练网络的性能）应尽可能独立于数据。换句话说，训练数据和测试数据不应重叠，如果模型训练良好，则使用不同的训练和测试集重新运行其训练应产生工作效果相似的模型。

当训练数据和测试数据子集之间存在重叠或相关性时，可能会发生数据泄露，在这种情况下会导致过拟合或偏差。反过来，当研究人员修改数据或参数以获得期望的结果时，无论是故意还是无意，都可能导致不切实际的高准确率，这并不反映真实性能。

在创建适用于现实条件的人工智能模型中的挑战用于训练和测试人工智能系统的数据应反映系统将部署的现实条件。然而，现实世界的数据可能比实验室条件下的数据更加多样化、复杂和嘈杂，并可能引入新的变异性和不确定性来源。我将在下一节中提供一个具体的例子。

此外，现实条件可能会随时间变化，人工智能系统可能需要适应原始训练和测试数据中未表示的新情况和场景。

关于科学中可重复性问题的更多内容（但并非主要围绕人工智能），您可以阅读我用来帮助我撰写这篇博客文章的这篇文章链接。

人工智能如何加剧科学技术中的可重复性危机

让我现在具体讨论人工智能如何加剧科学技术中的可重复性危机，然后简要介绍已提出的一些改善情况的方法。

我这部分博客文章是基于我从关于人工智能和一般科学中的可重复性危机的这篇文章和专注于化学人工智能模型的可重复性的这篇文章中提炼的信息和例子撰写的。

数据泄露

如上所述，当用于训练人工智能系统的数据与用于测试的数据之间缺乏足够分离时，就会发生数据泄露。这个需求听起来很明显，但事实证明它是问题的一个重要部分。问题是避免数据泄露很复杂，因为用于人工智能模型的数据通常是高维的，并且由于数据可能呈现的相关性和其他不受欢迎的特征。

数据泄露已被证明会使人工智能系统偏向于学习识别与特定个人或仪器相关的特征，而不是感兴趣的科学研究现象。例如，一组科学家报告称，一个 AI 系统可以通过分析胸部 X 光片来诊断 COVID-19 感染，但堪萨斯州立大学的计算机科学家们随后表明，在相同图像上训练但仅使用显示无身体部位的空白背景部分的 AI 算法，仍能以远高于偶然水平识别 COVID-19 病例。这表明 AI 系统是在捕捉数据集中医学图像背景中的一致差异，而不是任何临床相关的特征。显然，在这里，AI 系统学会了识别与特定个人或仪器（在这种情况下，医学图像的背景）相关的特征，而不是感兴趣的科学研究现象（在这种情况下，COVID-19 感染的存在或不存在）。请参阅这里一个完整的同行评审论文，报告了这一发现。

数据泄露问题可能微妙，但对人工智能模型的影响可能非常深远，甚至使其实际上变得无用。特别是，如果从用于训练的同一数据池中抽取随机子集作为测试数据，就可能发生泄露。在这项示例研究中，该研究分析了另一项工作中开发用于分析组织病理学图像的人工智能模型，AI 科学家发现，如果使用来自同一个人（或同一科学设备）的医疗数据在训练和测试集中，AI 模型会学会识别与该个人相关的特征，而不是特定的医疗状况。该研究还报告说，当不同成像设备的数据在训练和测试集中混合时，也可能发生同样的事情。简而言之，在这些情况下，AI 系统在数据上表现正确，但这并不是因为它学习了与疾病相关的模式，而是因为它学习了特定于个人或仪器的模式。该研究的结论是，在将数据分为训练、测试和验证集时必须格外小心，并且在进行控制试验以确定算法的输出是否有意义时，至关重要的是要在空白背景上进行试验。

即使是人工智能巨头也可能会陷入这种陷阱。例如，谷歌健康的研究人员开发的一个用于分析视网膜图像以寻找糖尿病视网膜病变迹象的人工智能系统，在高质量扫描图像上进行了训练，然后拒绝了大多数在次优但有效条件下拍摄的正例图像，这些条件下人类专家可以处理得很好。该人工智能系统学会了识别与高质量扫描相关的特征，而不是糖尿病视网膜病变本身的迹象。因此，该人工智能在现实世界条件下的表现无法重复。

数据和参数的操纵

人工智能的灵活性和可调性，加上在开发这些模型时缺乏高度标准化的严谨性，可能导致研究人员操纵数据和参数，直到它们与预期结果一致，即使没有恶意。

由于许多研究人员在正确应用机器学习来测试科学假设和建模问题方面没有得到充分的培训，甚至不是 AI 专家，这个问题变得更加严重。这不是批评，而是现实：大多数创建人工智能模型来解决某个科学领域问题的科学家没有在计算机科学或与人工智能系统直接相关的其他硬核学科方面有正式背景；相反，他们大多数拥有自然科学或工程学的学位。

在一个例子中，一个研究团队使用人工智能根据历史天气数据预测未来气候模式，假设由于人为引起的气候变化，全球温度将在下一个世纪显著上升。他们开发了一个 AI 模型，并在历史天气数据上对其进行训练，但初始结果并不支持他们的假设：模型仅预测全球温度略有上升，他们知道这是正确的方向，但太小。然后，研究人员决定通过调整参数微调 AI 模型，给予最近（较暖）的年份更多权重。他们还排除了他们认为的异常数据点。经过这些调整后，AI 模型的预测与他们的原始假设一致。然后，研究人员基本上过度拟合了他们的模型，以确认他们想要验证的假设，而不是让 AI 从数据中学习无偏的模式。

针对现实世界条件的人工智能模型所面临的挑战

当测试数据集不能准确反映现实世界数据时，会出现另一个非常普遍的问题。在“实验室条件”下表现良好的 AI 模型，在现实世界中部署时可能会失败，因为条件的变化更大，并且存在训练期间未见过的噪声。

我们已经在谷歌健康人工智能系统从影像扫描中检测疾病的例子中看到了这个问题的一个例子。

这种问题无处不在，尤其是在处理图像或视频数据或传感器信息时。在某些情况下，这些问题可能不仅仅是对于更好的科学很重要，实际上还关乎安全。以自动驾驶汽车 AI 模型为例，该模型在由数千小时在晴朗天气条件下拍摄的驾驶视频数据集上进行训练和测试。在这些条件下，AI 模型表现异常出色，能够准确检测其他车辆、行人和交通标志，并做出正确的驾驶决策，但在训练和测试数据集中未代表的情况下的表现却很差，可能在数据集中大量未代表的情况中失败，例如在光线昏暗条件下难以检测行人或在雪或雨中难以识别交通标志。

虽然这个结论可能看起来很平常，但确保测试数据集准确反映 AI 模型将部署的条件至关重要。

合成数据生成的注意事项

可以使用几种技术来为欠采样区域生成合成数据，从而有效地扩充数据集；例如，Deepmind 使用这种策略来增加训练其 AlphaFold 2 模型所需的数据量。

然而，这些用于纠正训练或测试数据集不平衡的方法也可能导致自身问题。尽管如果操作得当，这种做法可能有助于稳定训练，但它也可能非常危险，因为它可能会强烈地偏向模型，并且始终存在“插值”数据实际上错误的风险。此外，这种偏差将以一种方式起作用，即最初过于乐观地估计性能，但在现实世界问题上的表现却很差，并且可能会持续存在于原始（实际上部分是合成的）数据中的固有偏差。

这里的妥协在于非常谨慎地生成数据，并且可能不会与现有数据相差太远。然而，这可能会引入相关性并导致数据泄露，并且可能无法实现平滑覆盖输入域的目的。

建立标准来解决这些挑战和问题

我在这次一般讨论和这篇文章中专门讨论了 AI 在化学中的应用，以及关于 AI 科学中可重复性最佳实践的这次一般讨论的指导下详细阐述了这一部分。

结果表明，研究人员对上述所有问题都了如指掌，并提出了一个用于报告基于 AI 科学的标准化清单。该清单包括关于数据质量、建模细节和数据泄露风险的问题。还有呼吁使用 AI 的研究论文使他们的方法和数据完全公开。然而，在任何计算科学中实现完全可复现性都是一项挑战，尤其是在 AI 领域。

值得注意的是，可复现性并不能保证结果的正确性；它只能确保结果的自洽性。大型公司创建的高影响力 AI 模型通常不会立即可用，研究人员可能由于担心公众审查或简单的知识产权问题而犹豫发布他们的代码。尽管存在这些挑战，但推动基于 AI 的科学透明度和严格标准的努力仍在继续，并且是至关重要的。

尽管人工智能和机器学习有潜力彻底改变科学研究，但有几个迹象表明存在滥用和不良实践，这些实践是有害的。在大学课程中至少简要地涵盖这些观点并不会有什么坏处，正如我在这里所做的那样，而更专业的课程可以更深入地探讨这些问题。

识别这些问题至关重要，现在我们进入了寻求和实施解决方案的阶段。本质上，这包括制定严格的标准，并相应地对使用 AI 系统的研究人员进行足够的培训，尤其是对开发 AI 系统的研究人员。

泸州市网站建设_网站建设公司_悬停效果_seo优化

关于科学中的可重复性问题以及基于 AI 科学的特定问题

人工智能如何加剧科学技术中的可重复性危机

数据泄露

数据和参数的操纵

针对现实世界条件的人工智能模型所面临的挑战

合成数据生成的注意事项

建立标准来解决这些挑战和问题

相关文献

热门文章

文章分类

标签云

需要专业的网站建设服务？

泸州市网站建设_网站建设公司_悬停效果_seo优化

关于科学中的可重复性问题以及基于 AI 科学的特定问题

人工智能如何加剧科学技术中的可重复性危机

数据泄露

数据和参数的操纵

针对现实世界条件的人工智能模型所面临的挑战

合成数据生成的注意事项

建立标准来解决这些挑战和问题

相关文献

热门文章

文章分类

标签云

相关文章

Kotaemon移动端适配方案：响应式界面设计思路

Kotaemon数据可视化建议：图表类型智能推荐

Kotaemon支持OPA策略引擎吗？细粒度访问控制

需要专业的网站建设服务？