在第二代人工智能时代导航数据管理领域

cioctocdo

29 March 2024

SEO Title

Navigating the data management landscape in the age of Gen AI

文章分类

首席AI官

探索人工智能驱动的数据实现中的挑战和机遇.

Image created by Bing Image Creator, edited by the author, and inspired by this meme.

随着组织开始其第二代人工智能驱动的变革之旅，理解数据管理和人工智能之间的关系变得至关重要。本文深入探讨了第二代人工智能带来的挑战和机遇，探讨了稳健的数据管理实践如何不仅是人工智能技术成功部署的必要条件，而且是其催化剂。

第二代人工智能面临的关键数据管理挑战

数据管理在实现人工智能方面发挥着至关重要的作用。它涉及数据的收集、存储、处理、维护和民主化，以确保为人工智能应用做好准备。随着我们步入世代人工智能时代，这一点变得更加重要。第二代人工智能系统是先进而复杂的，需要大型、多样化和高质量的数据集才能优化运行。

最重要的挑战之一是保持数据质量。“垃圾进，垃圾出”这句老话在第二代人工智能的背景下是正确的。就像任何其他人工智能用例或业务流程一样，输入系统的数据质量直接影响输出质量。

另一个重大挑战是管理所需的大量数据，尤其是对于那些希望训练自己的第二代人工智能模型的人来说。虽然现成的模型可能需要更少的数据，但自定义训练需要大量的数据和强大的处理能力。这对基础设施和所需能源有直接影响。例如，生成图像所消耗的能量与给手机充满电所消耗的能源一样多。有人估计，谷歌专注于人工智能的运营所消耗的能源相当于整个爱尔兰。

隐私和安全问题至关重要，因为许多第二代人工智能应用程序依赖于个人或公司的敏感数据。考虑一下个性化通信的用例，如果没有关于预期收件人的个人详细信息，就无法有效执行。在第二代人工智能中，与其他预测模型相比，输入数据和结果之间的联系不那么明确，尤其是那些具有明确定义的因变量的预测模型。这种缺乏透明度的情况可能会使人们难以理解具体产出是如何产生的以及为什么产生的，从而使确保隐私和安全的工作变得复杂。当训练数据包含偏见时，这也可能导致道德问题。

大多数第二代人工智能应用程序都对数据集成有特定的需求，因为它们往往需要综合来自各种来源的信息。例如，为市场分析设计的一代人工智能系统可能需要整合社交媒体、财务报告、新闻文章和消费者行为研究的数据。无缝组合这些不同数据集的能力对于理解上下文和产生相关结果至关重要。这种集成不仅需要正确的技术解决方案，还增加了数据兼容性、一致性和处理效率方面的复杂性。因此，数据集成成为数据管理过程的一个关键方面，直接影响第二代人工智能应用程序的功能和有效性。

让我们更详细地分析一下这些挑战。

数据质量

就像在任何其他人工智能、分析或商业应用程序中一样，输入数据的质量决定了输出的质量。错误的数据会导致不可靠的结果。没有办法坐下来思考并明确地记录您对输入数据的需求。这可以用常见的、众所周知的维度来表达，如完整性、有效性、及时性、准确性、一致性，甚至对于非结构化数据也是如此。关键问题是：数据要被认为是可靠的、符合目的的输入，需要什么是真实的？

幸运的是，第二代人工智能中有效数据质量管理所需的基础能力与其他领域类似。它首先要制定明确的战略和期望，这就是政策、标准和数据质量框架发挥作用的地方。然后可以创建一个具有明确定义的角色和职责的操作模型。例如，如果人工智能一代使用特定来源的数据，谁负责确保该来源的数据质量？（提示：这不应该落在第二代人工智能工程师身上。）

当涉及到实施数据质量控制时，它们应该尽可能接近源。控件可以集成到数据捕获过程中，也可以用于测量静止和运动中的数据。这种方法确保数据符合设定的预期，并在数据质量下降时发出警报。我会尽量避免创建大型、集中的数据质量团队，因为它们往往被证明是无效的。相反，重点是让关键数据的生产者参与进来，并从源头解决上游的数据质量问题。

现在，与其他人工智能或分析应用程序相比，第二代人工智能的数据质量有一个明显的方面。在典型的预测模型中，例如预测客户流失或抵押贷款违约的模型，回顾性评估预测的准确性相对简单。然而，对于人工智能一代来说，这一评估更具挑战性。第二代人工智能模型即使缺乏正确答案的坚实基础，也能提供极具说服力的答案。这种现象被称为“幻觉”，当模型产生看似合理但不正确或无意义的反应时就会发生。为了应对这种情况，至关重要的是实施一个评估Gen AI模型输出的过程，即使只是在样本的基础上。当观察到与预期的好答案有偏差时，重要的是要调查这是否是由于输入数据不佳或不准确造成的。实施这样一个过程需要奉献精神和明确的方法，以不断确保输入第二代人工智能系统的数据的完整性和质量。

数据采集和相关隐私问题

当涉及到培训或操作第二代人工智能模型时，通常需要来自个人或公司的个人和潜在敏感数据。这些数据对于人工智能学习和生成准确、相关的输出至关重要。然而，由于隐私问题和对滥用的担忧，个人和组织可能会对共享数据犹豫不决。这种不情愿是可以理解的，因为这些数据可以揭示很多关于一个人或一个组织的私人细节。

为了应对这些隐私挑战，至少有三种有效的方法：建立积极的隐私政策和控制，依赖第三方数据，以及使用合成数据。

积极主动地保护隐私是关键。如果需要敏感数据，必须透明和清楚地说明为什么要收集这些数据，以及这些数据将如何使数据提供商受益。一个简单易懂的隐私政策，而不是一个冗长的法律文件，可以建立信任。当然，你还需要确保基本的能力和流程到位，以维护这些政策。一次隐私事件可能会严重损害多年来建立起来的声誉。

在某些情况下，根据Gen AI应用程序的不同，使用第三方数据可能是使用客户数据的可行替代方案。例如，为市场分析而开发的一代人工智能模型可能会使用公开的消费者行为数据，而不是直接从特定客户那里收集数据。这种方法减少了说服客户共享数据的负担，并减轻了保护数据的义务，因为掌握在您手中的数据更少。

另一个创新的解决方案是使用合成数据。合成数据是模拟真实数据特征而不包含任何实际个人信息的人工生成数据。它可能是一个强大的工具，尤其是在隐私问题至关重要的情况下。例如，在我参与的一个项目中，我们开发了一个Gen AI解决方案，以创建执行摘要，突出调查数据中的关键见解和趋势。我们没有使用实际的客户数据，这会有风险和偏见，而是使用Gen AI生成了数千个现实的调查回复，包括真实回复中发现的语法错误和不一致。然后，这些合成数据作为我们MI Gen AI应用程序的培训材料，有效地避免了使用敏感真实数据的陷阱。

数据基础

在成功部署第二代人工智能的过程中，基础数据管理功能发挥着重要作用。在本文中，我们讨论了与这些基本功能相关的各个方面。使用数据能力成熟度框架和衡量标准来评估组织的数据管理优势并找出差距，这是一种由来已久的做法。这些框架是一个很好的起点，可以确定有效激活第二代人工智能用例所需的具体功能。

虽然可以独立开发数据能力成熟度框架，但我建议探索该领域已经建立的框架。在过去的十年里，我花了相当多的时间研究和构建这样的框架，我发现有一些具体的、有形的元素几乎就像一个清单。这些都是成功和可持续激活第二代人工智能的必要条件。相反，如果这些要素到位，成功几乎是不可避免的。

虽然我不能在这里透露完整的框架，但我可以分享一下，我已经为第二代人工智能制定了一个特定的框架，其中有两大类功能需要关注。第一类与真正的企业功能有关，即可以一次性建立并在多个第三代人工智能用例中使用的功能。例如，制定明确的人工智能战略，明确目标和目标，为第二代人工智能相关流程和转型确立角色和责任，确保访问基础模型以及基本数据平台、存储和处理能力。

第二组功能是特定于用例的。值得记住的是，并非所有一代人工智能用例都是相同的。有些可能需要专门的建模专业知识、不同的数据量和多样性，或者需要注释和历史数据。数据的质量也取决于具体的用例，有些应用程序根本不需要任何数据，比如使用现成的基本副驾驶应用程序。所有这些特定于用例的功能都会生成第二个项目列表，以确保成功激活。

对于那些有兴趣深入研究这个框架的细节的人，请继续关注我未来关于这个主题的文章，或者随时联系我。

第二代人工智能如何帮助数据管理

到目前为止，这个POV的重点一直是数据管理在启用第二代人工智能中的作用，但让我们看看相反的情况：第二代AI（以及更广泛的大型语言模型）如何可能增强数据管理。

人工智能驱动的集成工具可以简化对各种来源数据的处理和分析。Informatica的智能数据管理平台、IBM Watson知识目录和WCKD RZR的DataNow等工具能够扫描和发现元数据，并解释和理解数据。这有助于以半自动化的方式建立对数据的共同理解，大大减少有效管理数据所需的时间和精力。此外，机器学习算法可以自动进行数据清理和准备，尽管这些算法已经使用了一段时间。

一个新的发展是第二代人工智能本身在数据管理中的应用。例如，第二代人工智能可以解释非结构化信息，如会议记录（或者实际上是相应的笔录）和历史电子邮件。根据这些，它可以推断哪些系统是it环境的一部分，并确定相应的问题。在更常见的用例中，Gen AI用于为关键数据属性生成一致的、业务友好的定义。

虽然这些进步是非常真实和令人兴奋的，但我建议保持健康的怀疑态度。创建一个演示环境是相对容易的，在这个环境中这些工具表现得非常好。在这种受控的环境中，数据是经过定制的，以展示工具的优势。但是，真正的挑战出现在现实的组织环境中。在这里，数据分布在不同的系统、区域和访问协议中，通常缺乏一套通用的互操作性标准。这种复杂性使这项工作变得艰巨，并解释了为什么有几十家（如果不是几百家的话）公司都宣称拥有将各种来源的数据集成到平台或虚拟化视图中以供后续消费的解决方案。

结论

在第二代人工智能时代驾驭数据管理领域既有挑战，也有机遇。（一代）人工智能的未来与我们如何管理和利用数据有着内在的联系，因此必须采取一种战略性、深思熟虑的数据管理方法，优先考虑隐私、效率和创新。

有什么想法吗？欢迎在评论中删除它们！

Search