跳转到主要内容

很可能,你收集的大部分数据-从人类通信到机器日志-都在堆积,几乎没有实现其潜力的计划。善治和人工智能可以提供帮助。

寻求从公司收集的数据中获取业务价值的IT领导者面临着无数挑战。也许最不被理解的是,我们失去了一个机会,无法利用创建的、经常存储的、但很少与之交互的数据。

这种所谓的“暗数据”,以物理学中的暗物质命名,是在做生意过程中常规收集的信息:它由员工、客户和业务流程生成。它由计算机、应用程序和安全系统生成为日志文件。出于法规遵从性目的必须保存的文档,以及永远不应保存但仍然保存的敏感数据。

据Gartner称,企业信息领域的大部分由“暗数据”组成,许多公司甚至不知道他们拥有多少数据。存储信息会增加法规遵从性和网络安全风险,当然,这样做也会增加成本。

弄清楚您拥有什么样的暗数据,它保存在哪里,以及其中包含什么信息,是确保这些暗数据中有价值的部分是安全的,不应该保存的部分被删除的关键步骤。但是,挖掘这些隐藏的数据的真正优势可能在于将其用于实际有益于业务。

但挖掘暗数据并非易事。它有多种格式,例如可以完全未格式化,锁定在扫描文档或音频或视频文件中。

下面介绍一些组织如何将暗数据转化为商业机会,以及业内人士对希望利用暗数据的IT领导者有什么建议。

赛车驾驶员的编码音频

五年来,Envision Racing一直在收集100多场E级方程式赛车的录音,每场比赛都有20多名车手。

“无线电流可以在开放频率上供任何人收听,”简柏特(Genpact)的全球分析领导者阿马雷什·特里帕西(Amaresh Tripathy)说。简柏特是一家咨询公司,帮助设想赛车利用这些数据。

Tripathy说,此前,英国赛车队的赛车工程师试图在比赛期间实时使用这些音频传输,但车手使用的代码名和首字母缩写词使得很难弄清楚他们在说什么,以及如何使用,因为了解其他车手在说什么有助于想象赛车的车手的赛车策略。

“比如什么时候使用攻击模式,什么时候超车,什么时候刹车,”他说。

Envision Racing还从自己的汽车收集传感器数据,如轮胎、电池和刹车,并从供应商处购买外部数据,如风速和降雨量。

简柏特公司和远景赛车公司合作,利用自然语言处理建立深度学习模型来分析这些数据流的价值。这个过程花了六个月的时间,从准备数据管道,接收数据,过滤噪音,到产生有意义的对话。

Tripathy说,人类需要5到10秒才能知道他们在听什么,这一延迟使得无线电通信变得无关紧要。现在,由于人工智能模型的预测和洞察,他们现在可以在一到两秒内做出反应。

7月,在纽约举行的ABB国际汽联E级方程式世界锦标赛上,预想赛车队获得了第一和第三名,这一结果使Tripathy归功于利用了之前黑暗的数据。

暗数据黄金:人工生成的数据

Envision Racing的音频文件是人类生成的暗数据的一个例子,旨在供其他人使用,而不是机器。数据存档平台提供商ZL Technologies的联合创始人兼首席执行官Kon Leong表示,这种暗数据对企业非常有用。

“它对于理解企业人性方面的每一个元素,包括文化、绩效、影响力、专业知识和参与度,都是非常强大的,”他说。“员工每天分享绝对大量的数字信息和知识,但到目前为止,这些信息和知识基本上还没有被开发。”

电子邮件、消息和文件中包含的信息可以帮助组织获得洞察力,例如谁是组织中最有影响力的人。Leong说:“公司80%的时间都花在沟通上,但分析通常只处理反映我们花费时间的1%的数据。”。

处理人工生成的非结构化数据具有独特的挑战性。例如,数据仓库通常不用于处理这些通信。此外,收集这些通信可能会给公司带来新的问题,涉及法规遵从性、隐私和法律发现。

“这些治理能力在今天的数据湖概念中并不存在,事实上,通过将数据收集到数据湖中,您创建了另一个筒仓,增加了隐私和合规风险,”Leong说。

相反,公司也可以将这些数据保留在当前所在的位置,只需添加一层索引和元数据即可进行搜索。他表示,将数据保留在现有的合规结构中。

有效治理是关键

处理可疑价值和来源的暗数据的另一种方法是从可追溯性开始。

《数据可观察性基础》一书的作者安迪·佩特拉(Andy Petrella)说:“暗数据现在被认为是一种可以利用的未开发资源,这是行业中的一个积极发展。”。Petrella也是数据可观察性提供商Kensu的创始人。

“利用暗数据的挑战在于对它的信心水平低,”他说,尤其是在数据收集的地点和方式方面。“可观察性可使数据沿袭透明,因此可追溯。可追溯性可实现数据质量检查,使人们有信心使用这些数据来训练人工智能模型或根据其带来的智能采取行动。”

StoneTurn是一家专门从事监管、风险和合规问题的全球咨询公司,其董事总经理查克·索哈(Chuck Soha)同意,处理暗数据的通用方法-将一切都扔进数据湖-带来了巨大风险。

他表示,金融服务业尤其如此,多年来,公司一直在向数据湖发送数据。“在一个典型的企业中,IT部门将所有可用的数据转储到一个地方,其中包含一些基本元数据,并创建与业务团队共享的流程,”他说。

这适用于内部具备必要分析人才或为特定用例引入外部顾问的业务团队。但在大多数情况下,这些举措只是部分成功。

“首席信息官们从不知道他们不知道的转变为知道他们不了解的,”他说。

相反,公司应该从数据治理开始,了解存在哪些数据,以及可能存在哪些问题,数据质量是其中的首要问题。

“利益相关者可以决定是清理和标准化,还是从更好的信息管理实践开始,”Soha说,并补充说,投资于从包含不一致或冲突信息的数据中提取见解将是一个错误。

Soha还建议将各个业务部门内部已有的良好运营数据连接起来。他说,找出这些关系可以产生快速而有用的见解,可能不需要立即查看任何黑暗的数据。“它还可能确定差距,从而确定在黑暗数据中开始寻找填补这些差距的优先位置。”

最后,他说,人工智能在帮助理解剩余的非结构化数据方面非常有用。他说:“通过使用机器学习和人工智能技术,人类可以只查看1%的暗数据,并对其相关性进行分类。”。“然后,强化学习模型可以快速生成剩余数据的相关性分数,以确定哪些数据需要更仔细地查看。”

使用人工智能提取价值

用于处理暗数据的常见人工智能解决方案包括亚马逊的Textract、微软的Azure认知服务和IBM的Datacap,以及谷歌的云视觉、文档、AutoML和NLP API。

Tripathy说,在简柏特与Envision Racing的合作中,简柏特在内部编写了机器学习算法。他说,这需要了解Docker、Kubernetes、Java和Python,以及NLP、深度学习和机器学习算法开发,并补充说,MLOps架构师管理了整个过程。

不幸的是,这些技能很难获得。在去年秋天由Splunk发布的一份报告中,接受调查的1300多名IT和商业决策者中,只有10%到15%的人表示他们的组织正在使用人工智能解决暗数据问题。缺乏必要的技能是利用暗数据的主要障碍,仅次于数据量本身。

正在上升的问题(和机会)

与此同时,黑暗数据仍然是风险和机遇的宝库。企业数据中黑暗部分的估计值从40%到90%不等,具体取决于行业。

根据企业战略集团(Enterprise Strategy Group)7月份的一份报告,由Quest赞助,平均47%的数据是暗数据,五分之一的受访者表示,他们70%以上的数据都是暗数据。Splunk的调查显示了类似的结果,平均而言,55%的企业数据是暗数据,三分之一的受访者表示,他们组织75%或更多的数据是暗的。

情况可能会在好转之前变得更糟,因为60%的受访者表示,他们组织中有一半以上的数据根本没有被捕获,其中大部分甚至不被理解为存在。随着数据的发现和存储,暗数据量将继续上升。

现在是首席信息官们制定一个如何应对It的计划的时候了-着眼于充分利用任何黑暗数据,这些数据显示出为企业创造新价值的前景。

本文:https://cioctocdo.com/unlocking-hidden-value-dark-data