跳转到主要内容

随着组织越来越多地转向数据科学以获取商业价值,支持工作的工具正在激增。 以下是成功的数据科学家所依赖的关键工具。

数据科学的繁荣继续有增无减。 收集和分析数据的工作曾经只是实验室里少数科学家的工作。 现在,每个企业都希望利用数据科学的力量来精简他们的组织并让客户满意。

数据科学工具的世界正在发展以支持这一需求。 就在几年前,数据科学家使用命令行和一些优秀的开源软件包。 现在,公司正在创建可靠、专业的工具来处理数据科学的许多常见琐事,例如清理数据。

规模也在发生变化。数据科学曾经只是科学家在进行艰苦的实验后要做的数字工作。现在它是工作流程的永久部分。企业现在将数学分析集成到他们的业务报告中,并构建仪表板以生成智能可视化,从而快速了解正在发生的事情。

步伐也在加快。曾经是年度或季度工作的分析现在正在实时运行。企业想知道现在发生了什么,这样经理和一线员工就可以做出更明智的决策,并利用数据科学所提供的一切。

以下是一些顶级工具,可帮助您的组织对其无穷无尽的数据流进行分析,从而提高准确性和科学性。

Jupyter 笔记本(Jupyter Notebooks)


这些词、代码和数据捆绑已成为数据科学世界的通用语。充满不变分析和内容的静态 PDF 可能仍然受到尊重,因为它们创建了永久记录,但工作数据科学家喜欢打开引擎盖并摆弄下面的机制。 Jupyter Notebooks 让读者做的不仅仅是吸收。

笔记本的原始版本是由 Python 用户创建的,他们希望借用 Mathematica 的一些灵活性。如今,标准的 Jupyter Notebook 支持超过 40 种编程语言,在其中可以找到 R、Julia 甚至 Java 或 C 是​​很常见的。

笔记本代码本身是开源的,因此它只是许多令人兴奋的大型项目的开始,这些项目用于管理数据、支持课程作业或只是分享想法。大学使用笔记本开设一些课程。数据科学家使用它们来交换想法并提供想法。 JupyterHub 提供带有身份验证的容器化中央服务器,以处理将所有数据科学天才部署给受众的琐事,因此他们无需在桌面上安装或维护软件或担心扩展计算服务器。

笔记本实验室空间(Notebook lab spaces)


Jupyter Notebooks 不只是自行运行。他们需要一个存储数据和计算分析的基地。现在有几家公司提供这种支持,有时是作为促销工具,有时是象征性的费用。一些最著名的包括 Google 的 Colab、Github 的 Codespaces、Azure 机器学习实验室、JupyterLabs、Binder、CoCalc 和 Datalore,但在实验室工作台下设置自己的服务器通常并不难。

虽然这些服务中的每一项的核心都是相似的,但存在可能很重要的差异。大多数以某种方式支持 Python,但在那之后,本地偏好很重要。例如,微软的 Azure Notebooks 也将支持微软开发的 F# 语言。谷歌的 Colab 支持 Swift,它也支持使用 TensorFlow 的机器学习项目。这些笔记本实验室空间中的每一个都提供的菜单和其他次要功能之间也存在许多差异。

R工作室(RStudio)


R 语言是由统计学家和数据科学家开发的,旨在优化加载工作数据集,然后应用所有最佳算法来分析数据。有些人喜欢直接从命令行运行 R,但许多人喜欢让 RStudio 处理许多琐事。它是用于数学计算的集成开发环境 (IDE)。

核心是一个开源工作台,使您能够探索数据、修改代码,然后生成 R 可以收集的最精细的图形。它跟踪您的计算历史记录,因此您可以回滚或重复相同的命令,并且在代码不起作用时提供一些调试支持。如果你需要一些 Python,它也会在 RStudio 中运行。

RStudio 公司还添加了功能以支持希望在共享数据集上进行协作的团队。这意味着版本控制、角色、安全性、同步等等。

梭织和针织(Sweave and Knitr)


使用 LaTeX 撰写论文的数据科学家将享受 Sweave 和 Knitr 的复杂性,这两个软件包旨在将 R 或 Python 的数据处理能力与 TeX 的优雅格式相结合。目标是创建一个管道,将数据转换为包含图表、表格和图形的书面报告。

管道是动态的和流动的,但最终会创建一个永久的记录。随着数据的清理、组织和分析,图表和表格也会随之调整。结果完成后,数据和文本放在一个包中,将原始输入和最终文本捆绑在一起。

集成开发环境(Integrated development environments)


托马斯·爱迪生曾经说过,天才是 1% 的灵感和 99% 的汗水。通常感觉 99% 的数据科学只是在清理数据并为分析做准备。集成开发环境 (IDE) 是很好的舞台,因为它们支持 C# 等主流编程语言以及 R 等一些更注重数据科学的语言。例如,Eclipse 用户可以用 Java 清理他们的代码,然后转到 R 用 rJava 进行分析。

Python 开发人员依靠 Pycharm 来集成他们的 Python 工具并编排基于 Python 的数据分析。 Visual Studio 将常规代码与 Jupyter Notebooks 和专门的数据科学选项相结合。

随着数据科学工作负载的增长,一些公司正在构建针对大部分数据工作进行调整的低代码和无代码 IDE。 RapidMiner、Orange 和 JASP 等工具只是为数据分析优化的优秀工具的几个例子。他们依赖可视化编辑器,在许多情况下,只需拖动图标即可完成所有操作。如果这还不够,可能只需要一些自定义代码。

特定领域的工具


如今,许多数据科学家专注于特定领域,例如营销或供应链优化,他们的工具也在紧随其后。一些最好的工具只专注于特定领域,并针对任何研究它们的人面临的特定问题进行了优化。

例如,营销人员有几十个很好的选择,现在通常被称为客户数据平台。它们与店面、广告门户和消息传递应用程序集成,为客户创建一致的(通常是无情的)信息流。内置的后端分析提供营销人员期望的关键统计数据,以判断其活动的有效性。

现在有数百种适用于所有级别的特定领域的优秀选项。例如,Voyant 分析文本以衡量可读性并找到段落之间的相关性。 AWS 的预测经过优化,可以使用时间序列数据预测企业的未来。 Azure 的视频分析器应用 AI 技术在视频流中寻找答案。

硬件


云计算选项的兴起对数据科学家来说是天赐之物。无需为了偶尔运行分析而维护自己的硬件。云提供商会在您需要时按分钟租给您一台机器。如果您只需要一天的大量 RAM,这可能是一个很好的解决方案。然而,持续需要长期分析的项目可能会发现购买自己的硬件更便宜。

最近出现了用于并行计算作业的更专业的选项。数据科学家有时会使用曾经为视频游戏设计的图形处理单元 (GPU)。 Google 制造了专门的张量处理单元 (TPU) 来加速机器学习。 Nvidia 将他们的一些芯片称为“数据处理单元”或 DPU。一些初创公司,例如 d-Matrix,正在为人工智能设计专用硬件。笔记本电脑可能适合某些工作,但计算复杂的大型项目现在有许多更快的选择。

数据


如果没有原始数据,这些工具就不是很好。一些企业将提供精选的数据集合作为重点。有些人想出售他们的云服务(AWS、GCP、Azure、IBM)。其他人则将其视为一种回馈形式(OpenStreetMap)。有些是美国政府机构,他们将共享数据视为其工作的一部分(联邦存储库)。其他的则较小,例如希望帮助居民和企业取得成功的城市(纽约市、巴尔的摩、迈阿密或奥兰多)。有些人只是想为服务收费。所有这些都可以省去您自己查找和清理数据的麻烦。

原文:https://www.cio.com/article/309758/essential-data-science-tools-for-ele…