TASS学院 | NIST告诉你大数据如何分类（下篇）

2020-06-01

上一期文章，我们已经为大家介绍了什么是系统编配者、数据提供者。本期，我们将为大家介绍大数据应用提供者、大数据框架提供者、数据消费者。

NIST大数据参考架构

大数据应用提供者

大数据应用提供者根据系统编配者提出的要求以及相关安全和隐私要求执行数据生命周期操作。正是在这个方面，大数据框架的总体能力组合在一起，形成具体数据系统。

采集

大数据应用提供者必须建立从数据提供者处获取数据的机制，这些机制包括：传输协议和安全、数据格式、元数据。虽然这些传输机制早于大数据出现，但是处理海量和高速数据所需要的资源导致采集过程本身也被资源化。

准备

数据准备活动使用许多流程，可以在原始数据存储之前或之后进行，与数据系统当前采用的流程类似。准备流程包括以下内容：数据验证、数据清理、异常值移除、数据转换、计算字段创建和编制索引、数据聚合和摘要、数据分区实现、数据存储准备、数据虚拟化层。

与数据采集需要大量资源处理一样，数据准备也需要使用新的资源或新的技术。对于海量数据，数据被采集之后通常被以原始形式存储起来。数据存储之后才开始数据准备进程，通过应用程序进行处理。

这种先存储原始数据然后采用一种模式与数据交互的技术通常称叫作“读时模式”，是大数据的一个重点新领域。由于海量数据很难通过可视化把所有数据都呈现出来，所以数据摘要成为大数据第二个重点新领域。适当取样需要对整个数据集的分布规律有一定推理性理解。摘要技术可以归纳数据的本地子集的特征，然后在数据被浏览时把这些特征进行可视化展示。

分析

有着多年历史的结构化和非结构化数据分析流程已经非常成熟。如今，由于可用数据量大大超过以往，有价值的信息往往在非结构化数据中，分析也集中在非结构化数据上。

对于大数据来说，分析方法与之前并没有变化，但是执行分析的手段已经发生改变，大数据的分析更多是以分布式计算的方式进行着。到了分析阶段，准备任务的一些项目已经就绪（例如上文提过的读时模式）。

可视化

虽然可视化常被划归到分析名下，但是因大数据而新增的重点要求把可视化单独拿出来考虑。以下是数据可视化的三个大类：用于数据理解的探索性数据可视化、用于分析结果的解释性可视化、用于“讲故事”的说明性可视化。

探索性可视化比大数据出现更早，但是直到现在，探索性可视化的重要性才被发现，因为它对了解海量数据有很大帮助。说明性可视化是对结果的简化呈现，适用于协助作出决策或交流已获知识。“讲故事”通常通过简单视觉效果或“信息图表”实现。考虑到大数据体量大、种类多、数据间关系复杂，要向非分析师受众传递分析内容需仔细选用便于他们理解的可视化呈现方式。

访问

大数据应用提供者向数据消费者发放数据系统结果访问权，其中包括：数据导出API流程；数据计费机制；消费者分析托管，其中应用托管消费者代码；分析即服务托管，其中消费者访问分析应用。

大数据应用提供者涉及的访问活动应该是数据提供者所有行动的反映，因为数据消费者可能会把这一系统视为其后续任务的数据提供者。许多与访问相关的任务已随大数据发生了变化，因为算法为适应和优化并行资源已被重写。

大数据框架提供者

大数据框架提供者掌握着整体资源或服务，可供大数据应用提供者用来创建特定应用。现在，新技术不断涌现，大数据应用提供者可以在利用这些资源和网络的过程中挑选新技术来构建专用系统。

基础设施框架。基础设施框架可分成以下几类。联网：底层资源，用于在资源之间传输数据。计算：物理处理器和内存，用来执行和存放其他大数据系统组件的软件程序。存储：大数据系统中用来永久保留数据的资源。环境：物理绿色资源，是构建大数据系统时必须考虑的因素。

大数据范式下的最大变化是，水平扩展的独立资源之间，可以为达到预期性能水平而协同合作。

数据平台框架

这是大数据工程中公认变化最大的一个领域，并且变化速度极快。数据平台框架活动经扩展已融进以下逻辑数据整理和分配方法，可提升大数据新方法需要的清晰度。物理存储、文件系统、逻辑存储（简单元组、复杂元组、图形）。

逻辑存储范式经扩展超越了“平面文件”和关系模型范式，发展出全新的非关系模型。这对非关系模型内跨节点数据的并行意义重大。在这一背景下，交易支持是指整个数据更新序列的完成以及跨数据节点最终一致性的维护。这是一个需要更多探索和更细分类的领域。

处理框架

处理框架为处理海量、高速、多种类、多变数据的应用提供软件支持。以下是与处理框架相关联的几个方面：数据类型处理服务、模式信息或元数据、查询框架、临时框架（批处理、交互式、实时/流式）、应用框架、消息传递/通信框架、资源管理框架。

大数据应用提供者和大数据框架提供者的活动由于大数据工程的缘故已发生显著变化。目前，这两个角色可以在一组独立又耦合的资源上互换。而正是这种互换，催生了在集群中分配数据的新方法。就像模拟通过并行化（或水平扩展）进程把大量独立流程组织到一起，以协调一致的行动达成一个分析结果一样，大数据服务如今就在做着跨平行资源协调编配大量数据处理流程的工作。

数据消费者

数据消费者接收大数据系统的价值输出。数据消费者得到的功能，在许多方面与数据提供者带给大数据应用提供者的功能相同。大数据应用提供者在系统给原始数据源增加价值之后，把同一功能提供给数据消费者。这一角色由于大数据的原因变化较少——当然，数据消费者期望从大数据应用提供者处提取海量数据集这一点除外。

搜索和检索

大数据应用提供者可允许数据消费者进行跨数据搜索，允许他们查询和检索数据供自己使用。

下载

来自数据提供者的所有数据都可导出给数据消费者，供消费者在自己的环境下下载。这与应用提供者从数据提供者处下载数据的情况相同。

本地分析

数据提供者可允许数据消费者在数据上运行他们自己的应用程序。这意味着应用程序提供了托管功能，允许消费者的代码直接在应用程序环境中运行。

报告

为一项报告即服务，数据可以根据所选的过滤器、值和格式表述出来。

可视化

数据消费者可能被允许浏览原始数据或来自分析的数据输出。数据消费者与应用程序之间的额外交互，例如应用程序通过运行数据消费者的代码执行数据即服务或分析即服务、应用程序代表消费者托管代码等。

我们希望通过阅读本文能够让你对大数据的分类有了更深入的了解，能够对你的工作有所帮助。

TASS学院 | NIST告诉你大数据如何分类（下篇）

滑动验证