登录
EN

TASS学院 | NIST告诉你大数据如何分类(上篇)

2020-05-25

之前的文章(TASS学院 | 什么是大数据?),我们已经为大家介绍了什么是大数据这个基本概念,本期我们将引用美国国家标准和技术研究所(NIST)的报告,为大家介绍大数据的分类。

 

NIST的NBD-PWG(NIST Big Data Public Working Group,NIST大数据公共工作组)安全和分类小组着重于识别与大数据相关的概念,定义描述大数据的术语,同时还定义了参考架构的术语,满足管理人员、采购人员、市场营销人员、技术人员等不同用户了解大数据的需求。

 

NIST通过一张图清晰地为我们展示了大数据参考架构。


6372608296580223485738318.png

NIST大数据参考架构

 

接下来,我们就为大家分别介绍图中的5个主要框架成分:系统编配者、数据提供者、大数据应用提供者、大数据框架提供者、数据消费者。

 

由于内容较多,我们将分两篇文章为大家介绍,上篇介绍系统编配者、数据提供者,下篇介绍大数据应用提供者、大数据框架提供者、数据消费者。


系统编配者  

系统编配者需要设计出系统必须满足的总体要求,包括:策略、治理、架构、资源和业务要求,以及确保系统遵守这些要求的监管和审计活动。


企业拥有权要求和监管

作为系统的业务拥有者,系统编配者需要监管系统运行的业务环境,其中包括规定以下内容:业务目标、目标明确的业务行动、数据提供者供合同和服务水平协议(SLA)、数据消费者合同和服务水平协议、与性能供应商的谈判、制造/购买成本分析。



治理要求和监管

系统编配者制定须在整个数据生命周期遵守的所有策略和规章,其中包括:策略合规要求和监管、更改管理流程定义和要求、数据的保管权和拥有权。



数据科学要求和监管

系统编配者对端到端系统的分析提出详细的功能性能要求,把业务企业经营目标融汇到数据和分析设计之中,其中包括:数据源选择、数据的采集和存储要求和监管、数据的准备要求和监管、数据的分析要求和监管、分析模型选择、数据的可视化要求和监管、应用类型规范。 



系统架构要求和监管

系统编配者为数据系统制定详细的架构要求,其中包括:数据处理要求、软件要求、硬件要求、逻辑数据建模和分区、数据导入和导出要求、扩展要求。


数据提供者  

数据提供者为自己或他人提供数据。担任这一角色的行动者可以是大数据系统的一个组成部分,也可以来自其他系统,也可以是编配系统的机构的内部或外部成员。数据一旦进入本地系统,检索所需数据的请求将由大数据应用提供者提出并发送给大数据架构提供者。


数据采集

数据提供者从自身或其他来源获取数据。从数据来源的角度看,既包括线上的,也包括线下的。新式传感器不仅可以提供许多数据来源,而且能够提供海量数据。智能手机、个人可穿戴设备、RFID等都可以用作传感器作为数据来源。


数据持久化

数据提供者把数据存储在资料库中供其他人提取。储存的数据受数据保留策略限制。数据可通过以下方式存储:内部托管、外部托管、云托管。云计算的使用拓展了托管的模式。


数据清理

一些包含敏感数据元素的数据集是在数据产生的过程中自然采集的。这些数据可能会由于遵循法规或敏感性方面的原因而被改动或移除。以个人可识别信息为例,进行数据清理时,数据提供者可以:移除个人可识别信息、进行数据随机化操作。这些操作可以掩盖个人可识别信息,从而消除根据这些数据直接追溯到某个人的可能性,同时又保留了数据内部的量值分布。尽管单个来源不一定包含个人可识别信息,但是与其他数据来源结合到一起,就会带来从整合数据中识别出个人身份的风险。


数据注释和元数据创建

数据提供者在信息库中除了保存数据本身以外,还保留了有关数据及其处理过程的信息——这些信息就是元数据。元数据或数据注释可提供有关数据起源和历史的信息,这些信息足够详细,可保证对数据的适当使用和理解。以下的这些方法可用来对元数据进行编码:从本体上对数据元素进行语义描述;在数据文件中,采用任意多的格式。


访问权限管理

数据提供者决定用不同的机制定义访问权限,这些机制可以单个指定,亦可分组指定,例如:数据来源——来自某一特定来源的数据集集合;数据制造者——来自某一特定制造者的数据集集合;个人可识别信息访问权限——作为限制数据元素的一个示例。


访问策略合同

数据提供者定义其他人使用被访问数据的策略,同时确定哪些数据可供人使用。这些规定都写在合同里,其内容包括:有关主要和次级权限的策略、双方达成一致。延伸来说,这些合同规定了可接受使用策略和针对数据使用的任何特殊限制,以及原始数据和源自该数据的任何衍生品的拥有权。


数据分配的应用接口

技术协议是为源自数据分配应用编程接口的各类数据访问方式而定义的,其中包括:文件传输协议或流媒体、压缩技术、认证方法、授权。


能力托管

数据提供者除了提供数据下载以外,还提供若干种访问数据的能力,其中包括:提供传输数据的查询访问、允许发送数据分析工具对数据集进行分析。由于数据体量太大,把数据转移到另一地点接受处理已不现实。这就是我们常说的,把处理移动到数据上进行,而不是移动数据去接受处理。



可用数据的发布

数据提供者把别人需要了解的信息公布出来,说明自己将提供哪些数据或数据服务。发布的信息可以包含以下内容:网络描述、服务和API目录、数据词典、广告宣传。


下一期,我们将为大家介绍大数据应用提供者、大数据框架提供者、数据消费者相关内容,敬请期待。如果你觉得本期内容对你的工作有所帮助,欢迎转发分享,让更多人能够看到本期文章。