支持大数据的IT基础设施
要让大数据的概念发挥作用,组织需要有合适的基础设施来收集和存储数据、提供对数据的访问并保护信息在存储和传输过程中的安全。
这在较高的层面上还包括为大数据,数据管理和集成软件,商业智能和数据分析软件以及大数据应用设计的存储系统和服务器。
由于公司希望继续利用其数据中心投资,大部分这种基础设施可能会在本地部署。但越来越多的组织依靠云计算服务来处理他们的大部分大数据需求。
数据收集需要有收集数据的来源。其中有很多来源——如Web应用程序、社交媒体渠道、移动应用程序和电子邮件存档——已经就位。但随着物联网的逐渐成熟,企业可能需要在各种设备、车辆和产品上部署传感器、以及生成用户数据的新应用程序来收集数据。(面向物联网的大数据分析具有自身的专业技术和工具。)
为了存储所有传入的数据,组织需要有足够的数据存储。存储选项包括传统的数据仓库,数据湖泊和基于云的存储。
安全基础架构工具可能包括数据加密、用户身份验证和其它访问控制、监控系统、防火墙、企业移动管理以及其它保护系统和数据的产品,
大数据特有的技术
一般来说,除了上述用于数据的IT基础架构之外。你的IT基础架构应该支持大数据特有的几种技术。
Hadoop生态系统
Hadoop是其中一项与大数据密切相关的技术。Apache Hadoop项目为可扩展的分布式计算开发开源软件。
Hadoop软件库是一个框架,该框架支持使用简单的编程模型在计算机集群中对大数据集进行分布式处理。它旨在从单个服务器扩展到数千个,每个服务器都提供本地计算和存储。
该项目包括几个模块:
? Hadoop Common是支持其它Hadoop模块的通用工具
? Hadoop分布式文件系统,它可以为应用程序数据提供高吞吐量的访问
? Hadoop YARN是一个作业调度和集群资源管理的框架
? Hadoop MapReduce是一个基于YARN的大数据集并行处理系统。
Apache Spark
作为Hadoop生态系统的一部分的Apache Spark是一个开源的集群计算框架,它可充当在Hadoop中处理大数据的引擎。Spark已经成为关键的大数据分布式处理框架之一,而且它可以通过多种方式进行部署。它为Java、Scala、Python(尤其是Natrona Python发行版)和R编程语言(R特别适用于大数据)提供本地绑定,它还支持SQL、流数据、机器学习和图形处理。
数据湖泊
数据湖泊是存储库,这个存储库可以容纳大量以原始格式的形式存在的数据,直到业务用户需要数据为止。数字化转型举措和物联网的发展是数据湖泊发展的推手。数据湖的宗旨是,在用户有需求时,使他们更轻松地访问大量的数据。