最近我和我的团队一直在做一些大数据相关的工作 , 我来解答一下 。
首先是第一个问题 , 大数据平台是什么?
当我们说到一个平台的时候,我们的意识里面往往就知道,这里面肯定不止一样东西 , 它是很多东西的一个集合,大数据平台也是一样,首先如果用几个字来描述它的话就是“它是一个数据解决方案”,进一步解析就是:大数据平台它是一个以分布式存储为基?。闪耸莼袢? ,数据清洗,数据流转,数据分析 , 数据输出等工具集的一个数据解决方案 。它的核心使命是提供数据存储和数据分析服务给目标客户 。
那么它的核心组成部分是什么呢?实现的方法有多种,我就举一个最典型的大数据平台结构作为说明 。
目前无论是国内或者国外,应用最广泛也是最典型的大数据平台是以Hadoop为核心进行功能延伸的生态系统,业内把它叫做Hadoop生态,它开源并且免费使用 , 它长什么样子?它的面目基本上是这样:

从上图我们得知,它就是一套以Hadoop分布式文件系统为核心的数据处理工具集,目的是为了向用户提供数据分析服务的一个集成解决方案 。
什么时候需要大数据平台?
简单的说就是当数据总量大到传统单机数据解决方面没办法存储 , 分析,计算时就要用到大数据平台 。
【大数据平台和非大数据平台有哪些 什么时候需要大数据平台】
举例说,家用电脑目前一般是配置2TB大小的硬盘(存储容量约等于于18个128G的iPhone),一般几万块钱的商用服务器容量大约在32TB容量 , 高端的单机存储器可以达到100TB以上,但是数据量如果再大比如上跳一个数量级1000TB,也就是1PB左右,单机系统就无能为力了,不单是存储容量无能为力 , 计算能力也无法应对了 , 因为我们知道 , 单台计算机的性能是有极限的,数据太多磁盘检索读取的速度就会变慢,CPU和内存压力也会变大,这个时候需要完成一个数据分析任务就要耗时很长,那么这个时候大数据平台就派上用场了,大数据平台的一个特性就是多台计算机组成一个集群集体并行作战,并且理论上可以无限拓展 。
