大数据基础平台 - 海天数联

大数据基础平台

数据的聚合,数据湖与大数据的基石大数据中心。通过凝练企业大数据中心业务体系需求与同行业数据中心方案,海天数联秉承“适材适所”的原则,围绕MPP+Hadoop+流数据处理模式,并进行深度定制与融合的目标,为企业量身打造了一款行业级大数据中心平台产品,大数据基础平台。该平台作为大数据能力平台的核心基础层,提供了企业TB、PB、EB级大数据存储、分析计算、查询的统一展示。平台以开放的架构,支撑多租户模式下海量结构化与非结构化数据的安全和高效的存储与分布式并行处理计算能力,满足大数据批处理、微批处理、实时处理等业务需求。

 

HTSP功能简述

大数据基础平台对数据处理、业务开发、业务移植等方面进行全面优化,可便捷实现业务快速移植、数据快速处理;平台提供部署与管理上千台服务器的分布式大数据服务运行能力,提供一套基本的大数据服务组件集合;平台提供给用户对海量结构化与非结构化数据的文件、SQL、Nosql、内存数据仓库等高效存储读取能力;对海量结构化与非结构化数据的并行分布式批处理、流式处理、SQL查询、全文检索能力;数据采集分析、异步信息处理、图分析、异步信息传输能力;同时提供了基础的数据分析库。

 

一站式数据存储平台

    HTSP通过内存计算技术、高效索引、执行计划优化和高度容错的技术,使得一个平台能够处理从GBPB的数据, 并且在每个数量级上,都能比现有技术提供更快的性能; 企业再需要混合架构,需要孤立的多个集群, HTSP可以伴随企业户的数据增长,动态不停机扩容,避免MPP或传统架构数据迁移的棘手问题。

一站式资源管理平台

    HTSP在统一存储上建立资源管理层,提供企业用户统一的计算资源管理、动态资源分配、多部门间资源配置和劢态共享,灵活支持多部门多应用在统一平台上平滑运行。

一站式数据处理平台

    HTSP支持批处理统计分析、交互式SQL分析、在线数据检索、R语言数据挖掘、机器学习、实时流处理、全文搜索和图计算,为企业用户提供广泛的计算支持能力,用户无需切换平台或架构即可完成复杂的任务。

一站式管理平台:

     HTSP作为企业级解决斱案,开发了用户友好的管理界面、提供了系统安装、集群配置,安全访问控制、监控及预警等多斱面支持,在可管理性斱面优势显著。

HTSP 包含10大类组件类:数据存储组件类、流式计算组件类、批处理计算组件类、数据工作流组件类、安全组件、运维组件类、监管组件类、数据访问组件类、机器学习算法库、数据分析算法库。其中主要组件包括:

² HDFS: Hadoop分布式文件系统(Hadoop Distributed File System),提供高吞吐量的数据访问,适合大规模数据集方面的应用;

² Zookeeper:提供分布式、高可用性的协调服务能力。帮助系统避免单点故障,从而建立可靠的应用程序;

² ElasticSearch:提供了一个分布式多用户能力的全文搜索引擎;

² Yarn2:资源管理系统,它是一个通用的资源模块,可以为各类应用程序进行资源管理和调度;

² MapReduce:提供快速并行处理大量数据的能力,是一种分布式数据处理模式和执行环境;

² Spark:基于内存进行计算的分布式计算框架;

² Strom:提供分布式、高容错的实时计算系统;

² Hive:建立在Hadoop基础上的开源的数据仓库,提供类似SQLHive Query Language语言操作结构化数据存储服务和基本的数据分析服务;

² HBase:提供海量数据存储功能,是一种构建在HDFS之上的分布式、面向列的存储系统;

² Impala:提供SQL语义,能查询存储在HadoopHDFSHBase中的PB级大数据;

² Spark Streaming:建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行引擎,用户可以结合流式、批处理和交互试查询应用;

² Kylin:支持在超大数据集上进行秒级别的SQLOLAP查询;

     HTSP包含三大部分:组件服务、统一管理和监控系统、数据管理平台

 

产品特点

Apache Spark

内存的Map/Reduce计算引擎,即将成为新一代主流计算框架。处理大数据像光速一样快,比Hadoop Map/Reduce10x倍。 

SQL 支持 

兼容>90% ANSI SQL 2003, HiveQL>90% PL/SQL语法,支持数据仓库、数据集市等分析系统中帯用的复杂分析型语法,斱便应用迁移。 

SQL引擎 

高度优化的高速SQL引擎,可运行在SparkMap/Reduce上,可高速处理缓存在Holodesk上的列式数据。 

丰富的工具支持 

支持主流可视化和BI/挖掘巟具,包括Tableau, IBM Cognos, SAP BO, Oracle BI, SAS等。支持InformaticaPentaho/KettleETL巟具。

OLTP

支持高幵发毫秒级数据插入/修改/查询/删除(CRUD) 

结合Inceptor SQL引擎,可以支持通过SQL迕行高幵发的CRUD 

支持分布式亊务处理。 

支持帯见数据类型,可更高效的存取数据。 

OLAP

支持多种索引(global/local/high-dimensional index)。 

结合Inceptor,可进行行列存储转换,行秒级高效分析。 

支持复杂查询条件,自利用索引加速数据检索,无需指定索引。 

批处理 

可以对数据行全量高速统计,会比M/R运行在HBase上快5-10倍。 

可通过Inceptor SQL行全量统计。 

支持通过SQLBulkLoad批量装载数据 

内嵌搜索引擎 

实时同步创建索引 

实现秒级关键字搜索 

数据库 

支持高发图遍历和检索 

多类型支持 

结构化记彔 

半结构化文档(JSON/BSON 

非结构化数据(图片、音频、视频文档等) 

支持混合结构数据的存储、搜索、统计、分析 

支持SQL访问关系表和层次化文档

产品性能

· 扩展支撑机器学习算法库 Spark 2.1, Spark 1.6.3, Zeppelin 0.7  Livy REST API

· Hive 处理获得10倍更快的连接性能和动态运行时过滤

· 提升了Hive数据仓库的微批处理和流式处理速度

· BI业务查询速度

产品安全性

· Ranger 安全策略的导入导出通过将安全策略从一个环境迁移到另一个环境,从而提高生产率

· 增强的 HDFS, Kafka HBase安全性

· 提供行 / 列数据安全保障。 实现各级数据访问控制

· 支持SSL 链接Kafka。提供了Spark 流和 Kafka交互的安全环境

产品易用性

· 服务自启动轻松配置应该自动启动的服务和组件。该服务和组件可以当群集节点重新启动,或者后台程序意外退出时自行启动。

· 简单的日志配置快速的配置组件的备份文件数量和大小

· 提供可视化的服务、主机、警告等操作

HTSP 提供 Hadoop 集群统一管理和监控系统

统一的集群管理和监控系统,帮助用户方便的在上千台服务器上进行大数据集群的自动化部署、配置、管理与监控整个大数据集群。同时提供方便的服务组件管理、安全认证、版本升级等功能。

HTSP提供统一的数据管理与元数据管理系统

    实现数据目录管理、文件索引、文件管理、数据接入管理、数据库管理、数据表管理、数据项管理、访问控制、数据索引、元数据管理、数据搜索、数据的图标展示、流程控制与作业调度等功能。

 

产品组件

l 组件集合

服务组件集合包括MapReduce2、Hadoop的分布式文件系统(HDFS)、YARN2、HCatalog,Pig、Solr、Hue、Hive、HBase、Zookeeper、Spark、Strom、Sqoop、Oozie、Falcon、Flume、Accumulo、Atlas、Kafka、kylin、Knox、Mahout、Kerberos、Redis、Greeplum等服务组件l

l HTS Manager

系统包含一套Web化的分布式集群管理配置与监控系统HTS Manager。其可以帮助用户方便的在上千台服务器上进行大数据集群的自动化部署、配置、管理与监控整个大数据集群。同时提供方便的服务组件管理、安全认证、版本升级等功能。

l HTS DATA Manager

数据与元数据管理系统。提供数据目录管理、文件索引、文件管理、数据接入管理、数据库管理、数据表管理、数据项管理、访问控制、数据索引、元数据管理、数据搜索、数据的图标展示、流程控制与作业调度等功能

产品优势

l 安全可靠

专业的大数据平台建设和维护能力,电信级安全标准要求,保障系统数据安全

l 领先技术创新

专业研发团队提供业界领先技术支撑,内嵌业界领先的分析技术和模型

l 开放易集成

架构开放,支持构建各种应用;预置更加智能化/自动化的专项应用;自研系列产品,易提供定制工具,快速响应需求

l 资源利用率高

X86化的计算存储云,缓解IOE扩容带来的成本压力;集中化的采集、处理,解决烟囱式系统的冗余浪费

l 行业领先

商业模式洞察,创新模式快速响应;业界资源汇聚整合,行业经验共享

技术特点

l 一站式资源管理

在统一存储上建立资源管理层,提供企业用户统一的计算资源管理、动态资源分配、多部门之间资源配置和动态共享,灵活支持多部门多应用在统一平台上平滑运行

l 一站式管理平台

作为企业级解决方案,开发了用户友好的管理界面、提供了系统安装、集群配置,安全访问控制、监控及预警等多方面支持,在可管理性方面优势显著.

l 一站式数据分析

支持批处理统计分析、交互式SQL分析、在线数据检索、R语言数据挖掘、机器学习、实时流处理、全文搜索和图计算,为企业客户提供广泛的计算支持能力,客户无需切换平台或架构即可完成复杂的任务

l 一站式数据存储

通过内存计算、高效索引、执行计划优化和容错技术,使得一个平台能够处理从GB到PB的数据,并且在每个数量级上,都能比现有技术提供更快的性能; 企业客户不再需要混合架构,不需孤立的多个集群,T可伴随您的数据增长,动态不停机扩容

 

海天数据—中国大数据建模分析产品引领者