数据集成 - 海天数联

数据集成

     据湖与大数据时代是数据汇集和中心化的时代。实现大数据智能分析的愿景,首先需要解决对各种异构数据源的整合采集、传输、清洗与交换。海天数联公司,通过在数据整合与大数据分析上多年的研究实战,重点打造了一款适合当今大数据建设、满足未来集群化、异构化数据整合交换需求的,兼具数据采集集成、数据交换、数据质量标准化为一体的数据整合平台,平台英文名称为HTS Extraction Transformation Loading(简称:HTS ETL)。该平台不仅具备传统 ETL(选择、抽取、加载)工具的数据准备能力,同时提供了统一的数据整合业务可视化设计开发、分布式数据采集节点管理、数据整合任务管理、任务调度、任务监控、统计分析等功能和对分布式大数据平台Hadoop、Kafka、Hbase等的无缝对接与处理能力的完美支撑,支持在异构环境下的数据集成能力,不管是简单还是极为复杂的数据采集交换任务,HTS ETL 都可以轻松胜任。HTS ETL 能够作为您的大数据平台的核心支撑,极大程度的简易化数据整合、交换的生成成本和难度。HTS ETL必将成为您大数据平台集成中的首选工具。

 

产品功能

提供可视化和便捷的数据整合能力

Ø 随心所欲地工作”可说是使用HTS ETL进行数据整合业务设计的最佳写照。HTS ETL提供可视化便捷的数据整合流程设计开发体验。完整的图形接口允许开发人员使用GUI拖放功能来描绘出企业内部的数据流。

Ø 提供业界中最广泛与丰富的数据准备、转换、清洗组件与资源访问连接,它的链接库涵盖关系数据库、大数据存储、企业应用等 ,并提供了大量内建函数与程序,供开发人员选取使用。

Ø 强大的编排功能,用于协调和组合转换,包括通知和警报。在数据准备过程中快速建模和可视化数据的敏捷视图

Ø 强大的调试排错功能以及允许使用外部程序代码的开放式应用程序设计接口(API)都可让开发人员在设计时更得心应手。

 

零代码开发的大数据整合能力

Ø 相比代码开发方式,HTS ETL提高了15倍大数据分析开发与部署速度

Ø 提供完全可视化的大数据整合工具,避免了手工编程和脚本编写过程。

Ø 支持Hadoop,Spark,NoSQL数据存储,分析型数据库Mongode,Hive,Impala等

Ø 使您具备在数据源上构建混合型大数据处理业务,并直接形成数据处理流程,以获得更完整和精确的分析。

Ø 集成多样性的描述语言,包含R语言模型,Python模型和与 Weka 的对接

 

企业级的数据整合与交换管道平台

Ø 动态的和可重用的数据集成模板,通过动态地创建转换,从而节省大量的时间。

Ø 多线程数据集成引擎架构提供了无限的横向扩展性能,包括部署到集群和云环境。

Ø 强大的管理功能,包括性能监视、作业回滚和重新启动,以及操作审计。

Ø 提供企业级安全访问和版本控制与Active DirectoryLDAP的集成能力。

Ø 提供对Cloudera和Hortonworks Hadoop集群的企业级安全性,与Knox,KerberosrangerSentry的集成能力。

Ø 将数据集成与您企业业务服务合并以简化配置、部署和管理的灵活性。

 

可视化统一化的数据整合业务管理和调度(其他同类产品不具备该功能)

Ø 对数据集成中各种资源进行监控和管理的统一平台。提供包括资源库管理、节点管理、部署管理、任务调度、实时监控、日志管理、统计报表和系统管理的功能。

Ø 资源管理:对资源库的管理,可以进行增删改等操作。负责接入平台所支持的文件资源库,用来获取资源库中的转换和作业。

Ø 节点管理:对运行服务器的管理,可以进行增删改等操作。负责接入数据整合节点服务器,以便将从资源库获取的转换和作业部署到各个运行服务器上。

Ø 部署管理:对转换部署和作业部署的管理,可以添加、部署、卸载和删除等操作。负责将资源库或本地文件系统中的转换和作业部署到节点服务器中。

Ø 任务调度:对调度的管理,可以进行添加、卸载、立即执行、暂停、恢复和删除等操作。负责对已部署的转换、作业和日志清理等任务进行调度管理。

Ø 实时监控:对接入平台的运行服务器进行实时监控,可以对部署在运行服务器上的转换和作业资源进行监控管理操作。

Ø 日志管理:对转换和作业的运行日志进行管理操作,可以进行查看和手动清理等操作。负责对转换运行日志、作业运行日志和步骤错误日志进行查看和清理。

Ø 统计报表:对转换和作业的运行情况进行统计分析,可以进行查看和统计等操作。负责对转换数据、转换运行情况、作业运行情况进行报表统计,对总数据处理、日数据处理、月度数据处理和年度数据处理进行图表分析。

Ø 系统管理:对系统用户的监控和管理,可以添加、修改和删除等操作。负责对组织机构、用户和角色授权进行管理。

 

产品优势

      HTS ETL 完全采用面向服务的架构(SOA)来设计,具备以下特点和优势:

l  方便的 ETL 开发设计和测试。提供可视化的开发和测试环境,所有功能可通过图形界面来使用,流程化的数据集成过程设计,易于用户理解。用户可以在数小时内完成开发设计。

l  丰富的数据源支撑与元数据管理。支持多种主流异构数据源的输入与输出,实现端到端元数据管理,支撑对任意数据源以及各种应用软件包的完 全连接。提供对 Web  WebService 的支持。

l 无限可升级性和扩展的处理能力。采用先进的插件技术,以插件为处理单元,通过无限的挂载新插件来增添新的处理功能和新增数据源,实现了对新数据源和新处理步骤无限的扩展能力。

l 高性能大数据处理能力。提供弹性的线程级和分布式并行处理力能。采用 内置数据集成引擎,支撑多任务线程级流水线并发执行。采用先进的分区 处理并行技术和独有的分布式并行技术,支持云计算动态集群技术,提供 了无限的计算节点扩展能力。

便利的平台移植性和良好的硬件兼容性。系统构建于 java 虚拟机之上, 同时支撑 linux、windows 平台,支撑平台间的数据与任务迁移与移植, 支持所有硬件配置:X86,SMP,特别是 4-64 个处理器、大型 MPP 系统、 具有上百个处理器的集群环境。

海天数据—中国大数据建模分析产品引领者