Datacanal产品介绍
一、产品简介
1.1什么是Datacanal
Datacanal是一个分布式、易扩展、可视化任务调度平台,提供图形任务编排、定时调度和分布式批量处理等功能。可以在Web系统中编排流程,用流程方式进行任务调度和数据传递。通过定时调度或API调用任务的方式进行任务处理和数据传递。分布式编程模型可以将大量数据分发到多台机器上并行执行。其致力于解决数据处理流程中错综复杂的逻辑关系和处理技术,使调度系统在数据处理流程中开箱即用。同时Datacanal也是数据迁移同步工具,帮助企业快速构建高质量、高可用、高灵动的数据流通通道。
1.2适用场景
数据迁移:将指定数据源的数据完整无损的或按条件传输到目标数据源中,多种数据源,具备数据转换、数据校验、速度控制、合理切分、并行写入、数据条件过滤等特点,满足业务数据平滑切换需求。
集群运维:集群内节点同时执行运维命令,如清理集群日志、上报机器状态等,满足运维需要。
分布计算:分布式处理,如计算大量数据,单机执行耗时非常长,可以使用MapReduce处理器完成任务的分发处理,调动整个集群加速计算。
业务异构:有N个现已正式运行的业务系统,数据库不统一,需要把各个业务系统的某些业务数据进行整合,处理后结果传输到一个或某几个业务系统上,也可对外开放接口提供融合业务数据服务。
逻辑处理:某些业务需求或数据处理可能会随时发生变化的业务逻辑在线编排。
1.3产品功能
可视化任务编排:把"任务"做为最小单位按照业务需要进行编排,任务之间有先后顺序,任务的流转执行有业务判断分支循环等,每个“任务”输入数据是前一个环节的输出数据,数据在各个任务中流转。编排之后能形成一个基于任务单元的自动化处理模型。
丰富任务环节:具有多种任务环节,例如脚本、shell、kettle、sql脚本等,每类任务的功能不同。
分布式计算:可以将大量数据分发到各个worker上分布处理,然后合并。
定时调度:根据中文或cron表达式进行设置某个模型的调度规则。
1.4产品优势
简单易用:可以通过非常简单的可视化界面拖拽操作构建数据处理流程。通过API与第三方系统集成。实时监视运行状态。
性能强劲:分布式任务处理,发挥多台计算机合作性能。
高可靠性:去中心化多Master多Worker服务,可随时横向扩展。
开放平等:对于数据源的,秉承中立的原则,让用户自由选择、搭配风险。不强绑定任何数据产品、平台、体系,平等各中数据环境。
逐步全面:开发团队逐步添加各种计算节点,丰富功能,提高完整性,使其更加全面。
二、技术特性
2.1产品技术架构
架构图