业务数据化主要是指企业通过各种技术手段,建立信息化、数字化、自动化和智能化的业务流程的过程。主要目标是积累和沉淀数据资源,通过管理和技术手段不断提升数据质量,全面提高企业数据感知能力、采集和获取数据能力,为企业内部管理、业务运营和数据资源化提供数据支持。
数据汇聚是实现企业业务数据化的前提,企业所有数据来自业务系统、物联网设备、文件等,这些数据分散在不同的网络环境和存储平台中,使用成本很高,难以产生业务价值。数据汇聚是研博数据融合各类数据采集组件推出的一款用于多源异构系统离线批量汇聚和实时采集的核心工具之一。
数据汇聚中心重点能力如下:
1、广泛的数据源支持
支持mysql、oracle、sqlserver、Postgresql等主流关系数据库,支持Redis、MongoDB、Elasticsearch等非关系型数据库,支持influxdb、TDenigine时序数据库,支持KingbaseES、DBMS等国产关系型数据库;支持FTP、HDFS文件数据源;支持Kafka、EmqX、rabbitmq等消息队列数据源,支持HTTP接口数据源;支持Neo4j图形数据库等;支持Click House、HBase等列式存储数据库;支持读写插件式扩展新的数据原。
2、数据源管理
支持数据源信息增删改查操作;支持根据数据源的认证访问机制,配置用户名、密码、授权、证书等信息;支持通过角色授权模式管理数据源权限;支持根据数据源的类型,提供不同的开发调试工具,用于SQL查询、接口调试、消息监听等开发调试操作。
3、数据源读写插件
支持数据源读写插件增删改查操作;支持在不修改应用程序核心代码的情况下,通过同步任务配置加载不同的数据源插件,实现以相同的方式操作不同类型的底层数据源;支持单表读、单表写离线同步操作;支持实时单表增量读、实时单表增量写等实时同步操作。
4、离线同步
离线同步是指基于提供的数据源读取(Reader)和写入插件(Writer),定义来源与去向数据源,并结合统一调度中心,将源端数据库中全量或增量数据的同步至目标数据库中。支持单表同步至单表、单表增量同步;支持向导和脚本两种同步任务创建模式。
支持数据来源、数据去向参数配置;支持连通性测试;支持数据过滤条件配置,当不配置数据过滤条件时,默认同步该表全量数据;支持切分键设置,根据切分键字段将同步任务切分为多个任务,以便并发、分批读取数据;支持配置同步前后执行语句;支持定义冲突时的写入模式;支持配置数据来源和数据去向列的字段映射关系;
5、实时同步
实时同步是指基于提供的数据源读取(Reader)和写入插件(Writer),定义来源与去向数据源,并结合统一调度中心,将源端消息中间件、API接口数据同步至目标端数据库中。支持消息同步至单表、接口请求同步至数据库。支持向导和脚本两种同步任务创建模式。暂不支持跨时区数据源同步。
支持数据来源、数据去向参数配置;支持连通性测试;支持数据过滤条件配置,当不配置数据过滤条件时,默认同步该表全量数据;支持配置同步前后执行语句;支持定义冲突时的写入模式;支持配置数据来源和数据去向列的字段映射关系;
6、数据填报工具集成
支持与数据填报系统集成,用于汇总不支持在线采集的数据;支持类EXCEL填报模式;支持各类填报模板快速设计;内置丰富的公式支持,可以进行复杂的数学运算、统计分析等;支持多人、人与实时同步任务同时在线编辑同一份表格;支持EXCEL表格文件导入导出;支持表格样式设置。
数据汇聚中心不仅具备离线同步、实时同步等能力,还采用数据湖作为数据存储技术,用于存储原始数据,包括结构化、半结构化和非结构化数据。与传统的数据仓库相比,数据湖的设计理念更加强调数据的原始存储、大规模以及灵活性,而不是预先定义数据结构或进行大量的数据转化处理。
1、数据编目
企业的数据存储系统以及业务系统逐年增加,数据存储在各个地方,存储介质多种多样,有机械硬盘、固态硬盘、内存等,数据湖可以通过数据编目的方式将这些存储系统统一管理起来,用于后续的计算。数据编目支持对原始数据的物理资源编目,也支持基于业务需求和场景的逻辑编目,两种编目方式都能够索引、定位到数据。
2、物理入湖
物理入湖是指数据编目完成后,即将数据汇聚、同步到数据湖的存储系统中。对于经常使用、分析的数据,建议使用物理入湖的方法,这样在数据分析时,数据无须进行传输就已经在系统中存储,因而能够让数据计算任务立刻跑起来,快速获取结果。
3、虚拟入湖
虚拟入湖是指仅仅完成数据编目的工作,而不进行数据汇聚、同步的工作,只有在计算时,才通过实时同步的方式将数据集中存储并计算。如果在原始存储系统中部署有计算节点,也可以先在边缘计算结果再传输到中心统一计算。对于非结构化数据这类存储开销大的或者使用频率低、难以评估使用频率的数据,都推荐使用虚拟入湖的方式“汇聚”到数据湖中。