13518219792

建站动态

根据您的个性需求进行定制 先人一步 抢占小程序红利时代

基于Doris,打造快速、安全、高可靠的实时数据仓库

在当今数据驱动的时代,构建一个快速、安全和高可靠的实时数据仓库对于企业来说至关重要。Apache Doris作为一个强大的开源数据仓库解决方案,提供了实现这一目标的理想选择。通过利用Doris的强大功能和特性,可以构建一个高度可扩展且具备优异性能的实时数据仓库,以满足数据处理和分析的需求。本文介绍如何基于Doris打造这样一个数据仓库,以实现数据驱动。

成都创新互联公司专业为企业提供宜春网站建设、宜春做网站、宜春网站设计、宜春网站制作等企业网站建设、网页设计与制作、宜春企业网站模板建站服务,10多年宜春做网站经验,不只是建网站,更提供有价值的思路和整体网络服务。

1 使用Apache Doris构建实时数据仓库

1.1 数据模型选择

Apache Doris使用三种数据模型来组织数据,这些模型之间的主要区别在于是否以及如何聚合数据。

金融用户在不同的数据仓库层中采用不同的数据模型:

1.2 分区和桶化策略

分区和桶化的思想是将数据“切割”成较小的部分,以增加数据处理速度。关键是设置适当数量的数据分区和桶。根据使用情况,根据每个表自定义桶化字段和桶的数量。例如,经常需要从零售商扁平表查询不同零售商的维度数据,因此可以将零售商ID列指定为桶化字段,并列出各种数据大小的推荐桶数量。

图片

2 多源数据迁移

在采用Apache Doris时,需要将所有分支机构的本地数据迁移到Doris中,但会发现分支机构使用了不同的数据库,并且具有非常不同的数据文件格式,所以迁移可能会很混乱。

图片

幸运的是,Apache Doris支持丰富的数据集成方法,既支持实时数据流式处理,又支持离线数据导入。

3 全量数据摄取和增量数据摄取

为了确保业务连续性和数据准确性,可用以下摄取全量数据和增量数据的方法:

alter table ${DB_NAME}.${TBL_NAME} drop partition IF EXISTS p${P_DOWN_DATE};
ALTER TABLE ${DB_NAME}.${TBL_NAME} ADD PARTITION IF NOT EXISTS p${P_DOWN_DATE} VALUES[('${P_DOWN_DATE}'), ('${P_UP_DATE}'));

LOAD LABEL ${TBL_NAME}_${load_timestamp} ...

4 离线数据处理

已经将部分离线数据处理工作迁移到Apache Doris,并把执行速度提高了5倍。

图片

5 面向金融机构的企业功能

多租户资源隔离

这是必需的,因为经常会发生多个团队或业务系统请求同一数据的情况。这些任务可能导致资源抢占,从而降低性能和系统的稳定性。

5.1 不同工作负载的资源限制

这里把分析工作负载分为四类,并为每个类别设置了资源限制。特别是拥有四种不同类型的Doris账户,并为每种类型的账户设置了CPU和内存资源的限制。

图片

通过这种方式,当一个租户需要过多的资源时,它只会影响自己的效率,而不会影响其他租户。

5.2 基于资源标签的隔离

为了满足母子公司层级的数据安全性,这里为子公司设置隔离的资源组。每个子公司的数据存储在其自己的资源组中,并具有三个副本,而母公司的数据则存储在四个副本中:三个在母公司资源组中,另一个在子公司资源组中。因此,当子公司的员工请求母公司的数据时,查询只会在子公司资源组中执行。具体而言,采取以下步骤:

图片

5.3 工作负载组

基于资源标签的隔离方案确保了物理级别的隔离,但作为Apache Doris开发人员,希望进一步优化资源利用率并追求更细粒度的资源隔离。为此,在Apache Doris 2.0中推出了工作负载组功能。

工作负载组机制将查询与工作负载组相关联,限制了查询可以使用的后端节点的CPU和内存资源的共享。当集群资源短缺时,最大的查询将停止执行。相反,当集群资源充足且工作负载组需要的资源超过限制时,它将按比例分配空闲资源。

5.4 细粒度用户权限管理

出于规章制度和合规性原因,有的提供商实施严格的权限控制,以确保每个人只能访问他们应该访问的内容。参考做法如下:

图片

6 集群稳定性保证


本文标题:基于Doris,打造快速、安全、高可靠的实时数据仓库
网页地址:http://cdbrznjsb.com/article/dhoedso.html

其他资讯

让你的专属顾问为你服务