Consumption and writing to Hudi based on multiple topic

功能介绍

基于 spring-cloud 和 consul 整合 hudi 服务，目的是可以利用服务发现来处理同一批次的多个spark任务之间的调度。实现的场景是启动1至多个spark任务，共享多个 topic 的消费任务，并且每个任务之间的实际执行是互斥的（分组策略是利用zookeeper做负载均衡策略，尽量让每个任务节点都平均负载从而避免某一个节点任务堆积）。基于 spring-consul 做动态任务配置调整，从而应对任务的实时控制和调整。

整体功能基于 spark-yarn-client 模式的服务，基于任务执行历史做db存储，以提供后续审计使用。当前版本暂时不考虑 yarn-cluster 模式。在基于配置文件的提交策略的基础上新增基于 db/其他存储的提交策略，方便实时更新每个任务的配置。

项目测试主要使用了 Debezium 做为CDC服务的提供方

部署方式

本地开发

# 启动 dev
./consul agent -dev
# 然后在编译工具里面启动 spring 项目

服务器部署

考虑到 spring 以及相关依赖和 spark / hudi 可能存在的jar包重复和问题，所以本身项目代码单独部署在 run-base 下，打包依赖的 spring 相关代码放在 spring-base 下。 multistream-run-base-VERSION-SNAPSHOT.jar 会作为基准的执行jar包，依赖的jar包放在了 spring-base/target/libs 下面，可按照如下脚本参考执行任务。

spark-submit \
    --master yarn \
    --jars $(echo /xxx/*.jar | tr ' ' ','),/xxx/spark-avro_2.11-2.4.3.jar,/xxx/hudi-utilities-bundle_2.11-0.6.1-SNAPSHOT.jar \
    --driver-java-options "-Dspring.profiles.active=bigdata" \
    --class org.apache.hudi.multistream.HudiMultistreamApplication \
    --conf spark.driver.userClassPathFirst=true \
    multistream-run-base-1.0.0-SNAPSHOT.jar

注：删除了 slf4j-api-1.7.30.jar，避免jar包冲突

部署脚本

放在 shell/start.sh 下面

Consul Config

配置 K/V

路径：

http://localhost:8500/ui/dc1/kv/config/multistream-bigdata/data/edit

命名路径举例：

config/multistream-bigdata/data
config/multistream-xxxx/data

zookeeper

领导选举

目前我们选择的是用 LeaderSelector 进行多节点选举，每次的master可能不会在一个节点上，这样尽量做到资源平均分配

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
db		db
delta_props		delta_props
run-base		run-base
shell		shell
spring-base		spring-base
.gitignore		.gitignore
README.md		README.md
pom.xml		pom.xml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Consumption and writing to Hudi based on multiple topic

功能介绍

部署方式

本地开发

服务器部署

部署脚本

Consul Config

配置 K/V

zookeeper

领导选举

About

Releases

Packages

Languages

shangyuantech/hudi-multistream

Folders and files

Latest commit

History

Repository files navigation

Consumption and writing to Hudi based on multiple topic

功能介绍

部署方式

本地开发

服务器部署

部署脚本

Consul Config

配置 K/V

zookeeper

领导选举

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages