dolphinscheduler-data-quality-3.1.0 部署

前提条件

dophinscheduler-3.1.0 安装 standalone-server 模式,参考
https://blog.csdn.net/windydreams/article/details/127678233

编译数据质量源码

为了保障后期正常运行,简化配置,可以进行以下配置
1)添加资源文件src/main/resources/META-INF/MANIFEST.MF, 主要是添加Main-Class

Manifest-Version: 1.0
Implementation-Title: dolphinscheduler-data-quality
Implementation-Version: 3.1.0
Specification-Vendor: The Apache Software Foundation
Specification-Title: dolphinscheduler-data-quality
Build-Jdk-Spec: 1.8
Created-By: Maven Jar Plugin 3.2.0
Specification-Version: 3.1
Implementation-Vendor: The Apache Software Foundation
Main-Class: org.apache.dolphinscheduler.data.quality.DataQualityApplication

2) 修改pom文件,添加打包文件

<build>
    <plugins>
        <plugin>
            <groupId>org.apache.maven.plugins</groupId>
            <artifactId>maven-jar-plugin</artifactId>
            <configuration>
                <archive>
                    <manifestFile>
                        src/main/resources/META-INF/MANIFEST.MF
                    </manifestFile>
                    <manifest>
                        <addClasspath>true</addClasspath>
                    </manifest>
                </archive>
            </configuration>
        </plugin>
    </plugins>
</build>

配置好可以使用mvn命令编译打包,生成 dolphinscheduler-data-quality-3.1.0.jar
3) 上传jar 包, 路径如下

/opt/DS/apache-dolphinscheduler-3.1.0-bin/standalone-server/libs

如果不进行步骤1、步骤2 的配置,那么在流程定义配置数据质量节点的时候,添加自定义参数, 指定Main-Class ,如下图所示。
dolphinscheduler-data-quality-3.1.0 部署_第1张图片

配置 dolphinscheduler

配置数据质量选项
修改/opt/DS/apache-dolphinscheduler-3.1.0-bin/standalone-server/conf/common.properties,如下

# data quality option
#data-quality.jar.name=dolphinscheduler-data-quality-dev-SNAPSHOT.jar
data-quality.jar.name=dolphinscheduler-data-quality-3.1.0.jar
#data-quality.error.output.path=/tmp/data-quality-error-data
# Network IP gets priority, default inner outer

然后重启!

/opt/DS/apache-dolphinscheduler-3.1.0-bin/bin/dolphinscheduler-daemon.sh stop standalone-server
/opt/DS/apache-dolphinscheduler-3.1.0-bin/bin/dolphinscheduler-daemon.sh start standalone-server

spark配置

驱动包
将mysql-connector-java-8.0.x.jar 拷贝到$SPARK_HOME/jars目录下面, 本文用的是

/home/hadoop/spark/spark-2.4.8-bin-hadoop2.7/jars/mysql-connector-java-8.0.25.jar

如果是用的其他数据源,也需要将jdbc驱动放入jars/目录
这样基本就可以了,后面就是去配置数据质量规则了

你可能感兴趣的:(数据质量)