只爱大锅饭

批量生成ChunJun json任务脚本

最近在研究chunjun，它是一款稳定、易用、高效、批流一体的数据集成框架。一直在用chunjun做数据抽取测试，json任务重复地在写，感觉十分浪费时间，于是想写个自动生成json脚本。

1.设计模板

模板通过excel设计，主要记录任务中一些参数，每一行就是一个任务，如：MySQL库的ip、端口、库表还有hive的库表、hive数据存储路径等等

2.编写Python代码

2.1.读取模板任务

def readList_extract_Info():
    """
    获取 模板 中的 整体 任务 数据
    :return: 返回 所有任务 集合
    """
    row_count = table.nrows-1
    for row_item in range(row_count):
        count = row_item+1
        list = table.row_values(count)
        job_list.append(list)
    return job_list

2.2.查询表分区并创建添加分区sql

chunjun 好像和 datax一样，不支持动态分区，所以在数据抽取之前，需要创建分区，自动生成添加分区脚本。

def create_partition(job_list):
    sql_list=[]
    # 循环 出 每一个 任务 信息
    for i in range(len(job_list)):
        # 拼接 出 创建 分区 sql
        sql = "alter table " + job_list[i][8] + "." + job_list[i][9] + " add if not exists partition("

        # 判断 任务 中 是否 为分区表,如果为分区表，那么就要根据 任务 中的分区值 创建分区
        if job_list[i][10]=="1":
            # 取出 分区 字段名
            partN_list = job_list[i][11].split(",")
            # 取出 分区 字段值
            partV_list = job_list[i][12].split(",")

            # 判断 分区字段个数是否 和 分区字段值个数 一致
            if len(partN_list)==len(partV_list):
                for item in range(len(partN_list)):
                    # 将 分区字段名称 和 分区字段值 合并 类似：dt="2023",time="2024"
                    partName = partN_list[item]+"=\""+partV_list[item]+"\" "
                    if item == len(partN_list)-1:
                        sql = sql + partName+");"
                    else:
                        sql = sql + partName+","
                sql_list.append(sql)
                print(job_list[i][9]+"---->添加分区sql 创建成功！----> "+sql)
            else:
                print("分区字段个数不匹配,填写有误,不添加分区")
        else:
            print(job_list[i][9]+"---->不是分区表")

    #判断 存储路径是否存在
    if not os.path.exists(output_path):
        # 不存在 创建
        os.makedirs(output_path)
    # 打开 存储文件，并写入 添加分区 sql
    with open(os.path.join(output_path, "create_partition_sql.sql"), "w", encoding='UTF-8') as f:
        for i in sql_list:
            f.write(i+"\n")

2.3.获取MySQL连接

def get_connection(mysql_host,mysql_port,mysql_user,mysql_passwd):
    return pymysql.connect(host=mysql_host, port=mysql_port, user=mysql_user, passwd=mysql_passwd)

2.4.获取数据源表的元数据

获取数据源表的字段名、字段类型

def get_mysql_meta(database, table,mysql_host,mysql_port,mysql_user,mysql_passwd):
    """
    获取 mysql的元数据
    :param database:
    :param table:
    :param mysql_host:
    :param mysql_port:
    :param mysql_user:
    :param mysql_passwd:
    :return:
    """
    connection = get_connection(mysql_host,mysql_port,mysql_user,mysql_passwd)
    cursor = connection.cursor()
    sql = "SELECT COLUMN_NAME,DATA_TYPE from information_schema.COLUMNS " \
          "WHERE TABLE_SCHEMA=%s AND TABLE_NAME=%s ORDER BY ORDINAL_POSITION"
    cursor.execute(sql, [database, table])
    fetchall = cursor.fetchall()
    cursor.close()
    connection.close()
    return fetchall

把字段转换成想要数组 [map]的形式：

注释：python3 需要把 map 外面再套一层 list，不然会出异常

def get_mysql_columns(database, table,mysql_host,mysql_port,mysql_user,mysql_passwd):
    return list(map(lambda x:{"name":x[0],"type":x[1]},get_mysql_meta(database, table,mysql_host,mysql_port,mysql_user,mysql_passwd)))

2.5.数据源表字段类型转换

注释：python3 需要把 map 外面再套一层 list，不然会出异常

把字段转换成想要数组 [map]的形式：

def get_hive_columns(database, table,mysql_host,mysql_port,mysql_user,mysql_passwd):
    def type_mapping(mysql_type):
        mappings = {
            "bigint": "bigint",
            "int": "bigint",
            "smallint": "bigint",
            "tinyint": "bigint",
            "decimal": "string",
            "double": "double",
            "float": "float",
            "binary": "string",
            "char": "string",
            "varchar": "string",
            "datetime": "string",
            "time": "string",
            "timestamp": "string",
            "date": "string",
            "text": "string"
        }
        return mappings[mysql_type]
    meta = get_mysql_meta(database, table,mysql_host,mysql_port,mysql_user,mysql_passwd)

    return list(map(lambda x: {"name": x[0], "type": type_mapping(x[1].lower())}, meta))

2.6.生成json文件模型

def generate_json(list):
    # 判断 Hive的存储 路径 是否 填写
    if len(list[13])==0:
        list[13] ="/user/hive/warehouse/"
    # 判断 Hive的存储 路径 最后一个字符 为 /
    if list[13][-1]!="/":
        list[13]+="/"

    # 拼接 hive 文件 存储 路径 /user/hive/warehouse/stg.db/stu/
    path = list[13]+list[8]+".db/"+list[9]+"/"

    # 判断 是否 有分区 ,循环 分区
    if list[10]=="1":
        partN_list = list[11].split(",")
        partV_list = list[12].split(",")
        if len(partN_list) == len(partV_list):
            # hive 表若有分区，它的存储路径拼接  /user/hive/warehouse/stg.db/stu/dt=2023/time=2024
            for item in range(len(partN_list)):
                partName = partN_list[item] + "=" + partV_list[item] + "/"
                path=path+partName


    job = {"job": {
            "setting": {
                "speed": {
                    "channel": 1
                },
                "errorLimit": {
                    "record": 0,
                    "percentage": 0.02
                }
            },
            "content": [{
                "reader": {
                    "name": "mysqlreader",
                    "parameter": {
                        "username": list[2],
                        "password": list[3],
                        "column": get_mysql_columns(list[4], list[5],list[0],int(list[1]),list[2],list[3]),
                        "splitPk": "",
                        "connection": [{
                            "table": [list[5]],
                            "jdbcUrl": ["jdbc:mysql://" + list[0] + ":" + str(int(list[1])) + "/" + list[4]]
                        }]
                    }
                },
                "writer": {
                    "name": "hdfswriter",
                    "parameter": {
                        "defaultFS": "hdfs://" + list[6] + ":" + str(int(list[7])),
                        "fileType": list[15],
                        "path": path,
                        #"fileName": source_table,
                        "column": get_hive_columns(list[4], list[5],list[0],int(list[1]),list[2],list[3]),
                        "writeMode": list[14],
                        "fieldDelimiter": "\t"
                    }
                }
            }]
        }
    }

    if not os.path.exists(output_path):
        os.makedirs(output_path)
    with open(os.path.join(output_path, ".".join([list[8], list[9], "json"])), "w", encoding='UTF-8') as f:
        json.dump(job, f)
    print("数据源表：" + list[5] + " 数据抽取到目标表：" + list[9] + " [chunjun json脚本已创建在【"+output_path+"】目录下]")

3.整体代码

# ecoding=utf-8
import json
import getopt
import os
import sys
import pymysql
import xlrd

# 打开文件
data = xlrd.open_workbook("F:\\模板.xlsx")

# 获取第一个sheet内容
table = data.sheet_by_index(0)

job_list=[]

#生成添加分区文件和json脚本的目标路径，可根据实际情况作出修改
output_path = "F:\\"

def readList_extract_Info():
    """
    获取 模板 中的 整体 任务 数据
    :return: 返回 所有任务 集合
    """
    row_count = table.nrows-1

    for row_item in range(row_count):
        count = row_item+1
        list = table.row_values(count)
        job_list.append(list)
    return job_list


def create_partition(job_list):
    sql_list=[]
    # 循环 出 每一个 任务 信息
    for i in range(len(job_list)):
        # 拼接 出 创建 分区 sql
        sql = "alter table " + job_list[i][8] + "." + job_list[i][9] + " add if not exists partition("

        # 判断 任务 中 是否 为分区表,如果为分区表，那么就要根据 任务 中的分区值 创建分区
        if job_list[i][10]=="1":
            # 取出 分区 字段名
            partN_list = job_list[i][11].split(",")
            # 取出 分区 字段值
            partV_list = job_list[i][12].split(",")

            # 判断 分区字段个数是否 和 分区字段值个数 一致
            if len(partN_list)==len(partV_list):
                for item in range(len(partN_list)):
                    # 将 分区字段名称 和 分区字段值 合并 类似：dt="2023",time="2024"
                    partName = partN_list[item]+"=\""+partV_list[item]+"\" "
                    if item == len(partN_list)-1:
                        sql = sql + partName+");"
                    else:
                        sql = sql + partName+","
                sql_list.append(sql)
                print(job_list[i][9]+"---->添加分区sql 创建成功！----> "+sql)
            else:
                print("分区字段个数不匹配,填写有误,不添加分区")
        else:
            print(job_list[i][9]+"---->不是分区表")

    #判断 存储路径是否存在
    if not os.path.exists(output_path):
        # 不存在 创建
        os.makedirs(output_path)
    # 打开 存储文件，并写入 添加分区 sql
    with open(os.path.join(output_path, "create_partition_sql"), "w", encoding='UTF-8') as f:
        for i in sql_list:
            f.write(i+"\n")

def get_connection(mysql_host,mysql_port,mysql_user,mysql_passwd):
    """
    mysql 连接
    :param mysql_host:
    :param mysql_port:
    :param mysql_user:
    :param mysql_passwd:
    :return:
    """
    return pymysql.connect(host=mysql_host, port=mysql_port, user=mysql_user, passwd=mysql_passwd)


def get_mysql_meta(database, table,mysql_host,mysql_port,mysql_user,mysql_passwd):
    """
    获取 mysql的元数据
    :param database:
    :param table:
    :param mysql_host:
    :param mysql_port:
    :param mysql_user:
    :param mysql_passwd:
    :return:
    """
    connection = get_connection(mysql_host,mysql_port,mysql_user,mysql_passwd)
    cursor = connection.cursor()
    sql = "SELECT COLUMN_NAME,DATA_TYPE from information_schema.COLUMNS " \
          "WHERE TABLE_SCHEMA=%s AND TABLE_NAME=%s ORDER BY ORDINAL_POSITION"
    cursor.execute(sql, [database, table])
    fetchall = cursor.fetchall()
    cursor.close()
    connection.close()
    return fetchall


def get_mysql_columns(database, table,mysql_host,mysql_port,mysql_user,mysql_passwd):
    """
    获取 mysql 表 字段
    :param database:
    :param table:
    :param mysql_host:
    :param mysql_port:
    :param mysql_user:
    :param mysql_passwd:
    :return:
    """
    return list(map(lambda x:{"name":x[0],"type":x[1]},get_mysql_meta(database, table,mysql_host,mysql_port,mysql_user,mysql_passwd)))



def get_hive_columns(database, table,mysql_host,mysql_port,mysql_user,mysql_passwd):
    def type_mapping(mysql_type):
        mappings = {
            "bigint": "bigint",
            "int": "bigint",
            "smallint": "bigint",
            "tinyint": "bigint",
            "decimal": "string",
            "double": "double",
            "float": "float",
            "binary": "string",
            "char": "string",
            "varchar": "string",
            "datetime": "string",
            "time": "string",
            "timestamp": "string",
            "date": "string",
            "text": "string"
        }
        return mappings[mysql_type]
    meta = get_mysql_meta(database, table,mysql_host,mysql_port,mysql_user,mysql_passwd)

    return list(map(lambda x: {"name": x[0], "type": type_mapping(x[1].lower())}, meta))


def generate_json(list):
    # 判断 Hive的存储 路径 是否 填写
    if len(list[13])==0:
        list[13] ="/user/hive/warehouse/"
    # 判断 Hive的存储 路径 最后一个字符 为 /
    if list[13][-1]!="/":
        list[13]+="/"

    # 拼接 hive 文件 存储 路径 /user/hive/warehouse/stg.db/stu/
    path = list[13]+list[8]+".db/"+list[9]+"/"

    # 判断 是否 有分区 ,循环 分区
    if list[10]=="1":
        partN_list = list[11].split(",")
        partV_list = list[12].split(",")
        if len(partN_list) == len(partV_list):
            # hive 表若有分区，它的存储路径拼接  /user/hive/warehouse/stg.db/stu/dt=2023/time=2024
            for item in range(len(partN_list)):
                partName = partN_list[item] + "=" + partV_list[item] + "/"
                path=path+partName


    job = {"job": {
            "setting": {
                "speed": {
                    "channel": 1
                },
                "errorLimit": {
                    "record": 0,
                    "percentage": 0.02
                }
            },
            "content": [{
                "reader": {
                    "name": "mysqlreader",
                    "parameter": {
                        "username": list[2],
                        "password": list[3],
                        "column": get_mysql_columns(list[4], list[5],list[0],int(list[1]),list[2],list[3]),
                        "splitPk": "",
                        "connection": [{
                            "table": [list[5]],
                            "jdbcUrl": ["jdbc:mysql://" + list[0] + ":" + str(int(list[1])) + "/" + list[4]]
                        }]
                    }
                },
                "writer": {
                    "name": "hdfswriter",
                    "parameter": {
                        "defaultFS": "hdfs://" + list[6] + ":" + str(int(list[7])),
                        "fileType": list[15],
                        "path": path,
                        #"fileName": source_table,
                        "column": get_hive_columns(list[4], list[5],list[0],int(list[1]),list[2],list[3]),
                        "writeMode": list[14],
                        "fieldDelimiter": "\t"
                    }
                }
            }]
        }
    }

    if not os.path.exists(output_path):
        os.makedirs(output_path)
    with open(os.path.join(output_path, ".".join([list[8], list[9], "json"])), "w", encoding='UTF-8') as f:
        json.dump(job, f)
    print("数据源表：" + list[5] + " 数据抽取到目标表：" + list[9] + " [chunjun json脚本已创建在【"+output_path+"】目录下]")


if __name__ == '__main__':
    job_list=readList_extract_Info()
    create_partition(job_list)

    for i in job_list:
        generate_json(i)

4.运行结果

代码运行结果：

产出脚本：

create_partition_sql.sql

stg.stu_no_part.json

notepadt++ 格式化代码

{
    "job": {
        "setting": {
            "speed": {
                "channel": 1
            },
            "errorLimit": {
                "record": 0,
                "percentage": 0.02
            }
        },
        "content": [{
                "reader": {
                    "name": "mysqlreader",
                    "parameter": {
                        "username": "root",
                        "password": "000000",
                        "column": [{
                                "name": "id",
                                "type": "int"
                            }, {
                                "name": "name",
                                "type": "varchar"
                            }
                        ],
                        "splitPk": "",
                        "connection": [{
                                "table": ["stu"],
                                "jdbcUrl": ["jdbc:mysql://192.168.233.130:3306/test"]
                            }
                        ]
                    }
                },
                "writer": {
                    "name": "hdfswriter",
                    "parameter": {
                        "defaultFS": "hdfs://192.168.233.130:8020",
                        "fileType": "text",
                        "path": "/user/hive/warehouse/stg.db/stu_no_part/",
                        "column": [{
                                "name": "id",
                                "type": "bigint"
                            }, {
                                "name": "name",
                                "type": "string"
                            }
                        ],
                        "writeMode": "append",
                        "fieldDelimiter": "\t"
                    }
                }
            }
        ]
    }
}

高级管理人员信息系统和数据仓库以及外部数据/非结构化数据与数据仓库牧码文数据仓库 hive 数据仓库数据挖掘数据库
内容目录高级管理人员信息系统和数据仓库以及外部数据/非结构化数据与数据仓库一、高级管理人员信息系统和数据仓库二、外部数据/非结构化数据与数据仓库高级管理人员信息系统和数据仓库以及外部数据/非结构化数据与数据仓库一、高级管理人员信息系统和数据仓库EIS-高级管理人员信息系统-计算机饿最有效形式之一。EIS处理，处于帮助高级管理人员制定决策的目的而设计的。比较典型的用途：趋势分析和发现关键比例指示器度
数据仓库和非结构化数据。 weixin_30631587 数据库
数据仓库包含标准化数据。还包含外部数据/非结构化数据如果外部数据量小可以保持数据库内部或者专用服务器。如果量大只能记住地址，在etl加载当然也有需求是实时数据比如股票汇率拿只能etl过程处理非结构化数据包含图片，视频音频如果是传统数据库db2oracle存在里面是不合适的。存储影响性能如果是hadoop无所谓影响不大，但是从使用者的角度非结构化数据只能转换关系使用建一张元数据表存储非结构化存储位置
如果企业数据仓库全部使用 Couchbase Analytics 服务，可能会面临哪些问题？ PersistDZ 数据存储数据仓库
如果企业数据仓库全部使用CouchbaseAnalytics服务，可能会面临哪些问题？一、概述CouchbaseAnalytics服务是一项强大的工具，旨在为NoSQL数据提供近实时的分析能力。然而，如果企业的数据仓库全部依赖于CouchbaseAnalytics服务，可能会遇到一些问题和挑战。以下将从多个角度详细分析这些可能的问题。二、可能的问题和挑战资源消耗和成本高资源需求：Couchbase
Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案 roman_日积跬步-终至千里 #flink 实战 flink oracle 大数据
文章目录一、技术背景二、关键技术1、OracleLogMiner2、Chunjun的LogMiner关键流程3、修复ChunjunOracleLogMiner问题一、技术背景在大数据实时同步场景中，需要将Oracle数据库的变更数据（CDC）采集并写入ApacheDoris，以支持数据分析、BI报表、实时数据仓库等应用。本方案基于Flink+Chunjun，通过OracleLogMiner解析Re
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
linux下安装卸载永中office步骤,永中集成Office For Linux安装图文指南及简介 weixin_39625975
永中集成OfficeForLinux安装图文指南及简介永中集成Office在一套标准的用户界面下集成了文字处理、电子表格和简报制作三大应用，提供自选图形、艺术字、剪贴画、图表和科教编辑器等附加功能；基于创新的数据对象储藏库专利技术，有效解决了Office各应用之间的数据集成问题，构成了一套独具特色的集成办公软件。永中集成Office用户界面和使用方式与常见Office相似，易学易用；能够双向精确兼
集团企业IT信息化数据架构规划设计方案数智化领地数字化转型数据治理主数据数据仓库架构
集团企业IT信息化数据架构规划设计方案集团企业IT信息化数据架构规划设计方案项目背景与目标集团企业现状分析IT信息化发展趋势数据架构规划需求与目标项目实施范围及预期成果数据架构规划原则与策略遵循行业标准及最佳实践确保数据安全性、完整性和可用性支持业务灵活拓展与创新需求优化资源配置，提高投资回报率数据架构总体设计方案逻辑架构设计物理架构设计数据集成与交换平台规划数据治理体系建立关键业务应用场景及解决
Hive函数大全：从核心内置函数到自定义UDF实战指南（附详细案例与总结）一个天蝎座白勺程序猿大数据开发从入门到实战合集 hive hadoop 数据仓库
目录背景‌一、Hive函数分类与核心函数表‌1.内置函数分类‌2.用户自定义函数（UDF）分类二、常用函数详解与实战案例‌1.数学函数‌2.字符串函数‌3.窗口函数‌4.自定义UDF实战‌三、总结与优化建议‌1.核心总结2.性能优化建议‌3.常问问题背景‌Hive作为Hadoop生态中最常用的数据仓库工具，其强大的函数库是高效处理和分析海量数据的核心能力之一。Hive函数分为‌内置函数‌和‌用户自
奥威BI多数据源融合分析 qq_43696218 信息可视化
在当今数字化时代，企业数据如同宝藏，而如何有效挖掘并利用这些宝藏，则成为了每个企业都必须面对的挑战。BI（商业智能）数据可视化分析正是解决这一挑战的关键技术之一。在众多BI数据可视化工具中，奥威BI以其对接多数据源、多维度动态分析、智能化可视化分析的功能特点，为众多企业提供了强大的数据支持。一、多数据源的无缝对接奥威BI数据可视化工具在数据集成方面表现出色，它能够轻松对接多种数据源，如金蝶、Exc
hive-进阶版-1 数据牧马人 hive hadoop 数据仓库
第6章hive内部表与外部表的区别Hive是一个基于Hadoop的数据仓库工具，用于对大规模数据集进行数据存储、查询和分析。Hive支持内部表（ManagedTable）和外部表（ExternalTable）两种表类型，它们在数据存储、管理方式和生命周期等方面存在显著区别。以下是内部表和外部表的主要区别：1.数据存储位置内部表：数据存储在Hive的默认存储目录下，通常位于HDFS（HadoopDi
数据分析：数据的存储结构、数据类型、数据集成技术、存储模型、查询语言、API、驱动器等 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介数据分析是一个复杂的工程，需要用到多个数据库、数据表、数据文件等数据集成资源。不同的数据集成环境（如分布式系统、异构数据库）会影响数据分析的效率和效果。在进行数据分析时，首先要确定数据集成方案、选择合适的数据模型和索引策略，以及评估各种解决方案之间的优劣。因此，掌握数据的存储结构、数据类型、数据集成技术、存储模型、查询语言、API、驱动器等关键信息对数据分析工作
Hive SQL 精进系列： JSON_TUPLE 快速提取多键值进一步有进一步的欢喜 Hive SQL 精进系列 hive sql hadoop
目录一、引言二、json_tuple函数基础2.1基本语法参数解释返回值简单示例三、应用场景3.1数据提取与分析3.2数据集成与转换3.3复杂JSON数据处理四、json_tuple、get_json_object和from_json的对比4.1功能特点4.2语法和使用复杂度4.3性能表现4.4示例对比使用json_tuple使用get_json_object使用from_json五、使用注意事项
使用 Doris 和 Iceberg 向阳1218 大数据 doris
作为一种全新的开放式的数据管理架构，湖仓一体（DataLakehouse）融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势，帮助用户更加便捷地满足各种数据处理分析的需求，在企业的大数据体系中已经得到越来越多的应用。在过去多个版本中，ApacheDoris持续加深与数据湖的融合，当前已演进出一套成熟的湖仓一体解决方案。自0.15版本起，ApacheDoris引入Hive和Iceberg
使用 Doris 和 LakeSoul 向阳1218 大数据 doris
作为一种全新的开放式的数据管理架构，湖仓一体（DataLakehouse）融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势，帮助用户更加便捷地满足各种数据处理分析的需求，在企业的大数据体系中已经得到越来越多的应用。在过去多个版本中，ApacheDoris持续加深与数据湖的融合，当前已演进出一套成熟的湖仓一体解决方案。自0.15版本起，ApacheDoris引入Hive和Iceberg
为什么要进行数据仓库分层？ BenBen尔 #建模方法 spark 大数据分布式
对数据仓库进行分层（如常见的ODS、DWD、DWS、ADS等层次）是为了解决复杂数据处理场景中的效率、可维护性、易用性问题。以下是分层的主要目的和优势：1、职责分离，逻辑解耦分层能够沉淀公共的数据模型，实现了逻辑解耦。有以下好处：减少重复开发，提升研发效率从数仓模型角度能够提升数据一致性。减少了冗余计算，高频查询或者高频开发无需使用原始数据，直接使用公共的数据模型查询或者开发即可，减少了对计算资源
kettle数据同步 zhz5214 数据同步 java etl big data 数据仓库运维开发
Kettle是一个强大的数据集成工具，可以用来实现各种数据同步的需求。以下是一些常见的Kettle数据同步的实现方法：数据库之间的同步：使用Kettle中的数据库连接组件，可以连接多个不同的数据库，并通过数据抽取、转换和加载步骤实现数据同步。文件之间的同步：Kettle可以读取和写入各种类型的文件，包括CSV、Excel、JSON和XML等格式。因此，可以通过读取源文件、转换数据格式，并将其写入目
数据仓库有哪些建模方法？ BenBen尔 #数据仓库数据仓库大数据
数据仓库的建模方法主要分为关系建模和多维建模两大类，不同方法适用于不同的业务场景和目标。以下是常见的建模方法及其特点：一、关系建模（规范化建模）基于关系型数据库的规范化理论，强调减少数据冗余，适合复杂的企业级数据仓库（EDW）。第三范式（3NF）定义：通过规范化将数据分解为多个关联表，确保每个字段仅依赖主键。优点：数据冗余低，一致性高，适合复杂事务处理。缺点：查询需要多表关联，性能较低；业务理解成
现代数据栈：秽土重生？——从 SAP x Databricks 看数据世界的轮回数据库
由SAP官宣与Databricks合作想开去。现代数据栈（ModernDataStack）曾一度是数据行业最炙手可热的概念。Snowflake、Databricks、Fivetran、dbt……一众明星公司描绘出一个美好的未来：所有数据汇集到云端数据仓库，所有分析、BI和AI应用直接连接仓库数据，再无数据孤岛，数据流转自由，一切井然有序。但现实并没有这么美好。现代数据栈经历了一轮狂热，又在短短几年
25年大数据开发省赛样题第一套，离线数据处理答案 Tometor 大数据 spark scala
省赛样题一，数据抽取模块这一模块的作用是从mysql抽取数据到ods层进行指标计算，在题目中要求进行全量抽取，并新增etl-date字段进行分区，日期为比赛前一天importorg.apache.spark.sql.SparkSessionimportjava.util.PropertiesobjectTask1{defmain(args:Array[String]):Unit={valspark
Python 爬虫实战：开放数据集抓取与大数据分析应用西攻城狮北 python 爬虫数据分析
引言在数据驱动的时代，开放数据集成为了各领域研究和应用的宝贵资源。通过抓取和分析开放数据集，我们可以挖掘出有价值的信息，为决策提供支持。本文将详细介绍如何使用Python爬虫技术抓取开放数据集，并进行大数据分析应用。一、项目背景与目标1.项目背景随着信息技术的飞速发展，越来越多的机构和组织开始开放其数据集，以促进创新和研究。这些开放数据集涵盖了各个领域，如气象、交通、医疗、金融等。通过抓取和分析这
Hive高级SQL技巧及实际应用场景小技工丨大数据随笔 sql hive 数据仓库大数据
Hive高级SQL技巧及实际应用场景引言ApacheHive是一个建立在Hadoop之上的数据仓库基础设施，它提供了一个用于查询和管理分布式存储中的大型数据集的机制。通过使用类似于SQL（称为HiveQL）的语言，Hive使得数据分析变得更加简单和高效。本文将详细探讨一些Hive高级SQL技巧，并结合实际的应用场景进行说明。HiveSQL的高级使用技巧1.窗口函数描述：窗口函数允许我们在不使用GR
高效集成销售订单数据到MySQL的方法 CL_IN mysql android 数据库
聚水潭数据集成到MySQL的技术案例分享在企业的数据处理和分析过程中，如何高效地将聚水潭系统中的销售订单数据集成到MySQL数据库中，是一个关键的技术挑战。本文将详细介绍“聚水潭-销售订单-->BI花花尚--销售订单表（非奇门）”这一具体案例，展示如何通过轻易云数据集成平台实现这一目标。首先，我们需要解决的是如何确保从聚水潭获取的数据不漏单，并且能够快速、批量地写入到MySQL中。为此，轻易云提供
如何设计高效的数据湖架构？晴天彩虹雨架构大数据数据仓库
1.引言在大数据时代，数据湖（DataLake）逐渐成为企业存储和处理海量数据的重要基础设施。相比于传统数据仓库，数据湖能够支持结构化、半结构化和非结构化数据，同时提供更灵活的存储与计算能力。然而，如何合理设计数据湖架构，优化存储策略、Schema演进以及数据生命周期管理，是数据架构师必须深入思考的问题。本篇文章将深入探讨数据湖架构的设计方法，结合Hudi、Iceberg、DeltaLake等技术
支持 40+ 插件，Spring AI Alibaba 简化智能体私有数据集成阿里云云原生人工智能 spring 数据挖掘
作者：张震霆&何裕墙，SpringAIAlibabaContributor在AI智能体（AIAgent）开发的过程中，RAG（Retrieval-AugmentedGeneration）和ToolCalling已经成为两种至关重要的模式。RAG通过结合检索技术和生成模型的强大能力，使智能体能够实时从外部数据源获取信息，并在生成过程中增强其知识深度和推理能力。通过这种方式，智能体不仅能依赖于模型的预
DAMA 数据管理知识体系指南：第十章参考数据与主数据云祁数仓实践经验分享数据仓库 DAMA 数据库架构数据治理
第十章在CDGA分值占比不高，CDGP分值占比较高，主要考点包括：定义、目标、原则、参考数据及主数据管理好处、异同点、哪些属于主数据、活动、工具、度量指标等基本概念。因此本章建议充分理解参考数据及主数据的基础概念，通过历史真题理解到位！CDGA考题分布：4题，共4分CDGP考题分布：论述题1题，共10分主数据管理常见业务驱动因素：满足组织数据需求。管理数据质量。管理数据集成的成本。降低风险。【满足
初识开源云原生数仓Databend 开源项目精选云原生
Databend是一款开源的数据仓库产品，主要定位于OLAP场景，采用云原生架构理念（可对比snowflake），有非常好的扩展性、同时具备低成本、高性能的优势，兼容MySQL协议。Stars数8,245Forks数765主要特点针对对象存储平台进行优化的云原生架构。符合SQL:2011标准，支持复杂查询和数据版本回溯（时间旅行）功能。与流行的商业智能（BI）、提取、转换和加载（ETL）以及数据科
Spring Boot 集成 Kettle m0_74824112 面试学习路线阿里巴巴 spring boot 后端 java
Kettle简介Kettle最初由MattCasters开发，是Pentaho数据集成平台的一部分。它提供了一个用户友好的界面和丰富的功能集，使用户能够轻松地设计、执行和监控ETL任务。Kettle通过其强大的功能和灵活性，帮助企业高效地处理大规模数据集成任务。主要组成部分Spoon：用途：Spoon是Kettle的图形化设计工具。用户可以使用Spoon设计和调试ETL转换和作业。功能：拖放式界面
一文理清：阿里系数据中台-数据治理工具集(傻傻也能分清楚） Debug_Snail Hadoop Big Data 技术工具人工智能 hadoop 数据仓库
阿里云提供的大数据与数据分析产品种类较多，各产品的定位和核心功能有所不同。以下是对DataWorks、MaxCompute、Dataphin、AnalyticDBforMySQL（ADB）、QuickBI、EMR的详细梳理。一、核心产品定位与功能DataWorks定位：一站式大数据开发治理平台，提供数据集成、开发、调度、治理、服务等全链路能力。核心功能：数据集成：支持异构数据源（如数据库、OSS、
一文理清概念：数据中台(DMP)-数据仓库(DW)-数据湖(DL)-湖仓一体-数据治理(DG) Debug_Snail Hadoop Big Data Data Science 数据仓库大数据数据中台数据湖数据治理
数据仓库、数据中台、数据湖、湖仓一体是数据管理和分析领域的重要概念，它们在功能、架构和应用场景上各有特点，同时也在演进中相互关联和补充。以下是对它们的定义和关系的详细解析：1.核心概念（1）数据仓库（DataWarehouse,DW）定义：一种面向主题的、集成的、稳定的数据存储系统，用于支持企业决策分析（如BI、报表）。数据通常经过ETL（抽取、转换、加载）处理，以结构化形式存储，采用Schema
doris：阿里云 MaxCompute 向阳1218 大数据 doris
MaxCompute是阿里云上的企业级SaaS（SoftwareasaService）模式云数据仓库。什么是MaxCompute连接MaxCompute示例--1.创建Catalog。CREATECATALOGmcPROPERTIES("type"="max_compute","mc.default.project"="xxx","mc.access_key"="xxxx","mc.secret_
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?