DawsonSally

如何根据Hive SQL代码生成Datahub数据集及血缘

需求

数据库（Postgres、Hive等）中的元数据（表信息）可以通过cli命令及ui界面的方式采集元数据信息到Datahub中，并配置表级与列级血缘。那么，SQL 查询语句（SQL脚本/SQL DLL）如何生成数据集及血缘呢，比如FineBI的数据集就是一段SQL查询语句。

分析

将SQL脚本/语句生成Datahub中的数据集及血缘，需要验证以下关键技术点：

通过Python Emitter API生成数据集
解析SQL脚本为Python Emitter API生成数据集，需要的输入结构体
通过Python Emitter API生成表级血缘及列级血缘
解析SQL脚本为Python Emitter API生成表级血缘，需要的输入结构体
解析SQL脚本为Python Emitter API生成列级血缘，需要的输入结构体

环境

安装 Datahub服务
安装acryl-datahub==0.9.2.2
安装sql-metadata==2.6.0

实验1:Python Emitter API生成数据集

代码：https://github.com/datahub-project/datahub/blob/master/metadata-ingestion/examples/library/dataset_schema.py
运行：直接修改gms_server地址，运行即可。

实验2:解析SQL脚本为MetadataChangeProposalWrapper结构体

解析SQL，提取列字段名，列字段类型(通过FineBI接口获取)

测试代码sql_fields.py

from sql_metadata import Parser

sql = """
select
        id as ID
        , opp_header_id ID1
        , opp_code opp_code
        , order_line_id 订单行ID
        , order_line_code 订单行编码
        , SUBSTR(order_line_code, 0, INSTR(order_line_code, '-', 1, 2)-1) 订单编码
        , op_type 来源类型
        , qty 订单数量
        , dorn_qty 已退货数量
        , unit_price 单价
        , ((qty - dorn_qty) * unit_price) 应回款合计
        , total_amount 已回款合计
        , ((qty - dorn_qty) * unit_price - total_amount) 待回款合计 
        , total_amount 回款金额
        , last_upd_time 回款时间
        , remark 备注
        , is_enabled 是否生效
from
        dscsm_execute.csm_cs_allocate cca
where 1=1
and cca.is_enabled = '1' and cca.is_deleted = '0'

"""
parser = Parser(sql)
aliases = parser.columns_aliases_names
print(parser.columns_aliases_names)
print(parser.columns)

运行结果如下：

我们可以按需要将上面提取的字段，传入MetadataChangeProposalWrapper结构体中SchemaFieldClass的fieldPath变量。

实验3：Python Emitter API生成表级血缘

代码：https://github.com/datahub-project/datahub/blob/master/metadata-ingestion/examples/library/lineage_emitter_rest.py
运行：直接修改gms_server地址，运行即可。
注意事项：

make_dataset_urn只是引用dataset数据集地址，如果dataset不存在，会默认创建只有数据集名的空数据集（字段名等信息为空）。
使用该脚本创建表级别前，建议先通过CLI、UI界面、Python Emitter等导入Dataset信息。
通过浏览器地址，获取已有元数据的urn
如下图所示：

实验4：Python Emitter API生成字段级血缘

代码：https://github.com/datahub-project/datahub/blob/master/metadata-ingestion/examples/library/lineage_emitter_dataset_finegrained.py
运行：直接修改gms_server地址，运行即可。
注意事项：

make_dataset_urn只是引用dataset数据集地址，如果dataset不存在，会默认创建只有数据集名的空数据集（字段名等信息为空）。
使用该脚本创建表级别前，建议先通过CLI、UI界面、Python Emitter等导入Dataset信息。
通过浏览器地址，获取已有元数据的urn

解析SQL生成数据集、表级&列级血缘

使用sql_metadata解析SQL Select脚本，获取字段信息，通过MetadataChangeProposalWrapper结构体构建数据集。

#!/usr/bin/python3
# coding=utf-8
# -----------------------------------------------------------------------------------
# 日  期：2023.01.30
# 作  者：dawsongzhao
# 用  途：根据SQL SELECT生成Datahub数据集
# 1. 使用时机：无法通过cli ingest从数据库抽取表元数据时，例如FineBI数据集，只是SQL代码。
# 2. 注意事项：代码功能演示用，未考虑性能及编码规范
# 3. 使用方法：python3 sql_select_to_datahub.py

# 版本记录：
# -----------------------------------------------------------------------------------

from sql_metadata import Parser
from datahub.emitter.mce_builder import make_data_platform_urn, make_dataset_urn
from datahub.emitter.mcp import MetadataChangeProposalWrapper
from datahub.emitter.rest_emitter import DatahubRestEmitter
import datahub.emitter.mce_builder as builder

# Imports for metadata model classes
from datahub.metadata.schema_classes import (
    AuditStampClass,
    ChangeTypeClass,
    DateTypeClass,
    OtherSchemaClass,
    SchemaFieldClass,
    SchemaFieldDataTypeClass,
    SchemaMetadataClass,
    StringTypeClass,
)


class SQLSelectToDatahub():
    def __init__(self):
        self._table_sql = """
SELECT 
 v.evt_code             as "  事件编号 ",
 v.evt_expenses_code    as "费用单号",
 v.type_name            as "费用类型",
 v.duty_bill_amount     as "单据金额",
 v.duty_settle_amount   as "结算金额",
 v.duty_rational_amount as "合理金额",
 v.lack_amount          as "谈少金额",
 v.need_confirm_amount  as "待确认金额",
 v.exp_crt_time         as "费用创建时间",
 cc.cvte_year_month  as "费用单的归属年月",
 v.name                          as "  事件名称 ",
 v.status                        as "  单据状态 ",
 v.evt_class                     as "  事件分类 ",
 v.evt_level                     as "  事件级别 ",
 v.urgency_degree                as "  紧急程度 ",
 v.cust_code                     as "  客户 ",
 v.cus_name                      as "  客户名称 ",
 v.cust_corps                    as "  客户战队 ",
 v.board_no                      as "  板卡型号 ",
 v.problem_source                as "  问题来源 ",
 v.occur_stage                   as "  问题阶段 ",
 v.process_users                 as "  处理团队 ",
 v.service_user                  as "  客服 ",
 v.bu_id                         as "  事业部 ",
 v.crt_time                      as "  制单日期 ",
 v.fbk_item_code                 as "  物料料号 ",
 v.fbk_supplier                  as "  供应商 ",
 v.fbk_analyze                   as "  初步分析情况 ",
 v.is_analyze                    as "  是否有原因分析 ",
 v.analyze_date                  as "  原因分析日期 ",
 v.analyse_content_str           as "  原因分析内容 ",
 v.is_temp_plan                  as "  是否有临时措施 ",
 v.temp_plan_date                as "  临时措施日期 ",
 v.temp_plan_str                 as "  临时措施内容 ",
 v.factory                       as "  所属工厂 ",
 v.is_rework                     as "  是否返工 ",
 v.evt_type                      as "  事件类型 ",
 v.plan                          as "  方案 ",
 v.dis_range                     as "  禁用范围 ",
 v.dis_software_nums             as "  禁用软件数 ",
 v.dis_order_nums                as "  禁用订单数 ",
 v.is_able_hold_gary             as "  灰度是否可拦截 ",
 v.bu_type                       as "  事业部类型 ",
 v.error_class                   as "  失误分类 ",
 v.fty_fee                       as "  工厂返工费用 ",
 v.outsrc_fee                    as "  外包返工费用 ",
 v.claim_fee                     as "   客户索赔费用",
 v.experiment_fee                as "  内部实验费用 ",
 v.other_fee                     as "  其他损失费用 ",
 v.total_amount                  as "  总金额 ",
 v.submit_time                   as "  提交审核关闭时间 ",
 v.close_time                    as "  问题审核通过时间 ",
 --v.post                          as "  岗位分类 ",
 v.director_user                 as "  责任经理 ",
 v.dept_id                       as "  责任部门 ",
 v.dept_id_sub2                  as "  二级部门 ",
 v.dept_id_sub3                  as "  三级部门 ",
 v.rate                          as "  责任占比 ",
 v.why_status                    as "  根因状态 ",
 v.problem_liable                as "  问题责任人 ",
 v.error_type                    as "  根因失误分类 ",
 v.post_type                     as "  根因岗位分类 ",
 v.bu_code_search                as "  所属事业部 ",
 v.count_year                    as "  统计年份",
 v.count_month                   as "  统计月份",
 v.count_day                     as "  统计日期",
 v.count_year_month              as "  统计年月",
 v.cvte_year as "  归属年份",
 v.cvte_month as "  归属月份",
 v.cvte_date as "  归属日期",
 v.cvte_year_month               as "归属年月",
 v.w_insert_dt                   as "数仓处理时间",
 v.director_user_submit_time     as "责任经理提交时间",
 v.dept_fee                      as "责任部门费用"
from hive.bda_csm_part_main_evt_test_3 v
left JOIN hive.dim_date_d cc
on  to_char(exp_crt_time,''yyyymmdd'')= substr(cc.period_wid,1,10)
WHERE coalesce(status,'''') <> ''已作废''      
      """
        self.__table_name = 'hive.bda_csm_part_main_evt_test_3'

    def generate_dataset(self):
        """
          构建SQL数据集
        """
        field_list = []
        try:
            for field in Parser(self._table_sql).columns_aliases_names:
                field_list.append(
                    SchemaFieldClass(
                        fieldPath=field,
                        type=SchemaFieldDataTypeClass(type=StringTypeClass()),
                        nativeDataType="VARCHAR(50)",
                        # use this to provide the type of the field in the source system's vernacular
                        description=field,
                        lastModified=AuditStampClass(
                            time=1640692800000, actor="urn:li:corpuser:ingestion"
                        ),
                    )
                )
            event = self.__generate_event(self.__table_name, self._table_sql, field_list)

            # Create rest emitter
            rest_emitter = DatahubRestEmitter(gms_server="http://10.10.10.10:8080")
            rest_emitter.emit(event)
            print("添加SQL数据集[{}]到Datahub".format(self.__table_name))
        except:
            print("解析SQL数据集{}失败".format(self.__table_name))

    def __generate_event(
            self,
            name_list,
            rawSchema_ddl,
            fields_list
    ):

        event: MetadataChangeProposalWrapper = MetadataChangeProposalWrapper(
            entityType="dataset",
            changeType=ChangeTypeClass.UPSERT,
            # 如果需要多级目录，就在name中使用点号分隔，一般建议，database.shcema.table
            entityUrn=make_dataset_urn(platform="postgres", name=name_list, env="PROD"),
            aspectName="schemaMetadata",
            aspect=SchemaMetadataClass(
                schemaName="customer_postgres",  # not used
                platform=make_data_platform_urn("postgres"),  # important <- platform must be an urn
                version=0,
                # when the source system has a notion of versioning of schemas, insert this in, otherwise leave as 0
                hash="",
                # when the source system has a notion of unique schemas identified via hash, include a hash, else leave it as empty string
                platformSchema=OtherSchemaClass(rawSchema=rawSchema_ddl),
                lastModified=AuditStampClass(
                    time=1640692800000, actor="urn:li:corpuser:ingestion"
                ),
                fields=fields_list,
            ),
        )

        return event

if __name__ == "__main__":
    fd = SQLSelectToDatahub()
    fd.generate_dataset()

datahub查看数据集：

如上图所示，此时数据集，lineage按钮查询不到血缘信息。
修改以上脚本生成名为：hive.bda_csm_part_main_evt_test、hive.bda_csm_part_main_evt_test_1、hive.bda_csm_part_main_evt_test_2、hive.bda_csm_part_main_evt_test_3的数据集
生成表级及字段级血缘

import datahub.emitter.mce_builder as builder
from datahub.emitter.mcp import MetadataChangeProposalWrapper
from datahub.emitter.rest_emitter import DatahubRestEmitter
from datahub.metadata.com.linkedin.pegasus2avro.dataset import (
    DatasetLineageType,
    FineGrainedLineage,
    FineGrainedLineageDownstreamType,
    FineGrainedLineageUpstreamType,
    Upstream,
    UpstreamLineage,
)
from datahub.metadata.schema_classes import ChangeTypeClass


def datasetUrn(tbl):
    return builder.make_dataset_urn("postgres", tbl)


def fldUrn(tbl, fld):
    return builder.make_schema_field_urn(datasetUrn(tbl), fld)


# Lineage of fields in a dataset
# c1      <-- unknownFunc(bar2.c1, bar4.c1)
# c2      <-- myfunc(bar3.c2)
# {c3,c4} <-- unknownFunc(bar2.c2, bar2.c3, bar3.c1)
# c5      <-- unknownFunc(bar3)
# {c6,c7} <-- unknownFunc(bar4)

# note that the semantic of the "transformOperation" value is contextual.
# In above example, it is regarded as some kind of UDF; but it could also be an expression etc.

fineGrainedLineages = [
    FineGrainedLineage(
        upstreamType=FineGrainedLineageUpstreamType.FIELD_SET,
        upstreams=[fldUrn("hive.bda_csm_part_main_evt_test_1", "费用单号"), fldUrn("hive.bda_csm_part_main_evt_test_3", "费用单号")],
        downstreamType=FineGrainedLineageDownstreamType.FIELD,
        downstreams=[fldUrn("hive.bda_csm_part_main_evt_test", "费用单号")],
    ),
    FineGrainedLineage(
        upstreamType=FineGrainedLineageUpstreamType.FIELD_SET,
        upstreams=[fldUrn("hive.bda_csm_part_main_evt_test_2", "费用类型")],
        downstreamType=FineGrainedLineageDownstreamType.FIELD,
        downstreams=[fldUrn("hive.bda_csm_part_main_evt_test", "费用类型")],
        confidenceScore=0.8,
        transformOperation="myfunc",
    ),
    FineGrainedLineage(
        upstreamType=FineGrainedLineageUpstreamType.FIELD_SET,
        upstreams=[fldUrn("hive.bda_csm_part_main_evt_test_2", "单据金额"), fldUrn("hive.bda_csm_part_main_evt_test_2", "结算金额"), fldUrn("hive.bda_csm_part_main_evt_test_3", "费用单号")],
        downstreamType=FineGrainedLineageDownstreamType.FIELD_SET,
        downstreams=[fldUrn("hive.bda_csm_part_main_evt_test", "单据金额"), fldUrn("hive.bda_csm_part_main_evt_test", "结算金额")],
        confidenceScore=0.7,
    ),
    FineGrainedLineage(
        upstreamType=FineGrainedLineageUpstreamType.DATASET,
        upstreams=[datasetUrn("hive.bda_csm_part_main_evt_test_3")],
        downstreamType=FineGrainedLineageDownstreamType.FIELD,
        downstreams=[fldUrn("hive.bda_csm_part_main_evt_test", "合理金额")],
    ),
    # FineGrainedLineage(
    #     upstreamType=FineGrainedLineageUpstreamType.DATASET,
    #     upstreams=[datasetUrn("bar4")],
    #     downstreamType=FineGrainedLineageDownstreamType.FIELD_SET,
    #     downstreams=[fldUrn("bar", "c6"), fldUrn("bar", "c7")],
    # ),
]


# this is just to check if any conflicts with existing Upstream, particularly the DownstreamOf relationship
upstream = Upstream(dataset=datasetUrn("hive.bda_csm_part_main_evt_test_1"), type=DatasetLineageType.TRANSFORMED)

fieldLineages = UpstreamLineage(
    upstreams=[upstream], fineGrainedLineages=fineGrainedLineages
)

lineageMcp = MetadataChangeProposalWrapper(
    entityType="dataset",
    changeType=ChangeTypeClass.UPSERT,
    entityUrn=datasetUrn("hive.bda_csm_part_main_evt_test"),
    aspectName="upstreamLineage",
    aspect=fieldLineages,
)

# Create an emitter to the GMS REST API.
emitter = DatahubRestEmitter("http://10.10.10.10:8080")

# Emit metadata!
emitter.emit_mcp(lineageMcp)

总结

本文简单演示了通过解析SQL代码，并调用Python Emitter API生成datahub数据集、表级、列级别血缘。该演示中还有一些问题没有涉及：

如何自动识别SQL代码中字段的类型问题？
如何识别Hive SQL代码的字段及类型？
能否自动生成Hive SQL的表级及字段级血缘？

如文章：https://blog.csdn.net/zdsx1104/article/details/128808902 中介绍，在生产环境中已经实现FineBI报表-BI图表组件-BI数据-BI PG导出库-数据仓库(ods-dwd-dws-ads)端到端的表级及字段级血缘。有疑问的，欢迎留言沟通。

贵州微商行业协会，今日成立我是磊少
图片发自App文/磊少2018年6.19是全国所有微商引以为傲的一天，因为这一天，微商立法了。且被纳入电子商务经营者范围。而我想说的是，今天（2018.8月28）是所有贵州微商最扬眉吐气的一天。因为今天，贵州省微商行业协会成立了。伴随着移动互联网的蓬勃发展，大数据的日新月异，尤其是贵州贵阳作为全球大数据研究中心，吸引了众多国际顶尖的互联网技术与核心人才，更是为贵州互联网的发展插上了理想的翅膀，飞翔
《亿级流量系统架构设计与实战》MySQL高可用架构 Momentary_SixthSense 系统架构 mysql 架构
主从模式一台MySQL服务器作为Master（主节点）,若干MySQL服务器作为Slave（从节点）。在正常情况下，只有Master处理写数据请求，同时Master与Slave通过主从复制技术保持数据一致。当Master发生故障宕机时，某个Slave会被提升为Master继续对外提供服务。主从复制技术：当Master数据发生变更(包括新增、删除、修改等操作)时，Master将数据的变更日志写入二进
MySQL索引总结
索引什么是索引?索引是一种可以快速查询数据的，有序的数据结构索引的优点提升查询效率，减少IO次数在连表查询时，如果被驱动表的连接字段上建了索引，可以加快表连接的速度假设student表是驱动表，score表是被驱动表。查询过程大致是这样的：首先从student表中取出一条记录，然后拿着这条记录中的student_id去score表中查找匹配的记录。如果score表的student_id字段上有索引
rust实现的快捷补全到剪贴板的实用工具余很多之很多 yu的工具 rust 开发语言后端
最近在兼职项目中老是遇到这样的场景：在云服务器之间通过scp命令传输文件，密码太长记不住(客户服务器不方便ssh-copy-id)在服务器上使用mysql命令登录修改数据，数据库密码太长记不住（客户设置的密码，直接改掉哈？）自己电脑使用geminicli需要代理，代理命令太长记不住（简单的放入脚本中不能生效）之前的做法都是记录到本地记事本，然后打开记事本找到对应的密码再复制到剪贴板，但是这样太麻烦
Prompts
提示是引导AI模型生成特定输出的输入。这些提示的设计和措辞会显著影响模型的反应。在SpringAI中与AI模型交互的最低级别，处理SpringAI中的提示与管理SpringMVC中的“视图”有些相似。这涉及为动态内容创建带有占位符的广泛文本。然后根据用户请求或应用程序中的其他代码替换这些占位符。另一个类比是包含某些表达式占位符的SQL语句。随着SpringAI的发展，它将为与AI模型的交互引入更高
【python+SQLAlchemy】 ryanling河 python 数据库 sql
需要先安装pymysql模块，以便能够在SQLAlchemy中使用MySQL数据库。使用以下命令进行安装：pipinstallSQLAlchemypipinstallpymysql目前SQLAlchemy版本是2.0.0以上了以下是基本写法以便快速学习fromsqlalchemyimportcreate_engine,Column,Integer,Stringfromsqlalchemy.ormi
python sqlalchemy连接oracle_Python SQLalchemy 基础操作之数据库增删改查 weixin_39970994 python
ORM全称ObjectRelationalMapping,即对象关系映射。简单的说，ORM将数据库中的表与面向对象语言中的类建立了一种对应关系。这样，我们要操作数据库，数据库中的表或者表中的一条记录就可以直接通过操作类或者类实例来完成。SQLAlchemy是Python社区最知名的ORM工具之一，为高效和高性能的数据库访问设计，实现了完整的企业级持久模型。SQLAlchemy优点：简洁易读：将数据
Hadoop与图像识别与处理 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Hadoop与图像识别与处理作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在大数据时代，数据的爆炸性增长对数据处理技术提出了新的挑战。图像数据作为一种重要的数据形式，其处理和分析在许多领域中具有重要意义，如医疗影像分析、自动驾驶、安防监控等。然而，传统的图像处理方法在面对海量图像数据时显得力不从心。Hadoop作为一种分
Uniapp微信小程序开发：后端服务器搭建指南（语言选择+部署方案）
目录前言：Uniapp+微信小程序的架构模式️后端服务器的作用后端语言选择（Node.js/Java/Python/PHP/Go）☁️服务器部署方案（云服务器vsServerless）实战：如何连接Uniapp与后端API安全优化：HTTPS、JWT、接口鉴权数据库选择（MySQL、MongoDB、云数据库）总结&最佳实践1.前言：Uniapp+微信小程序的架构模式Uniapp是一个基于Vue.j
关于Ajax的学习笔记秋也凉 ajax 学习笔记
Ajax概念：是一门使用了js语言，可以使用于Javaweb，实现前端代码和后端代码连结的的一种异步同步（不需要等待服务器相应，就能够发送第二次请求）的一种技术，它主要用于网页内容的局部刷新，列如验证码、导航栏的刷新等。实现步骤1.导入jQuery（一种框架，Ajax是JQuery的一种方法）文件——例如：写在jsp页面的标签里面。2.在jsp页面写一个函数，然后在函数里面调用ajax方法，aja
【杂记】SQLAlchemy使用方法记录
目录写在前面1.什么是SQLAlchemy2.安装SQLAlchemy3.使用方法3.1初始化数据库连接3.2创建表3.2.1基础创建表操作3.2.2常用表字段属性代码3.2.3建立数据库表关系（1）一对多（2）多对多3.3查询数据3.3.1通用的查询数据方法3.3.2过滤规则3.4向数据表中添加/删除/更改数据3.4.1添加数据3.4.2删除数据3.4.3更改数据参考写在前面仅作个人学习与记录用
【Redis篇】数据库架构演进中Redis缓存的技术必然性—高并发场景下穿透、击穿、雪崩的体系化解决方案奈斯DB Redis专栏缓存 redis 数据库架构运维
《博主主页》：CSDN主页__奈斯DBIFClub社区主页__奈斯、《擅长领域》：擅长阿里云AnalyticDBforMySQL(分布式数据仓库)、Oracle、MySQL、Linux、prometheus监控；并对SQLserver、NoSQL(Redis)有了解如果觉得文章对你有所帮助，欢迎点赞收藏加关注作为DBA或运维在日常与Redis打交道时，往往更关注部署安装、Key清理、内存回收、备份
沈阳10家正规亲子鉴定中心地址一览(附2024年8月鉴定地址汇总）国医基因吴主任
在沈阳什么地方可以做亲子鉴定呢？沈阳市和平区南京北街155号的国医基因可以做亲子鉴定。在沈阳做一次亲子鉴定要花费多少钱？大概是要花费2000-4500元左右。在沈阳亲子鉴定是一种现代科技手段，为家庭关系提供了明确的答案。在复杂的社会关系中，它不仅帮助确认血缘关系，更在法律、医学和心理层面发挥着重要作用。本文将深入探讨亲子鉴定的科学原理、操作流程及其在现实生活中的应用和影响。沈阳亲子鉴定正规咨询机构
渗透测试视角：Web 应用常见漏洞的利用与防御策略
Web应用已成为企业业务的核心载体，但SQL注入、XSS、文件上传漏洞等安全问题频发。从渗透测试视角分析漏洞的利用原理，才能制定更有效的防御策略。本文将结合实战案例，解析Web应用常见漏洞的利用方式与防御方法。一、SQL注入漏洞：数据库的“隐形后门”SQL注入是最常见的Web漏洞之一，攻击者通过在参数中插入SQL语句，操控数据库获取数据或执行命令。漏洞原理与利用场景当Web应用未对用户输入进行过滤
有多“自律”就有多“自由” 四柱
001.自律者，能掌控自己的生活生活中，你身边有没有这样的人呢？总是列下一大堆目标：要减肥、要健身、要多看书、要早睡早起……然而他们往往是坚持了几周甚至几天之后，便用各种借口埋葬了那些雄心勃勃的计划。其实，这就是自律与不自律之间的区别。自律的人，总是能严格地要求自己，朝着自己想要的目标奋斗。自律和不自律间，虽然都是由点点滴滴的小事构成，但差的却是一整个人生。不要放纵自己，不要轻易给自己找借口。对自
Python 应用无监督学习（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/6b15c463e64a9f03f0d968a77b424918译者：飞龙协议：CCBY-NC-SA4.0前言关于本节简要介绍了作者、本书的内容覆盖范围、开始时你需要的技术技能，以及完成所有活动和练习所需的硬件和软件要求。本书简介无监督学习是一种在没有标签数据的情况下非常有用且实用的解决方案。Python应用无监督学习引导你使用无监督学习技术与Py
大数据领域数据架构的实时数据可视化架构 AGI大模型与大数据研究院 AI大模型应用开发实战信息可视化大数据架构 ai
大数据领域数据架构的实时数据可视化架构关键词：大数据架构、实时数据处理、数据可视化、流式计算、数据管道、可视化工具、性能优化摘要：本文深入探讨了大数据领域中实时数据可视化架构的设计与实现。我们将从基础概念出发，逐步分析实时数据处理流程，介绍关键技术和工具，并通过实际案例展示如何构建高性能的实时可视化系统。文章将涵盖数据采集、处理、存储和可视化展示的全链路架构，同时讨论性能优化策略和未来发展趋势。1
手动搭建PHP环境：步步为营，解锁Web开发奔跑吧邓邓子项目攻略 php 手动搭建php环境
目录一、引言二、准备工作2.1明确所需软件2.2下载软件三、Windows系统搭建步骤3.1安装Apache服务器3.2安装PHP3.3集成Apache与PHP3.4安装MySQL3.5配置PHP连接MySQL四、Linux系统搭建步骤（以Ubuntu为例）4.1更新系统4.2安装Apache4.3安装MySQL或MariaDB4.4安装PHP及其扩展五、macOS系统搭建步骤5.1安装Homeb
sqoop从mysql导数据到hdfs，出现java.lang.ClassNotFoundException: Class QueryResult not found 无级程序员大数据 sqoop mysql hdfs
运行sqoop从postgresql/mysql导入数据到hdfs,结果出现如下错误：2025-07-1816:59:13,624INFOorm.CompilationManager:HADOOP_MAPRED_HOMEis/opt/datasophon/hadoop-3.3.3Note:/opt/sqoop/bin/QueryResult.javausesoroverridesadeprecat
datasophon下dolphinscheduler执行脚本出错无级程序员大数据 hive 硬件架构 hadoop
执行hive脚本出错：错误消息：FAILED:RuntimeExceptionErrorloadinghooks(hive.exec.post.hooks):java.lang.ClassNotFoundException:org.apache.atlas.hive.hook.HiveHookatjava.net.URLClassLoader.findClass(URLClassLoader.ja
PGSql性能测试无级程序员数据库大数据
一个40亿的表，分成128个区，16384个slot，每个表分区大约3000W数据，每个slot大约25W数据，虚拟机8C16G，1T空间，测试导出一个slot数据性能，结果如下：select*fromtablewhereslot_id=0;以slot_id为索引：大约100多秒，以slot_id和slice_id为索引时大约2秒，很奇怪的结果。另外，数据增加到60亿，即每个表4500W数据时，一
远古海洋种的蝎子，巨型羽翅鲎到底长什么样子？喵感数据
巨型羽翅鲎是生活在距今4.6-4.45亿年间的一种海蝎，又被称为广翅鲎。这群跟鲎具有血缘关系的海蝎们，它们大多数都是水生的节肢动物。这种动物生物力顽强，战斗力爆表，它们可以在任何环境下生存，无论是淡水环境还是陆地环境。奥陶纪海中霸主海蝎属于螯肢亚门的动物。这类动物包括蜘蛛和蝎子，如布龙度蝎子。螯肢亚门属于节肢动物古老的族群，它们最早出现在距今5亿年前时期的寒武纪时代。而巨型羽翅鲎则是海蝎种的一种。
hive 分区表select全部数据_hive分区表 Xenophon Tony hive 分区表select全部数据
内部表和外部表内部表：createtable，copy数据到warehouse,删除表时数据也会删除外部表：createexternaltable，不copy数据到warehouse,删除表时数据不会删除表的分区分区的好处：如果不建立分区的话，则会全表扫描数据通过目录划分分区，分区字段是特殊字段目录结构：/pub/{dt}/{customer_id}/添加分区：ALTERTABLEfsADDPAT
数据库管理-第316期 Oracle DB 23.8新特性一览（20250417）胖头鱼的鱼缸（尹海文） Oracle 数据库 oracle
数据库管理316期2025-04-17数据库管理-第316期OracleDB23.8新特性一览（20250417）1客户端完整支持稀疏向量2DBMS_HYBRID_VECTOR.GET_SQL函数3PL/SQL函数的动态统计信息4非ADB-S部署中的弹性向量内存管理5DBMS_HYBRID_VECTOR支持FILTER_BY6JSON类型定义功能增强：数据大小和数组规范7JSON到二元性迁移：提示
oracle drop user失败,升级失败后，在drop user时出现错误ORA-00600 kkpo_rcinfo_defstg:objnotfound... weixin_39834678 oracle drop user失败
关于升级失败后，在dropuser时出现错误ORA-00600的解决方案：当前DB版本：SQL>select*fromv$versionwhererownumshouserUSERis"FUTURELEVEL1"SQL>conn/assysdbaConnected.SQL>dropuserfuturelevel1;dropuserfuturelevel1*ERRORatline1:ORA-0060
[数据库优化] 10个MySQL/MariaDB索引优化技巧：大幅提升查询性能 Clownseven 数据库 mysql mariadb
更多服务器知识，尽在hostol.com你的网站或应用程序是不是经常因为数据库查询缓慢而让用户等到“地老天荒”？CPU占用率不高，内存也足够，服务器看起来一点都不忙，但页面就是出奇地慢？如果你遇到了这种情况，那么恭喜你（也可能是不幸），你很可能遇到了数据库性能优化中最常见也最关键的一环——索引问题！很多开发者和初级DBA（数据库管理员）可能会觉得索引这东西“玄之又玄”，或者简单粗暴地给每个列都加上
MySQL（1）哪里不会点哪里. MySQL mysql 数据库
目录数据库的简介MySQL数据库的安装和卸载MySQL数据库概念SQL语言（操作数据库）SQL的分类数据库的操作（CURD）创建数据库（重点）查看数据库（重点）删除数据库（重点）修改数据库表结构操作（CURD）创建表数据库的数据类型（重点）单表的约束（了解）删除和查看表修改表数据的操作（CRUD）（重点）插入数据（insert）MySQL插入中文数据乱码修改数据（update）删除数据（delet
数据库管理-第349期 Oracle DB 23.9新特性一览（20250717）胖头鱼的鱼缸（尹海文） Oracle 数据库 oracle
数据库管理349期2025-07-17数据库管理-第349期OracleDB23.9新特性一览（20250717）1JavaScript过程和函数的编译时语法检查2不再需要JAVASCRIPT上的EXECUTE权限3GROUPBYALL4使用SQL创建并测试UUID5IVF索引在线重组6JSON到二元性迁移器：使用JSONschema进行模式推理7数据库认证的多因素认证8多语言引擎支持数据库驻留连
MySQL部门员工表实验 2301_81097039 数据库 mysql
一、要求（一）数据表1、dept表CREATETABLEdept(deptnoINT(2)NOTNULLCOMMENT'部门编号',dnameVARCHAR(15)COMMENT'部门名称',locVARCHAR(20)COMMENT'地理位置');--添加主键ALTERTABLEdeptADDPRIMARYKEY(deptno);--添加数据INSERTINTOdept(deptno,dname
oracle 11g drop user 失败，报错ORA-00600
有套Oracleoda一体机上，数据库版本是11204，删除用户时报错如下：SQL>dropusergs_jw3cascade;dropusergs_jw3cascade*ERRORatline1:ORA-00600:internalerrorcode,arguments:[16662],[kqldfau],[4],[0],[253890],[],[],[],[],[],[],[]使用rman备份
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt