浪尖聊大数据-浪尖

干货 | 携程数据血缘构建及应用

一、前言

Data lineage includes the data origin, what happens to it and where it moves over time. Data lineage gives visibility while greatly simplifying the ability to trace errors back to the root cause in a data analytics process. ──百科Data lineage

大数据时代，数据的来源极其广泛，各种类型的数据在快速产生，数据也是爆发性增长。从数据的产生，通过加工融合流转产生新的数据，到最终消亡，数据之间的关联关系可以称之为数据血缘关系。

数据血缘是元数据管理、数据治理、数据质量的重要一环，追踪数据的来源、处理、出处，对数据价值评估提供依据，描述源数据流程、表、报表、即席查询之间的流向关系，表与表的依赖关系、表与离线ETL任务，调度平台，计算引擎之间的依赖关系。数据仓库是构建在Hive之上，而Hive的原始数据往往来自于生产DB，也会把计算结果导出到外部存储，异构数据源的表之间是有血缘关系的。

数据血缘用途：

追踪数据溯源：当数据发生异常，帮助追踪到异常发生的原因；影响面分析，追踪数据的来源，追踪数据处理过程。
评估数据价值：从数据受众、更新量级、更新频次等几个方面给数据价值的评估提供依据。
生命周期：直观地得到数据整个生命周期，为数据治理提供依据。
安全管控：对源头打上敏感等级标签后，传递敏感等级标签到下游。

本文介绍携程数据血缘如何构建及应用场景。第一版T+1构建Hive引擎的表级别的血缘关系，第二版近实时构建Hive，Spark，Presto多个查询引擎和DataX传输工具的字段级别血缘关系。

二、构建血缘的方案

2.1 收集方式

方案一：只收集SQL，事后分析。

当SQL执行结束，收集SQL到DB或者Kafka。

优点：当计算引擎和工具不多的时候，语法相对兼容的时候，用Hive自带的LineageLogger重新解析SQL可以获得表和字段级别的关系。

缺点：重放SQL的时候可能元数据发生改变，比如临时表可能被Drop，没有临时自定义函数UDF，或者SQL解析失败。

方案二：运行时分析SQL并收集。

当SQL执行结束后立即分析Lineage，异步发送到Kafka。

优点：运行时的状态和信息是最准确的，不会有SQL解析语法错误。

缺点：需要针对各个引擎和工具开发解析模块，解析速度需要足够快。

2.2 开源方案

Apache Atlas

Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目，它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。官方插件支持HBase、Hive、Sqoop、Storm、Storm、Kafka、Falcon组件。

Hook在运行时采集血缘数据，发送到Kafka。Atlas消费Kafka数据，将关系写到图数据库JanusGraph，并提供REST API。

其中Hive Hook支持表和列级别血缘，Spark需要使用GitHub的hortonworks-spark/spark-atlas-connector，不支持列级别，Presto则不支持。

Linkedin DataHub

WhereHows项目已于2018年重新被LinkedIn公司设计为DataHub项目。它从不同的源系统中采集元数据，并进行标准化和建模，从而作为元数据仓库完成血缘分析。

社区提供了一个Demo，演示地址：https://demo.datahubproject.io/

与Airflow集成较好，支持数据集级别血缘，字段级别在2021Q3的Roadmap。

三、携程方案

携程采用了方案二，运行时分析SQL并收集分析结果到Kafka。由于开源方案在现阶段不满足需求，则自行开发。

由于当时缺少血缘关系，对数据治理难度较大，表级别的血缘解析难度较低，表的数量远小于字段的数量，早期先快速实现了表级别版本。

在16-17年实现和上线了第一个版本，收集常用的工具和引擎的表级别的血缘关系，T+1构建关系。

在19年迭代了第二个版本，支持解析Hive，Spark，Presto多个查询引擎和DataX传输工具的字段级别血缘关系，近实时构建关系。

四、第一个版本-表级别血缘关系

4.1 处理流程

针对Hive引擎开发了一个Hook，实现ExecuteWithHookContext接口，从HookContext可以获得执行计划，输入表，输出表等丰富信息，异步发送到Kafka，部署的时候在hive.exec.post.hooks添加插件即可。

在17年引入Spark2后，大部分Hive作业迁移到Spark引擎上，这时候针对Spark SQL CLI快速开发一个类似Hive Hook机制，收集表级别的血缘关系。

传输工具DataX作为一个异构数据源同步的工具，单独对其开发了收集插件。

在经过解析处理后，将数据写到图数据库Neo4j，提供元数据系统展示和REST API服务，落地成Hive关系表，供用户查询和治理使用。

4.2 效果

在元数据系统上，可以查看一张表多层级的上下游血缘关系，在关系边上会有任务ID等一些属性。

4.3 痛点

随着计算引擎的增加，业务的增长，表级别的血缘关系已经不满足需求。
覆盖面不足，缺少Spark ThriftServer , Presto引擎，缺少即席查询平台，报表平台等。
关系不够实时，期望写入表后可以快速查询到关系，用户可以直观查看输入和输出，数据质量系统，调度系统可以根据任务ID查询到输出表，对表执行质量校验任务。
图数据库Neo4j社区版为单机版本，存储数量有限，稳定性欠佳，当时使用的版本较低，对边不能使用索引(3.5支持)，这使得想从关系搜索到关联的上下游较为麻烦。

五、第二版本-字段级别血缘关系

之前实现的第一个版本，对于细粒度的治理和追踪还不够，不仅缺少对字段级别的血缘关系，也不支持采集各个系统的埋点信息和自定义扩展属性，难以追踪完整链路来源，并且关系是T+1，不够实时。

针对各个计算引擎和传输工具DataX开发不同的解析插件，将解析好的血缘数据发送到Kafka，实时消费Kafka，把关系数据写到分布式图数据JanusGraph。

5.1 传输工具DataX

阿里开源的Druid是一个 JDBC 组件库，包含数据库连接池、SQL Parser 等组件。通过重写MySqlASTVisitor、SQLServerASTVisitor来解析MySQL / SQLServer的查询SQL，获得列级别的关系。

5.2 计算引擎

计算引擎统一格式，收集输入表、输出表，输入字段、输出字段，流转的表达式等一些信息。

Hive

参考 org.apache.hadoop.hive.ql.hooks.LineageLogger 实现，异步发送血缘数据到 Kafka。

Atlas的HiveHook也是实现ExecuteWithHookContext接口，从HookContext获得LineageInfo，也可以参考HIVE-19288 引入的org.apache.hadoop.hive.ql.hooks.HiveProtoLoggingHook，采集更多引擎相关的信息。

其中遇到几个问题：

通过HiveServer2执行获取的start time不正确

HIVE-10957 QueryPlan's start time is incorrect in certain cases

获取执行计划空指针，导致收集失败

HIVE-12709 further improve user level explain

获取执行计划有可能出现卡住，可以加个调用超时。

Spark

前置条件：引入 SPARK-19558 Add config key to register QueryExecutionListeners automatically，实现自动注册QueryExecutionListener。

实现方式：通过实现QueryExecutionListener接口，在onSuccess回调函数拿到当前执行的QueryExecution，通过LogicalPlan的output方法，获得所有Attribute，利用NamedExpression的exprId映射关系，对其进行遍历和解析，构建列级别关系。

覆盖范围：Spark SQL CLI、Thrift Server、使用Dataset/DataFrame API（如spark-submit、spark-shell、pyspark）

遇到问题：

使用analyzedPlan而不是optimizedPlan，optimizer的执行计划可能会丢失一些信息，可以在analyzedPlan的基础上apply一些有助于分析的Rule，如CombineUnions。

传递的初始化用的hiveconf/hivevar变量被Thrift Server忽略，导致初始化Connection没有办法埋点。

打上Patch SPARK-13983 ，可以实现第一步，传递变量，但是这个变量在每次执行新的statement都重新初始化，导致用户set的变量不可更新。后续给社区提交PR SPARK-26598，修复变量不可更新的问题。

SPARK-13983 Fix HiveThriftServer2 can not get "--hiveconf" and "--hivevar" variables since 2.0

SPARK-26598 Fix HiveThriftServer2 cannot be modified hiveconf/hivevar variables

Drop Table 的限制，DropTableCommand执行成功的时候，该表不一定在之前存在过，如果在Drop之前存在过，元数据也已经被删除了，无从考证。

在DropTableCommand增加了一个标志位，真正在有执行Drop操作的话再置为True，保证收集的血缘数据是对的。

使用Transform用户自定义脚本的限制

Transform不像java UDF，只输入需要用到的字段即可，而是需要将所有后续用到的字段都输入到自定义脚本，脚本再决定输出哪些字段，这其中列与列之间的映射关系无法通过执行计划获得，只能简单的记录输出列的表达式，如transform(c1,c2,c3) script xxx.py to c4。

Presto

开发Presto EventListener Plugin，实现EventListener接口，从queryCompleted回调函数的QueryCompletedEvent解析得到相应的信息。

上线的时候遇到一个无法加载Kafka加载StringSerializer的问题（StringSerializer could not be found）。

Kafka客户端使用 Class.forName(trimmed, true, Utils.getContextOrKafkaClassLoader()) 来加载Class，优先从当前线程的ContextClassLoader加载，与Presto的ThreadContextClassLoader有冲突，需要初化始KafkaProducer的时候，将ContextClassLoader暂时置为NULL。https://stackoverflow.com/a/50981469/1673775

5.3 图数据库JanusGraph

JanusGraph是一个开源的分布式图数据库。具有很好的扩展性，通过多机集群可支持存储和查询数百亿的顶点和边的图数据。JanusGraph是一个事务数据库，支持大量用户高并发地执行复杂的实时图遍历。

生产上，存储我们使用Cassandra，索引使用Elasticsearch，使用Gremlin查询/遍历语言来读写JanusGraph，有上手难度，熟悉Neo4j的Cypher语法可以使用cypher-for-gremlin plugin。

以下是数据血缘写入图数据库的模型，Hive字段单独为一个Lable，关系型DB字段为一个Label，关系分两种，LABELWRITE，LABELWRITE_TTL。

只有输入没有输出（Query查询操作），只有输出没有输入（建表等DDL操作）也会强制绑定一个来源系统的ID及扩展属性。

在生产上使用JanusGraph，存储亿级的血缘关系，但是在开发过程中也遇到了一些性能问题。

写入速度优化

以DB名+表名+字段名作为唯一key，实现getOrCreateVertex，并对vertex id缓存，加速顶点的加载速度。

关系批量删除

关系LABELWRITETTL表示写入的关系有存活时间（TTL-Time to live），这是因为在批量删除关系的时候，JanusGraph速度相当慢，而且很容易OOM。比如要一次性删除，Label为WRITE，x=y，写入时间小于等于某个时间的边，这时候Vertex和Edge load到内存中，容易OOM。

g.E().hasLabel("WRITE").has("x",eq("y")).has("publishedDate",P.lte(new Date(1610640000))).drop().iterate()

尝试使用多线程+分批次的方式，即N个线程，每个线程删除1000条，速度也不太可接受。

这时候采用了折中的方案，需要删除关系用另外一种Label来表示，并在创建Label指定了TTL，由于Cassandra支持cell level TTL，所以边的数据会自动被删除。但是ES不支持TTL，实现一个定时删除ES过期数据即可。

5.4 覆盖范围

Zeus调度平台（ETL操作INSERT、CTAS，QUERY）

Ad-Hoc即席查询平台（CTAS，QUERY）

报表平台（QUERY）

元数据平台（DDL操作）

GPU平台（PySpark）

通过ETL任务ID，查询任务ID，报表ID，都可以获取到输入，输出的表和字段的关系。

5.5 局限

使用MapReduce、Spark RDD读写HDFS的血缘暂时没有实现。

思路可以在JobClient.submitJob的时候采集输入和输出路径，又或者通过HDFS的AuditLog、CallerContext来关联。

5.6 效果

在第一版使用图的方式展示血缘关系，在上下游关系较多的时候，显示较为混乱，第二版改成树状表格的方式展示。

字段operator在调度系统Zeus被转换成hive_account，最后输出是ArtNova报表系统的一张报表。

六、实际应用场景

6.1 数据治理

通过血缘关系筛选，每天清理数千张未使用的临时表，节约空间。
作为数据资产评估的依据，统计表、字段读写次数，生成的表无下游访问，包括有没有调度任务，报表任务，即席查询。

6.2 元数据管理

统计一张表的生成时间，而不是统计整个任务的完成时间。
数据异常，或者下线一张表、一个字段的时候，可以找到相关的ETL任务或者报表任务，及时通知下游。
统计表的使用热度，显示趋势。

6.3 调度系统

得益于在图数据库JanusGraph可以使用关系边的key作为索引，可以根据任务ID可以轻松获得该任务输入和输出表。

当配置一个任务A的依赖任务列表的时候，可以使用推荐依赖，检查依赖功能，获得任务A的所有输入表，再通过输入的表获得写入任务ID列表，即为任务A所需依赖的任务列表。
在任务结束后，获取该任务所有输出的表，进行预配的规则进行数据质量校验。

6.4 敏感等级标签

当源头的数据来自生产DB时，生产DB有些列的标签已打上了敏感等级，通过血缘关系，下游的表可以继承敏感等级，自动打上敏感标签。

七、总结

以上描述了携程如何构建表和字段级别的血缘关系，及在实际应用的场景。

随着业务需求和数据的增长，数据的加工流程越来越复杂，构建一套数据血缘，可以轻松查询到数据之间的关系，进行表和字段级的血缘追溯，在元数据管理，数据治理，数据质量上承担重要一环。

VSCode使用Jupyter完整指南配置机器学习环境 z日火校招学习日记 vscode jupyter 机器学习
接下来开始机器学习部分第一步配置环境：VSCode使用Jupyter完整指南1.安装必要的扩展打开VSCode，按Ctrl+Shift+X打开扩展市场，搜索并安装以下扩展：必装扩展：Python(Microsoft官方)-Python语言支持Jupyter(Microsoft官方)-Jupyternotebook支持Pylance(Microsoft官方)-Python智能提示和语法检查推荐扩展：
python虚拟环境打包_python项目打包虚拟环境 weixin_39933356 python虚拟环境打包
python项目打包时，需要将虚拟环境与python自身安装路径下的lib包整合在一起，将该文件保存为packvenv.sh，放入虚拟环境目录下，chmod+xpackvenv.sh，./packvenv.sh执行即可#!/bin/bashPYTHON_PATH=/usr/local/python2.7VENV_PATH=~/.virtualenvs/venv-linux6VENV_NAME=`b
揭开SQL Server和PostgreSQL填充因子的神秘面纱 Alex-Hua postgresql oracle 数据库
揭开SQLServer和PostgreSQL填充因子的神秘面纱理解SQLServer和PostgreSQL中的填充因子在调优数据库性能时，一些小设置往往能带来显著的差异。填充因子就是其中一个经常讨论的设置。SQLServer和PostgreSQL都支持这一概念，但它们的处理方式有所不同。如果你在管理这两种系统中的数据库，了解填充因子的工作原理可以帮助你避免因索引页拆分、索引碎片以及不必要的磁盘I/
python连接数据库的方法,Python 连接数据库的多种方法 AI MIU python连接数据库的方法
JZGKCHINAPython是一种计算机程序设计语言，它是一种动态的、面向对象的脚本语言。它是一种跨平台的，可以运行在Windows，Mac和Linux/Unix系统上。在日常使用中需要对大量数据进行数据分析，那么就必然用到数据库，我们常用的数据库有SQLServer,MySQL,Oracle,DB2,SQLite，Hive，PostgreSQL,MongoDB还有其他常用的MicrosoftA
pycharm2023，修改文件夹路径，venv解释器无法新增 day_323 python pycharm
pycharm2023，修改文件夹路径，venv解释器无法新增1问题描述2处理方法1问题描述我的pycharm版本为2023.1.2。原有代码所在文件夹路径变更后，再用pycharm打开代码，然后进入setting-pythoninterpreter中，新增venv虚拟环境，pycharm无反应，venv环境一直无法新增。2处理方法1关闭pycharm。然后进入代码文件夹，删除.idea文件夹和v
25数据库三级备考自整理笔记
备考策略：博主是边做题边学习知识点的，从每个章节->每套真题的流程，知识点清晰详细，喜欢的请点个关注和收藏，祝大家考试顺利，必过必过必过！一、数据库应用系统开发方法1.数据库的三级模式：外模式、模式、内模式。外->是数据库用户（包括应用程序员和最终用户看见和使用的局部数据的逻辑结构和特征的描述，是数据库用户的视图，是某一应用有关的数据的逻辑表示；外模式是模式的子集，一个数据库可以有多个外模式）；（
python 连接数据库小鱼拉灯 mysql 数据库 python
一.连接MYSQL1.下载PyMySql模块2.在MYSQL中创建数据库并连接importpymysqlconn=pymysql.connect(host='localhost',user='root',password='123456',database='ikun',charset='utf8',port=3306)3.创建表importpymysqlconn=pymysql.connect(
养老院管理系统基于SpringBoot的养老院管理系统系统设计与实现（源码+论文+部署讲解等）
博主介绍：✌全网粉丝60W+,csdn特邀作者、Java领域优质创作者、csdn/掘金/哔哩哔哩/知乎/道客/小红书等平台优质作者，计算机毕设实战导师，目前专注于大学生项目实战开发,讲解,毕业答疑辅导，欢迎高校老师/同行前辈交流合作✌技术栈范围：SpringBoot、Vue、SSM、Jsp、HLMT、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习、单片机
Prometheus监控-第1天我为你走过-YOYO prometheus
7.1基于Prometheus的全方位监控平台一、打造基于Prometheus的全方位监控平台1.1、前言官网地址：https://prometheus.io/docs/prometheus/latest/getting_started/灵活的时间序列数据库；定制各式各样的监控规则；Prometheus的开发人员和用户社区非常活跃；独立的开源项目，不依赖于任何公司；继Kurberntes之后第二个
【开源项目】实测 Google 开源的 AI MCP 数据库网关：10行代码隔离风险，连接池自动复用
1.引言这两天试了谷歌新开的MCPToolboxforDatabases，它用不到10行代码就能让AI助手（比如LangChain智能体）安全地操作数据库。作为一个常年和数据库连接池、凭证泄露搏斗的开发者，这东西确实解决了我的痛点——把数据库访问抽象成“工具”，通过集中管控的MCPServer隔离风险，还自带性能优化。下面分享实测体验和避坑指南。2.正文2.1核心逻辑：为什么需要MCP？传统AI代
jxORM--整体说明 jxandrew jxWebUI 数据库 python ORM
系列文章目录：jxORMI–编程指南jxORM是配套jxWebUI使用的数据库操作库。使用说明jxORM的使用非常简单，主要包括几个步骤：1、导入依赖fromjxORMimportjxORMLogger,ORM,DBDataType,ColType,jxDB2、设置数据库连接#用默认设置，设置本地的mysql数据库连接jxDB.set('testDB',password='password')目前
零基础入门数据库，万字超详细Sql server期末复习 Heyqings sql
前言本篇主要讲述的是关系型数据库SqlServer，原因也很简单，因为大部分学校还在以sqlserver为教学材料，不过没关系无论是sqlserver、mysql还是oracle,只要是关系型数据库，概念都是相通的，语句也大差不差。关系型数据库是一种采用关系模型来组织数据的数据库系统。它将数据存储在表格形式的结构中，通常称为表。这些表由行和列组成，每一行代表一条记录，每一列代表一个字段。关系型数据
大数据处理技术：分布式文件系统HDFS 茜茜西西CeCe hdfs hadoop 大数据 HDFS-JAVA接口文件头歌 Java
目录1实验名称：2实验目的3实验内容4实验原理5实验过程或源代码5.1HDFS的基本操作5.2HDFS-JAVA接口之读取文件5.3HDFS-JAVA接口之上传文件5.4HDFS-JAVA接口之删除文件6实验结果6.1HDFS的基本操作6.2HDFS-JAVA接口之读取文件6.3HDFS-JAVA接口之上传文件6.4HDFS-JAVA接口之删除文件1实验名称：分布式文件系统HDFS2实验目的1.理
EXPLAIN 解码：MySQL 索引优化的黄金决策术渡难繁辰数据库 mysql sql mysql 数据库 sql
引言在MySQL数据库中，索引是优化查询性能的核心工具。但盲目添加索引会导致写性能下降和存储浪费，而缺少关键索引又会引发全表扫描的灾难。如何科学决策？答案在于深入分析查询执行计划——EXPLAIN。本文将聚焦如何通过EXPLAIN诊断查询瓶颈，精准制定索引策略。一、EXPLAIN的核心字段解读EXPLAIN输出结果中的关键字段揭示了查询的执行逻辑，以下为需重点关注的列：1.type列：查询访问数据
SQL Server和PostgreSQL填充因子 meslog 技术分享 postgresql oracle 数据库
理解SQLServer和PostgreSQL中的填充因子在调优数据库性能时，一些小设置往往能带来显著的差异。填充因子就是其中一个经常讨论的设置。SQLServer和PostgreSQL都支持这一概念，但它们的处理方式有所不同。如果你在管理这两种系统中的数据库，了解填充因子的工作原理可以帮助你避免因索引页拆分、索引碎片以及不必要的磁盘I/O带来的头疼问题。填充因子的概念让我们先从一个比喻开始。假设你
python基础笔记大大的大大笔记 python 前端数据库
输入就是print()；#括号里面双引号(“xxxx”)=单引号('xxxx')必须在一行；但是三引号"""xxxx"""='''xxx'''可以换行输出；#'''xxxnnn'''xx=open(('C:\py\py笔记.txt','a+')print('hello',file=xx)xx.close()可以在python中新建文本文本档等(看后缀)："xx"=open('C:\py\py笔记.
Docker Compose 坚定的小辣鸡在努力 docker 容器运维
DockerCompose阅读原文https://www.xiaozaoshu.top/articles/docker/compose一、什么是DockerCompose？DockerCompose是一个用于定义和运行多个Docker容器的工具。你只需用一个docker-compose.yml文件，描述好服务的配置，然后一条命令就可以启动整个系统。适用场景：需要运行多个服务（如Web服务+数据库+
python venv不适合变更路径（路径变更）的几种解决方案（venvpack、pip download、pip install --no-index --find-links=packages）
文章目录**为什么会出现路径问题？**1.**`pyvenv.cfg`文件**：该文件记录了虚拟环境的Python解释器路径（`home`字段）。如果源和目标机器的Python安装路径不一致，虚拟环境将无法找到正确的解释器。2.**脚本路径硬编码**：虚拟环境中的激活脚本（如`activate`）和可执行文件（如`python`）可能包含绝对路径或硬编码的相对路径，导致路径不匹配时失效。**解决方
通过docker部署的MySQL数据库初始化方式 GIS从业者资料数据库 docker mysql
背景安装好MySQL容器后，有时需执行MySQL命令创建项目初始表才能使用。手动创建不太便捷，可将相关SQL命令保存为.sql文件（如init.sql）。在docker-compose.yml中配置MySQL容器时，借助volumes把该脚本挂载到MySQL容器的初始化目录（/docker-entrypoint-initdb.d/），以此完成自动创建，这样会方便许多。步骤1、创建SQL初始化文件在
python-程序编程-实例“温度转换”
实例：温度刻画的两种不同的体系。摄氏度、华氏度需求：将两种不同的摄氏度进行转换。问题分析：输入：输入一个华氏度的温度或者摄氏度的温度值处理：根据温度标志进行温度转换。输出：输出一个带华氏度或者摄氏度的温度值。(f代表华氏度，c代表是摄氏度)c=(f-32)/1.8f=c*1.8+32代码如下：temp=input("请输入有符号的温度值")iftemp[-1]in['f','F']:c=(eval
JavaScript语言基础全解析：语法、面向对象与异步编程白仑色前端系列 javascript udp 开发语言
引言：JavaScript的三大核心支柱JavaScript作为一门跨平台、多范式的编程语言，已从最初的网页脚本发展为全栈开发的基石。其语言基础可概括为三大核心：语法基础（变量、数据类型、控制流等）、面向对象与原型系统（独特的原型继承机制）、异步编程模型（处理非阻塞操作的核心方案）。掌握这三部分，不仅能写出规范的代码，更能深入理解JavaScript的设计哲学。本文将系统讲解这三大模块，每个知识点
基于Docker构建Python后端项目落地总结
Docker使用总结基于Dockerfile的镜像构建示例dockerfile解析#加载centos7的最小镜像源FROMcentos:7RUNyumcleanallRUNyum-yupdate#修改时区RUNln-sf/usr/share/zoneinfo/Asia/Shanghai/etc/localtime&&echo"Asia/Shanghai">/etc/timezone#安装中文支持R
python集合常用函数 Lo-Y-eH python
Python集合是一种无序、可变且不重复的数据类型，常用于处理一组唯一的数据。下面是常用的Python集合函数及其用法：add()：向集合添加一个元素。s=set()s.add(1)s.add(2)s.add(3)print(s)#输出{1,2,3}clear()：移除集合中的所有元素。s=set([1,2,3])s.clear()print(s)#输出set()copy()：返回集合的一个浅拷贝
服务器与工控机的区别解析 D-海漠其他
服务器和工控机虽然都是计算机，但它们的设计目标、使用环境和核心特性有本质的区别，就像轿车和越野车虽然都是车，但用途和构造截然不同。以下是它们的主要区别：核心设计目标：服务器：数据处理、存储、网络服务和应用托管。核心目标是高性能、高吞吐量、高可靠性、可扩展性和高可用性（通常通过集群、冗余实现）。它需要处理海量并发请求（如网页服务、数据库查询、文件共享、虚拟化等）。工控机：工业环境中的过程控制、数据采
【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - 基于wordcloud库实现词云图
大家好，我是java1234_小锋老师，最近写了一套【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts)视频教程，持续更新中，计划月底更新完，感谢支持。今天讲解基于wordcloud库实现词云图视频在线地址：2026版【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts+爬虫)视频教程（火爆连载更新中..
讲讲MyBatis中二级缓存的缺点？ java1234_小锋 java java 开发语言
大家好，我是锋哥。今天分享关于【讲讲MyBatis中二级缓存的缺点？】面试题。希望对大家有帮助；讲讲MyBatis中二级缓存的缺点？超硬核AI学习资料，现在永久免费了！MyBatis的二级缓存是指在SqlSessionFactory级别上共享缓存的机制。虽然二级缓存能够有效地提高性能，减少数据库的访问次数，但它也有一些缺点和需要注意的地方：一致性问题：二级缓存中的数据通常是不可直接控制的，尤其是当
能说说MyBatis的工作原理吗？ java1234_小锋 java java 开发语言
大家好，我是锋哥。今天分享关于【能说说MyBatis的工作原理吗？】面试题。希望对大家有帮助；能说说MyBatis的工作原理吗？超硬核AI学习资料，现在永久免费了！MyBatis是一个用于简化数据库操作的持久层框架，它通过SQL映射技术，将Java对象和数据库之间的关系映射起来。MyBatis的工作原理可以从以下几个方面来解析：1.配置文件的加载MyBatis通过加载配置文件来初始化框架。配置文件
Python领域制造业的Python应用 Python编程之道 Python编程之道 python 开发语言 ai
Python在制造业中的应用：从自动化到智能制造关键词：Python、制造业、工业自动化、数据分析、机器学习、物联网、智能制造摘要：本文深入探讨Python编程语言在制造业中的广泛应用。从基础的自动化脚本到复杂的智能制造系统，Python凭借其丰富的库生态系统和易用性，正在重塑现代制造业。我们将分析Python在制造业中的核心应用场景，包括设备监控、质量控制、预测性维护和供应链优化等，并通过实际案
Python 爬虫实战：自动化获取学术会议数据（会议安排、论文提交等） Python爬虫项目 python 爬虫自动化智能家居数据分析开发语言运维
1.引言学术会议是研究人员获取最新科研成果、发表论文、交流思想的重要平台。对于研究者而言，掌握最新的会议安排、论文提交截止日期、会议议程以及演讲嘉宾等信息至关重要。然而，学术会议信息通常分散在不同的官方网站上，人工查找和整理这些数据既费时又容易遗漏。为了提高效率，我们可以使用Python爬虫自动化获取学术会议数据，包括：会议名称、日期、地点论文提交截止日期会议议程及嘉宾信息论文录用结果重要通知及相
Python条件语句(if-elif-else)的完整用法与嵌套技巧梦幻南瓜 python python 网络服务器
引言条件语句是编程中最基础也是最重要的控制结构之一，它使程序能够根据不同条件执行不同的代码路径。Python中的条件语句以if、elif和else关键字实现，语法简洁但功能强大。本文将全面介绍Python条件语句的各种用法，从基础语法到高级嵌套技巧，通过大量代码示例、对比表格和实际应用场景，帮助你掌握条件语句的精髓。1.条件语句基础1.1基本语法结构Python条件语句的基本结构如下：if条件1:
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，