javastart

一站式元数据治理平台——Datahub入门宝典

随着数字化转型的工作推进，数据治理的工作已经被越来越多的公司提上了日程。作为新一代的元数据管理平台，Datahub在近一年的时间里发展迅猛，大有取代老牌元数据管理工具Atlas之势。国内Datahub的资料非常少，大部分公司想使用Datahub作为自己的元数据管理平台，但可参考的资料太少。

所以整理了这份文档供大家学习使用。本文档基于Datahub最新的0.8.20版本，整理自部分官网内容，各种博客及实践过程。文章较长，建议收藏。新版本的文档请关注公众号 大数据流动，会持续的更新~

通过本文档，可以快速的入门Datahub，成功的搭建Datahub并且获取到数据库的元数据信息。是从0到1的入门文档，更多Datahub的高级功能，可以关注后续的文章更新。

文档共分为6个部分，层级结构如下图所示。

文档版权为公众号 大数据流动 所有，请勿商用。相关技术问题以及安装包可以联系笔者独孤风加入相关技术交流群讨论获取。

一、数据治理与元数据管理

背景

为什么要做数据治理？业务繁多，数据繁多，业务数据不断迭代。人员流动，文档不全，逻辑不清楚，对于数据很难直观理解，后期很难维护。

在大数据研发中，原始数据就有着非常多的数据库，数据表。

而经过数据的聚合以后，又会有很多的维度表。

近几年来数据的量级在疯狂的增长，由此带来了系列的问题。作为对人工智能团队的数据支撑，我们听到的最多的质疑是 “正确的数据集”，他们需要正确的数据用于他们的分析。我们开始意识到，虽然我们构建了高度可扩展的数据存储，实时计算等等能力，但是我们的团队仍然在浪费时间寻找合适的数据集来进行分析。

也就是我们缺乏对数据资产的管理。事实上，有很多公司都提供了开源的解决方案来解决上述问题，这也就是数据发现与元数据管理工具。

元数据管理

简单地说，元数据管理是为了对数据资产进行有效的组织。它使用元数据来帮助管理他们的数据。它还可以帮助数据专业人员收集、组织、访问和丰富元数据，以支持数据治理。

三十年前，数据资产可能是 Oracle 数据库中的一张表。然而，在现代企业中，我们拥有一系列令人眼花缭乱的不同类型的数据资产。可能是关系数据库或 NoSQL 存储中的表、实时流数据、 AI 系统中的功能、指标平台中的指标，数据可视化工具中的仪表板。

现代元数据管理应包含所有这些类型的数据资产，并使数据工作者能够更高效地使用这些资产完成工作。

所以，元数据管理应具备的功能如下：

搜索和发现：数据表、字段、标签、使用信息
访问控制：访问控制组、用户、策略
数据血缘：管道执行、查询
合规性：数据隐私/合规性注释类型的分类
数据管理：数据源配置、摄取配置、保留配置、数据清除策略
AI 可解释性、再现性：特征定义、模型定义、训练运行执行、问题陈述
数据操作：管道执行、处理的数据分区、数据统计
数据质量：数据质量规则定义、规则执行结果、数据统计

架构与开源方案

下面介绍元数据管理的架构实现，不同的架构都对应了不同的开源实现。

下图描述了第一代元数据架构。它通常是一个经典的单体前端（可能是一个 Flask 应用程序），连接到主要存储进行查询（通常是 MySQL/Postgres），一个用于提供搜索查询的搜索索引（通常是 Elasticsearch），并且对于这种架构的第 1.5 代，也许一旦达到关系数据库的“递归查询”限制，就使用了处理谱系（通常是 Neo4j）图形查询的图形索引。

很快，第二代的架构出现了。单体应用程序已拆分为位于元数据存储数据库前面的服务。该服务提供了一个 API，允许使用推送机制将元数据写入系统。

第三代架构是基于事件的元数据管理架构，客户可以根据他们的需要以不同的方式与元数据数据库交互。

元数据的低延迟查找、对元数据属性进行全文和排名搜索的能力、对元数据关系的图形查询以及全扫描和分析能力。

Datahub 就是采用的这种架构。

下图是当今元数据格局的简单直观表示：

（包含部分非开源方案）

其他方案可作为调研的主要方向，但不是本文讨论的重点。

二、Datahub简介

首先，阿里云也有一款名为DataHub的产品，是一个流式处理平台，本文所述DataHub与其无关。

数据治理是大佬们最近谈的一个火热的话题。不管国家层面，还是企业层面现在对这个问题是越来越重视。数据治理要解决数据质量，数据管理，数据资产，数据安全等等。而数据治理的关键就在于元数据管理，我们要知道数据的来龙去脉，才能对数据进行全方位的管理，监控，洞察。

DataHub是由LinkedIn的数据团队开源的一款提供元数据搜索与发现的工具。

提到LinkedIn，不得不想到大名鼎鼎的Kafka，Kafka就是LinkedIn开源的。LinkedIn开源的Kafka直接影响了整个实时计算领域的发展，而LinkedIn的数据团队也一直在探索数据治理的问题，不断努力扩展其基础架构，以满足不断增长的大数据生态系统的需求。随着数据的数量和丰富性的增长，数据科学家和工程师要发现可用的数据资产，了解其出处并根据见解采取适当的行动变得越来越具有挑战性。为了帮助增长的同时继续扩大生产力和数据创新，创建了通用的元数据搜索和发现工具DataHub。

市面上常见的元数据管理系统有如下几个：
a) linkedin datahub:
GitHub - datahub-project/datahub: The Metadata Platform for the Modern Data Stack
b) apache atlas:
GitHub - apache/atlas: Apache Atlas
c) lyft amundsen
GitHub - amundsen-io/amundsen: Amundsen is a metadata driven application for improving the productivity of data analysts, data scientists and engineers when interacting with data.

atlas之前我们也介绍过，对hive有非常好的支持，但是部署起来非常的吃力。amundsen还是一个新兴的框架，还没有release版本，未来可能会发展起来还需要慢慢观察。

综上，datahub是目前的一颗新星，只是目前datahub的资料还较少，未来我们将持续关注与更新datahub的更多资讯。

目前datahub的github星数已经达到4.3k。

Datahub官网

Datahub官网对于其描述为Data ecosystems are diverse — too diverse. DataHub's extensible metadata platform enables data discovery, data observability and federated governance that helps you tame this complexity.

数据生态是多样的，而 DataHub提供了可扩展的元数据管理平台，可以满足数据发现，数据可观察与治理。这也极大的解决了数据复杂性的问题。

Datahub提供了丰富的数据源支持与血缘展示。

在获取数据源的时候，只需要编写简单的yml文件就可以完成元数据的获取。

在数据源的支持方面，Datahub支持druid，hive，kafka，mysql，oracle，postgres，redash，metabase，superset等数据源，并支持通过airflow的数据血缘获取。可以说实现了从数据源到BI工具的全链路的数据血缘打通。

三、Datahub界面

通过Datahub的页面我们来简单了解下Datahub所能满足的功能。

3.1 首页

首先，在登录到Datahub以后就进入了Datahub首页，首页中提供了Datahub的菜单栏，搜索框和元数据信息列表。这是为了让大家可以快速的对元数据进行管理。

元数据信息中按照数据集，仪表板，图表等类型进行了分类。

再往下看是平台信息，在这当中包括了Hive，Kafka，Airflow等平台信息的收集。

下面其实是一些搜索的统计信息。用于统计最近以及最流行的搜索结果。

包括一些标签和术语表信息。

3.2 分析页面

分析页面是对元数据信息的统计，也是对使用datahub的用户信息的统计。

可以理解为一个展示页面，这对于总体情况的了解还是非常的有必要的。

其他的功能基本是对于用户和权限的控制。

四、整体架构

要想学习好Datahub，就必须了解Datahub的整体架构。

通过Datahub的架构图可以清晰的了解Datahub的架构组成。

DataHub 的架构有三个主要部分。

前端为 Datahub frontend作为前端的页面展示。

丰富的前端展示让Datahub 拥有了支撑大多数功能的能力。其前端基于React框架研发，对于有二次研发打算的公司，要注意此技术栈的匹配性。

后端 Datahub serving来提供后端的存储服务。

Datahub 的后端开发语言为Python，存储基于ES或者Neo4J。

而Datahub ingestion则用于抽取元数据信息。

Datahub 提供了基于API元数据主动拉取方式，和基于Kafka的实时元数据获取方式。这对于元数据的获取非常的灵活。

这三部分也是我们部署过程中主要关注的点，下面我们就从零开始部署Datahub，并获取一个数据库的元数据信息。

五、快速安装部署

部署datahub对于系统有一定的要求。本文基于CentOS7进行安装。

要先安装好 docker，jq，docker-compose。同时保证系统的python版本为 Python 3.6+。

5.1、安装docker，docker-compose，jq

Docker 是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux或Windows操作系统的机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。

可以通过yum的方式快速的安装docker

yum -y install docker

完成后通过docker -v来查看版本情况。

# docker -v
Docker version 1.13.1, build 7d71120/1.13.1

通过下面的命令可以启停docker

systemctl start docker // 启动docker
systemctl stop docker // 关闭docker

随后安装Docker Compose

Docker Compose是 docker 提供的一个命令行工具，用来定义和运行由多个容器组成的应用。使用 compose，我们可以通过 YAML 文件声明式的定义应用程序的各个服务，并由单个命令完成应用的创建和启动。

sudo curl -L "https://github.com/docker/compose/releases/download/1.29.2/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose

修改执行权限

sudo chmod +x /usr/local/bin/docker-compose

建立软连接

ln -s /usr/local/bin/docker-compose /usr/bin/docker-compose

查看版本，验证安装成功。

docker-compose --version
docker-compose version 1.29.2, build 5becea4c

安装jq

首先安装EPEL源，企业版 Linux 附加软件包（以下简称 EPEL）是一个 Fedora 特别兴趣小组，用以创建、维护以及管理针对企业版 Linux 的一个高质量附加软件包集，面向的对象包括但不限于红帽企业版 Linux (RHEL)、 CentOS、Scientific Linux (SL)、Oracle Linux (OL) 。

EPEL 的软件包通常不会与企业版 Linux 官方源中的软件包发生冲突，或者互相替换文件。EPEL 项目与 Fedora 基本一致，包含完整的构建系统、升级管理器、镜像管理器等等。

安装EPEL源

yum install epel-release

安装完EPEL源后，可以查看下jq包是否存在：

yum list jq

安装jq：

yum install jq

5.2、安装python3

安装依赖

yum -y groupinstall "Development tools"
yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel libffi-devel

下载安装包

wget https://www.python.org/ftp/python/3.8.3/Python-3.8.3.tgz
tar -zxvf  Python-3.8.3.tgz

编译安装

mkdir /usr/local/python3 
cd Python-3.8.3
./configure --prefix=/usr/local/python3
make && make install

修改系统默认python指向

rm -rf /usr/bin/python
ln -s /usr/local/python3/bin/python3 /usr/bin/python

修改系统默认pip指向

rm -rf /usr/bin/pip
ln -s /usr/local/python3/bin/pip3 /usr/bin/pip

验证

python -V

修复yum

python3会导致yum不能正常使用

vi /usr/bin/yum 
把 #! /usr/bin/python 修改为 #! /usr/bin/python2 
vi /usr/libexec/urlgrabber-ext-down 
把 #! /usr/bin/python 修改为 #! /usr/bin/python2
vi /usr/bin/yum-config-manager
#!/usr/bin/python 改为 #!/usr/bin/python2
没有的不用修改

5.3、安装与启动datahub

首先升级pip

python3 -m pip install --upgrade pip wheel setuptools

需要看到下面成功的返回。

 Attempting uninstall: setuptools
    Found existing installation: setuptools 57.4.0
    Uninstalling setuptools-57.4.0:
      Successfully uninstalled setuptools-57.4.0
  Attempting uninstall: pip
    Found existing installation: pip 21.2.3
    Uninstalling pip-21.2.3:
      Successfully uninstalled pip-21.2.3

检查环境

python3 -m pip uninstall datahub acryl-datahub || true  # sanity check - ok if it fails

收到这样的提示说明没有问题。

WARNING: Skipping datahub as it is not installed.
WARNING: Skipping acryl-datahub as it is not installed.

安装datahub，此步骤时间较长，耐心等待。

python3 -m pip install --upgrade acryl-datahub

收到这样的提示说明安装成功。

Successfully installed PyYAML-6.0 acryl-datahub-0.8.20.0 avro-1.11.0 avro-gen3-0.7.1 backports.zoneinfo-0.2.1 certifi-2021.10.8 charset-normalizer-2.0.9 click-8.0.3 click-default-group-1.2.2 docker-5.0.3 entrypoints-0.3 expandvars-0.7.0 idna-3.3 mypy-extensions-0.4.3 progressbar2-3.55.0 pydantic-1.8.2 python-dateutil-2.8.2 python-utils-2.6.3 pytz-2021.3 pytz-deprecation-shim-0.1.0.post0 requests-2.26.0 stackprinter-0.2.5 tabulate-0.8.9 toml-0.10.2 typing-extensions-3.10.0.2 typing-inspect-0.7.1 tzdata-2021.5 tzlocal-4.1 urllib3-1.26.7 websocket-client-1.2.3

最后我们看到datahub的版本情况。

[root@node01 bin]# python3 -m datahub version
DataHub CLI version: 0.8.20.0
Python version: 3.8.3 (default, Aug 10 2021, 14:25:56)
[GCC 4.8.5 20150623 (Red Hat 4.8.5-44)]

随后启动datahub

python3 -m datahub docker quickstart

会经过漫长的下载过程，耐心等待。

开始启动，注意观察报错情况。如果网速不好，需要多执行几次。

如果可以看到如下显示，证明安装成功了。

访问ip:9002 输入 datahub datahub 登录

六、元数据信息的获取

登录到Datahub以后，会有一个友好的welcome页面。来提示如何进行元数据的抓取。

元数据摄入使用的是插件架构，你仅需要安装所需的插件。

摄入源有很多

插件名称	   安装命令	                          提供功能
mysql	pip install 'acryl-datahub[mysql]'	   MySQL source

这里安装两个插件：

源：mysql

汇：datahub-rest

pip install 'acryl-datahub[mysql]'

安装的包较多，得到如下提示证明安装成功。

Installing collected packages: zipp, traitlets, pyrsistent, importlib-resources, attrs, wcwidth, tornado, pyzmq, pyparsing, pycparser, ptyprocess, parso, nest-asyncio, jupyter-core, jsonschema, ipython-genutils, webencodings, pygments, prompt-toolkit, pickleshare, pexpect, packaging, nbformat, matplotlib-inline, MarkupSafe, jupyter-client, jedi, decorator, cffi, backcall, testpath, pandocfilters, nbclient, mistune, jupyterlab-pygments, jinja2, ipython, defusedxml, debugpy, bleach, argon2-cffi-bindings, terminado, Send2Trash, prometheus-client, nbconvert, ipykernel, argon2-cffi, numpy, notebook, widgetsnbextension, toolz, ruamel.yaml.clib, pandas, jupyterlab-widgets, jsonpointer, tqdm, termcolor, scipy, ruamel.yaml, jsonpatch, ipywidgets, importlib-metadata, altair, sqlalchemy, pymysql, greenlet, great-expectations
Successfully installed MarkupSafe-2.0.1 Send2Trash-1.8.0 altair-4.1.0 argon2-cffi-21.3.0 argon2-cffi-bindings-21.2.0 attrs-21.3.0 backcall-0.2.0 bleach-4.1.0 cffi-1.15.0 debugpy-1.5.1 decorator-5.1.0 defusedxml-0.7.1 great-expectations-0.13.49 greenlet-1.1.2 importlib-metadata-4.10.0 importlib-resources-5.4.0 ipykernel-6.6.0 ipython-7.30.1 ipython-genutils-0.2.0 ipywidgets-7.6.5 jedi-0.18.1 jinja2-3.0.3 jsonpatch-1.32 jsonpointer-2.2 jsonschema-4.3.2 jupyter-client-7.1.0 jupyter-core-4.9.1 jupyterlab-pygments-0.1.2 jupyterlab-widgets-1.0.2 matplotlib-inline-0.1.3 mistune-0.8.4 nbclient-0.5.9 nbconvert-6.3.0 nbformat-5.1.3 nest-asyncio-1.5.4 notebook-6.4.6 numpy-1.21.5 packaging-21.3 pandas-1.3.5 pandocfilters-1.5.0 parso-0.8.3 pexpect-4.8.0 pickleshare-0.7.5 prometheus-client-0.12.0 prompt-toolkit-3.0.24 ptyprocess-0.7.0 pycparser-2.21 pygments-2.10.0 pymysql-1.0.2 pyparsing-2.4.7 pyrsistent-0.18.0 pyzmq-22.3.0 ruamel.yaml-0.17.19 ruamel.yaml.clib-0.2.6 scipy-1.7.3 sqlalchemy-1.3.24 termcolor-1.1.0 terminado-0.12.1 testpath-0.5.0 toolz-0.11.2 tornado-6.1 tqdm-4.62.3 traitlets-5.1.1 wcwidth-0.2.5 webencodings-0.5.1 widgetsnbextension-3.5.2 zipp-3.6.0

随后检查安装的插件情况，Datahub是插件式的安装方式。可以检查数据源获取插件Source，转换插件transformer，获取插件Sink。

 python3 -m datahub check plugins

可见Mysql插件和Rest接口插件已经安装，下面配置从 MySQL 获取元数据使用 Rest 接口将数据存储 DataHub。

vim mysql_to_datahub_rest.yml
# A sample recipe that pulls metadata from MySQL and puts it into DataHub
# using the Rest API.
source:
  type: mysql
  config:
    username: root
    password: 123456
    database: cnarea20200630

transformers:
  - type: "fully-qualified-class-name-of-transformer"
    config:
      some_property: "some.value"

sink:
  type: "datahub-rest"
  config:
    server: "http://ip:8080"

# datahub ingest -c mysql_to_datahub_rest.yml

随后是漫长的数据获取过程。

得到如下提示后，证明获取成功。

{datahub.cli.ingest_cli:83} - Finished metadata ingestion

Sink (datahub-rest) report:
{'records_written': 356,
 'warnings': [],
 'failures': [],
 'downstream_start_time': datetime.datetime(2021, 12, 28, 21, 8, 37, 402989),
 'downstream_end_time': datetime.datetime(2021, 12, 28, 21, 13, 10, 757687),
 'downstream_total_latency_in_seconds': 273.354698}
Pipeline finished with warnings

在此刷新datahub页面，mysql的元数据信息已经成功获取。

进入表中查看元数据的情况，表字段信息。

在之前展示元数据分析页也已经有了详细的展示。

至此我们完成了Datahub从0到1的搭建，在整个过程中除了简单的安装配置以外，基本没有进行任何代码研发工作。但是datahub还有更多的功能，比如对数据血缘的获取，在元数据获取的过程中进行转换操作等等。在未来的文章中也会进行更新这些功能的教程。

你可能感兴趣的:(大数据,数据仓库,数据库,大数据)

[Python] -项目实战5- Python 实现简易学生成绩管理系统踏雪无痕老爷子 Python python 开发语言
一、为什么做这个项目？学习OOP和GUI基础：通过类与对象封装学生信息，熟悉Tkinter构建窗口、表格、按钮等。实用性强：可添加、查询、删除、修改学生记录，是常见管理系统的基本功能。扩展性好：后续可以接入数据库、图表展示、权限控制等功能。二、核心技术与工具tkinter：Python内置的桌面GUI库，用于构建窗口界面、表单和按钮。sqlite3：轻量级关系数据库，适合小型持久化存储，无需部署服
flink-sql读写hive-1.13 第一片心意 flink flink sql hive
1.版本说明本文档内容基于flink-1.13.x，其他版本的整理，请查看本人博客的flink专栏其他文章。1.1.概述ApacheHive已经成为了数据仓库生态系统中的核心。它不仅仅是一个用于大数据分析和ETL场景的SQL引擎，同样也是一个数据管理平台，可用于发现，定义，和演化数据。Flink与Hive的集成包含两个层面。一是利用了Hive的MetaStore作为持久化的Catalog，用户可通
Kettle--MySQL生产数据库千万、亿级数据量迁移方案及性能优化 m0_67401761 面试学习路线阿里巴巴 android 前端后端
大家好，我是贾斯汀！【实战前言】（1）不管你是学生，还是已经工作了的小伙伴，可能你在过去、现在或者未来，会遇到这样的问题，公司/项目用的是Oracle/DB2/MySQL等关系型数据库，因公司发展需求，需要完成旧数据库数据安全迁移到新数据库的重要使命，新旧数据库可能是同一种类型的数据库，也可能是不同类型的数据库，相同类型数据库还好，比如都是MySQL数据库，那么你主要只需要考虑如何将数据安全、高效
数据库第八次作业--备份和索引倪旻萱数据库
一、备份与恢复作业：创库,建表：CREATEDATABASEbooksDB;usebooksDB;CREATETABLEbooks(bk_idINTNOTNULLPRIMARYKEY,bk_titleVARCHAR(50)NOTNULL,copyrightYEARNOTNULL);CREATETABLEauthors(auth_idINTNOTNULLPRIMARYKEY,auth_nameVAR
PostgreSQL常用命令与工具指南 Mr.小海 Linux 服务器 postgresql 数据库算法架构网络协议 linux 运维开发
文章目录PostgreSQL常用命令与工具指南简介1.连接与基本操作连接数据库环境变量设置（避免密码输入）常用元命令2.数据库与表管理数据库操作创建数据库删除数据库修改数据库属性表操作创建表修改表结构删除表索引管理创建索引删除索引3.数据操作(CRUD)插入数据查询数据更新数据删除数据事务控制4.账号与权限管理角色/用户操作创建角色修改角色删除角色权限控制授予权限撤销权限查看权限5.常用函数字符串
人脸识别：AI 如何精准 “认人”？田园Coder 人工智能科普人工智能科普
1.人脸识别的基本原理：从“看到脸”到“认出人”1.1什么是人脸识别技术人脸识别是基于人的面部特征信息进行身份认证的生物识别技术。它通过摄像头采集人脸图像，利用AI算法提取面部特征（如眼距、鼻梁高度、下颌轮廓等），再与数据库中的模板比对，最终判断“是否为同一个人”。与指纹识别、虹膜识别等生物识别技术相比，人脸识别的优势在于“非接触性”（无需触碰设备）和“自然性”（符合人类习惯，如刷脸支付无需额外操
redis-缓存三剑客（缓存击穿，缓存穿透，缓存雪崩） hzx790688184 redis redis
redis-缓存击穿，缓存穿透，缓存雪崩缓存三剑客（缓存击穿，缓存穿透，缓存雪崩）缓存击穿请求一个不存在的数据时，请求到数据库，数据库不存在该数据，会导致每次请求都会到数据库缓存穿透当热点key过期时，突然大量请求访问，直接访问到数据库缓存雪崩大批量的key同时失效，或redis宕机，导致大量的请求直接访问数据库缓存三剑客（缓存击穿，缓存穿透，缓存雪崩）缓存击穿请求一个不存在的数据时，请求到数据库
缓存三剑客解决方案爱学习的小熊猫_ 缓存 redis
缓存三剑客解决方案1.缓存雪崩定义：大量缓存数据在同一时间点集体失效，导致所有请求直接穿透到数据库，引发数据库瞬时高负载甚至崩溃。解决方案：设置过期随机值，避免大量缓存同时失效。//缓存雪崩防护：随机过期时间+双层缓存//设置随机过期时间（基础时间+随机偏移）Randomrandom=newRandom();longexpire=baseExpire+random.nextInt(5*60*100
PHPStorm携手ThinkPHP8：开启高效开发之旅奔跑吧邓邓子项目攻略 phpstorm ThinkPHP ThinkPHP8 php开发
目录一、前期准备1.1开发环境搭建1.2配置Xdebug二、PHPStorm集成ThinkPHP82.1导入ThinkPHP8项目2.2配置PHP解释器2.3配置服务器三、ThinkPHP8项目开发基础3.1项目结构剖析3.2控制器与方法创建3.3视图渲染与数据传递四、数据库操作与模型定义4.1数据库配置4.2模型定义与使用4.3数据库迁移与种子五、高级开发技巧与优化5.1路由优化与管理5.2中间
秒杀系统设计思路先生zeng
昨天遇到这个问题，发现自己临时总结的不是很好，所以现在想重新整理一下思路。分析一下问题:类似淘宝那种做秒杀系统活动，你是如何设计的？场景分析:1.需到达某个时刻才可以开始秒杀(某个时刻之前需要控制拒绝请求)。2.一瞬间大量的请求到后台，服务器，数据库，缓存都会扛不住。(前端拦截、削峰，限流)3.满足条件才可以进行秒杀(最先过滤这些不满足条件的)4.防止恶意刷单请求，网站攻击(SQL注入，CSRF)
觉察与正念佳佳的宝瓶子
今天因为交电费的事与妈妈沟通。在沟通的过程中，年届八十的母亲一直给我强调着过去怎么怎么。父母家的电费一直是银行代扣的，这样的模式自从可以通过银行代扣便开始了。可见那时候的父母还是蛮新潮的，能接受新事物的。至从有了智能手机，人类便进入了大数据时代。通过微信或支付宝来交电费方便得多。可惜父亲不在了，老母亲是连手机都坚决不用的人。（因为想要掩饰自己的不能、不敢，所以干脆拒绝！不愿意做任何的改变）。今年，
七、Zabbix — Proxy分布式监控胖胖不胖、《Zabbix速学即学即用》zabbix 分布式服务器运维监控
目录配置Zabbix-proxy代理1.安装代理2.安装并配置数据库（proxy不能与zabbix-server共享数据库）3.发送zabbix-server源码包中初始化脚本到proxy主机并导入数据库4.修改代理配置文件5.web页面添加并配置代理Zabbix-agent客户端配置1.修改配置文件2.web页面修改，把这些主机修改为通过代理获取数据减少zabbix-server压力便于多地设备
某国产数据库“热情过头”的发布会，该收收了！ IT邦德数据库国产数据库数据库
作者：IT邦德中国DBA联盟(ACDU)成员，15年DBA工作经验Oracle、PostgreSQLACECSDN博客专家及B站知名UP主，全网粉丝15万+擅长主流Oracle、MySQL、PG、高斯及Greenplum备份恢复，安装迁移，性能优化、故障应急处理文章目录01兼容性？02多模融合？03性能玄学？04智能运维？05终极暴击总结哥们儿，还记得十年前DBA圈那场著名论战不？OLTP和OLA
Java实现简单秒杀功能
在商城项目中，秒杀功能可以说是必不可少的，下面我将使用SpringBoot集成Redis、RabbitMQ、MyBatis-Plus和MySQL来实现一个简单的秒杀系统，系统将包含以下核心功能：使用Redis进行库存预减和用户限流；使用RabbitMQ进行异步下单，提高系统吞吐量；使用MyBatis-Plus操作MySQL数据库；利用Redis执行Lua脚本的原子性防止商品超卖；接口限流（使用Re
分布式定时器：原理设计与技术挑战你一身傲骨怎能输架构设计分布式
文章摘要分布式定时器用于在分布式系统中可靠、准确地触发定时任务，常见实现方案包括：基于数据库/消息队列的定时扫描、分布式任务调度框架（如Quartz集群、xxl-job）、时间轮/延迟队列（如Redis/Kafka）以及Zookeeper/Etcd协调服务。主要技术挑战包括时钟同步、任务幂等、高可用、负载均衡和故障恢复等。核心难点在于保证任务唯一性、调度精度与分布式一致性，技术选型需权衡轻量级（R
常用 SQL 语句摘录未来无限 C#Winform设计
语句功能--数据操作SELECT--从数据库表中检索数据行和列INSERT--向数据库表添加新数据行DELETE--从数据库表中删除数据行UPDATE--更新数据库表中的数据--数据定义CREATETABLE--创建一个数据库表DROPTABLE--从数据库中删除表ALTERTABLE--修改数据库表结构CREATEVIEW--创建一个视图DROPVIEW--从数据库中删除视图CREATEINDE
应用层流量与缓存累积延迟解析你一身傲骨怎能输计算机网络缓存
文章摘要应用层流量指OSI模型中应用层协议（如HTTP、gRPC）产生的数据交互，常见于Web请求、微服务通信等场景。缓存累积延迟指多级缓存或消息队列机制中，各级延迟叠加导致数据更新滞后，例如数据库更新后，因消息队列、缓存刷新等环节延迟，用户最终看到的数据可能滞后数秒。两者分别描述了网络通信的数据流机制和分布式系统中的延迟问题。1.应用层流量应用层流量，一般指的是在网络通信的OSI七层模型中，**
Java大视界：Java大数据在智能医疗电子健康档案数据挖掘与健康服务创新＞ Loving_enjoy 计算机学科论文创新点人工智能深度学习迁移学习经验分享
>本文通过完整代码示例，揭秘如何用Java大数据技术挖掘电子健康档案价值，实现疾病预测、个性化健康管理等创新服务。###一、智能医疗时代的数据金矿电子健康档案（EHR）作为医疗数字化的核心载体，包含海量患者全生命周期健康数据。据统计，全球医疗数据量正以每年**48%的速度增长**，单个三甲医院年数据量可达**PB级**。这些数据蕴藏着疾病规律、治疗效能的宝贵知识，但传统技术难以有效挖掘。**Jav
数据库第四次作业 dustcell. 数据库
1.将mydb9_stusys数据库下的student、sc和course表，备份到本地主机保存为st_msg_bak.sql文件，然后将数据表恢复到自建的db_test数据库中；--备份mysqldump-uroot-pmydb9_stusysstudentsccourse>st_msg_bak.sql#创建目标数据库mysql-uroot-p-e"CREATEDATABASEdb_test;"
数据库第五次作业
要求1.定义触发器实现在产品表(product)中每多一个产品,就在操作表(operate)中记录操作方式和时间以及编号记录。注：操作说明：标记执行delete、insert、update2.定义触发器实现在产品表(product)中每更新一个产品，就在操作表(operate)中记录操作方式和时间以及编号记录。3.定义触发器实现在产品表(product)中每删除一个产品就，在操作表(operate
无人值守人工智能智慧系统数据分析：深度洞察与未来展望呆码科技人工智能数据分析数据挖掘
无人值守人工智能智慧系统数据分析：深度洞察与未来展望随着科技的飞速发展，人工智能（AI）技术已逐渐渗透到社会经济的各个领域，其中无人值守人工智能智慧系统作为AI技术应用的前沿阵地，正引领着一场深刻的行业变革。这类系统通过集成高级算法、大数据分析、物联网（IoT）及云计算等先进技术，实现了对复杂环境的自主监控、智能决策与高效管理，极大地提升了运营效率，降低了人力成本，并开启了数据驱动决策的新纪元。本
Java双重检测锁解决MySQL和Redis数据一致性问题
Java双重检测锁解决MySQL和Redis数据一致性问题双重检测锁(Double-CheckedLocking)是一种在多线程环境下优化性能的设计模式，可以用于解决MySQL和Redis之间的数据一致性问题。下面我将介绍如何实现这一方案。问题背景在MySQL和Redis双存储系统中，常见的一致性问题包括：缓存穿透：查询不存在的数据，导致每次请求都打到数据库缓存击穿：热点key失效瞬间，大量请求直
SQL学习十二、插入数据沐左
前面学习记录的都是查询数据，那些也是SQL中最常用的语句，这篇我们来学习和积累一下相数据库中插入数据的SQL。另外，需要注意的是，很多数据库对查询操作要求的权限可能低一些，但是对于插入、修改、删除等操作都需要较高的权限。INSERTINTO语句1、插入完整的行例如我们需要插入一条新的订单记录可以这样写：写法一:无需指定要插入数据的列名，只需提供被插入的值即可。SQL格式INSERTINTOtabl
Jetpack Compose 中 Kotlin 协程的使用儿歌八万首 jetpack android android ui Compose kotlin 协程
本文将带你系统性地理解JetpackCompose中协程的使用场景、API设计理念、生命周期对齐、性能优化与常见误区，助你写出既响应迅速又稳定可靠的现代AndroidUI代码。1.为什么在Compose中离不开协程传统View系统就离不开异步：网络请求、数据库I/O、动画……进入声明式UI时代，异步需求不仅没减少，反而更复杂——状态驱动让数据变化更加频繁。协程凭借以下优势成为Compose首选：语
SpringBoot架构下智慧物流管理系统设计详解
本文还有配套的精品资源，点击获取简介：本文详细讲解了如何利用SpringBoot框架构建智慧物流管理系统，并涉及关键技术和实现原理。文章首先介绍了SpringBoot的核心组件和工作原理，然后探讨了RESTfulAPI的构建、数据模型与数据库设计、GPS定位服务集成、权限控制和认证、微服务化以及系统测试等关键方面。这一系统结合Java技术优势，提供了一个高效、智能化的物流行业解决方案。1.Spri
【设计模式&C#】外观模式（用于解决客户端对系统的许多类进行频繁沟通）大飞pkz 设计模式设计模式外观模式 c#
一种结构性设计模式。特点是将复杂的子系统调用逻辑封装到一个外观类，从而使客户端更容易与系统交互。优点：简化了接口的调用；降低了客户端与子系统的耦合度；封装了子系统的逻辑。缺点：引入了额外的类，可能会增加不必要的复杂性；不适合需要频繁修改的系统。外观类承担的职责过多适合的场景：家庭影院系统；网络服务端的连接；数据库的访问。//Car类，即外观类usingSystem;publicclassCar{/
医疗AI与融合数据库的整合：挑战、架构与未来展望（上） Allen_Lyb 数智化教程（第二期）人工智能数据库架构
引言随着人工智能（AI）在医疗健康领域的广泛应用，数据已成为医疗AI发展的核心驱动力。然而，医疗数据具有极度的异构性（包括结构化电子病历、医学影像向量、基因组JSON/图结构、传感器时序等），传统数据架构难以高效整合。因数据孤岛、复杂ETL流程以及昂贵维护成本，医疗AI平台通常难以充分发挥价值。融合数据库（ConvergedDatabase/多模态一体化数据库）通过支持SQL、JSON、图、向量、
C#使用Quartz.NET详细讲解 diaochejiang2761 c#
C#使用Quartz.NET详细讲解Quartz.NET是一个开源的作业调度框架，是OpenSymphony的QuartzAPI的.NET移植，它用C#写成，可用于winform和asp.net应用中。它提供了巨大的灵活性而不牺牲简单性。你能够用它来为执行一个作业而创建简单的或复杂的调度。它有很多特征，如：数据库支持，集群，插件，支持cron-like表达式等等。你曾经需要应用执行一个任务吗？这个
本地开发用ASP.NET Core Web API项目创建及测试 way_hj web开发 asp.net 后端
1.服务端代码（C#）1.1创建ASP.NETCoreWebAPI项目打开VisualStudio2022。选择“创建新项目”。选择“ASP.NETCoreWebAPI”模板，点击“下一步”。输入项目名称（如OracleApi），选择项目位置，点击“创建”。1.2安装Oracle数据库依赖使用NuGet管理包工具在项目中安装Oracle数据库的EFCore依赖：Oracle.EntityFrame
【数据库】触发器 Trigger 有事请出门右转
触发器Trigger概念：数据库中的一个对象，相当于JS中的监听器触发器可以监听增删改三个动作比如说我想监听一张表，只要我增删改了这张表中的数据，我就可以触发这个触发器，去往另外一张表中记录一下日志语法：DELIMITER$$CREATETRIGGER`数据库名`.`触发器名`BEFORE/AFTERINSERT/UPDATE/DELETEON`数据库名`.`要监听的表名`FOREACHROW--
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl