百世经纶『一页書』

LinkedIn DataHub --- 经验分享

⚽⚽Passion begets persistence⚽⚽
- 1. Docker command
- - 1.1 docker quickstart
  - 1.2 python3 -m datahub docker nuke --keep-data
  - 1.3 docker data volumes
- 2. Error
- - 2.1 DPI-147:Cannot locate a 64-bit Oracle Client library
  - 2.2 UI界面无法cancle
- 3. Delete metadata
- 4. Oracle permission
- 5. Neo4j or elastisearch
- 6. Ingest metadata by json
- - 6.1 Json template
  - 6.2 Json yaml
- 7. Create Lineage
- - 7.1 Yml template
  - 7.2 Run
- 8. Ingest CSV
- - 8.1 Csv Template
  - 8.2 Run
- 9. Transformers
- - 9.1 Simple Demo
- 10. Actions
- - 10.1 Install plugin
  - 10.2 Config Action
  - 10.3 Run
  - 10.4 Kafka topic
- 11. Data Quality
- - 11.1 initial
  - 11.2 connect DB
  - 11.3 create expectation
- 12. Openapi
- - 12.1 Swagger
  - 12.2 api test
- 13. Pending

⚽⚽Passion begets persistence⚽⚽

datahub官网地址: https://datahubproject.io/docs/.
github地址: https://github.com/datahub-project/datahub.
在线Demo: https://demo.datahubproject.io.
Recipe Demo: https://github.com/datahub-project/datahub/tree/master/metadata-ingestion/examples/recipes.

1. Docker command

1.1 docker quickstart

github地址: https://github.com/datahub-project/datahub.

docker没有装neo4j，所以看这篇yml.

将数据写入mysql

进入mysql，docker exec -it containerId /bin/bash

1.2 python3 -m datahub docker nuke --keep-data

1.3 docker data volumes

2. Error

2.1 DPI-147:Cannot locate a 64-bit Oracle Client library

首先确保oracle client安装完成，以及cx_oracle
官网安装: https://blog.csdn.net/weixin_43916074/article/details/124827554.

看报警记录，确保当前databub和python与服务器的版本相同，我当时就是执行了下面的命令导致版本不一致。所以找不到cx_oracle.

python3 -m datahub docker nuke --keep-data
python3 -m datahub docker quickstart --version v0.8.38

要升版，保存数据，然后就直接升
python3 -m datahub docker nuke --keep-data
官网参考: https://datahubproject.io/docs/cli.

2.2 UI界面无法cancle

ingest已经执行完，UI还在转圈圈
暂时无解。

3. Delete metadata

删除qa中的oracle
python3 -m datahub delete --env QA --entity_type dataset --platform oracle

4. Oracle permission

设定oracle 账密权限，只能看到一个schema下的table/view

在datahub config中配置正则

多翻官方文档，熟悉配置
官网参考: https://datahubproject.io/docs/generated/ingestion/sources/oracle.

5. Neo4j or elastisearch

Neo4j和Elasticsesarch是并列关系

如果docker下载了Neo4j

没有下载Neo4j，则会下载Elasticsesarch

6. Ingest metadata by json

官网参考: https://github.com/datahub-project/datahub/blob/master/metadata-ingestion/examples/demo_data/demo_data.json.

6.1 Json template

[
    {
        "auditHeader": null,
        "proposedSnapshot": {
            "com.linkedin.pegasus2avro.metadata.snapshot.DatasetSnapshot": {
                "urn": "urn:li:dataset:(urn:li:dataPlatform:bigquery,bigquery-schema-data.covid19,QA)",
                "aspects": [
                    {
                        "com.linkedin.pegasus2avro.schema.SchemaMetadata": {
                            "schemaName": "bigquery-schema-data.covid19",
                            "platform": "urn:li:dataPlatform:bigquery",
                            "version": 0,
                            "created": {
                                "time": 1621882982738,
                                "actor": "urn:li:corpuser:etl",
                                "impersonator": null
                            },
                            "lastModified": {
                                "time": 1621882982738,
                                "actor": "urn:li:corpuser:etl",
                                "impersonator": null
                            },
                            "deleted": null,
                            "dataset": null,
                            "cluster": null,
                            "hash": "",
                            "platformSchema": {
                                "com.linkedin.pegasus2avro.schema.MySqlDDL": {
                                    "tableSchema": ""
                                }
                            },
                            "fields": [
                                {
                                    "fieldPath": "county_code",
                                    "jsonPath": null,
                                    "nullable": true,
                                    "description": null,
                                    "type": {
                                        "type": {
                                            "com.linkedin.pegasus2avro.schema.StringType": {}
                                        }
                                    },
                                    "nativeDataType": "String()",
                                    "recursive": false,
                                    "globalTags": null,
                                    "glossaryTerms": null
                                },
                                {
                                    "fieldPath": "county_name",
                                    "jsonPath": null,
                                    "nullable": true,
                                    "description": null,
                                    "type": {
                                        "type": {
                                            "com.linkedin.pegasus2avro.schema.StringType": {}
                                        }
                                    },
                                    "nativeDataType": "String()",
                                    "recursive": false,
                                    "globalTags": null,
                                    "glossaryTerms": null
                                },
                                
                                {
                                    "fieldPath": "county_number",
                                    "jsonPath": null,
                                    "nullable": true,
                                    "description": null,
                                    "type": {
                                        "type": {
                                            "com.linkedin.pegasus2avro.schema.NumberType": {}
                                        }
                                    },
                                    "nativeDataType": "Integer()",
                                    "recursive": false,
                                    "globalTags": null,
                                    "glossaryTerms": null
                                },
                                {
                                    "fieldPath": "hospital_bed_number",
                                    "jsonPath": null,
                                    "nullable": true,
                                    "description": null,
                                    "type": {
                                        "type": {
                                            "com.linkedin.pegasus2avro.schema.NumberType": {}
                                        }
                                    },
                                    "nativeDataType": "Integer()",
                                    "recursive": false,
                                    "globalTags": null,
                                    "glossaryTerms": null
                                }
                            ],
                            "primaryKeys": null,
                            "foreignKeysSpecs": null
                        }
                    }
                ]
            }
        },
        "proposedDelta": null
    },
    {
        "auditHeader": null,
        "proposedSnapshot": {
            "com.linkedin.pegasus2avro.metadata.snapshot.DatasetSnapshot": {
                "urn": "urn:li:dataset:(urn:li:dataPlatform:bigquery,bigquery-sehcma-nan.covid19,QA)",
                "aspects": [
                    {
                        "com.linkedin.pegasus2avro.schema.SchemaMetadata": {
                            "schemaName": "bigquery-schema-nan.covid19",
                            "platform": "urn:li:dataPlatform:bigquery",
                            "version": 0,
                            "created": {
                                "time": 1621882983026,
                                "actor": "urn:li:corpuser:etl",
                                "impersonator": null
                            },
                            "lastModified": {
                                "time": 1621882983026,
                                "actor": "urn:li:corpuser:etl",
                                "impersonator": null
                            },
                            "deleted": null,
                            "dataset": null,
                            "cluster": null,
                            "hash": "",
                            "platformSchema": {
                                "com.linkedin.pegasus2avro.schema.MySqlDDL": {
                                    "tableSchema": ""
                                }
                            },
                            "fields": [
                                {
                                    "fieldPath": "county_code",
                                    "jsonPath": null,
                                    "nullable": true,
                                    "description": null,
                                    "type": {
                                        "type": {
                                            "com.linkedin.pegasus2avro.schema.StringType": {}
                                        }
                                    },
                                    "nativeDataType": "String()",
                                    "recursive": false,
                                    "globalTags": null,
                                    "glossaryTerms": null
                                },
                                {
                                    "fieldPath": "county_name",
                                    "jsonPath": null,
                                    "nullable": true,
                                    "description": null,
                                    "type": {
                                        "type": {
                                            "com.linkedin.pegasus2avro.schema.StringType": {}
                                        }
                                    },
                                    "nativeDataType": "String()",
                                    "recursive": false,
                                    "globalTags": null,
                                    "glossaryTerms": null
                                },
                                {
                                    "fieldPath": "total_personnel_number",
                                    "jsonPath": null,
                                    "nullable": true,
                                    "description": null,
                                    "type": {
                                        "type": {
                                            "com.linkedin.pegasus2avro.schema.NumberType": {}
                                        }
                                    },
                                    "nativeDataType": "Integer()",
                                    "recursive": false,
                                    "globalTags": null,
                                    "glossaryTerms": null
                                },
                                {
                                    "fieldPath": "total_hospital_number",
                                    "jsonPath": null,
                                    "nullable": true,
                                    "description": null,
                                    "type": {
                                        "type": {
                                            "com.linkedin.pegasus2avro.schema.NumberType": {}
                                        }
                                    },
                                    "nativeDataType": "Integer()",
                                    "recursive": false,
                                    "globalTags": null,
                                    "glossaryTerms": null
                                }
                            ],
                            "primaryKeys": null,
                            "foreignKeysSpecs": null
                        }
                    }
                ]
            }
        },
        "proposedDelta": null
    }
]

6.2 Json yaml

sudo python3 -m datahub ingest -c xxx.yaml

source:
  type: file
  config:
    # Coordinates
    filename: ./xxxx/file.json

# sink configs
sink:
  type: 'datahub-rest'
  config: 
    server: 'http://localhost:8080'

7. Create Lineage

官网参考: https://github.com/datahub-project/datahub/blob/master/metadata-ingestion/examples/bootstrap_data/file_lineage.yml.

7.1 Yml template

---
version: 1
lineage:
  - entity:
      name: topic3
      type: dataset
      env: DEV
      platform: kafka
    upstream:
      - entity:
          name: topic2
          type: dataset
          env: DEV
          platform: kafka
      - entity:
          name: topic1
          type: dataset
          env: DEV
          platform: kafka
  - entity:
      name: topic2
      type: dataset
      env: DEV
      platform: kafka
    upstream:
      - entity:
          name: kafka.topic2
          env: PROD
          platform: snowflake
          platform_instance: test
          type: dataset

7.2 Run

sudo python3 -m datahub ingest -c xxx.yaml

source:
  type: datahub-lineage-file
  config:
    file: /path/to/file_lineage.yml
    preserve_upstream: False

# sink configs
sink:
  type: 'datahub-rest'
  config: 
    server: 'http://localhost:8080'

8. Ingest CSV

官网参考: https://datahubproject.io/docs/generated/ingestion/sources/csv.

8.1 Csv Template

官网参考: https://github.com/datahub-project/datahub/blob/master/metadata-ingestion/examples/demo_data/csv_enricher_demo_data.csv.

注意事项：

新增属性domain

当前版本会新建glossaryTerm，与目标冲突，解决方法就是用id

8.2 Run

sudo python3 -m datahub ingest -c xxx.yaml

source:
  type: csv-enricher
  config:
    filename: /xxxx/csv_xxxx.csv
    delimiter: ','
    array_delimiter: '|'

# sink configs
sink:
  type: 'datahub-rest'
  config: 
    server: 'http://localhost:8080'

9. Transformers

官网参考: https://datahubproject.io/docs/metadata-ingestion/transformers.

9.1 Simple Demo

sudo python3 -m datahub ingest -c xxx.yaml

//结合第六项的json一起使用
source:
  type: file
  config:
    # Coordinates
    filename: ./xxxx/file.json

transformers:
  - type: "simple_add_dataset_properties"
    config:
      properties:
        prop1: value1
# sink configs
sink:
  type: 'datahub-rest'
  config: 
    server: 'http://localhost:8080'

10. Actions

官网参考: https://datahubproject.io/docs/actions.

10.1 Install plugin

Install Cli
sudo python3 -m pip install --upgrade pip wheel setuptools
sudo python3 -m pip install --upgrade acryl-datahub
sudo datahub --version

Install Action
sudo python3 -m pip install --upgrade pip wheel setuptools
sudo python3 -m pip install --upgrade acryl-datahub-actions
sudo datahub actions version

10.2 Config Action

官网参考: https://datahubproject.io/docs/actions.

Action Pipeline Name (Should be unique and static)

Source Configurations

Transform + Filter Configurations

Action Configuration

Pipeline Options (Optional)

DataHub API configs (Optional - required for select actions)

# 1. Required: Action Pipeline Name
name: <action-pipeline-name>

# 2. Required: Event Source - Where to source event from.
source:
  type: <source-type>
  config:
    # Event Source specific configs (map)

# 3a. Optional: Filter to run on events (map)
filter: 
  event_type: <filtered-event-type>
  event:
    # Filter event fields by exact-match
    <filtered-event-fields>

# 3b. Optional: Custom Transformers to run on events (array)
transform:
  - type: <transformer-type>
    config: 
      # Transformer-specific configs (map)

# 4. Required: Action - What action to take on events. 
action:
  type: <action-type>
  config:
    # Action-specific configs (map)

# 5. Optional: Additional pipeline options (error handling, etc)
options: 
  retry_count: 0 # The number of times to retry an Action with the same event. (If an exception is thrown). 0 by default. 
  failure_mode: "CONTINUE" # What to do when an event fails to be processed. Either 'CONTINUE' to make progress or 'THROW' to stop the pipeline. Either way, the failed event will be logged to a failed_events.log file. 
  failed_events_dir: "/tmp/datahub/actions"  # The directory in which to write a failed_events.log file that tracks events which fail to be processed. Defaults to "/tmp/logs/datahub/actions". 

# 6. Optional: DataHub API configuration
datahub:
  server: "http://localhost:8080" # Location of DataHub API
  # token: <your-access-token> # Required if Metadata Service Auth enabled

官网提供的demo

# 1. Action Pipeline Name
name: "hello_world"
# 2. Event Source: Where to source event from.
source:
  type: "kafka"
  config:
    connection:
      bootstrap: ${KAFKA_BOOTSTRAP_SERVER:-localhost:9092}
      schema_registry_url: ${SCHEMA_REGISTRY_URL:-http://localhost:8081}
# 3. Action: What action to take on events. 
action:
  type: "hello_world"

10.3 Run

sudo python3 -m datahub actions -c

将官网提供的demo写入topic就会触发
百度链接: https://datahubproject.io/docs/actions/events/entity-change-event.

10.4 Kafka topic

丢人丢大了

找到kafka容器
docker ps

进入kafka容器
docker exec -it 58 /bin/bash
cd /etc/kafka
cat kafka.properties

log就是data存放的地方
cd /var/lib/kafka/data

里面就是topic和offset

查看消费者组
./kafka-consumer-groups --bootstrap-server localhost:9092 --list

查看topic消息
cd /usr/bin
./kafka-console-consumer --bootstrap-server localhost:9092 --from-beginning --topic PlatformEvent_v1

11. Data Quality

官网参考: https://datahubproject.io/docs/metadata-ingestion/integration_docs/great-expectations/.

11.1 initial

install GE
sudo pip3 install ‘acryl-datahub[great-expectations]’

初始化init
/usr/local/python3/bin/great_expectations init

查询版号
/usr/local/python3/bin/great_expectations --version

11.2 connect DB

按照官网，创建checkpoint并执行
/usr/local/python3/bin/great_expectations -v checkpoint run demo_checkpoint.yaml

不出以外，报警啦
Could not find Checkpoint ‘demo_checkpoint.yaml’ (or its configuration is invalid)
/usr/local/python3/bin/great_expectations datasource new --no-jupyter
enter option 2 =>我用的mysql
enter option 2

我是用python3，所以要手动执行
sudo pip3 install psycopg2-binary

重新执行上一步
/usr/local/python3/bin/great_expectations datasource new --no-jupyter

按照提示继续
jupyter notebook /home/os-nan.zhao/great_expectations/uncommitted/datasource_new.ipynb --allow-root --ip 0.0.0.0

浏览器访问红框中的地址

将token输入，enter new password
datahub@123

点进datasource_new.ipynd

在git中找到mysql的config
docker mysql config: https://github.com/datahub-project/datahub/blob/master/docker/quickstart/docker-compose-without-neo4j.quickstart.yml.

11.3 create expectation

另开窗口，继续执行
/usr/local/python3/bin/great_expectations suite new

select 2
enter option 2

Index of the table of which you want to create the suite
enter option 10

Enter the file name
demo01

晕死，没有开8889的port
这个datahub，真难提前开好所有port

编辑
/usr/local/python3/bin/great_expectations suite edit --no-jupyter
jupyter notebook /great_expectations/uncommitted/edit_.ipynb --allow-root --ip 0.0.0.0

执行
/usr/local/python3/bin/great_expectations checkpoint new --no-jupyter

next
jupyter notebook /great_expectations/uncommitted/edit_checkpoint_.ipynb --allow-root --ip 0.0.0.0

Great Expectation website: https://docs.greatexpectations.io/docs/guides/connecting_to_your_data/database/mysql.

12. Openapi

12.1 Swagger

官方提供了swagger UI (gms port 8080)
http://datahub-server-ip:8080/openapi/swagger-ui/index.html#/Timeline

12.2 api test

datahub api官网地址: https://datahubproject.io/docs/api/openapi/openapi-usage-guide.

open api 和 json file 对比看。如何配置

13. Pending

学习datahub的时光即快乐又痛苦，快乐是捡起了docker，从陌生到熟悉到熟练。第一次从零开始，安装学习使用一个网上资源基本没有的软件，所有问题都要去slack上面去提问，再次感谢热心的社区人员。他们真的很怒力，基本每个月都会release 三个版本，可怜了我提交的feature request，还没有实现。哈哈。

对于一个开源的软件来说，真的很厉害了，界面时尚，效能也很牛，但是很多地方颗粒度都不够细，虽然支持Hana,却不支持SAP,最后又回归到了SAP的information steward，

SAP IS website: https://www.sap.com/products/technology-platform/data-profiling-steward.html.
SAP IS document website: https://help.sap.com/docs/SAP_INFORMATION_STEWARD.

PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
docker igotyback eureka 云原生
Docker容器的文件系统是隔离的，但是可以通过挂载卷（Volumes）或绑定挂载（BindMounts）将宿主机的文件系统目录映射到容器内部。要查看Docker容器的映射路径，可以使用以下方法：查看容器配置：使用dockerinspect命令可以查看容器的详细配置信息，包括挂载的卷。例如：bashdockerinspect在输出的JSON格式中，查找"Mounts"部分，这里会列出所有的挂载信息
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
06选课支付模块之基于消息队列发送支付通知消息 echo 云清学成在线 java rabbitmq 消息队列支付通知学成在线
消息队列发送支付通知消息需求分析订单服务作为通用服务，在订单支付成功后需要将支付结果异步通知给其他对接的微服务，微服务收到支付结果根据订单的类型去更新自己的业务数据技术方案使用消息队列进行异步通知需要保证消息的可靠性即生产端将消息成功通知到服务端：消息发送到交换机-->由交换机发送到队列-->消费者监听队列，收到消息进行处理，参考文章02-使用Docker安装RabbitMQ-CSDN博客生产者确
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
Ubuntu18.04 Docker部署Kinship(Django)项目过程 Dante617
1Docker的安装https://blog.csdn.net/weixin_41735055/article/details/1003551792下载镜像dockerpullprogramize/python3.6.8-dlib下载的镜像里包含python3.6.8和dlib19.17.03启动镜像dockerrun-it--namekinship-p7777:80-p3307:3306-p55
docker from指令的含义_多个FROM-含义 weixin_39722188 docker from指令的含义
小编典典什么是基本图片？一组文件，加上EXPOSE端口ENTRYPOINT和CMD。您可以添加文件并基于该基础图像构建新图像，Dockerfile并以FROM指令开头：后面提到的图像FROM是新图像的“基础图像”。这是否意味着如果我neo4j/neo4j在FROM指令中声明，则在运行映像时，neo数据库将自动运行并且可在端口7474的容器中使用？仅当您不覆盖CMD和时ENTRYPOINT。但是图像
Dockerfile FROM 两个 redDelta
Docker相关视频讲解：什么是容器Docker介绍实现"DockerfileFROM两个"的步骤步骤表格步骤操作1创建一个Dockerfile文件2写入FROM指令3构建第一个镜像4创建第二个Dockerfile文件5写入FROM指令6构建第二个镜像7合并两个镜像操作步骤说明步骤1：创建一个Dockerfile文件使用任意文本编辑器创建一个名为Dockerfile的文件。登录后复制#Docker
Dockerfile命令详解之 FROM 清风怎不知意容器化 java 前端 javascript
许多同学不知道Dockerfile应该如何写，不清楚Dockerfile中的指令分别有什么意义，能达到什么样的目的，接下来我将在容器化专栏中详细的为大家解释每一个指令的含义以及用法。专栏订阅传送门https://blog.csdn.net/qq_38220908/category_11989778.html指令不区分大小写。但是，按照惯例，它们应该是大写的，以便更容易地将它们与参数区分开来。(引用
Dockerfile（1） - FROM 指令详解小菠萝测试笔记 docker python java cmd 大数据
FROM指明当前的镜像基于哪个镜像构建dockerfile必须以FROM开头，除了ARG命令可以在FROM前面FROM[--platform=][AS]FROM[--platform=][:][AS]FROM[--platform=][@][AS]小栗子FROMalpine:latest一个dockerfile可以有多个FROM可以有多个FROM来创建多个镜像，或区分构建阶段，将一个构建阶段作为另
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（二十八）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
【K8s】专题十一：Kubernetes 集群证书过期处理方法行者Sun1989 Kubernetes kubernetes 云原生容器
本文内容均来自个人笔记并重新梳理，如有错误欢迎指正！如果对您有帮助，烦请点赞、关注、转发、订阅专栏！专栏订阅入口Linux专栏|Docker专栏|Kubernetes专栏往期精彩文章【Docker】（全网首发）KylinV10下MySQL容器内存占用异常的解决方法【Docker】（全网首发）KylinV10下MySQL容器内存占用异常的解决方法（续）【Docker】MySQL源码构建Docker镜
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
Docker学习十一：Kubernetes概述爱打羽球的程序猿 Docker学习系列 docker kubernetes 学习
一、Kubernetes简介2006年，Google提出了云计算的概念，当时的云计算领域还是以虚拟机为代表的云平台。2013年，Docker横空出世，Docker提出了镜像、仓库等核心概念，规范了服务的交付标准，使得复杂服务的落地变得更加简单，之后Docker又定义了OCI标准，Docker在容器领域称为事实的标准。但是，Docker诞生只是帮助定义了开发和交付标准，如果想要在生产环境中大批量的使
安装 `privoxy` 将 Socks5 转换为 HTTP 代理 MonkeyKing.sun 网络
(base)shgbitai@shgbitai-C9X299-PGF:~/tools$curl-xhttp://127.0.0.1:1080https://registry-1.docker.io/v2/curl:(56)ProxyCONNECTaborted(base)shgbitai@shgbitai-C9X299-PGF:~/tools$curl-xhttps://127.0.0.1:108
Halo 开发者指南——容器私有化部署 SHENHUANJIE Docker Halo 华为云 SWR Registry
华为云SWR私有化部署镜像构建dockerbuild-thalo-dev/halo:2.20.0.上传镜像镜像标签sudodockertag{镜像名称}:{版本名称}swr.cn-south-1.myhuaweicloud.com/{组织名称}/{镜像名称}:{版本名称}sudodockertaghalo-dev/halo:2.20.0swr.cn-south-1.myhuaweicloud.co
SpringBoot整合ES搜索引擎实现网站热搜词及热度计算码踏云端 springboot Elasticsearch spring boot elasticsearch 后端热搜词热度计算 java
博主简介：历代文学网（PC端可以访问：https://literature.sinhy.com/#/literature?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于
小白 | 华为云docker设置镜像加速器伏一工具安装华为云 docker 容器
一、操作场景通过dockerpull命令下载镜像中心的公有镜像时，往往会因为网络原因而需要很长时间，甚至可能因超时而下载失败。为此，容器镜像服务提供了镜像下载加速功能，帮助您获得更快的下载体验。二、约束与限制构建镜像的客户端所安装的容器引擎（Docker）版本必须为1.11.2及以上。“华北-乌兰察布一”、“亚太-雅加达”、“拉美-墨西哥城一”、“拉美-墨西哥城二”和“拉美-圣保罗一”区域不支持该
docker改容器IP的两种方法 redmond88 linux docker tcp/ip 容器
最简单实用的方法：docker默认的内网网段为172.17.0.0/16，如果公司内网网段也是172.17.x.x的话，就会发生路由冲突。解决办法改路由比较办法，可以一开始就将docker配置的bip改成169.254.0.1/24，可以避免冲突。在daemon配置文件里加个"bip":“169.254.0.1/24”，重启docker就可以了1234[root@st-dev6~]#vim/etc
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
docker 安装、运行nginx shell脚本三希 docker nginx 容器
以下是一个简单的用于安装和运行DockerNginx的shell脚本：bash#!/bin/bash#安装Docker（如果还未安装）#请根据实际情况调整安装命令#拉取Nginx镜像dockerpullnginx#运行Nginx容器dockerrun-d--namemynginx-p80:80nginx
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc

LinkedIn DataHub --- 经验分享

LinkedIn DataHub --- 经验分享

⚽⚽Passion begets persistence⚽⚽

1. Docker command

1.1 docker quickstart

1.2 python3 -m datahub docker nuke --keep-data

1.3 docker data volumes

2. Error

2.1 DPI-147:Cannot locate a 64-bit Oracle Client library

2.2 UI界面无法cancle

3. Delete metadata

4. Oracle permission

5. Neo4j or elastisearch

6. Ingest metadata by json

6.1 Json template

6.2 Json yaml

7. Create Lineage

7.1 Yml template

7.2 Run

8. Ingest CSV

8.1 Csv Template

8.2 Run

9. Transformers

9.1 Simple Demo

10. Actions

10.1 Install plugin

10.2 Config Action

10.3 Run

10.4 Kafka topic

11. Data Quality

11.1 initial

11.2 connect DB

11.3 create expectation

12. Openapi

12.1 Swagger

12.2 api test

13. Pending

你可能感兴趣的:(DataHub,docker,大数据)