IT贫道

ClickHouse（十八）：Clickhouse Integration系列表引擎

进入正文前，感谢宝子们订阅专题、点赞、评论、收藏！关注IT贫道，获取高质量博客内容！

个人主页：含各种IT体系技术，IT贫道_Apache Doris,大数据OLAP体系技术栈,Kerberos安全认证-CSDN博客

订阅：拥抱独家专题，你的订阅将点燃我的创作热情！

点赞：赞同优秀创作，你的点赞是对我创作最大的认可！

⭐️ 收藏：收藏原创博文，让我们一起打造IT界的荣耀与辉煌！

✏️评论：留下心声墨迹，你的评论将是我努力改进的方向！

1. HDFS

1.1 语法

1.2 其他配置

1.3 示例

2. MySQL

2.1 语法

2.2 示例

2.3 测试 replace_query

2.4 测试 on_duplicate_clause

3. Kafka

3.1 语法

3.2 示例

3.3 示例

ClickHouse提供了许多与外部系统集成的方法，包括一些表引擎。这些表引擎与其他类型的表引擎类似，可以用于将外部数据导入到ClickHouse中，或者在ClickHouse中直接操作外部数据源。

1. HDFS

HDFS引擎支持ClickHouse 直接读取HDFS中特定格式的数据文件，目前文件格式支持Json,Csv文件等，ClickHouse通过HDFS引擎建立的表，不会在ClickHouse中产生数据，读取的是HDFS中的数据，将HDFS中的数据映射成ClickHouse中的一张表，这样就可以使用SQL操作HDFS中的数据。

ClickHouse并不能够删除HDFS上的数据，当我们在ClickHouse客户端中删除了对应的表，只是删除了表结构，HDFS上的文件并没有被删除，这一点跟Hive的外部表十分相似。

1.1 语法

ENGINE = HDFS(URI, format)

注意：URI是HDFS文件路径，format指定文件格式。HDFS文件路径中文件为多个时，可以指定成some_file_?，或者当数据映射的是HDFS多个文件夹下数据时，可以指定somepath/* 来指定URI

1.2 其他配置

由于HDFS配置了HA 模式，有集群名称，所以URI使用mycluster HDFS集群名称时，ClickHouse不识别，这时需要做以下配置：

将hadoop路径下$HADOOP_HOME/etc/hadoop下的hdfs-site.xml文件复制到/etc/clickhouse-server目录下。
修改/etc/init.d/clickhouse-server 文件，加入一行 “export LIBHDFS3_CONF=/etc/clickhouse-server/hdfs-site.xml”
重启ClickHouse-server 服务

serveice clickhouse-server restart

当然，这里也可以不做以上配置，在写HDFS URI时，直接写成对应的节点+端口即可。

1.3 示例

#在HDFS路径 hdfs://mycluster/ch/路径下，创建多个csv文件，写入一些数据

c1.csv文件内容:

  1,张三,19

2,李四,20

c2.csv文件内容:

  3,王五,21

4,马六,22



#创建表 t_hdfs,使用HDFS引擎

node1 :) create table t_hdfs(id UInt8,name String,age UInt8) engine = HDFS('hdfs://mycluster/ch/*.csv','CSV')



#查询表 t_hdfs中的数据

node1 :) select * from t_hdfs;

┌─id─┬─name─┬─age─┐

│  3  │ 王五  │  21 │

│  4  │ 马六  │  22 │

└────┴──────┴─────┘

┌─id─┬─name─┬─age─┐

│  1  │ 张三  │  19 │

│  2  │ 李四  │  20 │

└────┴──────┴─────┘

注意：这里表t_hdfs不会在clickhouse对应的节点路径下创建数据目录，同时这种表映射的是HDFS路径中的csv文件，不能插入数据，t_hdfs是只读表。



#创建表 t_hdfs2 文件 ，使用HDFS引擎

node1 :) create table t_hdfs2(id UInt8,name String,age UInt8) engine = HDFS('hdfs://mycluster/chdata','CSV');



#向表 t_hdfs2中写入数据

node1 :) insert into t_hdfs2 values(5,'田七',23),(6,'赵八',24);



#查询表t_hdfs2中的数据

node1 :) select * from t_hdfs2;

┌─id─┬─name─┬─age─┐

│  5  │ 田七  │  23 │

│  6  │  赵八 │  24 │

└────┴──────┴─────┘



注意：t_hdfs2表没有直接映射已经存在的HDFS文件，这种表允许查询和插入数据。

2. MySQL

ClickHouse MySQL数据库引擎可以将MySQL某个库下的表映射到ClickHouse中，使用ClickHouse对数据进行操作。ClickHouse同样支持MySQL表引擎，即映射一张MySQL中的表到ClickHouse中，使用ClickHouse进行数据操作，与MySQL数据库引擎一样，这里映射的表只能做查询和插入操作，不支持删除和更新操作。

2.1 语法

CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster]

(

    name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1] [TTL expr1],

    name2 [type2] [DEFAULT|MATERIALIZED|ALIAS expr2] [TTL expr2],

    ...

) ENGINE = MySQL('host:port', 'database', 'table', 'user', 'password'[, replace_query, 'on_duplicate_clause']);

以上语法的解释如下：

host:port - MySQL服务器名称和端口
database - MySQL 数据库。
table - 映射的MySQL中的表
user - 登录mysql的用户名
password - 登录mysql的密码
replace_query - 将INSERT INTO 查询是否替换为 REPLACE INTO 的标志,默认为0，不替换。当设置为1时，所有的insert into 语句更改为 replace into 语句。当插入的数据有重复主键数据时，此值为0默认报错，此值为1时，主键相同这条数据，默认替换成新插入的数据。
on_duplicate_clause - 默认不使用。当插入数据主键相同时，可以指定只更新某列的数据为新插入的数据，对应于on duplicate key 后面的语句，其他的值保持不变，需要replace_query 设置为0。

2.2 示例

#在mysql 中创建一张表 t_ch,指定id为主键

CREATE TABLE t_ch (

id INT,

NAME VARCHAR (255),

age INT,

PRIMARY KEY (id)

)



#向表中增加一些数据

insert into  t_ch values (1,"张三",18),(2,"李四",19),(3,"王五",20)



#在ClickHouse中创建MySQL引擎表 t_mysql_engine

node1 :) create table t_mysql_engine (

:-]  id UInt8,

:-]  name String,

:-]  age UInt8

:-] )engine = MySQL('node2:3306','test','t_ch','root','123456');



#查询ClickHouse表 t_mysql_engine 中的数据：

node1 :) select * from t_mysql_engine;

┌─id─┬─name─┬─age─┐

│  1  │ 张三  │  18 │

│  2  │ 李四  │  19 │

│  3  │ 王五  │  20 │

└────┴──────┴─────┘



#在ClickHouse中向表 t_mysql_engine中插入一条数据

node1 :) insert into t_mysql_engine values (4,'马六','21');

┌─id─┬─name─┬─age─┐

│  1   │ 张三    │  18   │

│  2   │ 李四    │  19   │

│  3   │ 王五    │   20  │

│  4   │ 马六    │  21   │

└───┴─────┴───┘



#在ClickHouse中向表 t_mysql_engine中再插入一条数据，这里主键重复，报错。

node1 :) insert into t_mysql_engine values (4,'田七','22');

Exception: mysqlxx::BadQuery: Duplicate entry '4' for key

 'PRIMARY' (node2:3306).



注意：在clickhouse 中 t_mysql_engine表不会在ClickHouse服务器节点上创建数据目录。

2.3 测试 replace_query

#在mysql 中删除表 t_ch,重新创建，指定id为主键

CREATE TABLE t_ch (

id INT,

NAME VARCHAR (255),

age INT,

PRIMARY KEY (id)

)



#向表中增加一些数据

insert into  t_ch values (1,"张三",18),(2,"李四",19),(3,"王五",20)



#在ClickHouse中删除MySQL引擎表 t_mysql_engine，重建

node1 :) create table t_mysql_engine (

:-]  id UInt8,

:-]  name String,

:-]  age UInt8

:-] )engine = MySQL('node2:3306','test','t_ch','root','123456',1);



#查询ClickHouse表 t_mysql_engine 中的数据：

node1 :) select * from t_mysql_engine;

┌─id─┬─name─┬─age─┐

│  1  │ 张三  │  18 │

│  2  │ 李四  │  19 │

│  3  │ 王五  │  20 │

└────┴──────┴─────┘



#在ClickHouse中向表 t_mysql_engine中插入一条数据，主键重复。这里由于指定了replace_query = 1 ,所以当前主键数据会被替换成新插入的数据。

node1 :) insert into t_mysql_engine values (3,'马六','21');



#查询ClichHouse t_mysql_engine表数据

node1 :) select * from t_mysql_engine;

┌─id─┬─name─┬─age─┐

│  1  │ 张三  │  18 │

│  2  │ 李四  │  19 │

│  3  │ 马六  │  21 │

└────┴──────┴─────┘

2.4 测试 on_duplicate_clause

#在mysql 中删除表 t_ch,重新创建，指定id为主键

CREATE TABLE t_ch (

id INT,

NAME VARCHAR (255),

age INT,

PRIMARY KEY (id)

)



#向表中增加一些数据

insert into  t_ch values (1,"张三",18),(2,"李四",19),(3,"王五",20)



#在ClickHouse中删除MySQL引擎表 t_mysql_engine，重建

node1 :) create table t_mysql_engine (

:-]  id UInt8,

:-]  name String,

:-]  age UInt8

:-] )engine = MySQL('node2:3306','test','t_ch','root','123456',0,'update age = values(age)');



#查询ClickHouse表 t_mysql_engine 中的数据：

node1 :) select * from t_mysql_engine;

┌─id─┬─name─┬─age─┐

│  1  │ 张三  │  18 │

│  2  │ 李四  │  19 │

│  3  │ 王五  │  20 │

└────┴──────┴─────┘



#在ClickHouse 中向表 t_mysql_engine中插入一条数据

node1 :) insert into t_mysql_engine values (4,'马六','21');

┌─id─┬─name─┬─age─┐

│  1   │ 张三    │  18   │

│  2   │ 李四    │   19  │

│  3   │ 王五    │  20   │

│  4   │ 马六    │  21   │

└──┴─────┴────┘



#在ClickHouse中向表 t_mysql_engine中插入一条数据，主键重复。

node1 :) insert into t_mysql_engine values (4,'田七','100');



#查询ClichHouse t_mysql_engine表数据

node1 :) select * from t_mysql_engine;

┌─id─┬─name─┬─age─┐

│  1  │ 张三  │  18 │

│  2  │ 李四  │  19 │

│  3  │ 王五  │  20 │

│  4  │ 马六  │ 100 │

└────┴──────┴─────┘

3. Kafka

ClickHouse中还可以创建表指定为Kafka为表引擎，这样创建出的表可以查询到Kafka中的流数据。对应创建的表不会将数据存入ClickHouse中，这里这张kafka引擎表相当于一个消费者，消费Kafka中的数据，数据被查询过后，就不会再次被查询到。

3.1 语法

CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster]

(

    name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1],

    name2 [type2] [DEFAULT|MATERIALIZED|ALIAS expr2],

    ...

) ENGINE = Kafka()

SETTINGS

    kafka_broker_list = 'host:port',

    kafka_topic_list = 'topic1,topic2,...',

    kafka_group_name = 'group_name',

    kafka_format = 'data_format'[,]

对以上参数的解释：

kafka_broker_list: 以逗号分隔的Kafka Broker节点列表
kafka_topic_list ： topic列表
kafka_group_name ： kafka消费者组名称
kafka_format : Kafka中消息的格式，例如：JSONEachRow、CSV等等，具体参照https://clickhouse.tech/docs/en/interfaces/formats/。这里一般使用JSONEachRow格式数据，需要注意的是，json字段名称需要与创建的Kafka引擎表中字段的名称一样，才能正确的映射数据。

3.2 示例

#创建表 t_kafka_consumer ,使用Kafka表引擎

node1 :) create table t_kafka_consumer (

:-] id UInt8,

:-] name String,

:-] age UInt8

:-] ) engine = Kafka()

:-] settings

:-] kafka_broker_list='node1:9092,node2:9092,node3:9092',

:-] kafka_topic_list='ck-topic',

:-] kafka_group_name='group1',

:-] kafka_format='JSONEachRow';



#启动kafka,在kafka中创建ck-topic topic,并向此topic中生产以下数据：

创建topic:

kafka-topics.sh --zookeeper node3:2181,node4:2181,node5:2181 --create --topic ck-topic --partitions 3 --replication-factor 3



生产数据：

kafka-console-producer.sh --broker-list node1:9092,node2:9092,node3:9092 --topic ck-topic



生产数据如下：

{"id":1,"name":"张三","age":18}

{"id":2,"name":"李四","age":19}

{"id":3,"name":"王五","age":20}

{"id":4,"name":"马六","age":21}

{"id":5,"name":"田七","age":22}



#在ClickHouse中查询表 t_kafka_consumer数据，可以看到生产的数据

node1 :) select * from t_kafka_consumer;

┌─id─┬─name─┬─age─┐

│  2  │ 李四  │  19 │

│  5  │ 田七  │  22 │

│  1  │ 张三  │  18 │

│  4  │ 马六  │  21 │

│  3  │ 王五  │  20 │

└────┴──────┴─────┘



注意：再次查看表 t_kafka_consumer数据 ，我们发现读取不到任何数据，这里对应的ClikcHouse中的Kafka引擎表，只是相当于是消费者，消费读取Kafka中的数据，数据被消费完成之后，不能再次查询到对应的数据。

以上在ClickHouse中创建的Kafka引擎表 t_kafka_consumer 只是一个数据管道，当查询这张表时就是消费Kafka中的数据，数据被消费完成之后，不能再次被读取到。如果想将Kafka中topic中的数据持久化到ClickHouse中，我们可以通过物化视图方式访问Kafka中的数据，可以通过以下三个步骤完成将Kafka中数据持久化到ClickHouse中：

创建Kafka 引擎表,消费kafka中的数据。
再创建一张ClickHouse中普通引擎表，这张表面向终端用户查询使用。这里生产环境中经常创建MergeTree家族引擎表。
创建物化视图，将Kafka引擎表数据实时同步到终端用户查询表中。

3.3 示例

#在ClickHouse中创建 t_kafka_consumer2 表，使用Kafka引擎

node1 :) create table t_kafka_consumer2 (

:-] id UInt8,

:-] name String,

:-] age UInt8

:-] ) engine = Kafka()

:-] settings

:-] kafka_broker_list='node1:9092,node2:9092,node3:9092',

:-] kafka_topic_list='ck-topic',

:-] kafka_group_name='group1',

:-] kafka_format='JSONEachRow';



#在ClickHouse中创建一张终端用户查询使用的表，使用MergeTree引擎

node1 :) create table t_kafka_mt(

:-] id UInt8,

:-] name String,

:-] age UInt8

:-] ) engine = MergeTree()

:-] order by id；



#创建物化视图，同步表t_kafka_consumer2数据到t_kafka_mt中

node1 :) create materialized view  view_consumer to t_kafka_mt

:-] as select id,name,age from t_kafka_consumer2;

注意：物化视图在ClickHouse中也是存储数据的，create  materialized view  view_consumer to t_kafka_mt 语句是将物化视图view_consumer中的数据存储到到对应的t_kafka_mt 表中，这样同步的目的是如果不想继续同步kafka中的数据，可以直接删除物化视图即可。



#向Kafka ck-topic中生产以下数据：

生产数据：

kafka-console-producer.sh --broker-list node1:9092,node2:9092,node3:9092 --topic ck-topic



生产数据如下：

{"id":1,"name":"张三","age":18}

{"id":2,"name":"李四","age":19}

{"id":3,"name":"王五","age":20}

{"id":4,"name":"马六","age":21}

{"id":5,"name":"田七","age":22}





#查询表 t_kafka_mt中的数据，数据同步完成。

node1 :) select * from t_kafka_mt;

┌─id─┬─name─┬─age─┐

│  1  │ 张三  │  18 │

│  2  │ 李四  │  19 │

│  3  │ 王五  │  20 │

│  4  │ 马六  │  21 │

│  5  │ 田七  │  22 │

└────┴──────┴─────┘

‍如需博文中的资料请私信博主。

微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
ARM中断处理过程落汤老狗嵌入式linux
一、前言本文主要以ARM体系结构下的中断处理为例，讲述整个中断处理过程中的硬件行为和软件动作。具体整个处理过程分成三个步骤来描述：1、第二章描述了中断处理的准备过程2、第三章描述了当发生中的时候，ARM硬件的行为3、第四章描述了ARM的中断进入过程4、第五章描述了ARM的中断退出过程本文涉及的代码来自3.14内核。另外，本文注意描述ARM指令集的内容，有些sourcecode为了简短一些，删除了T
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
【华为OD技术面试真题精选 - 非技术题】 -HR面，综合面_华为od hr面一个射手座的程序媛程序员华为od 面试职场和发展
最后的话最近很多小伙伴找我要Linux学习资料，于是我翻箱倒柜，整理了一些优质资源，涵盖视频、电子书、PPT等共享给大家！资料预览给大家整理的视频资料：给大家整理的电子书资料：如果本文对你有帮助，欢迎点赞、收藏、转发给朋友，让我有持续创作的动力！网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以点击这里获
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
你可能遗漏的一些C#/.NET/.NET Core知识点追逐时光者 C#.NET DotNetGuide编程指南 c#.net .netcore microsoft
前言在这个快速发展的技术世界中，时常会有一些重要的知识点、信息或细节被忽略或遗漏。《C#/.NET/.NETCore拾遗补漏》专栏我们将探讨一些可能被忽略或遗漏的重要知识点、信息或细节，以帮助大家更全面地了解这些技术栈的特性和发展方向。拾遗补漏GitHub开源地址https://github.com/YSGStudyHards/DotNetGuide/blob/main/docs/DotNet/D
新私域是什么平台靠谱吗氧惠佣金真的高
新私域指的是借助与互联网电商，随着平台内商家入驻量、用户量相辅相成的全国化平台。是否靠谱取决于平台是否合规。新私域指的是借助与互联网电商，在传统会员体系外新增的锁定用户跨平台、跨界收益，一种随着平台内商家入驻量、用户量相辅相成的全国化平台。关于新私域平台是否靠谱，这个需要看平台的底层逻辑是否合理、合法、合规以及平台的未来的发展方向氧惠APP抖音购物、看电影、点外卖、打车用氧惠APP！佣金更高、更优
Armv8.3 体系结构扩展--原文版代码改变世界ctw ARM-TEE-Android armv8 嵌入式 arm架构安全架构芯片 Trustzone Secureboot
快速链接:.ARMv8/ARMv9架构入门到精通-[目录]付费专栏-付费课程【购买须知】:个人博客笔记导读目录(全部)TheArmv8.3architectureextensionTheArmv8.3architectureextensionisanextensiontoArmv8.2.Itaddsmandatoryandoptionalarchitecturalfeatures.Somefeat
计算机木马详细编写思路小熊同学哦 php 开发语言木马木马思路
导语：计算机木马（ComputerTrojan）是一种恶意软件，通过欺骗用户从而获取系统控制权限，给黑客打开系统后门的一种手段。虽然木马的存在给用户和系统带来严重的安全风险，但是了解它的工作原理与编写思路，对于我们提高防范意识、构建更健壮的网络安全体系具有重要意义。本篇博客将深入剖析计算机木马的详细编写思路，以及如何复杂化挑战，以期提高读者对计算机木马的认识和对抗能力。计算机木马的基本原理计算机木
阅读《认知觉醒》读书笔记就看看书
本周阅读了周岭的《认知觉醒开启自我改变的原动力》，启发较多，故做读书笔记一则，留待学习。全书共八章，讲述了大脑、潜意识、元认知、专注力、学习力、行动力、情绪力及成本最低的成长之道。具体描述了大脑、焦虑、耐心、模糊、感性、元认知、自控力、专注力、情绪专注、学习专注、匹配、深度、关联、体系、打卡、反馈、休息、清晰、傻瓜、行动、心智宽带、单一视角、游戏心态、早起、冥想、阅读、写作、运动等相关知识点。大脑
基于STM32与Qt的自动平衡机器人：从控制到人机交互的的详细设计流程极客小张 stm32 qt 机器人物联网人机交互毕业设计 c语言
一、项目概述目标和用途本项目旨在开发一款基于STM32控制的自动平衡机器人，结合步进电机和陀螺仪传感器，实现对平衡机器人的精确控制。该机器人可以用于教育、科研、娱乐等多个领域，帮助用户了解自动控制、机器人运动学等相关知识。技术栈关键词STM32单片机步进电机陀螺仪传感器AD采集电路Qt人机界面实时数据监控二、系统架构系统架构设计本项目的系统架构设计包括以下主要组件：控制单元:STM32单片机传感器
基于STM32的汽车仪表显示系统：集成CAN、UART与I2C总线设计流程极客小张 stm32 汽车嵌入式硬件物联网单片机 c语言
一、项目概述项目目标与用途本项目旨在设计和实现一个基于STM32微控制器的汽车仪表显示系统。该系统能够实时显示汽车的速度、转速、油量等关键信息，并通过CAN总线与其他汽车控制单元进行通信。这种仪表显示系统不仅提高了驾驶的安全性和便捷性，还能为汽车提供更智能的用户体验。技术栈关键词微控制器：STM32显示技术：TFTLCD/OLED传感器：速度传感器、温度传感器、油量传感器通信协议：CAN总线、UA
ARMV8体系结构简介：概述简单同学 ARMV8体系结构 ARMV8
1.前言本文主要概括的介绍ARMV8体系结构定义了哪些内容，概括的说：ARM体系结构定义了PE的行为，不会定义具体的实现ARM体系结构也定义了debug体系结构和trace体系结构ARM体系结构采用RISC指令集（1）长度一致的寄存器；（2）load/store架构，数据处理操作只能对寄存器内容进行处理，不会直接对内存的内容进行处理；（3）简单寻址方式，load/store地址来源于寄存器或指令域
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
APQP，ASPICE，敏捷，功能安全，预期安全，这些汽车行业的一堆标准二大宝贝安全架构
前言APQP,ASPICE,敏捷，功能安全，预期安全，PMP，PRICE2汽车行业的有这样一堆标准。我是半路出家来到汽车行业做项目经理的，对几个标准的感觉是，看了文档和各种解析之后还是一头雾水，不知道到底说了个啥，别人问我还是一脸懵逼。APQP（TS16949的最重要工具），ASPICE（软件）这些是质量标准，是优化整个公司体系的，但这套体系对项目管理有要求；敏捷，PMP这些是项目管理的标准；项目
以研发创新为驱动力，黄山谷捷助力新能源汽车产业高质量发展 L913197600 黄山谷捷制造科技
在新能源汽车产业蓬勃发展的浪潮中，车规级功率半导体作为驱动电机控制系统的核心部件，其性能与稳定性直接关系到汽车的动力输出、能效转化及安全性能。在这一关键领域，黄山谷捷股份有限公司（以下简称“黄山谷捷”或“公司”）以卓越的研发实力、精湛的生产工艺和严格的质量控制体系，成为行业内的佼佼者，特别是在功率半导体散热基板领域，更是树立了新的标杆。自2012年成立以来，黄山谷捷便深谙“科技是第一生产力”的真谛
2020-02-15 蔡卡
我是蔡卡，爱看日漫和美剧，一眨眼就成了爸爸，喜欢孩子的我总想给孩子最好的，于是开始了我的探索之旅。不爱看书的我开始认真看书和参与各种团体，通过自我学习以及思想的碰撞从而形成自己的知识体系。分享才能更好的提升，生活中每遇到一个困难，都需要我们用所学的知识点去解决。我的使命:让更多家庭的孩子不因地域和阶层导致认知以及成长上的差距更大。__________________________________
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
【Death Note】网吧战神之7天爆肝渗透测试死亡笔记_sqlmap在默认情况下除了使用 char() 函数防止出现单引号 2401_84561374 程序员笔记
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！特殊服务端口2181zookeeper服务未授权访问
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
商希峰||援坦漫记（21）培训结束商希峰
为期两周的培训结束，下周就开始正式上班了。这个NPC(NewPaediatricComplex)就是以后工作的地方了。图片发自App算起来，这两周经历的事情真不少，已初步适应时间、气侯、社会关系、工作场合和制度；不同地域、不同人种、不同健康卫生体系在共同职业条件下的特别感受，以及如何来应对缺少设备和仪器条件下对更复杂疾病的救治；语言能力也得到了很好的适应，尤其是在许多场合都会遇到几位会讲一点中文的
驾校预约学习系统的设计与实现小蒜学长毕业设计学习
摘要伴随着信息技术与互联网技术的不断发展，人们进到了一个新的信息化时代，传统管理技术性没法高效率、容易地管理信息内容。为了实现时代的发展必须，提升管理高效率，各种各样管理管理体系应时而生，各个领域陆续进到信息内容管理时期。驾校预约学习系统管理系统的实现是信息内容时代浪潮时代的产物之一。一切系统都要遵循系统设计的最基本全过程，系统也是如此。它还要通过市场调查、需求分析报告、汇总设计、详尽设计、编号和
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
Web安全:Web体系架构存在的安全问题和解决方室程序员-张师傅前端安全 web安全前端
Web体系架构在提供丰富功能和高效服务的同时，也面临着诸多安全问题。这些问题可能涉及数据泄露、服务中断、系统被控制等多个方面，对企业和个人造成不可估量的损失。以下是对Web体系架构中存在的安全问题及解决方案的详细分析：Web体系架构存在的安全问题注入攻击SQL注入：攻击者通过在输入字段中插入恶意SQL代码，操控后台数据库，窃取、篡改或删除数据。OS命令注入：攻击者通过输入字段插入恶意代码，执行系统
操作系统基础怡晗★ Linux linux
目录操作系统基础冯诺依曼体系结构介绍操作系统基本认知本篇文章是后面学习操作系统知识的基础操作系统基础冯诺依曼体系结构介绍冯诺依曼体系结构如下：在上图中「输入设备」和「输出设备」一般被称为计算机的外设，而「存储器」在冯诺依曼体系结构中表示「内存」输入设备一般包括：网卡、磁盘、键盘、触摸屏等输出设备一般包括：网卡、磁盘、鼠标、触摸屏、显示器（非触摸屏）等内存的作用「内存」是中央处理器与计算机其他设备的
平衡计分卡从4个维度，让你的员工从管理思维，转变为经营思维思想会
关注【本号】更多关于企业管理、员工激励、薪酬制度、绩效激励等内容免费与你分享！私信“绩效”送您关于员工管理、绩效薪酬的干货视频。作者：刁老师（CQZHHC1980）基于平衡计分卡的考核体系截至2000年年底，美国、英国和斯堪的纳维亚地区（瑞典、丹麦、挪威、冰岛的泛称）的许多公司都在使用平衡计分卡，而且还有许多公司打算很快使用平衡计分卡。多种数据显示，平衡计分卡自产生以来，已经成为绩效管理领域较为主
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro

ClickHouse（十八）：Clickhouse Integration系列表引擎

​​​​​​​1. HDFS

1.1 语法

1.2 其他配置

1.3 示例

​​​​​​​​​​​​​​2. MySQL

2.1 语法

2.2 示例

2.3 测试 replace_query

2.4 测试 on_duplicate_clause

​​​​​​​​​​​​​​3. Kafka

3.1 语法

3.2 示例

3.3 示例

你可能感兴趣的:(大数据OLAP体系技术栈,clickhouse,实时数仓,数据仓库,olap,大数据)

1. HDFS

2. MySQL

3. Kafka