爱码猿

Doris教程笔记

存储引擎规则

1.数据要根据用户指定的分区列(只能是数字或日期类型)划分成若干个分区(patition)

2.在每个分区内，数据还可以根据用户指定的分桶列进行hash分桶，每个分桶就是一数据片段(tablat)，tablat是数据划分的最小逻辑单元。

3.patition可视为逻辑上最小的管理单元，数据的导入导出都可以或仅能针对一个patition进行。

4.tablet直接的数据是没有交集的(不会重复存储)，独立存储，tablet是数据移动，复制等操作的最小物理存储单元

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VxjTCsqz-1679125901401)(images/image-20230305213646669.png)]

Doris SQL

建表语句

doris的表分为单分区（只指定bucket）和多分区(同时指定bucket和patition)

单分区表

doris的单分区表指只指定分桶bucket的表

示例：创建一个名为table1的表，分桶为user_id，桶数为10。

create table table1(
    `user_id` bigint comment '用户id', -- Key列
	`username` varchar(32) default '' comment '用户名', -- Key列
    `visit_page` varchar(512) comment '访问页面', -- Key列
    `pv` bigint sum default '0' -- value列，注意sum表示聚合，当key列相同时，value列会按照指定的聚合函数进行统计
)
aggregate key(username,visit_page) -- 指定 聚合列
distributed by hash(bigint) buckets 10
properties("replication_num" = "1"); -- 指定其他属性 设置部分数为1(默认3分区)

-- 执行下面语句后，最终表内只有2条数据： 
-- 1,	zs,	/page1,	3	#2条数据key相同，value合并=3
-- 2,	zs,	/page1,	1
insert into table1 values(1,'zs','/page1',1);
insert into table1 values(1,'zs','/page1',2);
insert into table1 values(2,'zs','/page1',1);


create table table1(
    `user_id` bigint comment '用户id', -- Key列
	`username` varchar(32) default '' comment '用户名', -- Key列
    `visit_page` varchar(512) comment '访问页面', -- Key列
    `pv` bigint sum default '0' -- value列，注意sum表示聚合，当key列相同时，value列会按照指定的聚合函数进行统计
)
duplicate key(username,visit_page) -- 指定 可重复主键列
distributed by hash(bigint) buckets 10
properties("replication_num" = "1"); -- 指定其他属性 设置部分数为1(默认3分区)

复合分区表

doris的复合分区表值同时指定分桶buckets和分区的表

注意:

分区列必须为value列,
分区的命名规范必须是首字母开头后可跟字母下划线美元符号
建表时分区必须现在分桶前面

#创建range分区
create table score(
	sid int comment '学生id',
	cid int comment '课程id',
	exam_date date comment '考试时间',
	score int replace comment '成绩',
	exam_do_date date replace comment '学生考试时间',
	exam_count int sum default '0' comment '考试次数'
)
aggregate key(sid,cid,exam_date)
PARTITION by range(exam_date)
(
	partition `p2023_01` values less than ('2023-02-01'),
	partition `p2023_02` values less than ('2023-03-01'),
	partition `p2023_03` values less than ('2023-04-01')
)
distributed by hash(sid) buckets 1
properties(
	"replication_num" = "1"
);

#创建list分区
create table score(
	sid int comment '学生id',
	cname int comment '课程名称',
	exam_date date comment '考试时间',
	score int replace comment '成绩',
	exam_do_date date replace comment '学生考试时间',
	exam_count int sum default '0' comment '考试次数'
)
aggregate key(sid,cname,exam_date)
PARTITION by range(cname)
(
	partition `pchanese` values in ('语文'),
	partition `pmath` values in ('数学'),
	partition `penglish` values in ('英语')
)
distributed by hash(sid) buckets 1
properties(
	"replication_num" = "1"
);

临时分区

在 0.12 版本中，Doris 支持了临时分区功能，主要功能是在建表后为表创建新的分区。

临时分区的分区列和正式分区相同，且不可修改。
一张表所有临时分区之间的分区范围不可重叠，但临时分区的范围和正式分区范围可以重叠。
临时分区的分区名称不能和正式分区以及其他临时分区重复。

-- 创建临时分区
ALTER TABLE tbl1 ADD TEMPORARY PARTITION tp1 VALUES LESS THAN("2020-02-01");
-- 删除临时分区
ALTER TABLE tbl1 DROP TEMPORARY PARTITION tp1;
-- 替换分区 可以将临时分区或正式分区替换为新的分区
ALTER TABLE tbl1 REPLACE PARTITION (p1) WITH TEMPORARY PARTITION (tp1);

动态分区

doris除了手动指定分区，还可以动态的指定分区 DynamicPatition。

动态分区是doris0.12引入的新功能，目的是实现动态添加分区和动态删除分区的功能。

在某些场景下，用户会将表按照天进行划分，每天执行任务，这时就可以通过动态分区的方式来自动创建分区。

-- 创建一个只保留7天前的分区，并预先保留未开3天分区数据的分区
create table test1(
	id bihint,
    name varchar(255),
    money double,
	date date
)
duplicate key(id,date)
patition by range(time)() -- 指定动态分区列 只能使用range分区函数
distributed by hash(id) buckets 10,
properties(
	"dynamic_patition.enable"="true", -- 开启动态分区
    "dynamic_patition.time_unit" = "DAY", -- 按天创建分区
    "dynamic_patition.start" = '-7', -- 自动删除7天前的分区 不指定则不删除历史分区
    "dynamic_patition.end" = "3", -- 只允许插入3天后的数据
    "dynamic_patition.prefix" = "p", -- 指定动态分区的前缀
    "dynamic_patition.buckets" = "10", -- 指定每个分区的副本数
    "replication_num" = "1"
)

-- 查看表的所有分区
show patitions from tablename;
-- 查看开启动态分区的表
show dynamic patition tables;

数据插入

#语法 insert into table_name [partition_name] [with label label_name];
insert into table1(name,age) values ('zs',1);
insert into table1(name,age) with label label1 values('zs',2);
insert into table1(name,age) select name,age from db2.test2;
insert into table1(name,age) partition1 with label label2 select name,age from db2.test2;

数据删除

#语法 delete from table_name [partition_name] where id >10;
# 注意多分区表必须指定partition_name
# where 后面必须跟条件，否则无法执行
# where 后面不能跟or
# where后的字段必须是key列

列的增减和查询

#查询表字段信息
desc table_name;
#新增 value列
alter table table_name add column age int default '0' after name;
#新增 key列
alter table table_name add pv age int sum default '0' after age;
#删除列
alter table table_name drop column age;
#查询所有字段操作记录
show alter table table_name;
#当alter table column还未执行成功时可以取消操作
cancel alter table column from table_name;

归纳表 Rollup

doris 提供了Rollup（归纳表）的功能来解决宽表查询效率低下的问题，我们可以指定部分常用的字段来创建rollup，查询时doris会根据sql来确定是否使用rollup。

rollup不是视图，而是真正的指定的字段创建了新的表

#查询已创建的rollup
show alter table rollup from table_name;
#创建rollup
alter table table_name add rollup rollup_name(name,age);
#当alter table rollup还未生效时可以取消
cancel alter table rollup from table_name;
#查看sql是否命中rollup表，当出现 rollup rollup_name时表示命中rollup表
explain select name,sum(age) from table_name;
#删除rollup
alter table table_name drop rollup rollup_name;

物化视图 Materialized View

物化视图类似于mysql中视图，区别在于物化视图是对数据预先存储的表，会对数据进行拷贝形成新的表的。

物化视图的数据会随着原表的数据更新而更新，查询时也会自动匹配最优的物化视图。

物化视图和rollup表的区别：

rollup只能选择表内的字段来生成新的表，无法进行聚合。物化视图可以根据sql语句来创建视图表。

物化视图是rollup的超集,rollup表的功能都能通过 materialized view实现。

-- 创建 物化视图
create materialized view mv_1 as select a.id,a.name,sum(b.age) from table1 a join table2 b on a.id = b.id group by a.id,a.name;
-- 查看表所有的物化视图
desc table1 all;

-- 可以通过explain查看是否使用到物化视图
explain select a.name,sum(b.age) from table1;

-- 删除物化视图
drop materialized view vm_1 on table1;
-- 查看物化视图是否构建完成
show alter table materialized view from table1;

物化视图局限性:

物化视图的聚合函数只支持单列，如 sum(a+b)多列的情况就不支持
delete数据是where后面跟的列在物化视图不存在时，无法对原表的数据进行删除。如果一定要删除只能先吧物化视图删除。
当一张表的物化视图操作10张后会影响增删改的效率，因为在增删改时也要同时维护物化视图的数据。
unique key数据模型的表在建立物化视图是无法使用聚合函数，只能对列的顺序进行更改(相当于rollup表)

Join 查询

doris的join查询主要分为三种：

broadcast join：将小表现进行过滤，然后将过滤后的数据发送到所有大表的节点形成内存hash表进行join。

shuffle join：将大表和小表的join字段进行hash操作，确定小表的数据对应大表的服务器，可以减少数据传输。

colocation join：创建组归纳表以实现join操作在本地即可完成，无需数据传输。性能最高

FE在分布式查询时的选择顺序： colocation join => bucket shuffle join => broadcast join => suffle join

broadcast join

broadcast join（广播模式）是系统默认的join方式，是将小表先进行条件过滤后，将过滤后的数据广播传输到各个节点上，形成一个内存hash表，然后流式读取大表的数据进行hash join。

doris在join查询时会预估小表的大小，如果数据过大时并满足shuffle join条件时doris会自动尝试切换为shuffle join。

如果显示的指定了broadcast join doris依然会自动切换为shuffle join

-- 不指定默认broadcast join
select * from student s 
inner join score sc on s.sid = sc.sid
-- 显示指定 broadcast join
select * from student s 
inner join [broadcast] score sc on s.sid = sc.sid

shuffle join

如果当小表过滤后的数据量过大无法放入内存的话，broadcast join将无法完成，通常会报内存超限，可显示指定 shuffle join(也叫partition join) 。即将小表和大表的join列都进行hash操作，然后根据hash匹配的方式将不同数据分发到不同服务器进行分布式计算，可以减少内存的消耗。

-- 指定 shuffle join
select sum(name) from table1 join table2 [shuffle] on table1.id = table2.id;

bucket shuffle join

doris 0.14引入的功能，是对shuffle join 的优化。当进行 shuffle join 的2个表的某一列是分桶列，doris会将shuffle join 升级为 bucket shuffle join。

相对于shuffle join，bucket shuffle join减少了内存消耗。

-- shuffle join的某个字段是分桶列时会自动升级为bucket shuffle join
select sum(name) from table1 join table2 [shuffle] on table1.id = table2.id;

colocation join

colocation join 是doris0.9版本引入的新功能。旨在为某些joint查询提供本地性能优化来减少数据在节点传输耗时，提高查询速度。

colocation join 是将多个表归纳到一个组内，并保证表内数据分片会落在同一BE节点上，保证在进行join时无需对数据进行传输，直接在本地进行join，减少了数据在节点间的传输耗时。

多个表建立 colocation group 时有限制：2张表的分桶列和分桶要完全一致，分区数和副本数也需要一致。

创建 colocation join表语句：

-- 创建表示加properties 'colocate_with'='group1' 加入 分组
create table tb1( k1 int,v1int sum) distributed by hash(k1) properties( 'colocate_with'='group1');

-- 查看所有group信息
-- groupId: group的id	groupName：group的名称	tableIds：组内表的id列表	bucketsNum:分桶数量
-- replicationNum 副本数量	distCols：分桶列类型	isStable：是否稳定
show proc '/colocation_group';
-- 根据id查看group信息
show proc '/colocation_group/{groupId}';

修改表的分组

-- 修改分组
alter table tb1 set("colocate_with"="groupName")
-- 不加入分组
alter table tb1 set("colocate_with"="")

-- 通过desc查询是否使用 colocation join
explain select * from t1 join t2 on t1.id = t2.id

Doris 数据模型

doris中表内的列分为两大类：key（纬度列）和value（指标列）

doris中的数据模型分为三类 aggregate模型，unique模型，duplicate模型

无论哪种模型,建表时都有要按字段的顺序指定,并且不能从第二个字段后开始指定

aggregate模型

聚合模型的特点就是将表中的列分为了key和value两种，key就是纬度列用于存放数据，value这是指标列，如总访问量，平均薪资等，每个指标列都需要指定聚合函数，入：sum，min，max，count，replace(新值替换旧值)和bitmap_union等。当key列完全重复时value列就会触发聚合操作。

create table table1(
    `user_id` bigint comment '用户id', -- Key列
	`username` varchar(32) default '' comment '用户名', -- Key列
    `visit_page` varchar(512) comment '访问页面', -- Key列
    `pv` bigint sum default '0' -- value列，注意sum表示聚合，当key列相同时，value列会按照指定的聚合函数进行统计
)
aggregate key(user_id,username,visit_page) -- 指定 聚合列
distributed by hash(bigint) buckets 10
properties("replication_num" = "1"); -- 指定其他属性 设置部分数为1(默认3分区)

Unique模型

Unique模型是一种特殊的aggregate模型, 当key重复时,其他value列会进行replace操作

create table user(
    `user_id` bigint comment '用户id', -- Key列
	`username` varchar(32) default '' comment '用户名',
    `age` smallint comment '访问页面',
    `phone` varchar(32)
)
unique key(username,visit_page) -- 指定 唯一列
distributed by hash(bigint) buckets 10
properties("replication_num" = "1"); -- 指定其他属性 设置部分数为1(默认3分区)

duplicate 模型

复制模型的特点就是无论数据是否一致都不会处理,只是指定排序字段

-- 注意: 指定duplicate key时必须按列顺序指定,否则报错
create table if not exists access_log(
	access_time datetime not null default CURRENT_TIMESTAMP comment '访问时间',
	user_id bigint not null comment '访问用户id',
	access_url varchar(1024) comment '访问地址',
	return_code smallint comment '响应码'
)
duplicate key(access_time,user_id)
distributed by hash(access_time) buckets 10;

Doris 索引

doris主要支持两类索引:

doris内建的索引,包括前缀索引和ZoneMap索引。
用户创建的二级索引,包括Bloom Filter索引和Bitmap倒排索引。

前缀索引

doris会将一行数据的前36个字节作为这行数据的前缀索引, 当遇到varchar时前缀索引就会直接截断（varchar类型只截取前20个字节）。

前缀索引是根据字段的顺序来建立的，因此要尽量根据查询场景进行建表，尽量不要将varchar放在字段的最前面。

# doris 会根据 id，age，name的前20个字节作为前缀索引
create table test1(
 id bigint not null comment'主键', -- 8个字节
 age smallint comment '年龄', -- 2个字节
 name varchar(64) comment '姓名', -- 64个字节 
 gender char(4) comment '性别', -- 4个字节
 iq smallint comment '智商', -- 2个字节
)
aggregate key(id,age,name)
distributed by hash(id) buckets 10;

# doris 会根据name的前20个字节作为前缀索引，遇到varchar直接截断
create table test2(
 name varchar(64), -- 64个字节 
 id bigint not null comment'主键', -- 8个字节
 age smallint -- 2个字节
)
aggregate key(id,age,name)
distributed by hash(id) buckets 10;

前缀索引是doris自动为我们创建的，我们无需干预。但是在查询的时候要注意合理使用前缀索引

-- 性能高，遵循最佳左前缀原则，匹配 id，age，name的索引
select * from test1 where id =1 and age = 20 and name ='zhangsan';
-- 性能高，遵循最佳左前缀原则，匹配 id，age的索引
select * from test1 where id =1 and age = 20;
-- 性能低，没遵循最佳左前缀原则，没用到索引
select * from test1 where age = 20 and name ='zhangsan';

前缀索引是doris在建表时就自动创建好的，创建后无法进行更改，但是我们可以通过创建rollup表的方式来更改前缀索引的列(前提是查询时必须命中rollup表)

-- 创建的rollup表会根据id，gender，age，iq，那么的前20个字节创建前缀索引
alter table test1 add rollup rollup_1(id,gender,age,iq,name);

Doris ODBC 外部表

Doris支持通过数据库访问标准接口(ODBC)来访问外部表，外部表省去了频繁的数据导入工作，当doris具有了访问各种数据库的能力。

在doris创建外部表：

方式一：不使用Resource直接创建odbc表

createe external table test1(
	k1 int not null,
    k2 varchar(255) not null,
    k3 decimal(12,2) not null
) engine=ODBC
comment 'dbbc表'
properties(
	"host" = "192.168.0.1",
    "port" = "3306",
    "user" = "root",
    "password" = "root",
    "database" = "test_db",
    "table" = "test1",    
    "driver" ="MySQL driver"
    "odbc_type" ="MySQL"
);

方式二：通过resource方式创建odbc外部表

-- 先创建resource对象
create external resource `mysql_odbc_1`
properties(
    "type":"odbc_catalog",
	"host" = "192.168.0.1",
    "port" = "3306",
    "user" = "root",
    "password" = "root",
    "database" = "test_db"
    "driver" ="MySQL driver"
    "odbc_type" ="MySQL"
);

-- 根据resource对象创建odbc表
createe external table test1(
	k1 int not null,
    k2 varchar(255) not null,
    k3 decimal(12,2) not null
) engine=ODBC
comment 'dbbc表'
properties(
	"odbc_catalog_resource" = "mysql_odbc_1",
    "database" = "test_db",
    "table" = "test1"
)

Doris 优化

web页面查看QueryProfile

doris FE web页面提供了queryProfile，可以更好的帮助我们了解doris的执行情况，并有针对性的进行响应Debug与调优工作。

使用放方法：

开启profile默认为false

set enable_profile = true;

执行sql后web页面会生成profile

http://FE_ip:8020/QueryProfile

Join Reorder

Joink Reorder功能可以通过代价模型自动调整sql的join顺序，以获得最优的join效率，建议开启该功能

set enable_cost_based_join_reorder = true;

Doris 目前支持基于规则的 join reorder算法，它的逻辑是：

让大表尽量跟小表做join，因为与小表生成的结果是较小的。
把有where条件的join表往前放，尽量提前过滤数据。
hash join的优先级高于 Nest Loop Join。

Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
Mongodb Error: queryTxt ETIMEOUT xxxx.wwwdz.mongodb.net 佛一脚 error react mongodb 数据库
背景每天都能遇到奇怪的问题，做个记录，以便有缘人能得到帮助！换了一台电脑开发nextjs程序。需要连接mongodb数据，对数据进行增删改查。上一台电脑好好的程序，新电脑死活连不上mongodb数据库。同一套代码，没任何修改，搞得我怀疑人生了，打开浏览器进入mongodb官网毫无问题，也能进入线上系统查看数据，网络应该是没问题。于是我尝试了一下手机热点，这次代码能正常跑起来，连接数据库了！！！是不
入门MySQL——查询语法练习 K_un
前言：前面几篇文章为大家介绍了DML以及DDL语句的使用方法，本篇文章将主要讲述常用的查询语法。其实MySQL官网给出了多个示例数据库供大家实用查询，下面我们以最常用的员工示例数据库为准，详细介绍各自常用的查询语法。1.员工示例数据库导入官方文档员工示例数据库介绍及下载链接：https://dev.mysql.com/doc/employee/en/employees-installation.h
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
ubuntu安装wordpress lissettecarlr
1安装nginx网上安装方式很多，这就就直接用apt-get了apt-getinstallnginx不用启动啥，然后直接在浏览器里面输入IP:80就能看到nginx的主页了。如果修改了一些配置可以使用下列命令重启一下systemctlrestartnginx.service2安装mysql输入安装前也可以更新一下软件源，在安装过程中将会让你输入数据库的密码。sudoapt-getinstallmy
深入浅出 -- 系统架构之负载均衡Nginx的性能优化 xiaoli8748_软件开发系统架构系统架构负载均衡 nginx
一、Nginx性能优化到这里文章的篇幅较长了，最后再来聊一下关于Nginx的性能优化，主要就简单说说收益最高的几个优化项，在这块就不再展开叙述了，毕竟影响性能都有多方面原因导致的，比如网络、服务器硬件、操作系统、后端服务、程序自身、数据库服务等，对于性能调优比较感兴趣的可以参考之前《JVM性能调优》中的调优思想。优化一：打开长连接配置通常Nginx作为代理服务，负责分发客户端的请求，那么建议开启H
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署） java毕设程序源码王哥 php 课程设计 vue.js
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
3.增删改查--连接查询问女何所忆
关系型数据库的一个特点就是，多张表之间存在关系，以致于我们可以连接多张表进行查询操作，所以连接查询会是关系型数据库中最常见的操作。连接查询主要分为三种，交叉连接、内连接和外连接，我们一个个说。1、交叉连接交叉连接其实连接查询的第一个阶段，它简单表现为两张表的笛卡尔积形式，具体例子：如果你没学过数学中的笛卡尔积概念，你可以这样简单的理解这里的交叉连接：两张表的交叉连接就是一个连接合并的过程，T1表中
docker from指令的含义_多个FROM-含义 weixin_39722188 docker from指令的含义
小编典典什么是基本图片？一组文件，加上EXPOSE端口ENTRYPOINT和CMD。您可以添加文件并基于该基础图像构建新图像，Dockerfile并以FROM指令开头：后面提到的图像FROM是新图像的“基础图像”。这是否意味着如果我neo4j/neo4j在FROM指令中声明，则在运行映像时，neo数据库将自动运行并且可在端口7474的容器中使用？仅当您不覆盖CMD和时ENTRYPOINT。但是图像
Redis:缓存击穿我的程序快快跑啊缓存 redis java
缓存击穿(热点key)：部分key(被高并发访问且缓存重建业务复杂的)失效,无数请求会直接到数据库，造成巨大压力1.互斥锁：可以保证强一致性线程一：未命中之后，获取互斥锁，再查询数据库重建缓存，写入缓存，释放锁线程二：查询未命中，未获得锁(已由线程一获得)，等待一会，缓存命中互斥锁实现方式：redis中setnxkeyvalue:改变对应key的value,仅当value不存在时执行，以此来实现互
mysql学习教程，从入门到精通，TOP 和MySQL LIMIT 子句（15）知识分享小能手大数据数据库 MySQL mysql 学习 oracle 数据库开发语言 adb 大数据
1、TOP和MySQLLIMIT子句内容在SQL中，不同的数据库系统对于限制查询结果的数量有不同的实现方式。TOP关键字主要用于SQLServer和Access数据库中，而LIMIT子句则主要用于MySQL、PostgreSQL（通过LIMIT/OFFSET语法）、SQLite等数据库中。下面将分别详细介绍这两个功能的语法、语句以及案例。1.1、TOP子句（SQLServer和Access）1.1
ERROR 1064 (42000): You have an error in your SQL syntax; check the manual that corresponds to your †徐先森® Oracle数据库 Web相关错误集
createtablestudents(idintunsignedprimarykeyauto_increment,namevarchar(50)notnull,ageintunsigned,highdecimal(3,2),genderenum('男','女','中性','保密','妖')default'保密',cls_idintunsigned);在对数据库插入如上带有中文带有默认值的字段的时
Redis 有哪些危险命令？如何防范？花小疯 redis 缓存数据库危险命令大数据
Redis有哪些危险命令？Redis的危险命令主要有以下几个：1.keys客户端可查询出所有存在的键。2.flushdb删除Redis中当前所在数据库中的所有记录，并且此命令从不会执行失败。3.flushall删除Redis中所有数据库中的所有记录，不止是当前所在数据库，并且此命令从不会执行失败。4.config客户端可修改Redis配置。怎么禁用和重命名危险命令？看下redis.conf默认配置
【Golang】 Golang 的 GORM 库中的 Rows 函数不爱洗脚的小滕 golang 开发语言后端
文章目录前言一、Rows函数解释二、代码实现三、总结前言在使用Go语言进行数据库操作时，GORM（GoObject-RelationalMapping）库是一个常用的工具。它提供了一种简洁和强大的方式来处理数据库操作。本文将介绍GORM库中的Rows函数，这是一个用于执行原生SQL查询并返回结果的函数。一、Rows函数解释在GORM库中，Rows函数用于执行原生SQL查询并返回*sql.Rows结
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p