唐樽

Hive：用SQL对数据进行操作，导入数据、清洗脏数据、统计数据订单、优化结果输出等等

文章目录

- 1、准备数据
- 2、了解数据
- 3、将数据导入hive
- 4、如何清洗第一行的脏数据？
- - 4.1 方式一：shell命令
  - 4.2 方式二：HQL (hive sql)
  - 4.3 方式三：更新表，过滤首行(个人建议用这个SQL命令)
- 5、每个用户有多少个订单？ (分组)
- 6、每个用户一个订单平均是多少商品？
- - 6.1 一个订单有多少个商品？
  - 6.2 一个用户有多少商品？
  - 6.3 针对步骤6.2，进行用户对应的商品数量 sum求和。
  - 6.4 一个用户平均一个订单有多少个商品？
  - 6.5 每个用户在一周中的购买订单的分布?
  - 6.6 查看在12点时间段每个用户购买了哪些商品？
- 7、一个用户平均每个购买天中，购买的商品数量
- 8、每个用户最喜爱购买的三个商品product是什么？
- - 8.1 每个用户购买的商品的次数
  - 8.2 对购买的商品次数进行rank
  - 8.3 优化输出结果格式

① Hive 数据管理、内外表、安装模式操作

② Hive：用SQL对数据进行操作，导入数据、清洗脏数据、统计数据订单

③ Hive：多种方式建表，需求操作

④ Hive：分区原因、创建分区、静态分区、动态分区

⑤ Hive：分桶的简介、原理、应用、创建

⑥ Hive：优化 Reduce，查询过程；判断数据倾斜，MAPJOIN

⑦ Hive：数据进行替换切分后的结果保存为新表，新表进行分词

1、准备数据

百度网盘链接：https://pan.baidu.com/s/1QDlf7SoGPWliagV2ettMOQ
提取码：3jcn

2、了解数据

head -10 orders.csv

order_id:订单号
user_id:用户id
eval_set:订单的行为（历史产生的或者训练所需要的）
order_number：用户购买订单的先后顺序
order_dow：order day of week ,订单在星期几进行购买的（0-6）
order_hour_of_day：订单在哪个小时段产生的（0-23）
days_since_prior_order：表示后一个订单距离前一个订单的相隔天数

head -10 order_products__train.csv

order_id:订单号
product_id:商品ID
add_to_cart_order：加入购物车的位置
reordered：这个订单是否重复购买（1 表示是 0 表示否）

head -10 products.csv （数据仓库定位：商品维度表）

product_id：商品ID
product_name：商品名称
aisle_id：货架id
department_id:该商品数据属于哪个品类，日用品，或者生活用品等

departments.csv（品类维度表）
department_id：部门id, 品类id
department: 品类名称

department_id,department
1,frozen
2,other
3,bakery

order_products__prior.csv（用户历史行为数据）

order_id,product_id,add_to_cart_order,reordered
2,33120,1,1
2,28985,2,1
2,9327,3,0

3、将数据导入hive

对于orders.csv，我们指导他是以‘,’ 作为字段分割符，行与行之间数据是‘\n’是分割。

在hive数据库创建orders表

create table badou.orders(
order_id string
,user_id string
,eval_set string
,order_number string
,order_dow string
,order_hour_of_day string
,days_since_prior_order string
)
row format delimited fields terminated by ','
lines terminated by '\n';

可以得知，创建orders表成功；接下来我们要把orders.csv数据加载到orders表中。

加载数据到hive，有两种方式：

加载本地数据到Hive，overwrite 覆盖， into 追加

load data local inpath 'day3/orders.csv' overwrite into table orders;

HDFS数据加载到Hive (没有 local，要保证HDFS有数据)

load data inpath 'day3/orders.csv' 
overwrite into table orders;

我们这里选择从本地加载数据。

load data local inpath 'day3/orders.csv' overwrite into table orders;

select * from orders limit 10;

可以发现，第一行数据是脏数据。

我们要自动显示下每个数据的字段名称。
进入 hive-site.xml，在(master)进行配置：

vi hive-site.xml
<!--Hive第一行显示列名称-->
<property>
  <name>hive.cli.print.header</name>
   <value>true</value>
  <description>显示列名称</description>
</property>

exit; 退出hive，再重新进入hive。

use badou;
select * from orders limit 10;

创建trains表，加载order_products__train.csv也是如此操作。

4、如何清洗第一行的脏数据？

4.1 方式一：shell命令

思想：在load加载数据之前，针对异常数据进行处理，用 sed '1d' orders.csv。

测试：
head -10 orders.csv > tmp.csv
cat tmp.csv
sed '1d' tmp.csv > tmp_res.csv
cat tmp_res.csv

4.2 方式二：HQL (hive sql)

insert overwrite table orders
select * from orders where order_id !='order_id';

4.3 方式三：更新表，过滤首行(个人建议用这个SQL命令)

alter table trains set tblproperties('skip.header.line.count'='1');

5、每个用户有多少个订单？ (分组)

我们知道，user_id为用户ID，order_id为订单ID，count(order_id) 统计订单数。

select user_id, count(distinct order_id) as order_cnt
from orders group by user_id
limit 20;

distinct ：表示去重
as：把count的结果作为order_cnt

对order_cnt进行从大到小排序的话。

select user_id, count(distinct order_id) as order_cnt from orders
 group by user_id
 order by order_cnt desc
limit 10;

6、每个用户一个订单平均是多少商品？

先创建priors表，加载order_products__prior.csv数据。

create table priors(
order_id string,
product_id string,
add_to_cart_order string,
reordered string
)
row format delimited fields terminated by ','
lines terminated by '\n';

load data local inpath 'day3/order_products__prior.csv' 
overwrite into table priors;

过滤脏数据
alter table priors set tblproperties('skip.header.line.count'='1');

6.1 一个订单有多少个商品？

在priors 表对订单order_id分组，我们选择订单ID和产品数量，产品数量as pro_cnt。

select order_id,count(distinct product_id) as pro_cnt from priors 
group by order_id 
limit 10;

6.2 一个用户有多少商品？

在orders表有用户ID，priors表有商品ID，这两个表同时有订单ID order_id，可以把表连接起来，把7.1的结果 as t，在t表我们就有 order_id 和 pro_cnt 两个字段。

(select order_id, count(distinct product_id) 
as pro_cnt from priors
    group by order_id
    limit 10000
) as t

select user_id,pro_cnt from orders as od
inner join t 
on od.order_id=t.order_id
limit 10;

完整SQL语句：

select od.user_id, t.pro_cnt from orders as od
inner join (
    select 
    order_id, count(distinct product_id) as pro_cnt
    from priors
    group by order_id
    limit 10000
) as t
on od.order_id=t.order_id
limit 10;

as 是可以省略的；
结果应该有用户ID与商品数量 od.user_id, t.pro_cnt。

6.3 针对步骤6.2，进行用户对应的商品数量 sum求和。

对商品数量t.pro_cnt进行求和，即sum(t.pro_cnt)。

【注意】: 使用聚合函数（count、sum、avg、max、min ）的时候要结合group by 进行使用。
从 7.2代码进行修改：

select od.user_id, sum(t.pro_cnt) as sum_prods from orders od
inner join (
    select order_id, count(distinct product_id) as pro_cnt
    from priors
    group by order_id
    limit 10000
) as t
on od.order_id=t.order_id
group by od.user_id
limit 10;

我们，修改 sum(t.pro_cnt) as sum_prods 后，需要进行group by操作，即group by od.user_id。显示结果有 od.user_id sum_prods。

6.4 一个用户平均一个订单有多少个商品？

即用户的商品数量 / 用户的订单数量 == sum(t.pro_cnt)/count(t.order_id) as sc_prod,
也可以用平均产品数量avg，avg(pro_cnt) as avg_prod

select od.user_id
,sum(t.pro_cnt)/count(t.order_id) as sc_prod
,avg(pro_cnt) as avg_prod 
from orders od inner join (
    select 
    order_id, count(distinct product_id) as pro_cnt
    from priors
    group by order_id
    limit 10000
) t
on od.order_id=t.order_id
group by od.user_id
limit 10;

6.5 每个用户在一周中的购买订单的分布?

在 orders表中，的列order_dow，代表购买订单是在一周的星期几，0-6 代表周一到周日。

查询:
head -30 orders.csv

select * from orders limit 30;

思路： 要输出的是用户id，与星期几一天的总订单量。即需要sum(星期几订单)，判断if order_dow='0'/ '1'/ '2'/ '3'/ '4'/ '5'/ '6' --> true 为1, false 为0，把结果sum，则得出：星期几一天的总订单量。例如：

user_id order_dow  
	1   	 0   sum=0+1=1
	1   	 0   sum=1+1=2
	1   	 1   sum=0+1=1
	2   	 1	 sum=0+1=1
由上面数据可知，用户id为1，星期一(0),有2个订单;星期二(1),有1个订单;
用户id为2，星期二(1),有1个订单;

【注意】： 实际开发中，一定是最先开始使用小批量数据进行验证，验证代码逻辑的正确性，然后全量跑！！，提高工作效率。

方式一：用case when 语句

select user_id
, sum(case when order_dow='0' then 1 else 0 end) dow0
, sum(case when order_dow='1' then 1 else 0 end) dow1
, sum(case when order_dow='2' then 1 else 0 end) dow2
, sum(case when order_dow='3' then 1 else 0 end) dow3
, sum(case when order_dow='4' then 1 else 0 end) dow4
, sum(case when order_dow='5' then 1 else 0 end) dow5
, sum(case when order_dow='6' then 1 else 0 end) dow6
from orders
where user_id in ('1','2','3')
group by user_id;

方式二：用 if 语句

select user_id
, sum(if(order_dow='0',1,0)) as dow0
, sum(if(order_dow='1',1,0)) dow1
, sum(if(order_dow='2',1,0)) dow2
, sum(if(order_dow='3',1,0)) dow3
, sum(if(order_dow='4',1,0)) dow4
, sum(if(order_dow='5',1,0)) dow5
, sum(if(order_dow='6',1,0)) dow6
from orders
where user_id in ('1','2','3')
group by user_id;

我们验证数据：从上下图可知: 用户id为1: 星期一没有订单，星期二有3个订单。从下图可知验证正确。。小批量验证完成，我们可以取消 where语句，进行全部量操作。

6.6 查看在12点时间段每个用户购买了哪些商品？

分析：需要 用户ID:user_id, 商品ID:product_id, 时间：order_hour_of_day;
orders表有 : order_id, user_id;
trains表有：order_id, product_id;
把两个表连接起来 inner join。

SQL语句：

select od.user_id, tr.product_id from 
	orders od inner join trains tr
	on od.order_id=tr.order_id
	where order_hour_of_day = '12'
	limit 10;

由图可知，在12点，‘21’ 用户购买了 ‘25740、12683、44632、10957、32645、16615’ 等商品。

7、一个用户平均每个购买天中，购买的商品数量

orders 表中的 days_since_prior_order 等价于购买天数。
我们要用户ID，商品数量，购买天数。
orders 表与priors表连接可以得到 “用户ID，商品数量，购买天数。”

6.1中可以求得一个订单有多少个商品，结果保存为pri 表；
从orders表把 order_id, user_id, days_since_prior_order 结果存储为 ord；
用 join 连接，查找出select user_id, sum(商品数量) / count(购买天数) from ord join pri on ord.order_id=pri.order_id group by ord.user_id 输出结果

-- ord表,对购买天数的数值需要进行空处理
(select order_id, user_id, if(days_since_prior_order='','-1',days_since_prior_order) as days_since_prior_order
from orders
where eval_set='prior' limit 10000
) ord

-- pro_cnt 为商品数量
select order_id, count(1) as pro_cnt from priors
group by order_id 
limit 10000
) pri

完整代码：

select ord.user_id, sum(pri.pro_cnt) / count(distinct days_since_prior_order)  avg_prod
from
( select order_id, user_id, 
if(days_since_prior_order='','-1',days_since_prior_order) as days_since_prior_order
from orders
where eval_set='prior' limit 10000
) ord
join (
select order_id, count(1) as pro_cnt from priors
group by order_id 
limit 10000
) pri
on ord.order_id=pri.order_id
group by ord.user_id
limit 10;

由图结果可知：由用户ID，平均一天商品购买数量。

8、每个用户最喜爱购买的三个商品product是什么？

最喜欢购买就是购买的商品最多。
因此要先求每个用户购买的商品的次数，再对次数排序，前三个。

8.1 每个用户购买的商品的次数

select ord.user_id, pri.product_id, count(1) as top_cnt
from 
(select * from orders where eval_set='prior'
) ord
join (
select * from priors limit 1000
) pri
on ord.order_id=pri.order_id
group by ord.user_id,pri.product_id
limit 20;

-- 可以 用 partition by 替换 group by。
select ord.user_id, pri.product_id, 
count(1) over(partition by ord.user_id,pri.product_id) as top_cnt
from 
(select * from orders where eval_set='prior'
) ord
join (
select * from priors limit 1000
) pri
on ord.order_id=pri.order_id

-- group by ord.user_id,pri.product_id
limit 20;

8.2 对购买的商品次数进行rank

--用with关键字 把每个用户购买的商品的次数结果为rank_tmp
with rank_tmp as (select ord.user_id, pri.product_id, 
count(1) over(partition by ord.user_id,pri.product_id) as top_cnt
from 
(select * from orders where eval_set='prior'
) ord
join (
select * from priors limit 1000
) pri
on ord.order_id=pri.order_id
)

在操作排名，排序常用函数 row_number() ，用于给数据库表中的记录进行标号，在使用的时候，其后还跟着一个函数 over()，而函数 over() 的作用是将表中的记录进行分组和排序。

row_number() over() --分组排序功能;
--语法格式：
row_number() over(partition by 分组列 order by 排序列 desc)

在使用 row_number() over()函数时候，over()里头的分组以及排序的执行晚于 where 、group by、 order by 的执行。

这里我们要：row_number(), 是对用户id分组，对商品次数进行降序排序。

select * from 
(
select user_id, product_id,
row_number() over(partition by user_id order by top_cnt desc) as row_num 
from rank_tmp
-- 排序结果保存为t表 
) t 
--得出排序结果，where取前三个
where row_num <= 3
limit 20;

可以发现，每个用户最喜爱购买的三个商品。

8.3 优化输出结果格式

要的显示结果：user1 [100_3,101_2,102_1]

user1 [100_3,101_2,102_1]
100代表商品id，_3 中的3是第三个喜欢的意思
像 101_2，2是第二个喜欢的商品。

把转为列表形式用collect_list()函数;
concat_ws('-',列名1,列名2) = 列名1-列名2
如果列名2是整型要cast为string类型。
--即：
collect_list(concat_ws('_',product_id, cast(row_num as string))) as pro_top3

我们要以上面的列表格式化输出，列表里面的数据为最喜欢的前三名商品。
同样把上面8.2的结果用 with 进行保存为 rank_result。

with rank_tmp as (select ord.user_id, pri.product_id, 
count(1) over(partition by ord.user_id,pri.product_id) as top_cnt
from 
(select * from orders where eval_set='prior'
) ord
join (
select * from priors limit 1000
) pri
on ord.order_id=pri.order_id
),
-- 要with嵌套，注意这里用逗号分割
rank_result as ( -- 注意这里没有with
select user_id, product_id,
row_number() over(partition by user_id order by top_cnt desc) as row_num 
from rank_tmp
)
-- 正式查询语句，与上面的with as直接没有符号分割
select user_id, collect_list(concat_ws('_',product_id, cast(row_num as string))) as pro_top3,
-- size 返回列表中元素的个数
size(collect_list(product_id)) as top_size
from rank_result
where row_num <= 3
group by user_id
limit 20;

发现上图结果满足，用户的最喜欢商品以列表形式返回，商品id后的‘_1’ 代表第一个喜欢商品，size返回列表商品个数。

【晨间日记】 2020年8月9日语瞳SAMA
2020年8月9日天气：小雨转多云【90天践行目标】（63/90）①5：30早起②22：30早睡③写晨间日记【昨日践行】①6：02起床②22：58入睡③晨间日记已达成【今日青蛙】①完成暑期实践总结报告②开始校友邦打卡③英语百词斩*昨日三只青蛙已达成【反思日志】昨天母亲带着欣远和欣栩来老房子这边吃晚饭，带来了许多欢乐与活力。其中让我印象最为深刻的是欣远的学习能力。自己在六级英语百词斩时，欣远与欣栩也
YOLOv13_SSOD：基于超图关联增强的半监督目标检测框架（原创创新算法）
YOLOv13_SSOD：基于超图关联增强的半监督目标检测框架项目背景随着深度学习技术的快速发展，目标检测在各个领域都取得了显著的进展。然而，现有的监督学习方法在实际应用中面临着标注数据稀缺、泛化能力不足等挑战。特别是在火灾烟雾检测、工业质检等特定场景中，获取大量高质量标注数据的成本极高。为了解决这一问题，本项目基于最新发布的YOLOv13架构，结合EfficientTeacher半监督学习框架，
蓝桥杯算法心得——巧克力（贪心）晴天学长算法算法蓝桥杯 java
大家好，我是晴天学长，这是一道国赛题，其中贪心的思想值得学习（逆向思维），写比较器也非常的实用，需要的小伙伴请自取哦！1）巧克力2).算法思路每一天都选保质期内最便宜的注意：这里一定要从最后一天开始选择，这样才可以将保质期这一条件充分利用起来我也是受了其它题解的启发：如果有保质期很长，价格很低，但你很早就吃完了，后面不得不选择昂贵的巧克力，也就是说它原本可以在很多天之后吃就行，现在却在前几天就吃了
USB串口通信、握手协议、深度学习等技术要点深度学习教程, 深度学习人工智能网络协议
基于OpenMV的智能车牌识别系统：从硬件到算法的完整实现前言本文将详细介绍一个基于OpenMV微控制器的智能车牌识别系统的设计与实现。该系统集成了嵌入式视觉处理、串口通信协议、深度学习OCR识别等多种技术，实现了从图像采集到车牌识别的完整流程。系统架构概述整体设计思路该车牌识别系统采用分布式架构设计，将计算密集型任务与嵌入式控制分离：┌─────────────┐USB串口通信┌────────
论语学习丨子路第十三（8）爱读书的无业游民
原文：子谓卫公子荆，善居室。始有，曰：苟合矣。少有，曰：苟完矣。富有，曰：苟美矣。翻译：孔子说卫公子荆善于处理家室。日用器具刚准备，就说：差不多备齐啦。到备了一些时，就说：算相当完备啦！到准备充足时，他说：再好不过啦！论语别裁：孔子在卫国看到一位世家公子，并不是近代语所谓的公子哥儿。古代的公子是世袭的，大体上都由长子继承。除非这个家族犯了罪，否则是代代相传下去的。例如孟尝君、信陵君、平原君等等，这
高效率慢生活第40天【失误】 Sunshine_0613
早安～有多自律就有多自由❤永远爱自己，尊重自己。时间:2018.12.28日23:30晨起时间:6:30自问:1、你准备过好今天了么?美好的一天的大概是这样的。早上自然醒来，精神状态饱满，精力充沛而不是身心疲惫。起床洗涑好后，把一天重要的学习内容进行学习和打卡，完成任务，穿上干净漂亮的衣服，在绿色公园呼吸新鲜的空气，做健身操，全身心放松，舒适，去吃上最爱的早餐店，幸福吃早餐，早早来到公司化上美美的
深入浅出理解 IOC（控制反转）与 DI（依赖注入） snowfoootball 前后端 java 开发语言 spring
深入浅出理解IOC（控制反转）与DI（依赖注入）深入理解Spring框架中的IoC与DI在学习Spring框架时，控制反转（IoC）和依赖注入（DI）是不可回避的核心概念。它们不仅是设计模式的体现，更是实现高内聚、低耦合架构的关键。本文将从“为何需要”与“如何实现”两个维度，深入剖析这两个概念。一、为何需要IoC与DI：面向对象设计的挑战考虑以下传统的Java代码示例：publicclassOrd
Linux系统编程（六）线程同步、互斥机制小仇学长 Linux linux 线程互斥锁信号量
本文目录前述：同步机制的引入及概念一、互斥锁1.定义2.互斥锁常用方法3.相关函数（1）头文件（2）创建互斥锁（3）销毁互斥锁（4）加锁（5）解锁4.使用例程二、条件变量1.相关函数（1）创建条件变量（2）注销条件变量（3）等待条件变量成立（4）条件变量激发（使条件变量成立）2.使用注意3.使用例程三、信号灯1.分类2.信号灯操作3.相关函数4.使用例程四、原子操作（内核层）1.优势2.常用的原子
2019-04-10 我是个石头
1.自律A1①早起提前到4:50，朗读文章、录制音频、三点即兴演讲。✔②复盘✔③每天看书60分钟，两天听懂书一本，看三篇文章。✔④演讲视频每天10个，音频一个。✔⑤坚持健身一小时。✔⑥文章输出2000字。✔2.练车科目三。✔3.制作工资表。未做好，电脑忘记带了。今日收获①.学习。今天把小狗钱钱这本书看完还看了第二部的前一百页，小狗钱钱第一本书，我主要有以下收获。对于钱财的分配，学会投资。去寻找一个
代码随想录算法Day35(2)||贪心算法-LeetCode406根据身高重建队列
学习内容参考卡哥代码随想录，有文字学习资料（代码随想录网站）和视频讲解（b站）2.根据身高重建队列题目力扣题目链接(opensnewwindow)假设有打乱顺序的一群人站成一个队列，数组people表示队列中一些人的属性（不一定按顺序）。每个people[i]=[hi,ki]表示第i个人的身高为hi，前面正好有ki个身高大于或等于hi的人。请你重新构造并返回输入数组people所表示的队列。返回的
2020-04-04 我心依旧_79e2
【六项精进打卡】2020.4.4日姓名：陈岗企业名称：上海孚因流体动力设备股份有限公司打卡第712天【知~学习】《六项精进》3遍,共1568遍《大学》1遍，共940遍【经典名言名句分享》只有创造，才是真正的享受，只有拼搏，才是充实的生活。修身：（对自己个人）有理想的地方，地狱就是天堂，有希望的地方，痛苦也成快乐。1每天坚持诵读《六项精进》和《大学》。2学会宽恕他人，同时从错误中吸取教训。3每天中午
7、开启C与Unity 3D的编程之旅珊珊333333 Unity C#Unity 3D 编程基础
开启C#与Unity3D的编程之旅1.前期准备在进行每一个教程之前，都有一个名为Scene的场景文件。在整个学习过程中，教程通常从下载项目中的Scene文件开始。打开场景的方法有两种：-直接在项目面板的Assets目录下双击场景图标。-选择File→OpenScene来打开项目中的任何场景。2.学习回顾与要点创建并将新的C#文件分配给对象并不复杂，在Unity3D编辑器中有多种方法可以实现。添加代
成功日记（Day1115）狮子座的兔子姑娘
1、学习中药一课程。~1.5h。2、跟g夙微信闲唠嗑。~0.5h。3、给自己剪头发。~0.5h。4、和包、李微信闲唠嗑。~0.5h。5、和z鹤微信闲聊几句。~0.25h。6、在赫男那做了个生命密码的测试，说我今年会有工作上的大转折，然后又聊了会天。~1h。心情：尚可。还算开心。
Day1学习心得||Leetcode704,27,977
Part1数组的一些注意点第一天学习的内容是数组，基础的内容就按下不表，浅记一下补上的漏洞1.数组的元素不能删除，只能覆盖乍一看可能比较奇怪，但是仔细思考一下很简单。关注一下数组的本质其实是内存上开辟的一串连续的内存空间。在程序中，只能将内存空间中存储的内容改写，而不能完全去除（即使动态数组也只是释放）。2.二维数组的空间地址依然是连续的（顺序比较像阅读的顺序）tip:虽然还没学过Java，但是先
【Python】Gym 库：于开发和比较强化学习（Reinforcement Learning, RL）算法彬彬侠 Python基础 python Gym 强化学习 RL Gymnasium
Gym是Python中一个广泛使用的开源库，用于开发和比较强化学习（ReinforcementLearning,RL）算法。它最初由OpenAI开发，提供标准化的环境接口，允许开发者在各种任务（如游戏、机器人控制、模拟物理系统）中测试RL算法。Gym的设计简单且灵活，适合学术研究和工业应用。2022年，Gym被整合到Gymnasium（由FaramaFoundation维护）中，成为主流的强化学习
今晚线上会议与美好同行
今晚是我们阳明心学诚意班第二次线上会议，说是7:00——7:45，却开到了八点半多。不喜欢开会的我没有一点厌烦，主持人吴老师也是这样说，估计参加会议的我们都一样的感受。这样的会议，不是谁在讲话，而是大家分享学习感受。或者有所得，或者仍迷惑，大家有什么说什么，无拘无束。主持人吴老师是一个曾学过阳明心学两年，然后离开又回到这上面来的人。她说了她的学习感受。她的离开又回来，是给我们的最好的现身说法。她学
Sissi书单｜《每天刷本书》365天不间断阅读第24天每天刷的sissi
很喜欢这本书，看起来一点不费劲儿，像聊天一样。而且会有很多温馨又感动的瞬间。好像那个正在回答问题的人就是你自己一样。推荐阅读啊～喜欢～虽然每个人被分配到的考验是不一样的，但是方法是可以借鉴和学习的，掌握的方法越多，解题思路就越多～
初识TCP和UDP F.LASH. 网络编程网络 tcp/ip udp linux arm开发
文章目录前言一、网络是什么？二、TCP和UDP的特点三、网络层协议四、Linux下网络命令以及网络配置总结前言本期主要分享的是网络的一些基本概念以及UDP相关通信的内容，希望各位小伙伴能够把接口使用起来！一、网络是什么？1.网络：主机间数据共享、数据收发2.协议：通信双方约定的一套标准3.国际标准OSI模型应用层传输数据表示层数据加密会话层建立会话链接传输层传输方式网络层数据路由数据链路层局域网通
10月份秦汉史学习小结乔木晨曦
匆匆忙忙中，今年已踏过10个月，只剩下更匆匆的2个月。这个10月份，仍然充满了不确定性。孩子们去学校的日子，只有5天！第一次，一个人带两个孩子这么久，有一地鸡毛，有兵荒马乱，也有阳光明媚，也有欢声笑语。10月份的月夜，很有点凉飕飕，钻在被窝里，守在熟睡的儿子身边，完成了这个月秦汉史的学习和作业。（因为白天的时间基本上是属于家务和孩子们的。）一、10月份完成的读书10月份完成的读书只有3本：（1）《
mysql+explain怎么看_MySQL学习----explain查看一条sql 的性能安123
在开发的过程中,对于我们写的sql语句，我们有时候会考虑sql语句的性能，那么explain就是首选。Explain命令在解决数据库性能上是第一推荐使用命令，大部分的性能问题可以通过此命令来简单的解决，Explain可以用来查看SQL语句的执行效果，可以帮助选择更好的索引和优化查询语句，写出更好的优化语句。Explain语法：explainselect…from…[where...]例如：expl
杜老师物语（一）旋木杏
作者：旋木杏俞子烨知道高二一班新来了一个班主任，原来的班主任和他是多年搭档，前段时间请了产假，领导有意让他一个人带两个班，然后找一个语文老师来教一二班。但是俞子烨拒绝了，因为高二所有老师都知道，高二一班很麻烦，因为高二一班的学生，不是问题学生，就是一些高中毕业就出国的富二代，根本就不在乎学习，也不听老师的话。俞子烨对此再清楚不过了，因为他经常听到别的科任老师和搭档投诉，今天某某学生又如何如何了。这
Linux利用多线程和线程同步实现一个简单的聊天服务器
1.概述本文实现一个基于TCP/IP的简单多人聊天室程序。它包含一个服务器端和一个客户端：服务器能够接收多个客户端的连接，并将任何一个客户端发来的消息广播给所有其他连接的客户端；客户端则可以连接到服务器，发送消息并接收来自其他人的消息。该Demo运用了网络编程（SocketAPI）、多线程（Pthreads）以及线程同步（互斥锁）技术，以实现并发处理和数据共享安全。2.核心技术网络编程(Socke
第二批主题教育要“照镜子、脱靴子、钉钉子、出点子” wyzzb123
学习贯彻习近平新时代中国特色社会主义思想主题教育开展以来，全党各级党组织积极贯彻落实党中央部署，坚持理论联系实际，大兴调研之风，取得了很多成效。但各党组织不能就此满足，广大党员干部要牢记学习没有“休止符”、只有“进行时”，要全面贯彻落实党的二十大精神，在第二批主题教育中“照镜子、脱靴子、揪辫子、想法子”，实现更多新成效。“照照镜子”，关注“找差纠错”，“回头看去”促前进。习近平总书记曾指出：“让正
Navicat 连接不上阿里云服务器中安装的宝塔面板中的Mysql服务器一只程序熊阿里云服务器云计算
项目场景：就今天在做宝塔的时候遇到一个新问题，在之前的阿里云服务器中都没有发现过这个问题！特此记录解决方案：本地连接不上云服务器主要是这几个原因：1.云服务器官方的安全组问题(安全组是否放行目标端口)2.云服务器内部的服务端口问题(服务器内部端口是否向外部开放)但是今天我又在云服务器安全组内部发现了一个新的问题：3.云服务器中设置了仅本机访问的ipv6的地址，但是仍然访问不了。可能是因为navic
python学习路线（从菜鸟到起飞）突突突然不会编了 python 学习开发语言
以下是基于2025年最新技术趋势的Python学习路线，综合多个权威资源整理而成，涵盖从零基础到进阶应用的全流程，适合不同学习目标（如Web开发、数据分析、人工智能等）的学习者。路线分为基础、进阶、实战、高级、方向拓展五个阶段，并附学习资源推荐：一、基础阶段（1-2个月）目标：掌握Python核心语法与编程思维，熟悉开发环境。环境搭建安装Python3.10+，配置PyCharm或VSCode开发
小白带你部署LNMP分布式部署刘俊涛liu 分布式
目录前言一、概述二、LNMP环境部署三、配置nginx1、yum安装2、编译安装四、安装1、编译安装nginx2、网络源3、稍作优化4、修改配置文件vim/usr/local/nginx/conf/nginx.conf5、书写测试页面五、部署应用前言LNMP平台指的是将Linux、Nginx、MySQL和PHP（或者其他的编程语言，如Python、Perl等）集成在一起的一种Web服务器环境。它是
AI Agent开发学习系列 - langchain之示例选择器2：相关性与多样性兼得-MaxMarginalRelevanceExampleSelector在LangChain中的用法 alex100 AI Agent 学习人工智能 langchain prompt 语言模型 python
MaxMarginalRelevanceExampleSelectorMaxMarginalRelevanceExampleSelector是LangChain中用于Few-ShotPrompt的一种智能示例选择器。它的作用是：在众多示例中，自动选择与当前输入最相关、同时彼此多样性最大的示例，插入到prompt里。主要特点相关性优先：优先选择与用户输入最相似的示例。多样性保证：避免选到内容高度重复
AI Agent开发学习系列 - langchain之memory(1)：内存中的短时记忆 alex100 AI Agent 学习人工智能 langchain prompt 语言模型 python
内存中的短时记忆，在LangChain中通常指ConversationBufferMemory这类“对话缓冲记忆”工具。它的作用是：在内存中保存最近的对话历史，让大模型能理解上下文，实现连续对话。对话缓冲记忆”工具主要特点只保留最近的对话内容（如最近N轮），不会无限增长，节省内存和token。适合短对话、上下文关联不深的场景。支持多种变体，如窗口记忆（ConversationBufferWindo
语音识别开源项目推荐：GitHub热门仓库盘点 AGI大模型与大数据研究院 AI大模型应用开发实战语音识别开源 github ai
2024年必看！GitHub热门语音识别开源项目全解析：从入门到实战关键词语音识别(ASR)、开源项目、GitHub、Whisper、FunASR、PaddleSpeech、深度学习摘要想象一下：开车时只需说一句话就能自动发消息，听英文演讲时实时获得中文翻译，给视障人士读文本时精准转换——这些场景的背后，语音识别（AutomaticSpeechRecognition,ASR）技术正在改变我们与机器
c++day05(ASCII）有点。 #C++少儿 c++
学习目标字符型常量和变量字符的输入、输出ASCII码和字符运算键盘为什么不按照字母顺序排序历史原因:早期的机械打字机上,字母键是按照字母顺序排列的。当打字员打字速度很快时,打字机上的金属臂会相互碰撞,导致键盘卡顿,影响打字速度和精度。为了解决这个问题,打字机制造商重新设计了键盘,将经常使用的字母键分散在键盘上,以减少键盘卡顿。除了历史原因,分散的设计也是为了优化打字速度。键盘上的字母键被分成两个主
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23