weixin_33804990

大数据-11-案例演习-淘宝双11数据分析与预测

主要摘自 http://dblab.xmu.edu.cn/post/8116/

案例简介

Spark课程实验案例：淘宝双11数据分析与预测课程案例，由厦门大学数据库实验室团队开发，旨在满足全国高校大数据教学对实验案例的迫切需求。本案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作，涵盖Linux、MySQL、Hadoop、Hive、Sqoop、Eclipse、ECharts、Spark等系统和软件的安装和使用方法。案例适合高校（高职）大数据教学，可以作为学生学习大数据课程后的综合实践案例。通过本案例，将有助于学生综合运用大数据课程知识以及各种工具软件，实现数据全流程操作。各个高校可以根据自己教学实际需求，对本案例进行补充完善。

案例目的

熟悉Linux系统、MySQL、Hadoop、Hive、Sqoop、Spark等系统和软件的安装和使用；
了解大数据处理的基本流程；
熟悉数据预处理方法；
熟悉在不同类型数据库之间进行数据相互导入导出；
熟悉使用JSP语言搭建动态Web工程；
熟悉使用Spark MLlib进行简单的分类操作。

预备知识

需要案例使用者，已经学习我的本系列文章的前续内容。

软件工具

本案例所涉及的系统及软件：
Linux系统
MySQL
Hadoop
Hive
Sqoop
ECharts
Intellij idea
Spark

数据集

淘宝购物行为数据集 (5000万条记录，数据有偏移，不是真实的淘宝购物交易数据，但是不影响学习)

案例任务

安装Linux操作系统 (前述教程已经完成)
安装关系型数据库MySQL(前述教程已经完成)
安装大数据处理框架Hadoop(前述教程已经完成)
安装数据仓库Hive(前述教程已经完成)
安装Sqoop(前述教程已经完成)
安装Intellij idea(前述教程已经完成)
安装 Spark(前述教程已经完成)

对文本文件形式的原始数据集进行预处理
把文本文件的数据集导入到数据仓库Hive中
对数据仓库Hive中的数据进行查询分析
使用Sqoop将数据从Hive导入MySQL
利用Eclipse搭建动态Web应用
利用ECharts进行前端可视化分析
利用Spark MLlib进行回头客行为预测

一、本地数据集上传到数据仓库Hive

实验数据集的下载

本案例采用的数据集压缩包为data_format.zip(点击这里下载data_format.zip数据集)，该数据集压缩包是淘宝2015年双11前6个月(包含双11)的交易数据(交易数据有偏移，但是不影响实验的结果)，里面包含3个文件，分别是用户行为日志文件user_log.csv 、回头客训练集train.csv 、回头客测试集test.csv. 下面列出这3个文件的数据格式定义：

用户行为日志user_log.csv，日志中的字段定义如下：

user_id | 买家id
item_id | 商品id
cat_id | 商品类别id
merchant_id | 卖家id
brand_id | 品牌id
month | 交易时间:月
day | 交易事件:日
action | 行为,取值范围{0,1,2,3},0表示点击，1表示加入购物车，2表示购买，3表示关注商品
age_range | 买家年龄分段：1表示年龄<18,2表示年龄在[18,24]，3表示年龄在[25,29]，4表示年龄在[30,34]，5表示年龄在[35,39]，6表示年龄在[40,49]，7和8表示年龄>=50,0和NULL则表示未知
gender | 性别:0表示女性，1表示男性，2和NULL表示未知
province| 收获地址省份

回头客训练集train.csv和回头客测试集test.csv，训练集和测试集拥有相同的字段，字段定义如下：

user_id | 买家id
age_range | 买家年龄分段：1表示年龄<18,2表示年龄在[18,24]，3表示年龄在[25,29]，4表示年龄在[30,34]，5表示年龄在[35,39]，6表示年龄在[40,49]，7和8表示年龄>=50,0和NULL则表示未知
gender | 性别:0表示女性，1表示男性，2和NULL表示未知
merchant_id | 商家id
label | 是否是回头客，0值表示不是回头客，1值表示回头客，-1值表示该用户已经超出我们所需要考虑的预测范围。NULL值只存在测试集，在测试集中表示需要预测的值。

现在，下面需要把data_format.zip进行解压缩，我们需要首先建立一个用于运行本案例的目录dbtaobao，请执行以下命令：

cd /usr/local
ls
sudo mkdir dbtaobao
//这里会提示你输入当前用户（本教程是hadoop用户名）的密码
//下面给hadoop用户赋予针对dbtaobao目录的各种操作权限
sudo chown -R hadoop:hadoop ./dbtaobao
cd dbtaobao
//下面创建一个dataset目录，用于保存数据集
mkdir dataset
//下面就可以解压缩data_format.zip文件
unzip data_format.zip -d /usr/local/dbtaobao/dataset
cd /usr/local/dbtaobao/dataset
ls

现在你就可以看到在dataset目录下有三个文件：test.csv、train.csv、user_log.csv
我们执行下面命令取出user_log.csv前面5条记录看一下
执行如下命令:

head -5 user_log.csv

可以看到，前5行记录如下：

user_id,item_id,cat_id,merchant_id,brand_id,month,day,action,age_range,gender,province
328862,323294,833,2882,2661,08,29,0,0,1,内蒙古
328862,844400,1271,2882,2661,08,29,0,1,1,山西
328862,575153,1271,2882,2661,08,29,0,2,1,山西
328862,996875,1271,2882,2661,08,29,0,1,1,内蒙古

数据集的预处理

1.删除文件第一行记录，即字段名称
user_log.csv的第一行都是字段名称，我们在文件中的数据导入到数据仓库Hive中时，不需要第一行字段名称，因此，这里在做数据预处理时，删除第一行

cd /usr/local/dbtaobao/dataset
//下面删除user_log.csv中的第1行
sed -i '1d' user_log.csv //1d表示删除第1行，同理，3d表示删除第3行，nd表示删除第n行
//下面再用head命令去查看文件的前5行记录，就看不到字段名称这一行了
head -5 user_log.csv

2.获取数据集中双11的前100000条数据
由于数据集中交易数据太大，这里只截取数据集中在双11的前10000条交易数据作为小数据集small_user_log.csv
下面我们建立一个脚本文件完成上面截取任务，请把这个脚本文件放在dataset目录下和数据集user_log.csv:

cd /usr/local/dbtaobao/dataset
vim predeal.sh

上面使用vim编辑器新建了一个predeal.sh脚本文件，请在这个脚本文件中加入下面代码：

#!/bin/bash
#下面设置输入文件，把用户执行predeal.sh命令时提供的第一个参数作为输入文件名称
infile=$1
#下面设置输出文件，把用户执行predeal.sh命令时提供的第二个参数作为输出文件名称
outfile=$2
#注意！！最后的$infile > $outfile必须跟在}’这两个字符的后面
awk -F "," 'BEGIN{
      id=0;
    }
    {
        if($6==11 && $7==11){
            id=id+1;
            print $1","$2","$3","$4","$5","$6","$7","$8","$9","$10","$11
            if(id==10000){
                exit
            }
        }
    }' $infile > $outfile

下面就可以执行predeal.sh脚本文件，截取数据集中在双11的前10000条交易数据作为小数据集small_user_log.csv，命令如下：

chmod +x ./predeal.sh
./predeal.sh ./user_log.csv ./small_user_log.csv

3.导入数据库
下面要把small_user_log.csv中的数据最终导入到数据仓库Hive中。为了完成这个操作，我们会首先把这个文件上传到分布式文件系统HDFS中，然后，在Hive中创建两个个外部表，完成数据的导入。
a.启动HDFS
下面，请登录Linux系统，打开一个终端，执行下面命令启动Hadoop：

cd /usr/local/hadoop
./sbin/start-dfs.sh

然后，执行jps命令看一下当前运行的进程：

jps

如果出现下面这些进程，说明Hadoop启动成功了。

3765 NodeManager
3639 ResourceManager
3800 Jps
3261 DataNode
3134 NameNode
3471 SecondaryNameNode

b.把user_log.csv上传到HDFS中
现在，我们要把Linux本地文件系统中的user_log.csv上传到分布式文件系统HDFS中，存放在HDFS中的“/dbtaobao/dataset”目录下。
首先，请执行下面命令，在HDFS的根目录下面创建一个新的目录dbtaobao，并在这个目录下创建一个子目录dataset，如下：

cd /usr/local/hadoop
./bin/hdfs dfs -mkdir -p /dbtaobao/dataset/user_log

然后，把Linux本地文件系统中的small_user_log.csv上传到分布式文件系统HDFS的“/dbtaobao/dataset”目录下，命令如下：

./bin/hdfs dfs -put /usr/local/dbtaobao/dataset/small_user_log.csv /dbtaobao/dataset/user_log

下面可以查看一下HDFS中的small_user_log.csv的前10条记录，命令如下：

./bin/hdfs dfs -cat /dbtaobao/dataset/user_log/small_user_log.csv | head -10

c.在Hive上创建数据库
下面，请在Linux系统中，再新建一个终端（可以在刚才已经建好的终端界面的左上角，点击“终端”菜单，在弹出的子菜单中选择“新建终端”）。因为需要借助于MySQL保存Hive的元数据，所以，请首先启动MySQL数据库：

service mysql start  #可以在Linux的任何目录下执行该命令

由于Hive是基于Hadoop的数据仓库，使用HiveQL语言撰写的查询语句，最终都会被Hive自动解析成MapReduce任务由Hadoop去具体执行，因此，需要启动Hadoop，然后再启动Hive。由于前面我们已经启动了Hadoop，所以，这里不需要再次启动Hadoop。下面，在这个新的终端中执行下面命令进入Hive：

cd /usr/local/hive
./bin/hive   # 启动Hive

启动成功以后，就进入了“hive>”命令提示符状态，可以输入类似SQL语句的HiveQL语句。
下面，我们要在Hive中创建一个数据库dbtaobao，命令如下：

hive>  create database dbtaobao;
hive>  use dbtaobao;

d.创建外部表
关于数据仓库Hive的内部表和外部表的区别，请访问网络文章《Hive内部表与外部表的区别》。本教程采用外部表方式。
这里我们要分别在数据库dbtaobao中创建一个外部表user_log，它包含字段（user_id,item_id,cat_id,merchant_id,brand_id,month,day,action,age_range,gender,province）,请在hive命令提示符下输入如下命令：

hive>  CREATE EXTERNAL TABLE dbtaobao.user_log(user_id INT,item_id INT,cat_id INT,merchant_id INT,brand_id INT,month STRING,day STRING,action INT,age_range INT,gender INT,province STRING) COMMENT 'Welcome to xmu dblab,Now create dbtaobao.user_log!' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE LOCATION '/dbtaobao/dataset/user_log';

e.查询数据
上面已经成功把HDFS中的“/dbtaobao/dataset/user_log”目录下的small_user_log.csv数据加载到了数据仓库Hive中，我们现在可以使用下面命令查询一下：

hive>  select * from user_log limit 10;

步骤一的实验顺利结束, 会看到如下数据。

OK
328862  406349  1280    2700    5476    11  11  0   0   1   四川
328862  406349  1280    2700    5476    11  11  0   7   1   重庆市
328862  807126  1181    1963    6109    11  11  0   1   0   上海市
328862  406349  1280    2700    5476    11  11  2   6   0   台湾
328862  406349  1280    2700    5476    11  11  0   6   2   甘肃
328862  406349  1280    2700    5476    11  11  0   4   1   甘肃
328862  406349  1280    2700    5476    11  11  0   5   0   浙江
328862  406349  1280    2700    5476    11  11  0   3   2   澳门
328862  406349  1280    2700    5476    11  11  0   7   1   台湾
234512  399860  962 305 6300    11  11  0   4   1   安徽
Time taken: 1.775 seconds, Fetched: 10 row(s)

二、Hive数据分析

在“hive>”命令提示符状态下执行下面命令：

hive> use dbtaobao; -- 使用dbtaobao数据库
hive> show tables; -- 显示数据库中所有表。
hive> show create table user_log; -- 查看user_log表的各种属性；

执行结果如下：

OK
CREATE EXTERNAL TABLE `user_log`(
  `user_id` int,
  `item_id` int,
  `cat_id` int,
  `merchant_id` int,
  `brand_id` int,
  `month` string,
  `day` string,
  `action` int,
  `age_range` int,
  `gender` int,
  `province` string)
COMMENT 'Welcome to xmu dblab,Now create dbtaobao.user_log!'
ROW FORMAT SERDE
  'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
  'field.delim'=',',
  'serialization.format'=',')
STORED AS INPUTFORMAT
  'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
  'hdfs://localhost:9000/dbtaobao/dataset/user_log'
TBLPROPERTIES (
  'numFiles'='1',
  'totalSize'='4729522',
  'transient_lastDdlTime'='1487902650')
Time taken: 0.084 seconds, Fetched: 28 row(s)

可以执行下面命令查看表的简单结构：

hive> desc user_log;

二、简单查询分析
先测试一下简单的指令：

hive> select brand_id from user_log limit 10; -- 查看日志前10个交易日志的商品品牌

如果要查出每位用户购买商品时的多种信息，输出语句格式为 select 列1，列2，….，列n from 表名；
比如我们现在查询前20个交易日志中购买商品时的时间和商品的种类

hive> select month,day,cat_id from user_log limit 20;

有时我们在表中查询可以利用嵌套语句，如果列名太复杂可以设置该列的别名，以简化我们操作的难度，以下我们可以举个例子：

hive> select ul.at, ul.ci  from (select action as at, cat_id as ci from user_log) as ul limit 20;

这里简单的做个讲解，action as at ,cat_id as ci就是把action 设置别名 at ,cat_id 设置别名 ci，FROM的括号里的内容我们也设置了别名ul，这样调用时用ul.at,ul.ci,可以简化代码。
三、查询条数统计分析
经过简单的查询后我们同样也可以在select后加入更多的条件对表进行查询,下面可以用函数来查找我们想要的内容。
(1)用聚合函数count()计算出表内有多少条行数据

hive> select count(*) from user_log; -- 用聚合函数count()计算出表内有多少条行数据

执行结果如下：

WARNING: Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
Query ID = hadoop_20180422041924_371ea6b0-cfb1-492b-b11c-a2ba28f7dcf0
Total jobs = 1
Launching Job 1 out of 1
Number of reduce tasks determined at compile time: 1
In order to change the average load for a reducer (in bytes):
  set hive.exec.reducers.bytes.per.reducer=
In order to limit the maximum number of reducers:
  set hive.exec.reducers.max=
In order to set a constant number of reducers:
  set mapreduce.job.reduces=
Job running in-process (local Hadoop)
2018-04-22 04:19:26,494 Stage-1 map = 100%,  reduce = 100%
Ended Job = job_local493578924_0001
MapReduce Jobs Launched: 
Stage-Stage-1:  HDFS Read: 1004134 HDFS Write: 0 SUCCESS
Total MapReduce CPU Time Spent: 0 msec
OK
10000
Time taken: 2.381 seconds, Fetched: 1 row(s)

我们可以看到，得出的结果为OK下的那个数字10000
(2)在函数内部加上distinct，查出uid不重复的数据有多少条
下面继续执行操作：

hive> select count(distinct user_id) from user_log; -- 在函数内部加上distinct，查出user_id不重复的数据有多少条

(3)查询不重复的数据有多少条(为了排除客户刷单情况) **

hive> select count(*) from (select user_id,item_id,cat_id,merchant_id,brand_id,month,day,action from user_log group by user_id,item_id,cat_id,merchant_id,brand_id,month,day,action having count(*)=1)a;

可以看出，排除掉重复信息以后，只有4754条记录。
注意：嵌套语句最好取别名，就是上面的a，否则很容易出现如下错误.
四．关键字条件查询分析
1.以关键字的存在区间为条件的查询
使用where可以缩小查询分析的范围和精确度，下面用实例来测试一下。
(1)查询双11那天有多少人购买了商品

hive> select count(distinct user_id) from user_log where action='2';

2.关键字赋予给定值为条件，对其他数据进行分析
取给定时间和给定品牌，求当天购买的此品牌商品的数量

hive> select count(*) from user_log where action='2' and brand_id=2661;

五．根据用户行为分析
从现在开始，我们只给出查询语句，将不再给出执行结果。
1．查询一件商品在某天的购买比例或浏览比例

hive> select count(distinct user_id) from user_log where action='2'; -- 查询有多少用户在双11购买了商品

hive> select count(distinct user_id) from user_log; -- 查询有多少用户在双11点击了该店

根据上面语句得到购买数量和点击数量，两个数相除即可得出当天该商品的购买率。
2.查询双11那天，男女买家购买商品的比例

hive> select count(*) from user_log where gender=0; --查询双11那天女性购买商品的数量
hive> select count(*) from user_log where gender=1; --查询双11那天男性购买商品的数量

上面两条语句的结果相除，就得到了要要求的比例。
3.给定购买商品的数量范围，查询某一天在该网站的购买该数量商品的用户id

hive> select user_id from user_log where action='2' group by user_id having count(action='2')>5; -- 查询某一天在该网站购买商品超过5次的用户id

六.用户实时查询分析
不同的品牌的浏览次数

hive> create table scan(brand_id INT,scan INT) COMMENT 'This is the search of bigdatataobao' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE; -- 创建新的数据表进行存储
hive> insert overwrite table scan select brand_id,count(action) from user_log where action='2' group by brand_id; --导入数据
hive> select * from scan; -- 显示结果

三、将数据从Hive导入到MySQL

Hive预操

然后，在“hive>”命令提示符状态下执行下面命令：

1、创建临时表inner_user_log和inner_user_info

hive> create table dbtaobao.inner_user_log(user_id INT,item_id INT,cat_id INT,merchant_id INT,brand_id INT,month STRING,day STRING,action INT,age_range INT,gender INT,province STRING) COMMENT 'Welcome to XMU dblab! Now create inner table inner_user_log ' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE;

这个命令执行完以后，Hive会自动在HDFS文件系统中创建对应的数据文件“/user/hive/warehouse/dbtaobao.db/inner_user_log”。
2、将user_log表中的数据插入到inner_user_log,
在[大数据案例-步骤一:本地数据集上传到数据仓库Hive(待续)]中，我们已经在Hive中的dbtaobao数据库中创建了一个外部表user_log。下面把dbtaobao.user_log数据插入到dbtaobao.inner_user_log表中，命令如下：

hive> INSERT OVERWRITE TABLE dbtaobao.inner_user_log select * from dbtaobao.user_log;

使用Sqoop将数据从Hive导入MySQL

1、将前面生成的临时表数据从Hive导入到 MySQL 中，包含如下四个步骤。
(1)登录 MySQL
请在Linux系统中新建一个终端，执行下面命令：

mysql -u root -p

为了简化操作，本教程直接使用root用户登录MySQL数据库，但是，在实际应用中，建议在MySQL中再另外创建一个用户。
执行上面命令以后，就进入了“mysql>”命令提示符状态。
(2)创建数据库

mysql> show databases; #显示所有数据库
mysql> create database dbtaobao; #创建dbtaobao数据库
mysql> use dbtaobao; #使用数据库

注意：请使用下面命令查看数据库的编码：

mysql> show variables like "char%";

请确认当前编码为utf8，否则无法导入中文，请参考Ubuntu安装MySQL及常用操作修改编码。
(3)创建表
下面在MySQL的数据库dbtaobao中创建一个新表user_log，并设置其编码为utf-8：

mysql> CREATE TABLE `dbtaobao`.`user_log` (`user_id` varchar(20),`item_id` varchar(20),`cat_id` varchar(20),`merchant_id` varchar(20),`brand_id` varchar(20), `month` varchar(6),`day` varchar(6),`action` varchar(6),`age_range` varchar(6),`gender` varchar(6),`province` varchar(10)) ENGINE=InnoDB DEFAULT CHARSET=utf8;

提示：语句中的引号是反引号`，不是单引号’。需要注意的是，sqoop抓数据的时候会把类型转为string类型，所以mysql设计字段的时候，设置为varchar。
创建成功后，输入下面命令退出MySQL：

mysql> exit;

(4)导入数据
注意，刚才已经退出MySQL，回到了Shell命令提示符状态。下面就可以执行数据导入操作，

cd /usr/local/sqoop
bin/sqoop export --connect jdbc:mysql://localhost:3306/dbtaobao --username root --password root --table user_log --export-dir '/user/hive/warehouse/dbtaobao.db/inner_user_log' --fields-terminated-by ',';

字段解释：
./bin/sqoop export ##表示数据从 hive 复制到 mysql 中
–connect jdbc:mysql://localhost:3306/dbtaobao
–username root #mysql登陆用户名
–password root #登录密码
–table user_log #mysql 中的表，即将被导入的表名称
–export-dir ‘/user/hive/warehouse/dbtaobao.db/user_log ‘ #hive 中被导出的文件
–fields-terminated-by ‘,’ #Hive 中被导出的文件字段的分隔符

3、查看MySQL中user_log或user_info表中的数据
下面需要再次启动MySQL，进入“mysql>”命令提示符状态：

mysql -u root -p

会提示你输入MySQL的root用户的密码，本教程中安装的MySQL数据库的root用户的密码是hadoop。
然后执行下面命令查询user_action表中的数据：

mysql> use dbtaobao;
mysql> select * from user_log limit 10;

从Hive导入数据到MySQL中，成功！

四、利用Spark预测回头客行为

预处理test.csv和train.csv数据集

这里需要预先处理test.csv数据集，把这test.csv数据集里label字段表示-1值剔除掉,保留需要预测的数据.并假设需要预测的数据中label字段均为1.

cd /usr/local/dbtaobao/dataset
vim predeal_test.sh

上面使用vim编辑器新建了一个predeal_test.sh脚本文件，请在这个脚本文件中加入下面代码：

#!/bin/bash
#下面设置输入文件，把用户执行predeal_test.sh命令时提供的第一个参数作为输入文件名称
infile=$1
#下面设置输出文件，把用户执行predeal_test.sh命令时提供的第二个参数作为输出文件名称
outfile=$2
#注意！！最后的$infile > $outfile必须跟在}’这两个字符的后面
awk -F "," 'BEGIN{
      id=0;
    }
    {
        if($1 && $2 && $3 && $4 && !$5){
            id=id+1;
            print $1","$2","$3","$4","1
            if(id==10000){
                exit
            }
        }
    }' $infile > $outfile

下面就可以执行predeal_test.sh脚本文件，截取测试数据集需要预测的数据到test_after.csv，命令如下：

chmod +x ./predeal_test.sh
./predeal_test.sh ./test.csv ./test_after.csv

train.csv的第一行都是字段名称，不需要第一行字段名称,这里在对train.csv做数据预处理时，删除第一行

sed -i '1d' train.csv

然后剔除掉train.csv中字段值部分字段值为空的数据。

vim predeal_train.sh

上面使用vim编辑器新建了一个predeal_train.sh脚本文件，请在这个脚本文件中加入下面代码：

#!/bin/bash
#下面设置输入文件，把用户执行predeal_train.sh命令时提供的第一个参数作为输入文件名称
infile=$1
#下面设置输出文件，把用户执行predeal_train.sh命令时提供的第二个参数作为输出文件名称
outfile=$2
#注意！！最后的$infile > $outfile必须跟在}’这两个字符的后面
awk -F "," 'BEGIN{
         id=0;
    }
    {
        if($1 && $2 && $3 && $4 && ($5!=-1)){
            id=id+1;
            print $1","$2","$3","$4","$5
            if(id==10000){
                exit
            }
        }
    }' $infile > $outfile

下面就可以执行predeal_train.sh脚本文件，截取测试数据集需要预测的数据到train_after.csv，命令如下：

chmod +x ./predeal_train.sh
./predeal_train.sh ./train.csv ./train_after.csv

预测回头客

将两个数据集分别存取到HDFS中

cd /usr/local/hadoop/
bin/hadoop fs -mkdir -p /dbtaobao/dataset
bin/hadoop fs -put /usr/local/dbtaobao/dataset/train_after.csv /dbtaobao/dataset
bin/hadoop fs -put /usr/local/dbtaobao/dataset/test_after.csv /dbtaobao/dataset

你就可以进入“mysql>”命令提示符状态，然后就可以输入下面的SQL语句完成表的创建：

use dbtaobao;
create table rebuy (score varchar(40),label varchar(40));

启动Spark Shell

Spark支持通过JDBC方式连接到其他数据库获取数据生成DataFrame。
下载MySQL的JDBC驱动（mysql-connector-java-5.1.40.zip）
mysql-connector-java-*.zip是Java连接MySQL的驱动包,默认会下载到”~/下载/”目录
执行如下命令：

cd /usr/local/spark/spark-2.3.0-bin-hadoop2.7
./bin/spark-shell --jars /usr/local/spark/spark-2.3.0-bin-hadoop2.7/jars/mysql-connector-java-5.1.46-bin.jar --driver-class-path /usr/local/spark/spark-2.3.0-bin-hadoop2.7/jars/mysql-connector-java-5.1.46-bin.jar

支持向量机SVM分类器预测回头客

这里使用Spark MLlib自带的支持向量机SVM分类器进行预测回头客，有关更多Spark MLlib中SVM分类器的学习知识，请点击大数据-10-Spark入门之支持向量机SVM分类器。
在spark-shell中执行如下操作：
1.导入需要的包
首先，我们导入需要的包：

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.linalg.{Vectors,Vector}
import org.apache.spark.mllib.classification.{SVMModel, SVMWithSGD}
import org.apache.spark.mllib.evaluation.BinaryClassificationMetrics
import java.util.Properties
import org.apache.spark.sql.types._
import org.apache.spark.sql.Row

2.读取训练数据
首先，读取训练文本文件；然后，通过map将每行的数据用“,”隔开，在数据集中，每行被分成了5部分，前4部分是用户交易的3个特征(age_range,gender,merchant_id)，最后一部分是用户交易的分类(label)。把这里我们用LabeledPoint来存储标签列和特征列。LabeledPoint在监督学习中常用来存储标签和特征，其中要求标签的类型是double，特征的类型是Vector。

val train_data = sc.textFile("/dbtaobao/dataset/train_after.csv")
val test_data = sc.textFile("/dbtaobao/dataset/test_after.csv")

3.构建模型

val train= train_data.map{line =>
  val parts = line.split(',')
  LabeledPoint(parts(4).toDouble,Vectors.dense(parts(1).toDouble,parts
(2).toDouble,parts(3).toDouble))
}
val test = test_data.map{line =>
  val parts = line.split(',')
  LabeledPoint(parts(4).toDouble,Vectors.dense(parts(1).toDouble,parts(2).toDouble,parts(3).toDouble))
}

接下来，通过训练集构建模型SVMWithSGD。这里的SGD即著名的随机梯度下降算法（Stochastic Gradient Descent）。设置迭代次数为1000，除此之外还有stepSize（迭代步伐大小），regParam（regularization正则化控制参数），miniBatchFraction（每次迭代参与计算的样本比例），initialWeights（weight向量初始值）等参数可以进行设置。

val numIterations = 1000
val model = SVMWithSGD.train(train, numIterations)

4.评估模型
接下来，我们清除默认阈值，这样会输出原始的预测评分，即带有确信度的结果。

model.clearThreshold()
val scoreAndLabels = test.map{point =>
  val score = model.predict(point.features)
  score+" "+point.label
}
scoreAndLabels.foreach(println)

spark-shell会打印出结果。
如果我们设定了阀值，则会把大于阈值的结果当成正预测，小于阈值的结果当成负预测。

model.setThreshold(0.0)
scoreAndLabels.foreach(println)

把结果添加到mysql数据库中
现在我们上面没有设定阀值的测试集结果存入到MySQL数据中。

model.clearThreshold()
val scoreAndLabels = test.map{point =>
  val score = model.predict(point.features)
  score+" "+point.label
}
//设置回头客数据
val rebuyRDD = scoreAndLabels.map(_.split(" "))
// 下面要设置模式信息
val schema = StructType(List(StructField("score", StringType, true),StructField("label", StringType, true)))
//下面创建Row对象，每个Row对象都是rowRDD中的一行
val rowRDD = rebuyRDD.map(p => Row(p(0).trim, p(1).trim))
//建立起Row对象和模式之间的对应关系，也就是把数据和模式对应起来
val rebuyDF = spark.createDataFrame(rowRDD, schema)
//下面创建一个prop变量用来保存JDBC连接参数
val prop = new Properties()
prop.put("user", "root") //表示用户名是root
prop.put("password", "root") //表示密码是hadoop
prop.put("driver","com.mysql.jdbc.Driver") //表示驱动程序是com.mysql.jdbc.Driver
//下面就可以连接数据库，采用append模式，表示追加记录到数据库dbtaobao的rebuy表中
rebuyDF.write.mode("append").jdbc("jdbc:mysql://localhost:3306/dbtaobao", "dbtaobao.rebuy", prop)

五、利用ECharts进行数据可视化分析

ECharts是一个纯 Javascript 的图表库，可以流畅的运行在 PC 和移动设备上，兼容当前绝大部分浏览器（IE8/9/10/11，Chrome，Firefox，Safari等），提供直观，生动，可交互，可高度个性化定制的数据可视化图表。下面将通过Web网页浏览器可视化分析淘宝双11数据。
由于ECharts是运行在网页前端，我们选用JSP作为服务端语言，读取MySQL中的数据，然后渲染到前端页面。使用Web应用服务器：tomcat和Intellij idea来作开发。

搭建tomcat+mysql+JSP开发环境

Tomcat 服务器是一个免费的开放源代码的Web 应用服务器，属于轻量级应用服务器，在中小型系统和并发访问用户不是很多的场合下被普遍使用，是开发和调试JSP 程序的首选。
查看Linux系统的Java版本,执行如下命令：

java -version

结果如下：

openjdk version "1.8.0_162"
OpenJDK Runtime Environment (build 1.8.0_162-8u162-b12-0ubuntu0.16.04.2-b12)
OpenJDK 64-Bit Server VM (build 25.162-b12, mixed mode)

可以看出Linux系统中的Java版本是1.8版本，那么下载的tomcat也要对应Java的版本。这里下载apache-tomcat-8.0.41.zip。
解压apache-tomcat-8.0.41.zip到用户目录～下,执行如下命令：

unzip apache-tomcat-8.0.41.zip -d ~

利用Intellij idea 新建可视化Web应用

1.打开idea，点击“File”菜单，或者通过工具栏的“New Project”创建 Web Application，弹出向导对话框,并点击”Next”,如下图所示：

输入项目名字MyWebApp，点击finish创建项目。

然后，我们要作项目的运行配置，在菜单"Run"下，选择"Edit Configuration"后，显示出如下图所示，并作相应选择：
选择+号来加添加配置，并命名为tomcat_1。

最后，点击运行就OK了：

如果，未运行成功，出现权限错误，如下所示：

打开Terminal，找到catalina.sh所在的文件夹下；
输入chmod a+x catalina.sh即可
我的Idea 代码MyWebApp, 下载密码：zvtv

重要代码解析

服务端代码解析

整个项目，Java后端从数据库中查询的代码都集中在项目文件夹下/Java src/dbtaobao/connDb.java
代码如下：

package dbtaobao;
import java.sql.*;
import java.util.ArrayList;
 
public class connDb {
    private static Connection con = null;
    private static Statement stmt = null;
    private static ResultSet rs = null;
 
    //连接数据库方法
    public static void startConn(){
        try{
            Class.forName("com.mysql.jdbc.Driver");
            //连接数据库中间件
            try{
                con = DriverManager.getConnection("jdbc:MySQL://localhost:3306/dbtaobao","root","root");
            }catch(SQLException e){
                e.printStackTrace();
            }
        }catch(ClassNotFoundException e){
            e.printStackTrace();
        }
    }
 
    //关闭连接数据库方法
    public static void endConn() throws SQLException{
        if(con != null){
            con.close();
            con = null;
        }
        if(rs != null){
            rs.close();
            rs = null;
        }
        if(stmt != null){
            stmt.close();
            stmt = null;
        }
    }
    //数据库双11 所有买家消费行为比例
    public static ArrayList index() throws SQLException{
        ArrayList list = new ArrayList();
        startConn();
        stmt = con.createStatement();
        rs = stmt.executeQuery("select action,count(*) num from user_log group by action desc");
        while(rs.next()){
            String[] temp={rs.getString("action"),rs.getString("num")};
            list.add(temp);
        }
            endConn();
        return list;
    }
    //男女买家交易对比
        public static ArrayList index_1() throws SQLException{
            ArrayList list = new ArrayList();
            startConn();
            stmt = con.createStatement();
            rs = stmt.executeQuery("select gender,count(*) num from user_log group by gender desc");
            while(rs.next()){
                String[] temp={rs.getString("gender"),rs.getString("num")};
                list.add(temp);
            }
            endConn();
            return list;
        }
        //男女买家各个年龄段交易对比
        public static ArrayList index_2() throws SQLException{
            ArrayList list = new ArrayList();
            startConn();
            stmt = con.createStatement();
            rs = stmt.executeQuery("select gender,age_range,count(*) num from user_log group by gender,age_range desc");
            while(rs.next()){
                String[] temp={rs.getString("gender"),rs.getString("age_range"),rs.getString("num")};
                list.add(temp);
            }
            endConn();
            return list;
        }
        //获取销量前五的商品类别
        public static ArrayList index_3() throws SQLException{
            ArrayList list = new ArrayList();
            startConn();
            stmt = con.createStatement();
            rs = stmt.executeQuery("select cat_id,count(*) num from user_log group by cat_id order by count(*) desc limit 5");
            while(rs.next()){
                String[] temp={rs.getString("cat_id"),rs.getString("num")};
                list.add(temp);
            }
            endConn();
            return list;
        }
    //各个省份的总成交量对比
    public static ArrayList index_4() throws SQLException{
        ArrayList list = new ArrayList();
        startConn();
        stmt = con.createStatement();
        rs = stmt.executeQuery("select province,count(*) num from user_log group by province order by count(*) desc");
        while(rs.next()){
            String[] temp={rs.getString("province"),rs.getString("num")};
            list.add(temp);
        }
        endConn();
        return list;
    }
}

前端代码解析

前端页面想要获取服务端的数据，还需要导入相关的包，例如：/WebContent/index.jsp部分代码如下：

<%@ page language="java" import="dbtaobao.connDb,java.util.*" contentType="text/html; charset=UTF-8"
    pageEncoding="UTF-8"%>
<%
ArrayList list = connDb.index();
%>

前端JSP页面使用ECharts来展现可视化。每个JSP页面都需要导入相关ECharts.js文件，如需要中国地图的可视化，还需要另外导入china.js文件。
那么如何使用ECharts的可视化逻辑代码，我们在每个jsp的底部编写可视化逻辑代码。这里展示index.jsp中可视化逻辑代码:

ECharts包含各种各样的可视化图形，每种图形的逻辑代码，请参考ECharts官方示例代码,请读者自己参考index.jsp中的代码，再根据ECharts官方示例代码，自行完成其他可视化比较。

页面效果

注意：由于ECharts更新，提供下载的中国矢量地图数据来自第三方，由于部分数据不符合国家《测绘法》规定，目前暂时停止下载服务。
最终，我自己使用饼图，散点图，柱状图，地图等完成了如下效果，读者如果觉得有更适合的可视化图形，也可以自己另行修改。
最后展示所有页面的效果图：

你可能感兴趣的:(大数据,数据库,java)

Form表单的三种提交和http请求的三种传参方式，以及Servlet里的取取参方式哥谭居民0001 http servlet 网络协议
多表单多用于文件上传，因为toacat的实现机制，涉及到了将参数数据临时存储到磁盘上，取的时候只能取字节流get和post虽然在http请求里带参的位置不同但是javaSE里对于HttpServletRequest这个对象定义，这两种传参的取参方式相同假设有一个表单，用户输入了用户名kimi和年龄25，提交GET请求后，URL会变成：http://example.com/FormSubmitSer
JAVA————十五万字汇总 MeyrlNotFound java 开发语言
JAVA语言概述JAVA语句结构JAVA面向对象程序设计（一）JAVA面向对象程序设计（二）JAVA面向对象程序设计（三）工具类的实现JAVA面向对象程序设计（四）录入异常处理JAVA图形用户界面设计JAVA系统主界面设计JAVA图形绘制JAVA电子相册JAVA数据库技术（一）JAVA数据库技术（二）JAVA数据库技术（三）拓展：JAVA导入/导出——输入/输出JAVA网络通信JAVA多线程编程技
解锁区块链智能合约的未来：构建支持仿真测试的MySQL环境墨夶数据库学习资料1 区块链智能合约 mysql
在区块链技术快速发展的今天，智能合约作为其核心组件之一，正在改变我们处理交易、管理资产乃至构建商业逻辑的方式。然而，对于许多开发者而言，在正式部署之前如何有效地测试和验证智能合约的行为仍然是一个不小的挑战。本文将详细介绍如何设计并实现一个基于MySQL的支持智能合约仿真执行的环境，使您能够在传统的关系型数据库中体验到智能合约的强大功能。一、为什么选择MySQL？尽管以太坊等平台提供了专门用于编写和
解锁区块链智能合约版本管理的新纪元——MySQL架构下的革新之道墨夶数据库学习资料1 区块链智能合约 mysql
在区块链技术蓬勃发展的今天，智能合约作为去中心化应用（DApps）的核心组件，其版本管理和升级机制的重要性日益凸显。然而，传统的智能合约一旦部署便难以更改的特性给开发者带来了不小的挑战。面对这一难题，如何构建一个既能够保障数据安全又便于维护和更新的智能合约管理系统成为了业界关注的焦点。本文将深入探讨基于MySQL数据库设计支持智能合约版本控制的解决方案，旨在为读者提供一套完整的、易于实施的技术框架
在虚拟机上安装Hadoop 杜清卿 hadoop
基本步骤与安装java一致:先用finalshell将hadoop-3.1.3.tar.gz导入到opt目录下面的software文件夹下面，然后解压,最后配置环境变量。1.使用finalshell上传。这里直接鼠标拖动操作即可。2.解压。进入到Hadoop安装包路径下，cd/opt/software/，再解压安装文件到/opt/module下，对应的命令是:tar-zxvfhadoop-.1.3
使用 Resilience4j 实现重试树懒_Zz Spring spring cloud spring boot spring
在本文中，我们将首先简要介绍Resilience4j，然后深入研究其重试模块。我们将了解何时以及如何使用它，以及它提供哪些功能.什么是Resilience4j？应用程序通过网络通信时，许多事情都可能出错。由于连接中断、网络故障、上游服务不可用等原因，操作可能会超时或失败。应用程序可能会相互过载、无响应，甚至崩溃。Resilience4j是一个Java库，可帮助我们构建具有弹性和容错能力的应用程序。
Tomcat从入门到精通：全方位深度解析与实战教程墨瑾轩一起学学Java【一】运维 tomcat java
一、Tomcat入门1.Tomcat简介ApacheTomcat，简称Tomcat，是一个开源的轻量级应用服务器，专为运行JavaServlet和JavaServerPages(JSP)技术设计。它是JavaWeb开发中最常用的Servlet容器之一，遵循JavaServlet和JavaServerPages规范，为开发者提供了一个稳定的、易于使用的部署环境。2.安装与启动安装下载最新版Tomca
Apache Tomcat 远程代码执行漏洞复现(CVE-2025-24813)（附脚本） iSee857 漏洞复现 apache tomcat java web安全安全
免责申明：本文所描述的漏洞及其复现步骤仅供网络安全研究与教育目的使用。任何人不得将本文提供的信息用于非法目的或未经授权的系统测试。作者不对任何由于使用本文信息而导致的直接或间接损害承担责任。如涉及侵权，请及时与我们联系，我们将尽快处理并删除相关内容。0x01产品描述：ApacheTomcat是一个开源的JavaServlet容器和Web服务器，支持运行JavaServlet、JavaServerP
Spring Boot 外部化配置 (Externalized Configuration) 超详解：灵活管理应用配置，打造可移植、可扩展的应用无眠_ spring boot 数据库 oracle
引言在SpringBoot应用开发中，配置管理是至关重要的环节。不同的环境(开发、测试、生产)通常需要不同的配置参数，例如数据库连接、端口号、日志级别、第三方API密钥等等。SpringBoot外部化配置(ExternalizedConfiguration)提供了一套强大的机制，允许我们将应用的配置从代码中解耦出来，并通过多种外部来源进行灵活管理，从而打造出可移植、可扩展、易于维护的SpringB
Java-校验值区间值的连续性江节胜-胜行全栈AI java 状态模式开发语言
最新版本更新https://code.jiangjiesheng.cn/article/363?from=csdnc＜30，30≤c＜60，60≤c＜100，100≤c有值时，必须收尾相等。BigDecimalendCheckValue=null;for(BssCompareMethodParameterConfigAddVOconfigRow:actualSampleCompareList){e
JAVA集合arraylist存取数据_ArrayList集合月小烟
集合出现的原因数组存储数据是固定存储,当遇到要存储数据的个数不确定的时候数组就不满足了,集合就出现了集合存储数据的个数,可以随着数据量的变化而变化,不会造成越界或者大量的空间浪费存储数据的个数是可变的ArrayList:java.util包下底层维护了一个数组线程不同步(处理速度快)创建ArrayList对象的格式:ArrayList集合名字=newArrayList();:泛型,代表了集合中要存
《Java线程池深度解析：从核心参数到饱和策略实战》云之兕 java基础入门到精通 java 开发语言
"线程池核心数设置多少合适？为什么任务队列满了会导致OOM？如何设计可降级的异步任务系统？"本文通过电商秒杀场景贯穿线程池参数调优全过程，结合ThreadPoolExecutor源码解析核心机制，并给出动态线程池与监控报警的最佳实践。一、线程池核心参数关系图解graphLRA[提交任务]-->B{核心线程是否已满?}B-->|否|C[创建核心线程执行]B-->|是|D{队列是否已满?}D-->|否
【JavaScript】11-JS高阶技巧 beibeibeiooo JavaScript【已完结】javascript 前端 ecmascript es6
本文介绍JS中的一些高阶技巧。目录1.深浅拷贝1.1浅拷贝1.2深拷贝1.2.1通过递归实现1.2.2lodash/cloneDeep1.2.3JSON.stringify()2.异常处理2.1throw抛异常2.2try/catch捕获异常2.3debugger3.处理this3.1this指向3.1.1普通函数this3.1.2箭头函数的this3.2改变this3.2.1call方法改变3.
本地部署deepseek-r1:14b 批量调用 Python调用本地deepseek-r1:14b实现对本地数据库的AI管理朴拙Python交易猿 python 数据库开发语言
这篇文章主要为大家详细介绍了Python如何基于DeepSeek模型，调用本地deepseek-r1:14b实现对本地数据库的AI管理场景描述基于DeepSeek模型，实现对本地数据库的AI管理。实现思路1、本地python+flask搭建个WEB，配置数据源。2、通过DeepSeek模型根据用户输入的文字需求，自动生成SQL语句。3、通过SQL执行按钮，实现对数据库的增删改查。模型服务方法1启动
java面向对象基础 miehamiha java 开发语言
引入三大特征封装核心思想就是“隐藏细节”、“数据安全”，将对象不需要让外界访问的成员变量和方法私有化，只提供符合开发者意愿的公有方法来访问这些数据和逻辑，保证了数据的安全和程序的稳定。所有的内容对外部不可见。继承子类可以继承父类的属性和方法，并对其进行拓展。将其他的功能继承下来继续发展。多态同一种类型的对象执行同一个方法时可以表现出不同的行为特征。通过继承的上下转型、接口的回调以及方法的重写和重载
如何用PHP开发一个api数据接口幽蓝计划 php
对于一个iOS开发者来说，我一直觉得会写接口是一件很酷的事情，因为它可以实时修改前台数据，而不像App一样需要更新版本和接受审核。更重要的是，它意味着你的技术完成了一个闭环，可以独自完成一整个项目的开发。PHP是我接触的第一个脚本语言，使用之后更是感觉PHP功能强大，开发过程非常友好方便，虽然之后也学习过Python、JavaScript等语言，但现在还是习惯使用PHP，下面就来介绍一下如何用PH
探索Astra DB与LangChain的集成：从向量存储到对话历史 eahba 数据库 langchain python
技术背景介绍AstraDB是DataStax推出的一款无服务器的向量数据库，基于ApacheCassandra®构建，并通过易于使用的JSONAPI提供服务。AstraDB的独特之处在于其强大的向量存储能力，这在处理自然语言处理任务时尤为突出。LangChain与AstraDB的集成为开发者提供了强大的工具链，从数据存储到语义缓存，再到自查询检索，帮助简化复杂的数据操作。核心原理解析LangCha
Java 环境配置与 JAR 文件问题解决全攻略不羁。。杂记丨每天亿点小知识 java jar 开发语言
目录一、Java环境配置指南1.Windows系统配置步骤1.1下载安装JDK1.2配置环境变量2.Linux/macOS系统配置2.1终端命令配置二、JAR文件问题诊断与修复1.检查JAR文件完整性1.1命令行验证1.2哈希值校验2.依赖库管理方案2.1Maven依赖配置示例2.2命令行指定依赖三、常见问题解决方案1.环境变量不生效处理1.1清除系统缓存1.2路径优先级调整2.旧版本残留处理2.
COMP 315: Cloud Computing for E-Commerce 后端
Assignment1:JavascriptCOMP315:CloudComputingforE-CommerceFebruary20251IntroductionAcommontaskwhenbackendprogrammingisdatacleaning,whichistheprocessoftakinganinitialdatasetthatmaycontainerroneousorinco
MDC-Mapped Diagnostic Context（映射诊断上下文） NEUMaple 微服务 spring boot java MDC
MDC，全称为MappedDiagnosticContext（映射诊断上下文），是SLF4J（SimpleLoggingFacadeforJava）提供的一种机制，用于在多线程应用中存储和管理与特定线程相关的上下文信息。这种机制特别适用于需要跨多个方法调用或服务边界传递诊断信息的场景，例如跟踪分布式系统中的请求流。MDC的主要用途日志关联：在分布式系统或多线程应用中，MDC可以用来携带一些上下文信
硅谷企业的大数据平台架构什么样？看看Twitter、Airbnb、Uber的实践大数据v 分布式数据库大数据编程语言 hadoop
导读：本文分析一下典型硅谷互联网企业的大数据平台架构。作者：彭锋宋文欣孙浩峰来源：大数据DT（ID：hzdashuju）01Twitter的大数据平台架构Twitter是最早一批推进数字化运营的硅谷企业之一，其公司运营和产品迭代的很多功能是由其底层的大数据平台提供的。图7-2所示为Twitter大数据平台的基本示意图。▲图7-2Twitter大数据平台架构Twitter的大数据平台开发比较早，很多
Java：Apache HttpClient中HttpRoute用法的介绍 netyeaxi Java java apache 开发语言
当使用ApacheHttpClient组件时，经常会用到它的连接池组件。典型的代码如下：PoolingHttpClientConnectionManagerconnectionManager=newPoolingHttpClientConnectionManager();connectionManager.setMaxTotal(httpConfig.getMaxPoolTotal());conn
挑战20天学完JavaSE第四天——方法的定义、调用和方法重载呆呆why care 挑战20天学完javaSE java 笔记改行学it 程序人生
Java方法是语句的集合，它们在一起执行一个功能。方法是解决一类问题的步骤的有序组合。方法包含于类或对象中。方法在程序中被创建，在其他地方被引用。设计方法的原则:方法的本意是功能块，就是实现某个功能的语句块的集合。我们设计方法的时候，最好保持方法的原子性，就是一个方法只完成1个功能，这样利于我们后期的扩展。方法的命名规则：首字母小写驼峰命名方法的定义Java的方法类似于其它语言的函数，是一段用来完
java struts jxl 导入导出Excel（无模板） weixin_30437847 java 数据库 javascript ViewUI
jar包：importjavax.servlet.http.HttpServletResponse;importjava.io.OutputStream;importjava.io.File;importjxl.DateCell;importjxl.Sheet;importjxl.Workbook;importjxl.format.Alignment;importjxl.format.Border
ZooKeeper集群高可用性测试与实践：从规划到故障模拟磐基Stack专业服务团队 Zookeeper zookeeper 可用性测试
#作者：任少近文章目录ZooKeeper集群环境规划1.集群数据一致性测试2.集群节点故障测试ZooKeeper集群高可用性测试的主要目的是确保在分布式环境中，ZooKeeper服务能够持续提供一致性和高可用性的协调服务。ZooKeeper集群环境规划节点ipZooKeeper版本java版本对外端口集群通信端口集群选举端口192.168.x.xZooKeeper-3.6.11.8.0_33221
每日一题--内存池秋凉づᐇ java 开发语言
内存池（MemoryPool）是一种高效的内存管理技术，通过预先分配并自主管理内存块，减少频繁申请/释放内存的系统开销，提升程序性能。它是高性能编程（如游戏引擎、数据库、网络服务器）中的核心优化手段。内存池的核心原理预先分配：初始化时一次性申请一大块内存（称为“池”），避免程序运行时频繁调用malloc/new。自主管理：将大块内存划分为多个固定或可变大小的内存单元，由程序自行分配和回收。复用机制
【PTA-数据库】《数据库原理与应用B》第二章选择题 .Phoenix. 《数据库原理与应用B》第二章数据库
1.关系模型的数据结构非常简单，只包含单一的数据结构——____C____。A.元组B.属性C.关系D.分量2____A____是一组具有相同数据类型的值的集合。A.域B.属性C.分量D.元组3.一个域允许的不同取值个数称为这个域的___D_____。A.分量B.目C.度D.基数4.若D1域的基数为2，D2域的基数为3，D3域的基数为4，则D1、D2、D3的笛卡尔积的基数为___C_____。A.
Java File 类与文件操作代码先锋者 java开发 java 开发语言
一、引言在Java编程中，文件操作是一项非常常见且重要的任务。无论是读取配置文件、保存用户数据，还是进行日志记录，都离不开对文件的操作。Java提供了File类来表示文件和目录的抽象路径名，通过该类可以对文件和目录进行创建、删除、重命名等操作。同时，Java还提供了一系列的输入输出流类，用于对文件内容进行读写操作。本文将详细介绍Java中File类的使用以及相关的文件操作案例。二、File类概述2
Java 基础数据类型代码先锋者 java开发 java 开发语言
一、引言在Java中每个变量都必须先声明其数据类型，才能使用（即Java是强类型语言）。Java的数据类型分为两大类：基本数据类型（PrimitiveDataTypes）和引用数据类型（ReferenceDataTypes）。二、基本数据类型分类Java有8种基本数据类型（如下图所示），可分为四大类（整数型，浮点型，字符型和布尔型）：8大基本数据类型具体位数、取值范围和默认值等如下表所示：数据类型
【大模型系列】SFT（Supervised Fine-Tuning，监督微调） Kwan的解忧杂货铺@新空间代码工作室 s2 AIGC 大模型
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin