zhikanjiani

零基础班第十八课 - Hive项目实战

第一章：上次课回顾

第二章：离线处理过程中的大数据处理

2.1 MySQL数据准备
2.2 Hive数据准备
2.3 从sqoop导数据到Hive中去

第三章：开始进行需求分析

第一步获取商品基本信息
第二步：统计各区域下各个商品的访问次数
第三步：获取完整的商品信息的各区域的访问次数（根据product_id关联产品名称）
第四步：拿到每一个区域下最受欢迎的Top3
第五步：统计结果输出到Sqoop

第四章：shell脚本的方式来执行

第五章：本次课程作业

本次课程所需环境CentOS6.X，各位有需要购买云服务器的可以通过我的链接：点击进行购买，享9折优惠！

阿里云9折优惠券，点击领取

第一章：上次课回顾

零基础班第十七课 - hive进阶：
https://blog.csdn.net/zhikanjiani/article/details/89416079

回顾：
1、上次课主要讲了建表语句中更为复杂的函数：array_type、map_type、struct_type；
2、除了直接启动Hive以外，还提供了Hiveserver2+beeline的方式连接Hive、或者Java\Scala\Python通过JDBC的方式连接；
3、每一个分区都是HDFS上的一个目录，这个目录要和元数据对应上；如果对接不上，在Hive中是查询不到数据的；分区还分为静态分区（包括单级分区、多级分区）、多级分区，工作中动态分区用的多（分区的key不用写值，只需要把这个字段和select后的最后一个字段对应上即可），把hive的模式设置为非严格模式。

第二章：离线过程中的数据处理

大数据处理：离线、实时

有一个输入路径：（HDFS、MySQL） --> 进行分布式处理（MapReduce、Hive、Spark、Flink），处理完的结果输出.
数据只要能存储的地方，都有可能是输入路径

需求：统计各个城市下最受欢迎的TopN产品

分析：每个城市肯定需要分组，limit10

第一步：

数据源：理解为电商的数据，这里拿京东举例：网址如下：https://shop.m.jd.com/?shopId=644124，右键检查 --> 选择network，再重新加载网页，找到log.gif开头的网页，复制request URL：

log.gif中的request URL如下所示，这个就是前端的埋点：

https://hermes.jd.com/log.gif?t=wg_wx.000000&m=MO_J2011-2&pin=-&sid=68301390651298093%7C1&v=ptag%3D%24vurl%3Dhttps%3A%2F%2Fwq.jd.com%2Fmshop%2Fhomeindex%3FshopId%3D644124%24videos%3D0%24version%3D5%24source%3D2%24vender_id%3D647786%24rvurl%3Dhttps%253A%252F%252Fwq.jd.com%252Fmshop%252Fhomeindex%253FshopId%253D644124%24load_sec%3D976%24cookie_ptag%3D%24title%3DClarks%E5%A5%B3%E9%9E%8B%E6%97%97%E8%88%B0%E5%BA%97%24visit_tm_ms%3D1568596338062%24_dy_%3D1800%24logid%3D1568596338048.545348768%24wq_unionid%3D%24uuid%3D2049568717%24jd_uuid%3D2049568717%24chan_type%3D7%24net_type%3D99%24pinid%3D%24wid%3D%24openid%3D%24screen%3D1536x864%24color%3D24-bit%24os%3Dother%2F%24browser%3DChrome%2F65.0.3325.181%24device_type%3Dother%24fst%3D1568595723525%24pst%3D1568595723525%24vct%3D1568595723525%24visit_times%3D3%24jdv%3D76161171%7Cbaidu-pinzhuan%7Ct_288551095_baidupinzhuan%7Ccpc%7C0f3d30c8dba7459bb52f2eb5eba8ac7d_0_e47488eca4a24f879d30ebe858538104%7C1568595704633%24unpl%3DV2_ZzNtbRZSRRB8ARIGKxwMBmJUG1tKAkEUIVsSXX8QWAduAxNYclRCFX0UR1xnGVsUZgsZXEJcRhFFCEdkeBBVAWMDE1VGZxBFLV0CFSNGF1wjU00zQwBBQHcJFF0uSgwDYgcaDhFTQEJ2XBVQL0oMDDdRFAhyZ0AVRQhHZHgYWQ1jBBtbQlFzJXI4dmR8HlUFZgQiXHJWc1chVEVUfRpeAioAE1hKU0QccwhAZHopXw%3D%3D%24clientid%3D%24wxapp_type%3D%24appkey%3D%24wxapp_uuid%3D%24user_type_gx%3D%24pin_status%3D%24wq_uits%3D%24usc%3Dbaidu-pinzhuan%24ucp%3Dt_288551095_baidupinzhuan%24umd%3Dcpc%24uct%3D0f3d30c8dba7459bb52f2eb5eba8ac7d_0_e47488eca4a24f879d30ebe858538104%24mba_finger%3Dv001eyJhIjpudWxsLCJiIjoiNTg3MGI2YzctNTdlYy1iZjRhLTNmNzctZmIzYmE3ODUxMmI4LTE1Njg1OTU3MDUiLCJjIjoiaUx3d0hqWXpmdjVEdmFLclV5IENDSUE9PSIsImQiOiJXaW4zMiIsImYiOjgsImciOjAsImgiOiJjYW52YXMgd2luZGluZzp5ZXN%2BY2FudmFzIGZwOjRlYTIzZWY3YzYyNWMxYjBhM2VkODA3ZTdjZTNkNjIyIiwiaSI6MjIsImoiOiIyMDE5LTA5LTE2IDA5OjEyOjE4IiwiayI6IjhmM2NhNWY1ZjA4OGVlYjcxNjI2Y2RmNjdkMTM4OGFhIiwibCI6Ik1vemlsbGEvNS4wIChXaW5kb3dzIE5UIDEwLjA7IFdpbjY0OyB4NjQpIEFwcGxlV2ViS2l0LzUzNy4zNiAoS0hUTUwsIGxpa2UgR2Vja28pIENocm9tZS82NS4wLjMzMjUuMTgxIFNhZmFyaS81MzcuMzYiLCJtIjoiIiwibiI6IkNocm9tZSBQREYgUGx1Z2luO0Nocm9tZSBQREYgVmlld2VyO05hdGl2ZSBDbGllbnQ7V2lkZXZpbmUgQ29udGVudCBEZWNyeXB0aW9uIE1vZHVsZTsiLCJvIjo0LCJwIjotNDgwLCJxIjoiQXNpYS9TaGFuZ2hhaSIsInIiOmZhbHNlLCJzIjpmYWxzZSwidCI6ZmFsc2UsInUiOmZhbHNlLCJ2IjoiMTUzNjs4NjQifQ%3D%3D&url=https%3A%2F%2Fshop.m.jd.com%2F%3FshopId%3D644124&ref=https%3A%2F%2Fchannel.jd.com%2Fmensshoes.html&rm=1568596338105

使用Urldecode解码器：进行解码

可以在解码中获取如下信息：

1、访问的品类

2、ref，访问的来源渠道：
==> 可以去求转化率

https://shop.m.jd.com/?shopId=644124&ref=https://channel.jd.com/mensshoes.html&rm=1568596338105

3、os = 0，当前访问网页的操作系统

我们要从日志里面去找到对应商品以及对应地址的信息

日志信息是存放在hdfs上的，城市信息在日志中是没有的，日志中只有的是城市的id，我们要求的是区域，比如：上海属于华东

区域信息是存放在MySQL中的，城市id是满足不了我们的需求；

MySQL：
1、存放城市区域对应信息
2、存放产品信息
Hive
1、用户点击行为日志

2.1 MySQL数据准备

首先city_info和product_info是存储在ruoze_g6数据库下面的。

第一份数据city_info数据：

1、在ruoze_g6数据库下新建city_info表，SQL如下：

CREATE TABLE city_info (
  city_id int(11) DEFAULT NULL,
  city_name varchar(255) DEFAULT NULL,
  area varchar(255) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

2、把数据insert进city_info表：

insert into city_info (city_id,city_name,area) values
(1,'BEIJING','NC'),(2,'SHANGHAI','EC'),(3,'NANJING','EC'),(4,'GUANGZHOU','SC'),(5,'SANYA','SC'),(6,'WUHAN','CC'),(7,'CHANGSHA','CC'),(8,'XIAN','NW'),(9,'CHENGDU','SW'),(10,'HAERBIN','NE');

3、检验数据是否被加载进去了

select * from city_info

第二份数据product_info：

1、创建表：

CREATE TABLE product_info (
  product_id int(11) DEFAULT NULL,
  product_name varchar(255) DEFAULT NULL,
  extend_info varchar(255) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

2、此处选择的是dbeaver连接MySQL

使用准备好的数据，alt + x，直接批量插入数据库中

2.2 Hive数据准备

第一张表：本来就在Hive中加载好的

用户id，session_id，访问日志时间，城市id，产品id

1、创建表user_click：

create table user_click (
user_id int,
session_id string,
action_time string,
city_id int,
product_id int
) partitioned by (day string)
row format delimited fields terminated by ',';

2、把数据加载至user_click表：

hive (ruozeg6)> load data local inpath '/home/hadoop/data/topN/user_click.txt' overwrite into table user_click partition(day='2019-09-16');
Loading data to table ruozeg6.user_click partition (day=2019-09-16)
Partition ruozeg6.user_click{day=2019-09-16} stats: [numFiles=1, numRows=0, totalSize=725264, rawDataSize=0]
OK
Time taken: 1.962 seconds

3、测试查询数据：

select * from user_click where day = ‘2019-09-16’ limit 10;

需要Hive中创建好表结构（product_info）

1.1、创建product_info表：

create table product_info (
product_id int,
product_name string,
extend_info string
) row format delimited fields terminated by "\t";

在Hive中创建好表结构（city_info）

1.2、创建city_info表：

create table city_info (
city_id int,
city_name string,
area string
) row format delimited fields terminated by "\t";

2.2 Sqoop导数据到Hive中去

sqoop import \
--connect jdbc:mysql://localhost:3306/ruoze_g6 \
--username root --password root \
--delete-target-dir \
--table city_info \

Hive arguments:

--hive-import \
--hive-table city_info \
--hive-overwrite \
--fields-terminated-by '\t' \
--lines-terminated-by '\n'

上述语句放到命令行中执行是失败的，报错信息如下：Error during import： No primary key could be found for table city_info. Please specify one with --split-by or perform a sequential import.

为什么需要使用–split -by来指定主键?

在Sqoop中，默认的mapper数量是4，假设一个表中主键是id，有40条记录，那么就是每个mapper处理10条数据；4个mapper来并行，那就是一个mapper运行10条记录。

前提：
1、有主键的情况下，sqoop以主键作为数据的分片，指定以id作主键。

此处我们以city_id作为主键，那我们如何指定mapper的数量？

使用如下命令将MySQL的数据转到Hive中

sqoop import \
--connect jdbc:mysql://localhost:3306/ruoze_g6 \
--username root --password 960210 \
--delete-target-dir \
--table city_info \
--hive-import \
--hive-table city_info \
--hive-overwrite \
--fields-terminated-by '\t' \
--lines-terminated-by '\n' \
--split-by city_id \
-m 2

运行后报错，报错信息如下所示（缺少java-json.jar包）：

1、可以直接到这个网站上去下载：
http://www.java2s.com/Code/Jar/j/Downloadjavajsonjar.htm

2、云盘上的链接：
链接：https://pan.baidu.com/s/1Cbmu4KVJCuRT3ag1Oj7YWQ 
提取码：e85y 
复制这段内容后打开百度网盘手机App，操作更方便哦

3、上传这个jar包到$SQOOP_HOME/lib目录下即可。

jar包上传完后重新使用这个命令，等待MapReduce作业跑完后去到Hive中查看是否有数据？

sleect * from city_info

注意：

--split-by city_id \
-m 2

这个地方指定的主键是让它到关系型数据库中去，根据这个键作为分片原则；如果这个键没有，它不知道以哪个作为分片，如果有的话，就以city_id作为分片。

hdfs上去验证：

1、指定了map是2，所以输出是2个文件；如果不指定map，那么它的输出就是4

hdfs dfs -ls /user/hive/warehouse/city_info

大数据中Hive是没有主键的，像Hbase中的row、key相当于是主键。

sqoop import \
--connect jdbc:mysql://localhost:3306/ruoze_g6 \
--username root --password 960210 \
--delete-target-dir \
--table product_info \
--hive-import \
--hive-table product_info \
--hive-overwrite \
--fields-terminated-by '\t' \
--lines-terminated-by '\n' \
--split-by product_id \
-m 2

第三章：开始进行需求分析

此时Hive中已经有三张表了，各个表之间的join操作：
select * from city_info where day=‘2019-05-05’ limit 10;
select * from user_click where day=‘2019-05-05’ limit 10;

需求一：每个区域取top3

在我们的用户点击表中，日志中只有城市编号和产品编号，需要根据id，把数据join出来。

华东 product1 30
华东 product2 20
华东 product3 10

第一步：获得商品的基本信息

SQL解析：

两张表中有不同信息，但是两张表有一列city_id是相同的，所以使用user_click表和city_info表进行join操作，条件是u.city_id = c.city_id.
as c：给这个表取一个别名

select u.product_id,u.city_id,c.city_name,c.area
from
(select product_id,city_id from user_click where day = '20190919') as u
join
(select city_id,city_name,area from city_info) as c
on u.city_id = c.city_id
limit 10;

输出结果：（产品id，城市id，城市名称，城市区域）

p_id	c_id		city_name	city_area
72      1       beijing1        NC
68      1       beijing1        NC
40      1       beijing1        NC
21      1       beijing1        NC
63      1       beijing1        NC
60      1       beijing1        NC
30      1       beijing1        NC
96      1       beijing1        NC
71      1       beijing1        NC
8       1       beijing1        NC

1.1、创建临时表(tmp_product_click_basic_info)

（产品点击的基本信息表），接下来的所有操作都要基于临时表来完成：

create table tmp_product_click_basic_info
as
select u.product_id,u.city_id,c.city_name,c.area
from
(select product_id,city_id from user_click where day = '2019-09-19') as u
join
(select city_id,city_name,area from city_info) as c
on u.city_id = c.city_id
limit 10;

第二步：统计各区域下各个商品的访问次数：

基于临时表进行访问：

select
product_id,area,count(1) click_count
from
tmp_product_click_basic_info
group by
product_id,area
limit 10;

2.1、再创建一个临时表（各区域下商品点击的临时表）：

create table tmp_area_product_click_count
as
select
product_id,area,count(1) click_count
from
tmp_product_click_basic_info
group by
product_id,area;

问题：

产品0是什么东西？

第三步：获取完整的商品信息的各区域的访问次数（根据product_id关联产品名称）

SQL解析：

区域下商品点击的临时表取别名为a，原始表取别名为b；join操作是a表的product_id关联b表的product_id.
其实就是在上面的基础上加了一个product_name.

select 
a.product_id,b.product_name,a.area,a.click_count
from 
tmp_area_product_click_count as a join product product_info as b
on a.product_id = b.product_id
limit 10；

3.1、继续创建临时表（tmp_area_product_click_count_full_info）

create table tmp_area_product_click_count_full_info
as
select 
a.product_id,b.product_name,a.area,a.click_count
from 
tmp_area_product_click_count as a join product product_info as b
on a.product_id = b.product_id;

分析：

此时的结果已经非常接近我们要的结果了。
为什么此时的结果没有0了，而第二步的时候还是有0的，因为我们的产品数据中压根就没有0；内连接的原因；产品0是一个脏数据的概念。
现在统计的是每一个产品在每一个地方出现的次数

第四步：拿到每一个区域下最受欢迎的Top3

引出概念：窗口函数

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+WindowingAndAnalytics

select * from (
select
product_id,product_name,area,click_count，
row_number() over(partition by area order by click_count desc) rank
from
tmp_area_product_click_count_full_info ) t where t.rank <=3;

row_number会根据区域进行分组，分组以后在区域内部以点击次数的一个降序进行排列，最终只要知道区域<=3就行了。

统计结果写到Hive表中去：

create table area_product_click_count_top3
select * 
from  (
select product_id,product_name,area,click_count,
row_number() over(partition by area order by click_count desc) rank
from
tmp_area_product_click_count_full_info ) t where t.rank <=3;

第五步：统计结果输出到Sqoop

现在我们的结果已经计算出来了，我们要把数据存储到MySQL表中，最后会呈现在网页上。

在生产中，以脚本的方式来执行：

第四章：以shell脚本的方式来执行

在脚本中，使用Linux脚本来获取到时间
在离线处理中：今天凌晨来执行昨天的数据，当前时间减去一天就是昨天的时间。
脚本写好后，crontable启动一个定时任务就行

4.1 扩展

有个问题，就是会生成tmp表，在shell脚本中写在执行之前删除表就行了。
留下tmp表的意义就是检查昨天的数据是否准确，历史数据的验证。

到现在为止，整个的流程跑完了，对基础班不做要求，注意user_click.txt数据；
进来的日志是非常繁琐的，需要经过ETL清洗；一条日志有100、200个字段，现在的作法是使用Hive关联上去（采用行存储）

举例：
行存储：
100个字段
select a,b,c from XXX //全量数据查询，IO是一个大问题
要改为列存储

小结：

在数据仓库中，能使用列存储就尽量使用列存储；MySQL的数据导入到Hive中也建议使用列存储。
因为真实产品有很多很多的信息，类别比较多

reducer数量控制的好与坏也决定了落到hdfs上小文件的个数。

问题：

group by数据量大会产生数据倾斜

第五章：本次课程作业

作业1：使用Sqoop export存储数据到MySQL中

product_id product_name area click_count rank 在Hive中是以时间day为分区，MySQL中要添加个字段day.

Hive面试题御风行云天面试题大全 hive hadoop 数据仓库面试
Hive面试题1Hive基础概念1.1解释Hive是什么以及它的用途Hive的主要用途：1.2描述Hive架构和组件1.HiveCLI/Beeline和WebUI2.HiveQL3.HiveDriver（驱动）4.Metastore5.Compiler（编译器）6.Optimizer（优化器）7.Executor（执行器）8.HadoopCoreComponents（核心组件）9.HiveUDFs
2025年零基础入门学网络安全（详细），看这篇就够了网安大师兄 web安全安全网络网络安全密码学
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包一、自学网络安全学习的误区和陷阱1.不要试图先成为一名程序员（以编程为基础的学习）再开始学习我在之前的回答中，我都一再强调不要以编程为基础再开始学习网络安全，一般来说，学习编程不但学习周期长，而且实际向安全过渡后可用到的关键知识并不多一般人如果想要把编程学好再开始学习网络安全往往需要花费很长时间，容易半途而废。而且学习编程只是工具不是
30岁了，零基础想转行网安从头开始现实吗？白帽子凯哥哥 tcp/ip 安全 web安全学习网络
这篇文章没有什么套路。就是一套自学理论和方向，具体的需要配合网络黑白去学习。毕竟是有网络才会有黑白！有自学也有培训！1.打死也不要相信什么分分钟钟教你成为大黑阔的，各种包教包会的教程,就算打不死也不要去购买那些所谓的盗号软件之类的东西。2，我之前让你们在没有目的的时候学习linux,在学习LINUX的同时你第一个遇到的问题就是命令。作为一个黑客入门着来说你必须要懂什么是命令化系统,什么是图形化系统
Hive 实际应用场景及对应SQL示例小技工丨大数据随笔 hive sql hadoop 大数据数据仓库
Hive实际应用场景及对应SQL示例一、‌日志分析场景‌**场景说明‌：**处理大规模日志数据（如Web访问日志），分析用户行为或系统运行状态。SQL示例‌：--统计每日UV（用户访问量）SELECTdate,COUNT(DISTINCTuser_id)ASdaily_uvFROMweb_logsWHEREevent_type='page_view'GROUPBYdate;技术要点‌：使用DIST
#Hadoop全分布式安装 #mysql安装 #hive安装砸吧砸吧 hadoop hive yarn mysql
分布式（多台机器部署不同组件）与集群（多台机器部署相同组件）概念。Linux基础命令linux具有文件数：目录、文件，从根目录开始，路径具有唯一性。pwd：显示当前路径特殊符号：/：根目录.：隐藏文件，如果路径以.开始，表示当前目录下..：当前目录下的上一级~：当前目录的home目录--help：帮助命令使用linux常用操作命令tab键：自动补全ls：显示指定目录内容默认：当前路径-a：显示所有
【Android 】零基础到飞升 | Git之使用GitHub搭建远程仓库 A little strawberry git java github python 编程语言
1.5.2Git之使用GitHub搭建远程仓库本节引言：在上一节中，我们学习了如何使用Git，构建我们的本地仓库，轻松的实现了版本控制以及代码还原，修改日志查看等；读者肯定不满足与本地是吧，假如是多个人一起来开发一个程序呢？我们需要一个作为服务器的远程仓库！当然搭建一个服务器是需要成本的，为什么不把项目托管到Github上呢？作为开源代码库以及版本控制系统，Github拥有140多万开发者用户。随
hive 使用oracle数据库 sardtass hadoop hive 开源项目
hive使用oracle作为数据源，导入数据使用sqoop或kettle或自己写代码（淘宝的开源项目中有一个xdata就是淘宝自己写的）。感觉sqoop比kettle快多了，淘宝的xdata没用过。hive默认使用derby作为存储表信息的数据库，默认在哪启动就在哪建一个metadata_db文件放数据，可以在conf下的hive-site.xml中配置为一个固定的位置，这样不论在哪启动都可以了。
人工智能之数学基础：矩阵的范数每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能矩阵算法线性代数范数
本文重点在前面课程中，我们学习了向量的范数，在矩阵中也有范数，本文来学习一下。矩阵的范数对于分析线性映射函数的特性有重要的作用。矩阵范数的本质矩阵范数是一种映射，它将一个矩阵映射到一个非负实数。矩阵的范数前面我们学习了向量的范数，只有当满足几个条件的时候，此时才可以，那么矩阵也是一样的，当满足下面的条件的时候，才可以定义||A||为矩阵A的范数矩阵范数的性质连续性矩阵范数是连续的函数。即如果矩阵序
HiveMetastore 的架构简析 houzhizhen hive hive
HiveMetastore的架构简析HiveMetastore是Hive元数据管理的服务。可以把元数据存储在数据库中。对外通过api访问。hive_metastore.thrift对外提供的Thrift接口定义在文件standalone-metastore/src/main/thrift/hive_metastore.thrift中。内容包括用到的结构体和枚举，和常量，和rpcService。如分
【尚硅谷】鸿蒙应用开发 - 带源码课件 6v6-博客 harmonyos 华为
【尚硅谷】鸿蒙应用开发-带源码课件课程描述本教程精心设计了一款精致而小巧的实战应用，贯穿整个学习过程，真正做到理论与实践相结合。课程内容从基础到高级，层层递进，全面覆盖鸿蒙应用开发的所有必备技能。通过图解抽象知识、丰富的案例和清晰的讲解，帮助学习者快速掌握鸿蒙应用开发的核心技术。课程亮点实战驱动：以实际应用案例为主线，贯穿整个学习过程，让学习更贴近实际开发需求。内容全面：从基础概念到高级技能，系统
人工智能之数学基础：线性子空间每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习线性代数线性子空间线性空间
本文重点在前面的课程中，我们学习了线性空间，本文我们我们在此基础上学习线性子空间。在应用中，线性子空间的概念被广泛应用于信号处理、机器学习、图像处理等领域。子空间的性质子空间是线性空间的一部分，它需要满足下面的性质：设V是数域F上的线性空间，W是V的一个非空子集。如果W对于V中的加法运算和数乘运算也构成F上的一个线性空间，则称W为V的线性子空间（或称向量子空间）。具体来说，设V是一个线性空间，W是
Hive与Spark的UDF：数据处理利器的对比与实践窝窝和牛牛 hive spark hadoop
文章目录Hive与Spark的UDF：数据处理利器的对比与实践一、UDF概述二、HiveUDF解析实现原理代码示例业务应用三、SparkUDF剖析-JDBC方式使用SparkThriftServer设置通过JDBC使用UDFSparkUDF的Java实现（用于JDBC方式）通过beeline客户端连接使用业务应用场景四、Hive与SparkUDF在JDBC模式下的对比五、实际部署与最佳实践六、总结
【手把手教学】DeepSeek官方搜索API博查本地使用指南：从原理到实战，全面解锁智能搜索！ BigNorthBear python 人工智能自然语言处理机器学习语言模型
前言：当大模型遇见本地搜索你是否遇到过这些问题？想在企业内网部署智能搜索，但担心数据泄露风险？需要定制搜索逻辑，但云端API灵活性不足？网络环境不稳定时，搜索服务频繁中断？博查AI搜索API的本地化方案完美解决了这些问题！通过将本地大模型与云端API结合，既能保障数据安全，又能享受实时搜索能力。本文将手把手教你如何实现这一技术方案，即使你是零基础开发者，也能轻松上手！一、本地化原理：为什么能“既本
科技资讯杂志科技资讯编辑部科技资讯杂志社2025年第2期目录 QQ296078736 人工智能
学思践悟二十大党的二十大背景下以人民为中心发展教育的路径探究宋靖玮;韩冰;1-3党的二十大精神引领下药学课程群思政育人探索与实践——以应用型本科生物制药专业为例张志国;张媛婷;刘畅;闫立地;岳华;徐晶雪;秦姝冕;王雨欣;4-8党的二十大背景下“资源再生利用”思政教学的设计研究孟娟;秦恒飞;罗京;蒋杰;程龙;9-11+15践行党的二十大精神探索机器人工程专业创新型人才培养新模式郭霆;安少军;张明慧;
3月TIOBE编程语言排行：Python稳居榜首，C++和Java市场份额稳步上升朱公子的Note 编程语言 python c++java TIOBE编程语言排行
TIOBE编程语言排行榜是一个基于全球程序员数量、课程数量和第三方供应商数量的指标，旨在反映编程语言的流行度。根据TIOBEIndex，它每月更新一次，计算方法基于搜索引擎（如Google、Bing、Wikipedia等）的查询结果，涵盖专业开发者的兴趣和需求。需要注意的是，TIOBE指数不代表“最佳”编程语言或代码量最多的语言，而是反映语言在开发者社区中的热度。2025年3月的排行榜特别提到Py
零基础到网络安全工程师幼儿园扛把子\ web安全安全
爆肝！三个月从零基础到网络安全工程师：2025年黑客技术实战指南（附工具包+100G资源）网络安全攻防示意图|数据来源：CSDN技术社区关键词：网络安全、红队实战、CTF竞赛、渗透测试、漏洞挖掘一、为什么90%的人学不会黑客技术？这3个误区正在毁掉你！1.错误认知：把"黑客"等同于"攻击者"真相：网络安全法实施后，合规的渗透测试工程师（白帽黑客）已成国家战略人才，平均月薪25K+案例：某学员通过挖
数学建模清风课程笔记——第二章 TOPSIS法 minpengyuanBITer 数学建模数学建模笔记
TOPSIS(TechniqueforOrderPreferencebySimilaritytoIdealSolution)可翻译为逼近理想解排序法，国内简称为优劣解距离法。TOPSIS法是一种常用的综合评价方法，其能充分利用原始数据的信息，其结果能够精确地反映各评价方案之间的差距。评价类问题1TOPSIS法TOPSIS法概念：TOPSIS法是一种常用的综合评价方法，能充分利用原始数据的信息，其结
STM32 SPI总线驱动CH376T实现U盘/TF卡读写全解析—SPI通信、命令集与文件操作（下） | 零基础入门STM32第七十五步触角01010001 STM32入门教程（100步）stm32 驱动开发单片机嵌入式硬件物联网
主题内容教学目的/扩展视频CH376芯片重点课程电路原理，跳线设置，切换U盘和TF卡。手册分析。驱动程序。调用常用函数。会调用现有函数操作U盘即可。师从洋桃电子，杜洋老师文章目录1.引言2.硬件连接3.驱动程序分析3.1SPI通信机制4.CH376命令集详解4.1常用命令表4.2命令使用示例5.初始化程序解析6.数据读写函数实现6.1写数据到文件6.2从文件读取数据7.应用示例：U盘状态检测8.扩
尚硅谷电商数仓6.0，hive on spark,spark启动不了新时代赚钱战士 hive spark hadoop
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
零基础掌握分布式ID生成：从理论到实战的完整指南 [特殊字符] 添砖Java中分布式分布式id java
一、为什么需要分布式ID？在单机系统中，使用数据库自增ID就能满足需求。但在分布式系统中，多个服务节点同时生成ID时会出现以下问题：ID冲突：不同节点生成相同ID扩展困难：数据库自增ID无法水平扩展安全性差：连续ID暴露业务数据量性能瓶颈：高并发场景下生成速度慢典型应用场景：✅电商订单号生成✅社交平台用户ID✅物流运单号生成✅金融交易流水号二、分布式ID的核心要求特性说明重要性全局唯一性整个分布式
软件定义世界下的教育创新：高校计算机实验室应重心转向开源平台开源
一、一键式教学环境部署，节省90%准备时间•应用模板库：提供200+预置教学工具模板（如JupyterLab+TensorFlow、MySQL集群），教师可根据课程需求选择模板，5分钟内完成包含依赖库、运行环境的全栈部署。•多版本隔离：支持同一服务器并行运行不同版本框架（如Django3.2教学版与4.1开发版），避免版本冲突导致30%的课堂时间浪费。•自助式环境创建：学生通过命令行快速申请带GP
【第11章】亿级电商平台订单系统-海量数据架构设计 cherry5230 架构系统架构架构分布式
1-1本章导学课程导学课程定位：大型系统架构设计核心难点解析核心项目：BToB电商平台订单系统（年交易额200亿级）本章知识体系1.核心概念辨析海量数据vs大数据本质区别解析常见认知误区说明2.方法论框架海量数据处理核心思想分布式计算原理数据分片策略弹性扩展机制3.数据库架构设计方法论体系读写分离模式分库分表策略数据分区方案缓存层设计4.数据处理体系海量数据处理之道批处理与流处理数据压缩技术异步处
qt-5.15.2 源码编译 Linux weixin_40857106 服务器运维
QT官方源码下载地址：https://download.qt.io/archive/qt/5.15/5.15.12/single/qt-everywhere-opensource-src-5.15.12.tar.xz安装Qt所需的依赖：sudoaptinstallbuild-essentiallibgl1-mesa-devlibxkbcommon-devlibnss3-devlibdbus-1-d
《Flutter从入门到实战：手把手构建跨平台应用（万字深度解析）》前端极客探险家 flutter
目录标题前言：为什么选择Flutter？一、Flutter基础篇：环境搭建与核心概念1.1开发环境配置1.2项目结构深度解析二、核心机制：Widget与渲染原理2.1Widget树构建原理2.2状态管理方案对比三、企业级开发实战3.1工程化架构设计3.2典型功能实现四、进阶开发技巧4.1性能优化方案4.2平台特定代码集成五、项目实战：开发企业级Todo应用（深度扩展版）5.1项目初始化与工程化配置
鸿蒙HarmonyOS开发：应用程序静态包-HAR 让开，我要吃人了鸿蒙开发 OpenHarmony HarmonyOS harmonyos 华为移动开发前端 html 开发语言鸿蒙
HAR（HarmonyArchive）是静态共享包，可以包含代码、C++库、资源和配置文件。通过HAR可以实现多个模块或多个工程共享ArkUI组件、资源等相关代码。使用场景作为二方库，发布到OHPM私仓，供公司内部其他应用使用。作为三方库，发布到OHPM中心仓，供其他应用使用。约束限制HAR不支持在设备上单独安装/运行，只能作为应用模块的依赖项被引用。HAR不支持在配置文件中声明UIAbility
【项目实战】Redis常见问题之缓存击穿、缓存穿透、缓存雪崩本本本添哥 004 -数据库 003 -中间件缓存 redis spring
Redis作为一款流行的内存数据存储系统，经常被用作缓存来提高应用的性能。然而，在使用Redis作为缓存时，可能会遇到一些问题，如缓存击穿、缓存穿透和缓存雪崩。这些问题可能导致系统性能下降甚至服务不可用。下面是对这三种常见问题的简要解释及解决方案，每种方案都有其适用场景与限制条件，在实际应用中需要根据具体情况选择最合适的方法来优化系统性能并保障稳定性。此外，合理的架构设计以及对业务逻辑的理解也是有
快速上手系列丨如何管理 PieCloudDB Database 虚拟数仓云原生数据库教程管理
为增强社区用户的体验，PieCloudDBDatabase社区版已于8月完成了全面改版升级。同时，PieCloudDB社区还特别制作了《快速入门PieCloudDB社区版》系列课程，旨在帮助大家全面了解新版本，逐步探索PieCloudDB的强大功能。PieCloudDB社区版提供免费下载，可用于体验产品新特性、个人学习、PoC验证等场景，方便社区用户快速体验领先的数仓虚拟化技术。PieCloudD
【十自然语言处理项目实战】【10.2 数据收集与预处理】再见孙悟空_ #自然语言处理人工智能知识图谱 transformer 自然语言处理数据收集自然语言处理预处理自然语言处理项目
各位在数据泥潭里打滚的勇士们，今天咱们要聊的这个话题，就像学做川菜必须掌握的"火锅底料炒制法"——数据收集与预处理！这玩意儿看着像脏活累活，实则是决定你模型上限的生死关卡。作为一个曾把BERT训成人工智障的老司机，这就把五年掉坑经验熬成一锅十全大补汤！（戴上橡胶手套准备掏数据）一、数据收集的野路子：比盗墓还刺激的冒险1.1公开数据集寻宝图（附藏宝坐标）①正道的光：Kaggle（数据界的沃尔玛）：搜
初识HTML中的div块元素—零基础自学网页制作猿说前端 html web开发
块元素基础属性讲解元素是个有故事的元素，这个元素很早就出现在html超文本标记语言中，它设计之初就是为了解决网页页面布局的需求。但是遗憾的是它出生后一直怀才不遇。在我还上初中的时候，智能手机还没有出现，更没有平板电脑等移动设备。上网是通过摆在桌子上的计算机来完成的。那时，大街小巷上有好多网吧。那时，马云刚刚辞去工作准备创业。那时，发送邮件的操作都会出现在计算机课程中。那时，对页面还没有现在的跨平台
java中如何根据已有word文件快速生成目录和页码？ bug菌¹ 全栈Bug调优(实战版)java word python 生成目录生成页码文件操作
本文收录于《全栈Bug调优(实战版)》专栏，主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！全文目录：问题描述解决方案优化基于Docx4j的TOC生成性能问题及日志警告解决方案**1.性能优化****1.1避免使用FOP渲染获取页码****1.2使用更高效的文档
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts

零基础班第十八课 - Hive项目实战

本次课程所需环境CentOS6.X，各位有需要购买云服务器的可以通过我的链接：点击进行购买，享9折优惠！

阿里云9折优惠券，点击领取

第一章：上次课回顾

第二章：离线过程中的数据处理

需求：统计各个城市下最受欢迎的TopN产品

我们要从日志里面去找到对应商品以及对应地址的信息

2.1 MySQL数据准备

首先city_info和product_info是存储在ruoze_g6数据库下面的。

2.2 Hive数据准备

第一张表：本来就在Hive中加载好的

需要Hive中创建好表结构（product_info）

在Hive中创建好表结构（city_info）

2.2 Sqoop导数据到Hive中去

为什么需要使用–split -by来指定主键?

使用如下命令将MySQL的数据转到Hive中

运行后报错，报错信息如下所示（缺少java-json.jar包）：

jar包上传完后重新使用这个命令，等待MapReduce作业跑完后去到Hive中查看是否有数据？

注意：

hdfs上去验证：

第三章：开始进行需求分析

第一步：获得商品的基本信息

1.1、创建临时表(tmp_product_click_basic_info)

第二步：统计各区域下各个商品的访问次数：

问题：

第三步：获取完整的商品信息的各区域的访问次数（根据product_id关联产品名称）

分析：

第四步：拿到每一个区域下最受欢迎的Top3

第四步：拿到每一个区域下最受欢迎的Top3

引出概念：窗口函数

第五步：统计结果输出到Sqoop

第四章：以shell脚本的方式来执行

4.1 扩展

小结：

问题：

第五章：本次课程作业

你可能感兴趣的:(零基础班Hive课程,Hive项目实战)