LKL1026

【Python大数据笔记_day07_hive中的分区表、分桶表以及一些特殊类型】

分区表

分区表的特点/好处:需要产生分区目录,查询的时候使用分区字段筛选数据,避免全表扫描从而提升查询效率

效率上注意:如果分区表在查询的时候呀没有使用分区字段去筛选数据,效率不变

分区字段名注意:分区字段名不能和原有的字段名重复,因为分区字段名要作为字段拼接到表后

一级分区

创建分区表:create [external] table [if not exists] 表名(字段名字段类型 , 字段名字段类型 , ... )partitioned by (分区字段名分区字段类型)... ;

自动生成分区目录并插入数据: load data [local] inpath '文件路径' into table 分区表名 partition (分区字段名='值');

注意: 如果加local后面文件路径应该是linux本地路径,如果没有加那么就是hdfs文件路径

-- 创建库使用库
create database hive3;
use hive3;
-- 演示分区表
-- 1.一级分区表
-- 建表
create table one_part_order(
    oid string,
    name string,
    price double,
    num int
)partitioned by (year string)
    row format delimited
fields terminated by ' ';
-- 加载数据
-- 先在hdfs的source目录下准备好订单相关数据文件
-- 使用load加载数据到分区表中
load data inpath '/source/order202251.txt' into table one_part_order partition (year=2022);
load data inpath '/source/order2023415.txt' into table one_part_order partition (year='2023');
load data inpath '/source/order202351.txt' into table one_part_order partition (year='2023');
load data inpath '/source/order202352.txt' into table one_part_order partition (year='2023');
-- 验证数据
select * from one_part_order limit 20;

/*分区表特点
去hdfs验证分区表的本质就是分目录存储各个小文件
通过查询发现分区字段最终效果作为一个字段拼接到表最后
*/
-- 分区表的好处:避免全表扫描,提升查询效率
select * from one_part_order where year='2022';
-- 注意: 如果查询的时候条件不是分区字段,效率不会改变
select * from one_part_order where price=20;

多级分区

创建分区表: create [external] table [if not exists] 表名(字段名字段类型 , 字段名字段类型 , ... )partitioned by (一级分区字段名分区字段类型, 二级分区字段名分区字段类型 , ...) ;

自动生成分区目录并插入数据: load data [local] inpath '文件路径' into table 分区表名 partition (一级分区字段名='值',二级分区字段名='值' , ...);

注意: 如果加local后面文件路径应该是linux本地路径,如果没有加那么就是hdfs文件路径

-- 2.多级分区表
-- 创建表
create table multi_part_order(
    oid string,
    name string,
    price float,
    num int
)partitioned by (year string,month string,day string)
    row format delimited
fields terminated by ' ';
-- 加载数据
-- 思考数据文件在哪里?如果想从hdfs加载,怎么操作?上传到hdfs指定位置
load data inpath '/source/order202251.txt' into table multi_part_order partition (year=2022,month=05,day=01);
load data inpath '/source/order202351.txt' into table multi_part_order partition (year=2023,month=05,day=01);
load data inpath '/source/order202352.txt' into table multi_part_order partition (year=2023,month=05,day=02);
load data inpath '/source/order2023415.txt' into table multi_part_order partition (year=2023,month=04,day=15);
-- 验证数据
select * from multi_part_order;

-- 分区表的好处:避免全表扫描,提升查询效率
-- 需求: 统计2023年商品总销售额
select sum(price*num) from multi_part_order where year='2023'; -- 提升效率
-- 需求: 统计2023年5月份商品总销售额
select sum(price*num) from multi_part_order where year='2023'and month='5'; -- 提升效率
-- 需求: 统计2023年5月1日的商品总销售额
select sum(price*num) from multi_part_order where year='2023'and month='5' and day='1'; -- 提升效率

分区操作

添加分区: alter table 分区表名 add partition (分区字段名='值' , ...);

删除分区: alter table 分区表名 drop partition (分区字段名='值' , ...);

修改分区名: alter table 分区表名 partition (分区字段名='旧值' , ...) rename to partition (分区字段名='新值' , ...);

查看所有分区: show partitons 分区表名;

同步/修复分区: msck repair table 分区表名;

-- 分区操作
-- 注意: 先确定有一级分区和多级分区表,如果没有先创建再做分区操作
select * from one_part_order limit 20;
select * from multi_part_order limit 20;

-- 添加分区(本质在hdfs上创建分区目录)
alter table one_part_order add partition (year=2024);
alter table multi_part_order add partition (year=2024,month=5,day=1);

-- 修改分区(本质在hdfs上修改分区目录名)
alter table one_part_order partition (year=2024) rename to partition (year=2030);
alter table multi_part_order  partition (year=2024,month=5,day=1) rename to partition (year=2030,month=6,day=10);

-- 查看所有分区
show partitions one_part_order;
show partitions multi_part_order;

-- 删除分区
alter table multi_part_order drop partition (year=2030,month=6,day=10);
alter table multi_part_order drop partition (year=2023,month=5,day=2);
alter table multi_part_order drop partition (year=2023,month=5);
alter table multi_part_order drop partition (year=2023,month=4);
alter table multi_part_order drop partition (year=2022);

-- 如果在hdfs上创建符合分区目录格式的文件夹,可以使用msck repair修复
-- 举例:手动创建一个year=2033目录
msck repair table one_part_order;
msck repair table multi_part_order;
-- 修复后再次查看所有分区
show partitions one_part_order;
show partitions multi_part_order;

Hadoop_hive文档

hive文档: https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties
hdfs文档: https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml
yarn文档: https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-common/yarn-default.xml
mr文档: https://hadoop.apache.org/docs/stable/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml

分桶表

分桶表特点/好处:需要产生分桶文件,查询的时候特定操作上提升效率(过滤,join,分组以及抽样)

效率上注意:如果分桶表在查询数据的时候没有使用分桶字段去筛选,效率不变

分桶字段名注意:分桶字段名必须是原有的字段名,因为分桶需要根据对应的字段值取余数把余数相同的数据放到一个桶文件中

重要参数

-- 默认开启,hive2.x版本已经被移除
set hive.enforce.bucketing; -- 查看未定义因为已经被移除
set hive.enforce.bucketing=true; -- 修改

-- 查看reduce数量
-- 参数优先级: set方式 > hive文档 > hadoop文档
set mapreduce.job.reduces; -- 查看默认-1,代表自动根据桶数量匹配reduce数量
set mapreduce.job.reduces=3; -- 设置参数

基础分桶表

创建基础分桶表:
create [external] table [if not exists] 表名(
字段名字段类型
)
clustered by (分桶字段名)
into 桶数量 buckets ;

-- 1.创建基础分桶表,要求分3个桶
create table course_base (
    cid int,
    cname string,
    sname string
)
clustered by(cid) into 3 buckets
row format delimited fields terminated by '\t';

-- 2.load方式加载数据
-- 前提: 已经上传course.txt文件到hdfs的/source目录下
load data inpath '/source/course.txt' into table course_base;

-- 3.查询数据,观察结果
select * from course_base;

分桶表排序

创建基础分桶表,然后桶内排序:
create [external] table [if not exists] 表名(
字段名字段类型
)
clustered by (分桶字段名)
sorted by(排序字段名 asc|desc) # 注意:asc升序(默认) desc降序
into 桶数量 buckets ;

-- 1.创建基础分桶表,要求分3个桶,桶内根据cid降序
create table course_sort (
    cid int,
    cname string,
    sname string
)
clustered by(cid) sorted by (cid desc) into 3 buckets
row format delimited fields terminated by '\t';

-- 2.加载数据
-- 还是使用/source/course.txt数据文件
load data inpath '/source/course.txt' into table course_sort;

-- 3.查询数据,观察结果
select * from course_sort;

练习

一直课程表course.txt数据文件,要求建表,根据sname分桶,然后桶内再根据cid升序排序,观察结果

注意事项

数据倾斜问题:分桶字段值如果大量重复,相同的会分到同一个桶内,导致数据倾斜

-- 1.创建基础分桶表,要求分3个桶,桶内根据cid降序
create table course_test (
    cid int,
    cname string,
    sname string
)
clustered by(sname) sorted by (cid) into 3 buckets
row format delimited fields terminated by '\t';

-- 2.加载数据
-- 还是使用/source/course.txt数据文件
load data inpath '/source/course.txt' into table course_test;

-- 3.查询数据,观察结果
select * from course_test;

分桶原理

分桶原理:

如果是数值类型分桶字段:直接使用数值对桶数量取模

如果是字符串类型分桶字段:底层会使用hash算法计算出一个数字然后再对桶数量取模

Hash:Hash是一种数据加密算法,其原理我们不去详细讨论,我们只需要知道其主要特征:同样的值被hash加密后的结果是一致的

举例:字符串'binzi'被hash后的结果是93742710（仅作为示意），那么无论计算多少次，字符串“binzi”的结果都会是93742710。
计算余数: hash('binzi')%3==0
注意: 同样的数据得到的结果一致，如’binzi’ hash取模结果是0，无论计算多少次，它的取模结果都是0

分区表和分桶表的区别

分区表
   创建表的时候使用关键字: partition by (分区字段名分区字段类型)
   分区字段名注意事项: 是一个新的字段,需要指定类型,且不能和其他字段重名
   分区表好处: 使用分区字段作为条件的时候,底层直接找到对应的分区目录,能够避免全表扫描,提升查询效率
   分区表最直接的效果: 在hfds表目录下,分成多个分区目录(year=xxxx,month=xx,day=xx)
   不建议直接上传文件在hdfs表根路径下: 分区表直接不能识别对应文件中数据,因为分区表会找分区目录下的数据文件
   使用load方式加载hdfs中文件: 本质是移动文件到对应分区目录下

分桶表
   创建表的时候使用关键字: clustered by (分桶字段名) into 桶数量 buckets
   分桶字段名注意事项: 是指定一个已存在的字段,不需要指定类型
   分桶表好处: 使用分桶字段做抽样等特定操作的时候,也能提升性能效率
   分桶表最直接的效果: 在hdfs表目录或者分区目录下,分成多个分桶文件(000000_0,000001_0,000002_0...)
   不建议直接上传文件在hdfs表根路径下: 分桶表可以识别对应文件中数据,但是并没有分桶效果,也是不建议的
   使用load方式加载hdfs中文件: 本质是复制数据到各个分桶文件中

复杂类型

hive的SerDe机制

其中ROW FORMAT是语法关键字，DELIMITED和SERDE二选其一。本次我们主要学习DELIMITED关键字相关知识点
如果使用delimited: 表示底层默认使用的Serde类:LazySimpleSerDe类来处理数据。
如果使用serde:表示指定其他的Serde类来处理数据,支持用户自定义SerDe类。

Hive默认的序列化类: LazySimpleSerDe
包含4种子语法，分别用于指定字段之间、集合元素之间、map映射 kv之间、换行的分隔符号。
在建表的时候可以根据数据的类型特点灵活搭配使用。
COLLECTION ITEMS TERMINATED BY '分隔符' : 指定集合类型（array）/结构类型(struct)元素的分隔符
MAP KEYS TERMINATED BY '分隔符' : 表示映射类型(map)键值对之间用的分隔

复杂类型

复杂类型建表格式:
...
[row format delimited] # hive的serde机制
[fields terminated by '字段分隔符'] # 自定义字段分隔符固定格式
[collection ITEMS terminated by '集合分隔符'] # 自定义array同类型集合和struct不同类型集合
[map KEYS terminated by '键值对分隔符'] # 自定义map映射kv类型
[lines terminated by '\n'] # # 默认即可
...;

hive复杂类型: array struct map

array类型: 又叫数组类型,存储同类型的单数据的集合
   建表指定类型: array<数据类型>
   取值: 字段名[索引] 注意: 索引从0开始
   获取长度: size(字段名)
   判断是否包含某个数据: array_contains(字段名,某数据)

struct类型: 又叫结构类型,可以存储不同类型单数据的集合
   建表指定类型: struct<子字段名1:数据类型1, 子字段名2:数据类型2 , ...>
   取值: 字段名.子字段名n

map类型: 又叫映射类型,存储键值对数据的映射(根据key找value)
   建表指定类型: map
   取值: 字段名[key]
   获取长度: size(字段名)
   获取所有key: map_keys()
   获取所有value: map_values()

srray示例

需求:已知data_for_array_type.txt文件,存储了学生以及居住过的城市信息,要求建hive表把对应的数据存储起来

-- 演示使用简单类型映射数据
-- 创建表
create table test_array1(
    name string,
    location string
)row format delimited
fields terminated by '\t';
-- 加载数据
load data inpath '/source/data_for_array_type.txt' into table test_array1;
-- 验证数据
select * from test_array1;


-- 演示使用array类型映射数据
-- 创建表
create table test_array2(
    name string,
    location array
)row format delimited
fields terminated by '\t'
collection items terminated by ',';
-- 加载数据
load data inpath '/source/data_for_array_type.txt' into table test_array2;
-- 验证数据
select * from test_array2;

-- 需求: 查询zhangsan的地址有几个?
select size(location) from test_array2 where name = 'zhangsan';
-- 需求: 查询zhangsan的第二个地址?
select location[1] from test_array2 where name = 'zhangsan';
-- 需求: 查询zhangsan是否在tianjin住过?
select array_contains(location,'tianjin') from test_array2 where name = 'zhangsan';

struct示例

需求: 已知data_for_struct_type.txt文件存储了用户姓名和年龄基本信息,要求建hive表把对应的数据存储起来

-- 演示使用简单类型映射数据
-- 创建表
create table test_struct1(
    id int,
    info string
)row format delimited
fields terminated by '#';
-- 加载数据(前提hdfs必须有对应文件)
load data inpath '/source/data_for_struct_type.txt' into table test_struct1;
-- 验证数据
select * from test_struct1;

-- 演示struct类型映射数据
-- 创建表
create table test_struct2(
    id int,
    info struct
)row format delimited
fields terminated by '#'
collection items terminated by ':';
-- 加载数据(前提hdfs必须有对应文件)
load data inpath '/source/data_for_struct_type.txt' into table test_struct2;
-- 验证数据
select * from test_struct2;

-- 需求: 获取所有的姓名
select info.name from test_struct2;
-- 需求: 获取所有的年龄
select info.age from test_struct2;

map示例

需求: 已知data_for_map_type.txt文件存储了每个学生详细的家庭信息,要求建hive表把对应数据存储起来

-- 演示简单类型映射数据
-- 创建表
create table test_map1(
    id int,
    name string,
    info string,
    age int
)row format delimited
fields terminated by ',';
-- 加载数据(前提hdfs有对应数据文件)
load data inpath '/source/data_for_map_type.txt' into table test_map1;
-- 验证数据
select * from test_map1;

-- 演示map类型的应用
-- 创建表
create table test_map2(
    id int,
    name string,
    info map,
    age int
)row format delimited
fields terminated by ','
collection items terminated by '#'
map keys terminated by ':';
-- 加载数据(前提hdfs有对应数据文件)
load data inpath '/source/data_for_map_type.txt' into table test_map2;
-- 验证数据
select * from test_map2;

-- 需求: 查看所有人的father,mother信息
select name,info['father'] as father ,info['mother'] as mother from test_map2;
-- 需求: 查看所有人的家庭相关角色
select name,map_keys(info) from test_map2;
-- 需求: 查看所有人的家庭相关姓名
select name,map_values(info) from test_map2;
-- 需求: 查看所有人的家庭相关人员个数
select name,size(info) as cnt from test_map2;
-- 需求: 查看马大云是否包含brother角色
select name,array_contains(map_keys(info),'brother') 
from test_map2 where name = '马大云';

python 抽象类学python的土豆 python 开发语言
1.基本概念抽象类，顾名思义，是包含抽象方法（即没有具体实现的方法）的类。这些抽象方法必须在子类中得以具体实现。Python通过abc（AbstractBaseClasses）模块提供了对抽象类的支持。在Python3中，我们通常会从abc.ABC类继承来创建一个抽象类，并使用@abc.abstractmethod装饰器来标记抽象方法。2.定义抽象类fromabcimportABC,abstrac
python中的时间模块--datetime模块、time模块学python的土豆 python 开发语言
python中的时间模块一.datetime模块二.time模块一.datetime模块引入时间模块fromdatetimeimportdatetime获取当前时间print(datetime.today())#前的日期和时间print(datetime.now())#当前的日期和时间print(datetime.now().year)#当前的年份print(datetime.now().mont
python 函数基础学python的土豆 python 开发语言
python函数基础1.函数的目的2.函数的定义3.函数的声明与调用4.函数的形参与实参5.函数的返回值6.函数的参数类型6.1位置参数：6.2关键字参数：6.3默认参数：6.4可变参数：7.匿名函数8.函数的进阶应用在编程的世界里，函数是构建程序大厦的基石。Python作为一种高级编程语言，提供了强大且灵活的函数定义和调用机制。本文将对python函数基础的相关知识进行讲解。1.函数的目的函
python 函数进阶（迭代器和生成器）学python的土豆 python 开发语言
python函数进阶（迭代器和生成器）1.迭代器1.1迭代器的定义1.2迭代器的使用2.生成器2.1生成器的定义2.2生成器的优势2.3生成器的应用总结在Python的编程世界里，迭代器与生成器是两个很重要的概念，它们不仅简化了数据遍历与处理的过程，还极大地提升了代码的可读性与执行效率。这篇文章就来深入了解一下Python中的迭代器与生成器1.迭代器迭代器是Python中处理序列数据的一种重要方式
python的异常处理--异常引入，异常处理，常见异常，断言，自定义异常学python的土豆 python
python的异常处理一.异常引入二.异常处理三.常见异常四.断言五.自定义异常一.异常引入异常概念:程序在运行过程中发生不可预知的错误，程序员很难堵住所有的漏洞，就需要异常处理二.异常处理异常处理:捕获异常:try-except-else-finally将可能发生异常的代码，放入try-except中else：当代码没有异常就会执行else,如果代码块中有return，else将不执行final
Python+Selenium环境搭建程序媛_ Selenium Python python selenium pycharm
文章目录1安装Python1.1下载1.2安装注意事项1.3验证环境2安装PyCharm2.1下载PyCharm社区版2.2安装注意事项3安装浏览器及驱动3.1下载Chrome浏览器3.2下载Chromedriver3.3关闭浏览器自动更新关闭3.4配置Chromdriver4安装Selenium5调试6异常解决7自动化Edge浏览器1安装Python1.1下载下载网址:https://www.p
【unstructured】针对unstructured的pdf提取的hi_res策略不能够连接huggingface.co下载模型的问题而选择本地化模型推理部署的方法 phillihp llm python 深度学习 pdf llama langchain
目录unstructuredpdfhi_res策略本地推理部署说明python3.9虚拟环境准备安装miniconda创建一个conda-env环境安装unstructured背景知识安装步骤安装detectron2背景知识安装detectron2及其依赖torch，torchvision和torchaudio部署模型背景知识hi_res策略三种模型本地推理部署layoutmodel(detect
Python-处理非结构化数据 cunzai1985 python 大数据 linux 人工智能 java
Python-处理非结构化数据(Python-ProcessingUnstructuredData)Thedatathatisalreadypresentinarowandcolumnformatorwhichcanbeeasilyconvertedtorowsandcolumnssothatlateritcanfitnicelyintoadatabaseisknownasstructuredda
[利用Python加载和处理网址内容：从Unstructured到Selenium和Playwright] bhawfgrcbtwny python selenium 开发语言
引言在现代网页数据分析中，加载和处理来自多种网址的内容是一个常见需求。无论是数据挖掘还是网页内容分析，我们常常需要从多个网页中提取HTML文档。本篇文章将介绍如何利用Python中的Unstructured、Selenium和Playwright库来加载这些网页内容，并将其转换为适合后续处理的文档格式。主要内容UnstructuredURLLoaderUnstructuredURLLoader可以
大数据相关职位介绍之二（数据治理，数据库管理员，数据资产管理师，数据质量专员）小Tomkk 大数据大数据数据治理数据库管理员数据资产管理师数据质量专员
大数据相关职位介绍之二（数据治理，数据库管理员，数据资产管理师，数据质量专员）文章目录大数据相关职位介绍之二（数据治理，数据库管理员，数据资产管理师，数据质量专员）数据治理工程师/专家（DataGovernanceEngineer/Expert）1.元数据管理师（MetadataManager）2.主数据管理师（MasterDataManager）数据库管理员（DBA-DatabaseAdmini
Python unstructured库详解：partition_pdf函数完整参数深度解析 engchina LINUX python pdf 1024程序员节 Unstructured partition_pdf
Pythonunstructured库详解：partition_pdf函数完整参数深度解析1.简介2.基础文件处理参数2.1文件输入参数2.2页面处理参数3.文档解析策略3.1strategy参数详解3.2策略选择建议4.表格处理参数4.1表格结构推断5.语言处理参数5.1语言设置6.图像处理参数6.1图像提取配置6.2图像提取优化7.表单处理参数7.1表单提取配置7.2表单处理场景8.元数据参数
tensorflow和python不兼容_tensorflow与numpy的版本兼容性问题的解决 li旭旭
tensorflow与numpy的版本兼容性问题的解决,版本,站长站,错误,文章,较高tensorflow与numpy的版本兼容性问题的解决易采站长站，站长之家为您整理了tensorflow与numpy的版本兼容性问题的解决的相关内容。在Python交互式窗口导入tensorflow出现了下面的错误：root@ubuntu:~#python3Python3.6.8(default,Oct72019
自然语言编程：用 Cursor 将需求转化为代码 drebander AI 编程 Cursor
引言在传统编程中，开发者需要精确掌握语法规则、API接口和框架特性才能实现功能需求。然而，随着人工智能技术的发展，以自然语言交互为核心的编程方式正在颠覆这一流程。Cursor作为一款智能编程助手，通过其自然语言编程功能，允许开发者直接通过文本描述生成代码，将模糊的需求快速转化为可执行的程序。本文将深入探讨Cursor的自然语言交互能力，并通过实际案例（如生成React组件、Python脚本等），展
(04)python-opencv图像处理——图像阈值、平滑图像、形态转换、图像梯度欲游山河十万里 #opencv-python #深度学习 #人工智能 python opencv 图像处理
目录前言一、图像阈值1.1简单的阈值法1.2自适应阈值二、平滑图像2.1二维卷积(图像滤波)2.2图像模糊2.2.1均值模糊2.2.2高斯模糊2.2.3中值滤波2.2.4双边滤波三、形态转换1、腐蚀2、膨胀3、开运算4、闭运算四、图像梯度Sobel和Scharr微分参考文前言在本博文中，进行图像阈值、平滑图像、形态转换、图像梯度的学习以及介绍。一、图像阈值在本部分中，你会学到简单阈值法，自适应阈值
GEE python——gee_pyccd基于连续监测变化检测（Continuous Change Detection and Classification, CCDC）此星光明 GEE-PYTHON python 开发语言 gee ccdc 变化检测 py 连续性
目录简介gee_pyccdPyCCDCCDC算法代码1代码2结果简介gee_pyccd协调在GoogleEarthEngine数据上使用PyCCD的脚本。此存储库与Google或USGS没有正式关联。gee_pyccd是一个基于GoogleEarthEngine平台的Python库，用于对遥感时间序列数据进行变化检测和趋势分析。它实现了基于连续监测变化检测（ContinuousChangeDete
如何在Java中调用Python 梦想画家 #python java8~9核心功能 java python jython
Python语言有丰富的系统管理、数据处理、统计类软件包，因此从java应用中调用Python代码的需求很常见、实用。DataX是阿里开源的一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。Datax也是通过Java调用Python脚本。本文介绍几种方法从java调用Py
读书笔记-《Redis设计与实现》（二）单机数据库实现（上）萝卜青今天也要开心 redis 数据库缓存 java 学习
相比前面我们学习的数据结构与对象（读书笔记-《Redis设计与实现》（一）数据结构与对象（上）、读书笔记-《Redis设计与实现》（一）数据结构与对象（下）），这部分的内容可以说就是轻松+愉快了，只要能Get到这几个机制的要点就行。01数据库Redis将所有数据库都保存在redisServer结构中，客户端结构为redisClient，它们的关键属性如下：structredisServer{//一
模式识别与机器学习（Python实现）：基于sklearn朴素贝叶斯模型实现男女分类 CV视界模式识别机器学习与图像处理机器学习 python 人工智能
模式识别与机器学习（Python实现）：基于sklearn朴素贝叶斯模型和pazen窗方法实现男女分类欢迎大家来到安静到无声的《模式识别与人工智能（程序与算法）》，如果对所写内容感兴趣请看模式识别与人工智能（程序与算法）系列讲解-总目录，同时这也可以作为大家学习的参考。欢迎订阅，优惠价只需9.9元，请多多支持！目录标题模式识别与机器学习（Python实现）：基于sklearn朴素贝叶斯模型和paz
Python基本数据类型之字符串 stiinput Python知识集 python 开发语言
文章目录变量类型之字符串一、字符串的性质二、字符串的分类1.字符串又分为转义字符、原始字符串和一般字符串三种。三、字符串的基本操作1.字符串能实现拼接、重复、成员运算、比较大小等基本操作，其中比较大小还涉及到进制转换。2.字符串也能实现跟列表一样的通过下标找元素，切片等操作。3.字符串的遍历也有两种四、字符串的方法1.字符串的方法有：2.字符串的各种方法的应用3.字符串方法的补充五、字符串推导式变
Python爬虫获取item_fee-获得淘宝商品快递费用接口 Jelena15779585792 API 示例代码 python 爬虫开发语言
一、引言在电商运营中，了解商品的快递费用是至关重要的。这不仅有助于商家更好地制定价格策略，还能提升用户体验，避免因快递费用不明确而导致的纠纷。淘宝提供了item_fee接口，通过该接口可以查询指定商品的快递费用信息。本文将详细介绍如何使用Python编写爬虫程序，调用淘宝的item_fee接口获取商品快递费用。二、准备工作注册淘宝开放平台账号首先，需要在淘宝开放平台注册一个开发者账号，并创建应用以
python矩阵教程_numpy教程：矩阵matrix及其运算 weixin_39658474 python矩阵教程
numpy矩阵简介NumPy函数库中存在两种不同的数据类型(矩阵matrix和数组array)，都可以用于处理行列表示的数字元素。虽然它们看起来很相似，但是在这两个数据类型上执行相同的数学运算可能得到不同的结果，其中NumPy函数库中的matrix与MATLAB中matrices等价。numpy模块中的矩阵对象为numpy.matrix，包括矩阵数据的处理，矩阵的计算，以及基本的统计功能，转置，可
python dashboard django_Django + MySQL Dashboard 网页端数据库可视化 weixin_39639600 python dashboard django
1.OverviewPython+MySQL+Django,有些数据托管在MySQL的数据库，然后我们希望进行可视化，通过web的方式对数据库的信息去进行展示/检索/维护/..这个项目中，我们的数据托管在MySQL的数据库中，然后在Django中配置数据库信息，连接到数据库，在前端用Django-table2进行渲染;最终我们可以在web端看到如下所示效果，可以进行展示所有的数据，然后进行检索和过
新手python安装geopandas Yaxyy 安装 python
第一种方法（尝试失败）直接安装安装不上本地python或者anacondaprompt使用pipinstallgeopandas第二种方法（尝试成功）1.先下载四个依赖包，再pip安装登录网址，要用科学上网登录网址，不然打不开https://www.lfd.uci.edu/~gohlke/pythonlibs/下载时，选择和python版本匹配的兼容包python2.7.x对应的版本是cp27，p
geopandas安装_python geopandas库安装 weixin_39833270 geopandas安装 python wordcloud安装
geopandas库是利用python读取和处理gis数据的库，使用十分方便。安装方法如下：1、下载相应的python库登录网站：https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud根据安装的python版本，下载对应的python库：GDAL,Fiona,pyproj，rtree，shapely示例：例如我是windows64位系统，安装的p
python列表导出excel_python将字典列表导出为Excel文件的方法陈星·Sin2 python列表导出excel
将如下的字典列表内容导出为Excel表格文件形式：python将字典列表导出为Excel文件的方法，如下所示：1、安装python官方Excel库------xlwt直接在终端进行安装即可：pipinstallxlwt安装完成后，在程序中引入xlwt的库importxlwt2将字典列表导出到excel文件中：importxlwtimportpandasaspddefexport_excel(exp
python列表导出,将Python列表导出到Excel 二十一只蜗牛 python列表导出
IamtryingtoexportalisttoexcelviatheWin32COMclientwhihcihaveimportedattheheader.Theobjecticreatediscodedasbelow,butIcantseemtogetittoexporteachvaluetoitsownrowinthespreadsheet.IfIcangetagoodpointer(oth
【python安装geopandas】傲寒。 python python
今天使用python时发现geopandas没有安装，很奇怪，明明记得之前安装时没有任何问题。就尝试上次的办法安装（如下），出现错误，先给出解决方案。1.须知首先我们需要知道安装geopandas时有几个依赖库，分别是**GDAL，Fiona，Rtree，Shapely，pyproj，**因此需要先安装这几个库。2.安装GDAL直接install安装GDAL可能安装不成功，可以选择下载相应版本的w
deepseek v3 搭建个人知识库 AI算法网奇 aigc与数字人人工智能
目录deepseek-r1本地部署，这个比较好，推荐Chatbox连接ollama服务知乎教程，需要注册：deepseek-r1本地部署，这个比较好，推荐公司数据不泄露，DeepSeekR1本地化部署+web端访问+个人知识库搭建与使用，喂饭级实操教程，老旧笔记本竟跑出企业级AI_deepseek本地知识库-CSDN博客命令行运行：ollamarundeepseek-r1:1.5bollamaru
Python 安装 Geopandas (亲测有效) 顾润治
Python安装Geopandas(亲测有效)Python安装Geopandas亲测有效项目地址:https://gitcode.com/Resource-Bundle-Collection/8a355简介本资源文件提供了在Python环境中安装Geopandas库的详细步骤和相关依赖库的下载链接。Geopandas是一个用于处理地理空间数据的Python库，广泛应用于GIS数据分析和处理。安装步
005-《VTK用户指南》--第一部分-VTK简介--第2章-安装--（1）基础概念 darlingfresher VTK系统学习 c++
本章介绍在您的计算机系统上安装VTK所需的步骤。该过程的总体难度受多个因素影响。在MicrosoftWindows上，您可以安装预构建的vtk.exe，并通过运行TCL脚本使用它。若要在Python或Java编程语言中使用VTK，为了将VTK库链接到您自己的应用程序中，必须从源代码编译VTK。在MicrosoftWindows以外的任何平台上使用VTK，也必须从源代码构建VTK。（不同的平台环境太
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分

【Python大数据笔记_day07_hive中的分区表、分桶表以及一些特殊类型】

分区表

一级分区

多级分区

分区操作

Hadoop_hive文档

分桶表

重要参数

基础分桶表

分桶表排序

练习

注意事项

分桶原理

分区表和分桶表的区别

复杂类型

hive的SerDe机制

复杂类型

srray示例

struct示例

map示例

你可能感兴趣的:(Python大数据学习笔记,大数据,笔记,hive)