魏晓蕾

【Hive】Hive基本操作及示例

1、数据库操作
（1）创建数据库

create database db_hive_01 ;
create database if not exists db_hive_02 ;     标准方式
create database if not exists db_hive_03 location '/user/beifeng/hive/warehouse/db_hive_03.db' ;     指定数据库位置

（2）查看数据库

show databases ;
show databases like 'db_hive*' ;      模糊查找

（3）使用数据库

use db_hive ;

（4）查看数据库字段格式

desc database db_hive_03 ;
desc database extended db_hive_03 ;

（5）删除数据库

drop database db_hive_03 ;
DROP (DATABASE|SCHEMA) [IF EXISTS] database_name [RESTRICT|CASCADE];
drop database db_hive_03 cascade;
drop database if exists db_hive_03 ;  删除非空的数据库

2、表操作
（1）创建表
方式一：普通创建表

create table IF NOT EXISTS default.bf_log_20150913(
     ip string COMMENT 'remote ip address' ,
     user string ,
     req_url string COMMENT 'user request url')
COMMENT 'BeiFeng Web Access Logs'
ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '
STORED AS TEXTFILE ;

方式二：子查询方式创建表

create table IF NOT EXISTS default.bf_log_20150913_sa
AS select ip,req_url from default.bf_log_20150913 ;

特点：将子查询的结构赋予一张新的表。
方式三：like方式

create table stu_like like student;

特点：复制表的结构。
（2）加载数据到表

load data local inpath '/opt/datas/bf-log.txt' into table default.bf_log_20150913;

LOCAL：从本地文件加载数据到hive表；否则从HDFS加载数据到hive表。
从HDFS加载数据到表：

hive (db_hive_03)> dfs -put /opt/datas/student.txt /;
load data inpath '/student.txt' into table student;

本地加载数据和HDFS加载数据的区别，本地加载数据是本地文件的复制拷贝，HDFS加载数据是移动数据文件的位置到对应的表目录下。

load data local inpath '/opt/datas/emp.txt' overwrite into table emp;

OVERWRITE：覆盖表中已有数据，先删除数据，后加载数据。
（3）清空表的内容，保留表的结构

truncate table student;

（4）删除表

drop table if exists student;

（5）ETL介绍
E（Extract 提取）-----------创建表，加载原数据到表
T（Transform 转换）------用python等脚本语言处理表中数据
L（Load 加载）--------------将处理后的结果加载到子表等目的端
3、示例表
员工表

create table IF NOT EXISTS default.emp(
     empno int,
     ename string,
     job string,
     mgr int,
     hiredate string,
     sal double,
     comm double,
     deptno int)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

部门表

create table IF NOT EXISTS default.dept(
     deptno int,
     dname string,
     loc string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

4、对示例表的操作
（1）加载数据到表

load data local inpath '/opt/datas/emp.txt' overwrite into table emp ;
load data local inpath '/opt/datas/dept.txt' overwrite into table dept ;

（2）创建子表

create table if not exists default.dept_ctas
as
select * from dept ;

（3）清除表中数据

truncate table dept_ctas ;

（4）Like方式创建表

create table if not exists default.dept_like
like
default.dept ;

（5）修改表的名字

alter table dept_like rename to dept_like_rename ;

（6）删除表

drop table if exists dept_like_rename ;

5、表的类型
在Hive中表的类型有管理表和托管表（外部表）。Hive默认情况下创建的表都为管理表。
外部表与内部表的区别：
1）内部表也称之为MANAGED_TABLE，默认存储在/user/hive/warehouse下，也可以通过location指定，删除表时，会删除表数据以及元数据。
2）外部表称之为EXTERNAL_TABLE，在创建表时可以自己指定目录位置(LOCATION)，删除表时，只会删除元数据不会删除表数据。
场景：多个部门要分析多个不同的指标，建不同的表，但分析的数据源文件只有一份。
管理表删除的时候是删除元数据和表的对应文件夹，外部表删除的时候只删除元数据，不删除表对应的文件夹。我们可以首先创建管理表，然后创建多个外部表。
外部表的作用：保证源数据的安全性。
（1）创建外部表

create EXTERNAL table IF NOT EXISTS default.emp_ext2(
     empno int,
     ename string,
     job string,
     mgr int,
     hiredate string,
     sal double,
     comm double,
     deptno int)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
location '/user/beifeng/hive/warehouse/emp_ext2';

（2）将数据上传到外部表

dfs -put /opt/datas/emp.txt /user/beifeng/hive/warehouse/emp_ext2;

6、分区表
分区表实际上就是对应一个HDFS文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录，把一个大的数据集根据业务需要分割成更下的数据集。在查询时通过WHERE子句中的表达式来选择查询所需要的指定的分区，这样的查询效率会提高很多。
（1）一级分区，按月分区

create external table if not exists default.emp_partition(
     empno int,
     ename string,
     job string,
     mgr int,
     hiredate string,
     sal double,
     comm double,
     deptno int)
partitioned by (month string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

查看表格式

hive (default)> desc formatted emp_partition;
# Partition Information          
# col_name              data_type               comment             
                 
month                   string

加载数据到一级分区表

load data local inpath '/opt/datas/emp.txt' into table default.emp_partition partition (month='201509');

查看一级分区表

select * from emp_partition where month='201509';

（2）统计一个季度的IP地址

select count(distinct ip) from emp_partition where month='201509'
union
select count(distinct ip) from emp_partition where month='201508'
union
select count(distinct ip) from emp_partition where month='201507';

将该语句放入sql脚本中，使用方式：bin/hive -f xx.sql
（3）二级分区，按月日分区

create EXTERNAL table IF NOT EXISTS default.emp_partition(
     empno int,
     ename string,
     job string,
     mgr int,
     hiredate string,
     sal double,
     comm double,
     deptno int)
partitioned by (month string,day string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ;

加载数据到二级分区表

load data local inpath '/opt/datas/emp.txt' into table default.emp_partition partition (month='201509',day='13') ;

查看二级分区表

select * from emp_partition where month = '201509' and day = '13' ;

（4）注意事项
<1>创建不分区表

create table IF NOT EXISTS default.dept_nopart(
     deptno int,
     dname string,
     loc string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

将数据上传到HDFS上不分区表的目录中

dfs -put /opt/datas/dept.txt /user/hive/warehouse/dept_nopart ;

查看不分区表中是否已填充数据

select * from dept_nopart ;

不分区表中已填充了HDFS上不分区表所在目录中的数据
<2>创建分区表

create table IF NOT EXISTS default.dept_part(
     deptno int,
     dname string,
     loc string)
partitioned by (day string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

将数据上传到HDFS上分区表的目录中

dfs -put /opt/datas/dept.txt /user/hive/warehouse/dept_part ;

查看不分区表中是否已填充数据

select * from dept_part ;

发现分区表中并未自动填充HDFS上分区表所在目录中的数据。原因是由于MySQL数据库中的PARTITION元数据并没有该分区表中的分区信息。解决方式有两种。
<3>第一种方式

dfs -mkdir -p /user/hive/warehouse/dept_part/day=20150913 ;
dfs -put /opt/datas/dept.txt /user/hive/warehouse/dept_part/day=20150913 ;
msck repair table dept_part ;     修复分区表

<4>第二种方式

dfs -mkdir -p /user/hive/warehouse/dept_part/day=20150914 ;
dfs -put /opt/datas/dept.txt /user/hive/warehouse/dept_part/day=20150914 ;
alter table dept_part add partition(day='20150914');   增加分区

<5>查看表中有什么分区

show partitions dept_part ;

7、加载数据

load data [local] inpath 'filepath' [overwrite] into table tablename [partition (partcol1=val1,...)];

<1>原始文件存储的位置：本地local、hdfs。
<2>对表的数据是否覆盖：覆盖overwrite、追加。
<3>分区表加载：partition (partcol1=val1,…)。
例：
<1>加载本地文件到hive表

load data local inpath '/opt/datas/emp.txt' into table default.emp ;

<2>加载hdfs文件到hive中

load data inpath '/user/beifeng/hive/datas/emp.txt' overwrite into table default.emp ;

<3>加载数据覆盖表中已有的数据

load data inpath '/user/beifeng/hive/datas/emp.txt' overwrite into table default.emp ;

<4>创建表是通过insert加载

create table default.emp_ci like emp ;
insert into table default.emp_ci select * from default.emp;

5）创建表的时候通过location指定加载
8、输出数据

insert overwrite local directory '/opt/datas/hive_exp_emp'
select * from default.emp ;
insert overwrite local directory '/opt/datas/hive_exp_emp2'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' COLLECTION ITEMS TERMINATED BY '\n'
select * from default.emp ;
insert overwrite directory '/user/beifeng/hive/hive_exp_emp'
select * from default.emp ;
bin/hive -e "select * from default.emp ;" > /opt/datas/exp_res.txt

9、函数方法
查看系统中的方法：show functions;
描述一个方法：desc function upper;
详细描述一个方法：desc function extended upper;
注意：描述一个方法需要加上function关键词，与描述表进行区分。

>SELECT upper('Facebook') FROM src LIMIT 1;
'FACEBOOK'

10、Hive常用的过滤条件
关键字：where，limit，distinct，between and，is null，is not null

select * from emp where sal > 3000;
select * from emp limit 1; 
select distinct deptno from emp;   
select * from emp where sal between 2000 and 3000;
select ename from emp where comm is null;
select ename from emp where comm is not null;

11、Hive常用的聚合函数
关键字：count，sum，avg，max，min，group by，having

select count(1) from emp;
select count(*) from emp;     运行效率较低

select avg(sal) avg_sal from emp;
select deptno,avg(sal) from emp group by deptno;
select deptno,avg(sal) avg_sal from emp group by deptno having avg_sal > 2000;

12、GROUP BY

SELECT [ALL | DISTINCT] select_expr, select_expr, ...
FROM table_reference
[WHERE where_condition]
[GROUP BY col_list]
[CLUSTER BY col_list
  | [DISTRIBUTE BY col_list] [SORT BY col_list]
]
[LIMIT number]

例：

select * from emp limit 5 ;

select t.empno, t.ename, t.deptno from emp t where  t.sal between 800 and 1500 ;

is null / is not null /in /not in

select t.empno, t.ename, t.deptno from emp t where comm is null ;

max/min/count/sum/avg

select count(*) cnt from emp ;
select max(sal) max_sal from emp ;
select sum(sal) from emp ;
select avg(sal) from emp ;

desc function extended max;查看函数详细信息。

group by /having 分组
emp表
每个部门的平均工资

select t.deptno, avg(t.sal) avg_sal from emp t group by t.deptno ;

每个部门中每个岗位的最高薪水

select t.deptno, t.job, max(t.sal) avg_sal from emp t group by t.deptno, job ;

having
where 是针对单条记录进行筛选，having 是针对分组结果进行筛选。
求每个部门的平均薪水大于2000的部门

select deptno, avg(sal) from emp group by deptno ;
select deptno, avg(sal) avg_sal from emp group by deptno having avg_sal > 2000;

13、join
对两个表进行连接，m表中的一条记录和n表中的一条记录组成一条记录。
等值join
join … on

select e.empno, e.ename, d.deptno, d.dname from emp e join dept d on e.deptno = d.deptno ;

左连接
left join…on

select e.empno, e.ename, d.deptno, d.dname  from emp e left join dept d on e.deptno = d.deptno ;

右连接
right join…on

select e.empno, e.ename, e.deptno, d.dname  from emp e right join dept d on e.deptno = d.deptno ;

全连接
full join…on

select e.empno, e.ename, e.deptno, d.dname  from emp e full join dept d on e.deptno = d.deptno ;

14、order by、sort by、distribute by、cluster by
（1）order by
对全局数据的一个排序，仅仅只有一个reduce。

select * from emp order by empno desc ;

（2）sort by
对每一个reduce内部数据进行排序的，对全局结果集来说不是排序。

set mapreduce.job.reduces= 3;
select * from emp sort by empno asc ;
insert overwrite local directory '/opt/datas/sortby-res' select * from emp sort by empno asc ;
insert overwrite local directory '/opt/datas/emp_sort' row format delimited fields terminated by '\t' select * from emp sort by sal;

（3）distribute by
类似于MapReduce中分区partition,对数据进行分区，结合sort by进行使用。

insert overwrite local directory '/opt/datas/distby-res' select * from emp distribute by deptno sort by empno asc ;
insert overwrite local directory '/opt/datas/emp_dist' row format delimited fields terminated by '\t' select * from emp distribute by deptno sort by sal;

注意：distribute by 必须要在sort by 前面。
（4）cluster by
当distribute by和sort by 字段相同时，可以使用cluster by 。

insert overwrite local directory '/opt/datas/cluster-res' select * from emp cluster by empno ;
insert overwrite local directory '/opt/datas/emp_cls' row format delimited fields terminated by '\t' select * from emp cluster by sal;

15、UDF：User Definition Function
UDF：用户自定义函数，允许用户扩展HiveQL功能；
<1>UDF(User-Defined-Function) 一进一出；
<2>UDAF(User-Defined Aggregation Funcation) 聚集函数，多进一出；类似于：count/max/min。
<3>UDTF(User-Defined Table-Generating Functions) 一进多出。
编写用户定义函数需要在pom.xml文件中添加如下坐标。
pom.xml

		
		
			org.apache.hive
			hive-jdbc
			0.13.1
		
		
			org.apache.hive
			hive-exec
			0.13.1

创建用户自定义函数步骤：
（1）创建一个新类，继承自org.apache.hadoop.hive.ql.exec.UDF，类中定义一个或多个函数，名字为evaluate，供hive调用，evaluate函数支持重载。
注意： <1>UDF必须要有返回类型，可以返回null，但是返回类型不能为void； <2>UDF中常用Text/LongWritable等类型，不推荐使用java类型。
（2）将自己的hive-site.xml文件放到eclipse工程下，便于读取配置。
（3）将创建的类打包成jar文件上传到Linux系统中，在Linux系统中与jar包进行关联

add jar /opt/datas/hiveudf.jar ;

（4）以jar包中的类创建临时自定义函数

create temporary function my_lower as "com.beifeng.senior.hive.udf.LowerUDF" ;

（5）使用临时自定义函数

select ename, my_lower(ename) lowername from emp limit 5 ;

（6）以jar包中的类创建自定义函数

CREATE FUNCTION self_lower AS 'com.beifeng.senior.hive.udf.LowerUDF' USING JAR 'hdfs://hadoop-senior.ibeifeng.com:8020/user/beifeng/hive/jars/hiveudf.jar';

（7）使用自定义函数

select ename, self_lower(ename) lowername from emp limit 5;

16、分析函数和窗口函数
分析函数和窗口函数的作用：对分组后的数据进行处理
（1）建表

create table emp(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm double,
deptno int
)
row format delimited fields terminated by '\t';
load data local inpath '/opt/datas/emp.txt' into table emp;

（2）需求：查看部门10的所有员工，按照薪资进行降序排列，默认情况下是升序的。

select * from emp where deptno='10' order by sal desc;

emp.empno       emp.ename       emp.job        emp.mgr   emp.hiredate    emp.sal   emp.comm        emp.deptno
7839            KING            PRESIDENT      NULL      1981-11-17      5000.0    NULL            10
7782            CLARK           MANAGER        7839      1981-6-9        2450.0    NULL            10
7934            MILLER          CLERK          7782      1982-1-23       1300.0    NULL            10

（3）需求：按照所有部门进行分组，按照薪资进行降序排列，每个部门薪资最高的那个人的薪资显示在最后一列

select empno,ename,deptno,sal,max(sal) over (partition by deptno order by sal desc) as max_as from emp;

(partition by deptno order by sal desc)这部分进行了分组，然后针对每个分组进行排序。
如果不使用这种分析函数之类的去分析的话，排序和分组都是全局的。

empno   ename   deptno  sal     max_as
7839    KING    10      5000.0  5000.0
7782    CLARK   10      2450.0  5000.0
7934    MILLER  10      1300.0  5000.0

7788    SCOTT   20      3000.0  3000.0
7902    FORD    20      3000.0  3000.0
7566    JONES   20      2975.0  3000.0
7876    ADAMS   20      1100.0  3000.0
7369    SMITH   20      800.0   3000.0

7698    BLAKE   30      2850.0  2850.0
7499    ALLEN   30      1600.0  2850.0
7844    TURNER  30      1500.0  2850.0
7654    MARTIN  30      1250.0  2850.0
7521    WARD    30      1250.0  2850.0
7900    JAMES   30      950.0   2850.0

（4）需求：按照所有部门进行分组，按照薪资进行降序排列，每个部门的薪资排名显示在最后一列

select empno,ename,deptno,sal,row_number() over (partition by deptno order by sal desc) as rn from emp;

empno   ename   deptno  sal     rn
7839    KING    10      5000.0  1
7782    CLARK   10      2450.0  2
7934    MILLER  10      1300.0  3

7788    SCOTT   20      3000.0  1
7902    FORD    20      3000.0  2
7566    JONES   20      2975.0  3
7876    ADAMS   20      1100.0  4
7369    SMITH   20      800.0   5

7698    BLAKE   30      2850.0  1
7499    ALLEN   30      1600.0  2
7844    TURNER  30      1500.0  3
7654    MARTIN  30      1250.0  4
7521    WARD    30      1250.0  5
7900    JAMES   30      950.0   6

（5）需求：按照所有部门进行分组，按照薪资进行降序排列，每个部门展示薪资排名前三的员工信息

select empno,ename,deptno,sal from (select empno,ename,deptno,sal,row_number() over (partition by deptno order by sal desc) as rn from emp) tmp where rn <3;

empno   ename   deptno  sal
7839    KING    10      5000.0
7782    CLARK   10      2450.0

7788    SCOTT   20      3000.0
7902    FORD    20      3000.0

7698    BLAKE   30      2850.0
7499    ALLEN   30      1600.0

（6）LEAD向后和LAG向前
展示：列、偏移量、默认值

id		name		lag
1		jack		0
2		tom			0

17、Hive数据的导入方式
（1）从本地文件系统load方式

load data local inpath 'local_path' into table tb_name;

从本地复制文件到Hive表的路径下。
应用场景：在大部分的使用场景中，文件几乎都是默认先存储在本地的。
（2）从HDFS文件系统load方式

load data inpath 'hdfs_path' into table tb_name;

将HDFS上的文件移动到Hive表的路径下。
应用场景：更适合大数据量的存储。
（3）load方式，overwrite

load data inpath 'hdfs_path' overwrite into table tb_name;

应用场景：适合一些重复写入的表（临时表），作为一个过渡使用。
（4）子查询方式，as
应用场景：对于数据查询结果的保存。
（5）insert方式
在传统关系型数据库中，insert是插入一个值；在hive中，insert into table后面还是跟一个select语句

insert into table select sql;

举例：

create table emp_insert like emp;
insert into table emp_insert select * from emp;

应用场景：和子查询类似。
（6）location方式
指定一个文件夹，然后将数据导入进去。
18、Hive数据的导出方式
（1）insert方式
格式：insert overwrite [local] directory 'path' select sql;
数据导出到本地：insert overwrite local directory '/opt/datas/emp_in01' select * from emp;
输出的目标路径可以提前存在，底层实现的时候，先删除目标路径再重新创建。
指定分隔符：insert overwrite local directory '/opt/datas/emp_in01' row format delimited fields terminated by '\t' select * from emp;
数据导出到HDFS：insert overwrite directory '/emp_insert' select * from emp;
注意：数据导出到HDFS时，HDFS上的上一级父目录必须存在。
（2）HDFS SHELL命令：-get

bin/hdfs dfs -get hdfs_path local_path

（3）在Linux的命令行使用hive的-e -f参数，将输出重定向保存到本地文件
（4）sqoop方式
（5）hive支持Export和Import
Export 导出，将Hive表中的数据，导出到外部
Import 导入，将外部数据导入Hive表中

EXPORT TABLE default.emp TO '/user/beifeng/hive/export/emp_exp' ;
dfs -text /user/beifeng/hive/export/emp_exp/data/emp.txt;

该导出路径指的是HDFS上路径。

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name
  LIKE existing_table_or_view_name
  [LOCATION hdfs_path];

create table db_hive.emp like default.emp ;
import table db_hive.emp from '/user/beifeng/hive/export/emp_exp';

你可能感兴趣的:(BigData,云计算大数据学习分享与沉淀)

把hive中的数据导出到mysql 樱浅沐冰笔记 hadoop hive mysql
注意事项！！！！1.hive中的表的字段和类型必须和mysql表中的字段和类型一样不如hive中的stnamevarchar（50），那么mysql中的字段和类型也必须为stnamestring2.sqoopexport--connectjdbc:mysql://localhost:3306/xiandian--usernameroot--passwordbigdata--tablem1--hca
Django常用ORM 程序猿_小天 Django django django orm
聚合分组Sum函数将None变为0xx=Coalesce(Sum('number'),0,output_field=CharField())跨表分组去重#B表中有一个外键表是A,即a=models.ForeignKey(A)a_queryset=BigData.objects.filter(pk=OuterRef("a")).annotate(Sum('number',distinct=True)
大数据治理：概念、框架与实践一ge科研小菜鸡大数据 Python 大数据
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注引言随着数据量的爆炸性增长，大数据治理（BigDataGovernance）成为数据管理领域的重要议题。大数据治理旨在对海量数据进行有效管理，确保数据的质量、可用性、安全性和合规性，同时为企业决策提供有力支持。本文系统介绍大数据治理的概念、核心框架、实施步骤及典型应用案例，结合实际场景提供技术支持和代码示例。一、大数据治理的定义与重要性1.什么是
【Springer斯普林格出版，Ei稳定，往届快速见刊检索】第四届电子信息工程、大数据与计算机技术国际学术会议（ EIBDCT 2025）艾思科蓝 AiScholar 学术会议计算机科学电子信息科学与技术大数据信息可视化可信计算技术深度学习人工智能自然语言处理信息与通信
第四届电子信息工程、大数据与计算机技术国际学术会议（EIBDCT2025）20254thInternationalConferenceonElectronicInformationEngineering,BigDataandComputerTechnology中国-青岛|2025年2月21-23日|www.eibdct.net组织单位长春电子科技大学、加拿大魁北克大学、美国新泽西理工学院、美国欧道
分布式系统理论基础二-CAP 王知无(import_bigdata)
GitHub：https://github.com/wangzhiwubigdata/God-Of-BigData关注公众号,内推,面试,资源下载,关注更多大数据技术~大数据成神之路~预计更新500+篇文章，已经更新50+篇~引言CAP是分布式系统、特别是分布式存储领域中被讨论最多的理论，“什么是CAP定理？”在Quora分布式系统分类下排名FAQ的No.1。CAP在程序员中也有较广的普及，它不仅
使用java代码消费kafka数据二进制_博客大数据 java kafka
首先创建maven项目，导入jar包org.apache.kafkakafka-clients3.0.0org.slf4jslf4j-log4j121.7.25示例一：使用java代码消费kafka所有数据packagecom.bigdata.day03;importorg.apache.kafka.clients.consumer.ConsumerConfig;importorg.apache.
Hive 查看partition 以及msck 修复分区 dgsdaga3026010 大数据
#checktable的partitionhive>showpartitionstable_name;如果是外部表，不小心把表给删除了，可以适用下命令重新关联表和数据[MSCKREPAIRTABLE]全量修复分区hive>msckrepairtabletable_name;转载于:https://www.cnblogs.com/TendToBigData/p/10501178.html
2024年总结：大转向年度总结
本文于2025年1月2号首发于公众号“狗哥琐话”。2024年是个打工人苦命年，我看到几乎每个人都比以往辛苦。这让我想起了六字真言，钱难赚屎难吃。职业转向今年我在职业上尝试做了一个转向，具体的结果可能需要比较长的时间来检验我选择是否正确，所以转向的细节我就不全部展开了，可以确定是我依然会专注在Infra和BigData，比如今年我发布了SparkSQL和FlinkSQL的IDEA提效插件。那么我为什
官宣开源阿里云与清华大学共建AI大模型推理项目Mooncake 阿里云大模型
2024年6月，国内优质大模型应用月之暗面Kimi与清华大学MADSys实验室（MachineLearning,AI,BigDataSystemsLab）联合发布了以KVCache为中心的大模型推理架构Mooncake。通过使用以KVCache为中心的PD分离和以存换算架构，大幅提升大模型应用Kimi智能助手推理吞吐的同时有效降低了推理成本，自发布以来受到业界广泛关注。近日，清华大学和研究组织9#
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
echarts象形渐变柱状图星星跌入梦境* echarts angular.js 前端
一、效果图如下：二、代码如下（1）父组件importitemfrom'../bigdata/components/item.vue'exportdefault{components:{item}}.page-con{width:100%;height:100%;.main-con{width:35%;height:33%;}}（2）子组件importechartsfrom"echarts";exp
大数据（Big Data）：探索信息时代的海量数据世界 hong161688 大数据
大数据（BigData）：探索信息时代的海量数据世界一、大数据的定义与特点大数据（BigData），或称巨量资料，是指那些在传统数据处理应用软件无法有效捕捉、管理和处理的数据集合。这些数据集通常具有海量、高增长率和多样化的特点，需要新的处理模式才能赋予其更强的决策力、洞察发现力和流程优化能力。大数据的“大”不仅体现在数据量的规模上，更在于其处理难度和复杂性，以及对信息提取和价值挖掘的需求。大数据的
Ingest Pipeline & Painless Script 折纸虚桐 ES学习笔记 elasticsearch
DELETEtech_blogs#Blog数据，包含3个字段，tags用逗号间隔PUTtech_blogs/_doc/1{"title":"Introducingbigdata......","tags":"hadoop,elasticsearch,spark","content":"Youknow,forbigdata"}#测试splittagsPOST_ingest/pipeline/_sim
HIVE 数据模型 HFDYCYY 大数据
体系结构：元数据/HQL的执行安装：嵌入/远程/本地管理：CLI/web界面/远程服务数据类型：基本/复杂/时间数据模型：数据存储/内部表/分区表/外部表/桶表/视图WEB管理工具：http://tdxy-bigdata-04:8889/notebook/editor?type=hive集群状态管理：http://tdxy-bigdata-03:7180/cmf/home基于HDFS没有专门的数据
山东大学大数据管理与分析知识点总结 weixin_51565263 云计算大数据 mapreduce 数据仓库
大数据概述大数据(bigdata)，或称巨量资料，指的是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产大数据指不用随机分析法（抽样调查）这样的捷径，而采用所有数据进行分析处理大数据四个本质特征大量化（volume），快速化（velocity），多样化（variety），价值化（value）；四个VVolume—数量大：数据每两年就增长一倍（大数据摩尔
大数据-Big Data Dingdangr big data
大数据（BigData）是指规模庞大、多样化、高速度的数据集合。与传统数据相比，大数据具有一些显著的特点，并广泛应用于各个领域。以下是对大数据的详细解释：一、大数据的定义大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。二、大数据的主要特点数据量巨大（Volume）：大数据最
BigData学习日记 wsuan
做一个简单的开篇说明从今天开始，每天定时更新当天所学知识，进行知识总结的同时进行一下日子的计算，也算为自己加油。
pyflink1.18.0 报错 TypeError: cannot pickle ‘_thread.lock‘ object Thomas2143 总结 pyflink
完整报错Traceback(mostrecentcalllast):File"/Users//1.py",line851,inds1=my_datastream.key_by(lambdax:x[0]).process(MyProcessFunction())#返回元组即:f0f1f2三列File"/Users/thomas990p/bigdataSoft/minicondaarm/minicon
扩展学习|大数据，新的认识论和范式转变封印师请假去地球钓鱼计算机辅助信息分析主题扩展阅读大数据科研范式转变
文献来源：[1]KitchinR.BigData,NewEpistemologiesandParadigmShift[J].BigData&Society,2014,1(1):1-12.DOI:10.1177/2053951714528481.下载链接：https://pan.baidu.com/s/1RdnIo5VeL-CERk2sxyILiQ提取码：0ih2一、科学研究的范式转变正如库恩(19
阿里云计算平台大数据基础工程技术团队直聘！！！大数据
大数据基础工程技术团队，隶属于阿里云智能集团计算平台事业部，是一支负责阿里集团、公共云和混合云场景计算平台大数据&AI产品的稳定性建设、架构&成本优化、运维产品ABM（ApsaraBigdataManager）研发和售后技术专家支持的团队。通过软件工程，数据智能化的方法论，围绕数据系统化建设运维智能工具链，打造飞天大数据&AI运维管控平台ABM，解决超大规模分布式集群运维管理问题，提升产品的稳定性
单细胞注释刘综一
单细胞-注释-2022-01-17多个样本单细胞分析流程-(jianshu.com)一、人工注释人工注释需要借助文献检索marker或者结合常用的注释数据库，例如两个常用的数据库：CellMarker（http://bio-bigdata.hrbmu.edu.cn/CellMarker/）；panglaoDB（ASingleCellSequencingResourceForGeneExpressi
[bigdata-050] 规则引擎和专家系统pyke+pyclipse+drools 未济2019
反欺诈最有效的方式，是搜索所有的欺诈事件，然后将欺诈行为和防范措施进行规则化，表达成产生式规则，再由规则引擎驱动进行反欺诈业务实战。产生式规则，就是AI领域早期的专家系统。规则引擎如下：1.clipsehttp://clipsrules.sourceforge.net/http://clipsrules.sourceforge.net/FAQ.html这个是nasa在1985年开发的，ansic，
【Fellow 云集 | 经管主题/EI会议 | 快见刊】第三届大数据、区块链与经济管理国际学术会议 (ICBBEM 2024)，早投稿、早送审、早录用！艾思科蓝 AiScholar 学术会议大数据区块链信任链人工智能软件工程线性回归算法
第三届大数据、区块链与经济管理国际学术会议(ICBBEM2024)The3rdInternationalConferenceonBigdataBlockchainandEconomyManagement大会网站：https://ais.cn/u/YFbQru（更多会议详情）大会时间：2024年3月29-31号大会地点：中国-武汉截稿时间：以官网信息为准提交检索：EICompendex，Scopus
python+大数据学习打卡day1 岁月不静好456 big data 学习
【大数据从0-1打卡-day1】1、简单了解一些关于大数据的概念数据：数据就是对客观事件进行记录并可以鉴别的符号。他不仅仅是指数字，还可以是有一定意义的字母、文字、符号、语音、文字、图画、视频或者这些元素的结合等。企业数据分析方向：现状分析：离线分析原因分析：实时分析预测分析：机器学习数据分析基本流程：采集、处理、分析、应用大数据：大数据(bigdata)，指的是所涉及的资料量规模巨大到无法透过主
因果推断推荐系统工具箱 - CFF（二） processor4d
文章名称【CIKM-2021】【BeijingKeyLaboratoryofBigDataManagementandAnalysisMethods-AntGroup】CounterfactualReview-basedRecommendation核心要点文章旨在解决现有基于评论的推荐系统中存在的评论稀疏和不平衡的问题，提出在feature-aware的推荐场景下，利用反事实样本提升模型性能。作者通
requests实验临风. 爬虫爬虫网络爬虫 python
文章目录实验目的：实验内容：1.使用百度搜索引擎查询给定的一个关键词（例如：bigdata），将搜索得到的网页存储起来。2.给定使用baidu搜索引擎的关键词列表，将搜索得到的网页分别存储起来。2.1代码展示2.2效果展示2.3注意事项3.在人邮教育官网上搜索“爬虫”的图书信息，结果保存起来。3.1代码展示3.2效果展示4.给定关键词列表（例如：【大数据、java、python】），在人邮教育官网
python数据可视化库_python和r中用于数据可视化的前9个库 weixin_26738983 可视化 python 数据可视化数据分析人工智能
python数据可视化库Intherapidlygrowingworldoftoday,whentechnologyisexpandingataratelikeneverbefore,bigdataisswiftlywalkingintopeople’slives.Thoughpeoplemayhavewaystoobtaindata,whenitcomestodrawinginsightsorc
spark好的文章链接 Trank-Lw spark 大数据分布式
https://blog.51cto.com/u_16099325/6763760`javaspark官方文档sparkjavaapi手册http://www.17bigdata.com/book/spark/BianChengZhiNan/SPARKGongXiangBianLiang.htmlJavaSparkML实现的文本分类https://blog.csdn.net/coderma/art
使用Python和OpenCV检测图像中的物体并将物体裁剪下来要去坐飞船图像处理
转载哦~https://blog.csdn.net/binbigdata/article/details/80029681介绍硕士阶段的毕设是关于昆虫图像分类的，代码写到一半，上周五导师又给我新的昆虫图片数据集了，新图片中很多图片很大，但是图片中的昆虫却很小，所以我就想着先处理一下图片，把图片中的昆虫裁剪下来，这样除去大部分无关背景，应该可以提高识别率。原图片举例（将红色矩形框部分裁剪出来））：s
Hadoop2.7配置不会吐丝的蜘蛛侠。 Hadoop hadoop 大数据 hdfs
core-site.xmlfs.defaultFShdfs://bigdata/ha.zookeeper.quorum192.168.56.70:2181,192.168.56.71:2181,192.168.56.72:2181-->hadoop.tmp.dir/export/data/hadoop/tmpfs.trash.interval1440io.file.buffer.size13107
java观察者模式 3213213333332132 java 设计模式游戏观察者模式
观察者模式——顾名思义，就是一个对象观察另一个对象，当被观察的对象发生变化时，观察者也会跟着变化。在日常中，我们配java环境变量时，设置一个JAVAHOME变量,这就是被观察者，使用了JAVAHOME变量的对象都是观察者，一旦JAVAHOME的路径改动，其他的也会跟着改动。这样的例子很多，我想用小时候玩的老鹰捉小鸡游戏来简单的描绘观察者模式。老鹰会变成观察者，母鸡和小鸡是
TFS RESTful API 模拟上传测试 ronin47
TFS RESTful API 模拟上传测试。　　细节参看这里：https://github.com/alibaba/nginx-tfs/blob/master/TFS_RESTful_API.markdown 模拟POST上传一个图片： curl --data-binary @/opt/tfs.png http
PHP常用设计模式单例, 工厂, 观察者, 责任链, 装饰, 策略,适配,桥接模式 dcj3sjt126com 设计模式 PHP
// 多态, 在JAVA中是这样用的, 其实在PHP当中可以自然消除, 因为参数是动态的, 你传什么过来都可以, 不限制类型, 直接调用类的方法 abstract class Tiger { public abstract function climb(); } class XTiger extends Tiger { public function climb()
hibernate 171815164 Hibernate
main,save Configuration conf =new Configuration().configure(); SessionFactory sf=conf.buildSessionFactory(); Session sess=sf.openSession(); Transaction tx=sess.beginTransaction(); News a=new
Ant实例分析 g21121 ant
下面是一个Ant构建文件的实例，通过这个实例我们可以很清楚的理顺构建一个项目的顺序及依赖关系，从而编写出更加合理的构建文件。下面是build.xml的代码： <?xml version="1
[简单]工作记录_接口返回405原因 53873039oycg 工作
最近调接口时候一直报错，错误信息是: responseCode:405 responseMsg:Method Not Allowed 接口请求方式Post.
关于java.lang.ClassNotFoundException 和 java.lang.NoClassDefFoundError 的区别程序员是怎么炼成的
真正完成类的加载工作是通过调用 defineClass来实现的；而启动类的加载过程是通过调用 loadClass来实现的；就是类加载器分为加载和定义 protected Class<?> findClass(String name) throws ClassNotFoundExcept
JDBC学习笔记-JDBC详细的操作流程 aijuans jdbc
所有的JDBC应用程序都具有下面的基本流程：　　1、加载数据库驱动并建立到数据库的连接。　　2、执行SQL语句。　　3、处理结果。　　4、从数据库断开连接释放资源。下面我们就来仔细看一看每一个步骤：其实按照上面所说每个阶段都可得单独拿出来写成一个独立的类方法文件。共别的应用来调用。 1、加载数据库驱动并建立到数据库的连接： Html代码 St
rome创建rss antonyup_2006 tomcat cms xml struts Opera
引用 1.RSS标准 RSS标准比较混乱，主要有以下3个系列 RSS 0.9x / 2.0 : RSS技术诞生于1999年的网景公司(Netscape)，其发布了一个0.9版本的规范。2001年，RSS技术标准的发展工作被Userland Software公司的戴夫温那(Dave Winer)所接手。陆续发布了0.9x的系列版本。当W3C小组发布RSS 1.0后，Dave W
html表格和表单基础百合不是茶 html 表格表单 meta 锚点
第一次用html来写东西,感觉压力山大,每次看见别人发的都是比较牛逼的再看看自己什么都还不会, html是一种标记语言,其实很简单都是固定的格式 _----------------------------------------表格和表单表格是html的重要组成部分,表格用在body里面的主要用法如下; <table> &
ibatis如何传入完整的sql语句 bijian1013 java sql ibatis
ibatis如何传入完整的sql语句？进一步说，String str ="select * from test_table"，我想把str传入ibatis中执行，是传递整条sql语句。解决办法： <
精通Oracle10编程SQL(14)开发动态SQL bijian1013 oracle 数据库 plsql
/* *开发动态SQL */ --使用EXECUTE IMMEDIATE处理DDL操作 CREATE OR REPLACE PROCEDURE drop_table(table_name varchar2) is sql_statement varchar2(100); begin sql_statement:='DROP TABLE '||table_name;
【Linux命令】Linux工作中常用命令 bit1129 linux命令
不断的总结工作中常用的Linux命令 1.查看端口被哪个进程占用通过这个命令可以得到占用8085端口的进程号，然后通过ps -ef|grep 进程号得到进程的详细信息 netstat -anp | grep 8085 察看进程ID对应的进程占用的端口号 netstat -anp | grep 进程ID &
优秀网站和文档收集白糖_ 网站
集成 Flex, Spring, Hibernate 构建应用程序性能测试工具-JMeter Hmtl5-IOCN网站 Oracle精简版教程网站鸟哥的linux私房菜 Jetty中文文档 50个jquery必备代码片段 swfobject.js检测flash版本号工具
angular.extend boyitech AngularJS angular.extend AngularJS API
angular.extend 复制src对象中的属性去dst对象中. 支持多个src对象. 如果你不想改变一个对象，你可以把dst设为空对象{}: var object = angular.extend({}, object1, object2). 注意: angular.extend不支持递归复制. 使用方法: angular.extend(dst, src); 参数:
java-谷歌面试题-设计方便提取中数的数据结构 bylijinnan java
网上找了一下这道题的解答，但都是提供思路，没有提供具体实现。其中使用大小堆这个思路看似简单，但实现起来要考虑很多。以下分别用排序数组和大小堆来实现。使用大小堆： import java.util.Arrays; public class MedianInHeap { /** * 题目：设计方便提取中数的数据结构 * 设计一个数据结构，其中包含两个函数，1.插
ajaxFileUpload 针对 ie jquery 1.7+不能使用问题修复版本 Chen.H ajaxFileUpload ie6 ie7 ie8 ie9
jQuery.extend({ handleError: function( s, xhr, status, e ) { // If a local callback was specified, fire it if ( s.error ) { s.error.call( s.context || s, xhr, status, e ); }
[机器人制造原则]机器人的电池和存储器必须可以替换 comsci 制造
机器人的身体随时随地可能被外来力量所破坏,但是如果机器人的存储器和电池可以更换,那么这个机器人的思维和记忆力就可以保存下来,即使身体受到伤害,在把存储器取下来安装到一个新的身体上之后,原有的性格和能力都可以继续维持..... 另外,如果一
Oracle Multitable INSERT 的用法 daizj oracle
转载Oracle笔记-Multitable INSERT 的用法 http://blog.chinaunix.net/uid-8504518-id-3310531.html 一、Insert基础用法语法： Insert Into 表名 (字段1,字段2,字段3...） Values (值1,
专访黑客历史学家George Dyson datamachine on
20世纪最具威力的两项发明——核弹和计算机出自同一时代、同一群年青人。可是，与大名鼎鼎的曼哈顿计划（第二次世界大战中美国原子弹研究计划）相比，计算机的起源显得默默无闻。出身计算机世家的历史学家George Dyson在其新书《图灵大教堂》（Turing’s Cathedral）中讲述了阿兰·图灵、约翰·冯·诺依曼等一帮子天才小子创造计算机及预见计算机未来
小学6年级英语单词背诵第一课 dcj3sjt126com english word
always 总是 rice 水稻，米饭 before 在...之前 live 生活，居住 usual 通常的 early 早的 begin 开始 month 月份 year 年 last 最后的 east 东方的 high 高的 far 远的 window 窗户 world 世界 than 比...更
在线IT教育和在线IT高端教育 dcj3sjt126com 教育
codecademy http://www.codecademy.com codeschool https://www.codeschool.com teamtreehouse http://teamtreehouse.com lynda http://www.lynda.com/ Coursera https://www.coursera.
Struts2 xml校验框架所定义的校验文件蕃薯耀 Struts2 xml校验 Struts2 xml校验框架 Struts2校验
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 15:54:59 星期六 http://fa
mac下安装rar和unrar命令 hanqunfeng mac
1.下载：http://www.rarlab.com/download.htm 选择 RAR 5.21 for Mac OS X 2.解压下载后的文件 tar -zxvf rarosx-5.2.1.tar 3.cd rar sudo install -c -o $USER unrar /bin #输入当前用户登录密码 sudo install -c -o $USER rar
三种将list转换为map的方法 jackyrong list
在本文中，介绍三种将list转换为map的方法： 1）传统方法假设有某个类如下 class Movie { private Integer rank; private String description; public Movie(Integer rank, String des
年轻程序员需要学习的5大经验 lampcy 工作 PHP 程序员
在过去的7年半时间里，我带过的软件实习生超过一打，也看到过数以百计的学生和毕业生的档案。我发现很多事情他们都需要学习。或许你会说，我说的不就是某种特定的技术、算法、数学，或者其他特定形式的知识吗？没错，这的确是需要学习的，但却并不是最重要的事情。他们需要学习的最重要的东西是“自我规范”。这些规范就是：尽可能地写出最简洁的代码；如果代码后期会因为改动而变得凌乱不堪就得重构；尽量删除没用的代码，并添加
评“女孩遭野蛮引产致终身不育 60万赔偿款1分未得”医腐深入骨髓 nannan408
先来看南方网的一则报道：再正常不过的结婚、生子，对于29岁的郑畅来说，却是一个永远也无法实现的梦想。从2010年到2015年，从24岁到29岁，一张张新旧不一的诊断书记录了她病情的同时，也清晰地记下了她人生的悲哀。　　粗暴手术让人发寒　　2010年7月，在酒店做服务员的郑畅发现自己怀孕了，可男朋友却联系不上。在没有和家人商量的情况下，她决定堕胎。　　12月5日，
使用jQuery为input输入框绑定回车键事件 VS 为a标签绑定click事件 Everyday都不同 jsp input 回车键绑定 click enter
假设如题所示的事件为同一个，必须先把该js函数抽离出来，该函数定义了监听的处理： function search() { //监听函数略...... } 为input框绑定回车事件，当用户在文本框中输入搜索关键字时，按回车键，即可触发search(): //回车绑定 $(".search").keydown(fun
EXT学习记录 tntxia ext
1. 准备（1）官网：http://www.sencha.com/ 里面有源代码和API文档下载。 EXT的域名已经从www.extjs.com改成了www.sencha.com ，但extjs这个域名会自动转到sencha上。（2）帮助文档：想要查看EXT的官方文档的话，可以去这里h
mybatis3的mapper文件报Referenced file contains errors xingguangsixian mybatis
最近使用mybatis.3.1.0时无意中碰到一个问题： The errors below were detected when validating the file "mybatis-3-mapper.dtd" via the file "account-mapper.xml". In most cases these errors can be d