DU_XXRS

CDHhadoop数据操作使用


1.词频量统计，基于cdh hadoop  自带的demo 运行指令如下：
wordcount----hadoop  jar /opt/cloudera/parcels/CDH/jars/hadoop-examples.jar wordcount  输入路径：/user/root/input 输出路径 /user/root/output
命令：/opt/cloudera/parcels/CDH/jars/hadoop-examples.jar wordcount  /user/root/input  /user/root/output

2.hive创建表：
Create external table testtable (
name string,
message string
) 
row format delimited fields terminated by '\t' 
lines terminated by '\n' 
location '/user/file.csv' 
tblproperties ("skip.header.line.count"="1", "skip.footer.line.count"="2");
就是上面sql中tblproperties的2个属性
“skip.heaer.line.count” 跳过文件行首多少行
“skip.footer.line.count”跳过文件行尾多少行

DROP TABLE IF EXISTS 表名;
-- TAB2 同TAB1 一样都是外部表
CREATE EXTERNAL TABLE 表名
(
   id INT,
   col_1 BOOLEAN,
   col_2 DOUBLE
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','//数据之间分割,csv格式之间是‘,’分割。/t  /n
LOCATION '/user/test;//加载数据文件地址
//加载hdfs数据到hive中
load DATA INPATH '/user/test/data1.csv' INTO TABLE 表名//数据文件名。
例如：
load data inpath '/user/test/myfile/artrile.txt' into table arc;

3.权限问题
设置权限指令： hdfs dfs -chmod 777 /user/...   //将文件权限设置为可读可写等等 // 777是所有权限全都开通。

4.hive & impala语句使用规则：
Hive和impala语句支持大部分sql,有个别方式不支持，具体差距：
https://www.cnblogs.com/HondaHsu/p/4346354.html
https://www.cnblogs.com/HondaHsu/p/4346354.html
Impala共享hive:INVALIDATE METADATA;
5.hbase规则
Hbase存储方式键值对
常用命令:hbase shell
（1）创建表：create <table>, {NAME => , VERSIONS => 例如：create 'User','info'(创建一个User表，并且有一个info列族)
（2）查看所有表:list
（3）查看表详情:describe 'User'
（4）删除指定的列族:alter 'User', 'delete' => 'info'
（5） 插入数据:put <table>,,,例如：put 'User', 'row1', 'info:name', 'xiaoming’           
（6）根据rowKey查询某个记录:get <table>,,[,....] 例如：get 'User', 'row2'
（7）查询所有记录：scan 'User'
（8）扫描前2条：scan 'User', {LIMIT => 2}
（9）范围查询：scan 'User', {STARTROW => 'row2'}  ----scan 'User', {STARTROW => 'row2', ENDROW => 'row2'}
（10）统计表记录数:count <table>, {INTERVAL => intervalNum, CACHE => cacheNum}例如：count 'User'
（11）删除列：delete 'User', 'row1', 'info:age'
（12）删除所有行：deleteall 'User', 'row2'
（13）删除表中所有数据：truncate 'User'
（14）禁用表：disable 'User'
（15）启用表：enable 'User'
（16）测试表是否存在：exists 'User'
（17）删除表前，必须先disable：drop 'TEST.USER'
4.6.hive到hbase的使用
命令： CREATE EXTERNAL TABLE h1
(id string, name string,age int,sex string)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' 
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,info:name,info:age,info:sex") TBLPROPERTIES("hbase.table.name" = "User");
创建一个hive表加载hbase数据。
5.spark启动问题
（1）spark是独立于hadoop之外的；
（2）Spark RDD编程
Spark中RDD是一个不可变的分布式对象集合。每个RDD被分为多个分区，这些分区运行在集群的不同的节点上。
RDD可以包含Python、Java、Scala中的任意类型的对象，以及自定义的对象。
创建RDD的两种方法：
1 读取一个数据集(SparkContext.textFile()) : lines = sc.textFile("README.md")
2 读取一个集合(SparkContext.parallelize()) : lines = sc.paralelize(List("pandas","i like pandas"))
RDD的两种操作：
1 转化操作(transformation) : 由一个RDD生成一个新的RDD
2 行动操作(action) : 对RDD中的元素进行计算，并把结果返回
RDD的惰性计算：
可以在任何时候定义新的RDD，但Spark会惰性计算这些RDD。它们只有在第一次行动操作中用到的时候才会真正的计算。
此时也不是把所有的计算都完成，而是进行到满足行动操作的行为为止。
lines.first() : Spark只会计算RDD的第一个元素的值
常见的转化操作：
对一个RDD的转化操作：
原始RDD：
1
2	scala> val rdd = sc.parallelize(List(1,2,3,3))
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at :27
map() : 对每个元素进行操作，返回一个新的RDD
1
2	scala> rdd.map(x => x +1 ).collect()
res0: Array[Int] = Array(2, 3, 4, 4)
flatMap() : 对每个元素进行操作，将返回的迭代器的所有元素组成一个新的RDD返回
1
2	scala> rdd.flatMap(x => x.to(3)).collect()
res2: Array[Int] = Array(1, 2, 3, 2, 3, 3, 3)
filter() : 最每个元素进行筛选，返回符合条件的元素组成的一个新RDD
1
2	scala> rdd.filter(x => x != 1).collect()
res3: Array[Int] = Array(2, 3, 3)
distinct() : 去掉重复元素
1
2	scala> rdd.distinct().collect()
res5: Array[Int] = Array(1, 2, 3)
sample(withReplacement,fration,[seed]) : 对RDD采样，以及是否去重
　　第一个参数如果为true,可能会有重复的元素，如果为false，不会有重复的元素；
　　第二个参数取值为[0,1]，最后的数据个数大约等于第二个参数乘总数；
　　第三个参数为随机因子。
1
2
3
4
5
6
7
8	scala> rdd.sample(false,0.5).collect()
res7: Array[Int] = Array(3, 3)
 
scala> rdd.sample(false,0.5).collect()
res8: Array[Int] = Array(1, 2)
 
scala> rdd.sample(false,0.5,10).collect()
res9: Array[Int] = Array(2, 3)
对两个RDD的转化操作：
原始RDD：
1
2
3
4
5	scala> val rdd1 = sc.parallelize(List(1,2,3))
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[13] at parallelize at :27
 
scala> val rdd2 = sc.parallelize(List(3,4,5))
rdd2: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[14] at parallelize at :27
union() ：合并，不去重
1
2	scala> rdd1.union(rdd2).collect()
res10: Array[Int] = Array(1, 2, 3, 3, 4, 5)
1
2	scala> rdd1.intersection(rdd2).collect()
res11: Array[Int] = Array(3)
intersection() ：交集
subtract() ： 移除相同的内容
1
2	scala> rdd1.subtract(rdd2).collect()
res12: Array[Int] = Array(1, 2)
cartesian() ：笛卡儿积
1
2	scala> rdd1.cartesian(rdd2).collect()
res13: Array[(Int, Int)] = Array((1,3), (1,4), (1,5), (2,3), (2,4), (2,5), (3,3), (3,4), (3,5))
 常见的行动操作：
原始RDD：
1
2	scala> val rdd = sc.parallelize(List(1,2,3,3))
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at :27
collect() ：返回所有元素
1
2	scala> rdd.collect()
res14: Array[Int] = Array(1, 2, 3, 3)
count() ：返回元素个数
1
2	scala> rdd.count()
res15: Long = 4
countByValue() ： 各个元素出现的次数
1
2	scala> rdd.countByValue()
res16: scala.collection.Map[Int,Long] = Map(1 -> 1, 2 -> 1, 3 -> 2)
take(num) ： 返回num个元素
1
2	scala> rdd.take(2)
res17: Array[Int] = Array(1, 2)
top(num) ： 返回前num个元素
1
2	scala> rdd.top(2)
res18: Array[Int] = Array(3, 3)
takeOrdered(num)[(ordering)] ：按提供的顺序，返回最前面的num个元素（需要好好再研究一下）
1
2
3
4
5	scala> rdd.takeOrdered(2)
res28: Array[Int] = Array(1, 2)
 
scala> rdd.takeOrdered(3)
res29: Array[Int] = Array(1, 2, 3)
takeSample(withReplacement,num,[seed]) ：采样
1
2
3
4
5
6
7
8	scala> rdd.takeSample(false,1)
res19: Array[Int] = Array(2)
 
scala> rdd.takeSample(false,2)
res20: Array[Int] = Array(2, 3)
 
scala> rdd.takeSample(false,2,20)
res21: Array[Int] = Array(3, 3)
reduce(func) ：并行整合RDD中的所有数据（最常用的）
1
2	scala> rdd.reduce((x,y) => x + y)
res22: Int = 9
aggregate(zeroValue)(seqOp,combOp) ：先使用seqOp将RDD中每个分区中的T类型元素聚合成U类型，再使用combOp将之前每个分区聚合后的U类型聚合成U类型， 特别注意seqOp和combOp都会使用zeroValue的值，zeroValue的类型为U
1
2	scala> rdd.aggregate((0,0))((x, y) => (x._1 + y, x._2 +1), (x,y) => (x._1 + y._1, x._2 + y._2))
res24: (Int, Int) = (9,4)
fold(zero)(func) ：将aggregate中的seqOp和combOp使用同一个函数op
1
2	scala> rdd.fold(0)((x, y) => x + y)
res25: Int = 9
foreach(func)：对每个元素使用func
1
2
3
4
5	scala> rdd.foreach(x => println(x*2))
4
6
6
2	
 
Spark执行FP-Group
1.启动：spark-shell
2.加载hdfs数据: val data = sc.textFile("hdfs://192.168.100.140:8020/user/mllib/Groceries.txt")
3.遍历前十条数据(测试)data.take(10).foreach(println)
4.去除无用数据：val dataNoHead = data.filter(line => !line.contains("items"))
5.测试：dataNoHead.take(5).foreach(println)
6.清洗数据：val dataS = dataNoHead.map(line => line.split("\\{"))
7.清洗数据：val dataGoods = dataS.map(s => s(1).replace("}\"",""))
8.转换成建模数据：val fpData = dataGoods.map(_.split(",")).cache
9.输出查看：fpData.take(5).foreach(line => line.foreach(print))
10.FP-Group模型建立
11.实例化FPGrowth并且设置支持度为0.05，不满足该支持度的数据将被去除和分区为3：val fpGroup = new FPGrowth().setMinSupport(0.05).setNumPartitions(3)
12.开始创建模型 使用向前准备好的fpData数据，进行FP模型的建立。调用FPGrowth里面的run方法，进行模型的创建:val fpModel = fpGroup.run(fpData)
13.获取满足支持度条件的频繁项集:val freqItems = fpModel.freqItemsets.collect
14.打印频繁项内容。输入命令：freqItems.foreach(f=>println("FrequentItem:"+f.items.mkString(",")+"OccurrenceFrequency:"+f.freq)) //FrequentItem:频繁项,OccurrenceFrequency:出现次数
15.SparkR加载路径：/opt/cloudera/parcels/CDH-5.7.2-1.cdh5.7.2.p0.18/lib/spark
16.运行SparkR   ---->./sparkR  
Sqoop2 同步数据命令：
1.测试连接接：sqoop list-databases --connect jdbc:mysql://192.168.100.139:3306/ --username root --password 123456
2.执行数据同步：sqoop import --connect jdbc:mysql://10.10.1.145:3306/hedait_project --username root --password 123456 --table sys_user_role  --target-dir /user/root/hedait/sys_user_role --fields-terminated-by ':' -m 1 
3.应用数据库（mysql ）导入hbase----->      sqoop import --connect jdbc:mysql://10.120.10.11:3306/sqoop --username sqoop --password sqoop --table test --hbase-create-table --hbase-table mysql_sqoop_test --column-family info --hbase-row-key id -m 1

Sqoop增量导入Hive
1) 复制MySQL的表结构到Hive
sqoop create-hive-table --connect jdbc:mysql://192.168.1.1:3306/radius --username root --password 123 --table um_appuser --hive-table um_appuser --fields-terminated-by "\0001"  --lines-terminated-by "\n"


2) 创建Hive表对应的目录
hdfs dfs -mkdir /user/hive/um_appuser
3) 修改表Hive表对应的目录
ALTER TABLE um_appuser SET LOCATION 'hdfs://node1:8020/user/hive/um_appuser';

4) 转换为外部表
ALTER TABLE um_appuser SET TBLPROPERTIES ('EXTERNAL'='TRUE');

将数据导入Sqoop
sqoop import --connect jdbc:mysql://192.168.1.1:3306/radius --username root --password 123 --table um_appuser --hive-import --hive-table um_appuser

在Hive中执行
SELECT id FROM um_appuser ORDER BY id DESC LIMIT 1;

增量导入
1)创建job（注意–last-value的值，上一步查询得到的结果）
sqoop job --create um_appuser -- import --connect jdbc:mysql://192.168.1.1:3306/radius --username root --password 123 --table um_appuser --hive-import --hive-table um_appuser --incremental append --check-column id --last-value 15902

2)查看已经创建的Sqoop job
sqoop job --list

2)创建调度任务
0 */1 * * * sqoop job --exec um_appuser > um_appuser_sqoop.log 2>&1 &

1) 查询Hive
SELECT id FROM um_appuser ORDER BY id DESC LIMIT 1; --SELECT COUNT(DISTINCT id) FROM um_appuser; SELECT COUNT(id) FROM um_appuser; SELECT id FROM um_appuser GROUP BY id HAVING COUNT(id) > 1;
2) 查询MySQL
SELECT COUNT(1) FROM um_appuser WHERE id <= （Hive查询出最新的id）;

sqoop支持两种增量导入模式，
 一种是 append，即通过指定一个递增的列，比如：
--incremental append  --check-column num_iid --last-value 0
varchar类型的check字段也可以通过这种方式增量导入（ID为varchar类型的递增数字）：
--incremental append  --check-column ID --last-value 8
另种是可以根据时间戳，比如：
--incremental lastmodified --check-column created --last-value '2012-02-01 11:0:00'
就是只导入created 比'2012-02-01 11:0:00'更大的数据。

sqoop定时增量导入:https://blog.csdn.net/ryantotti/article/details/14226635
Rhadoop使用前数据包加载
1.启动SparkR：library(SparkR)
Sys.setenv(JAVA_HOME="/usr/java/jdk1.8.0_45")
Sys.setenv(HADOOP_CMD="/usr/bin/hadoop")
Sys.setenv(HIVE_HOME="/opt/cloudera/parcels/CDH-5.7.2-1.cdh5.7.2.p0.18/lib/hive")
Sys.setenv(HADOOP_HOME="/opt/cloudera/parcels/CDH-5.7.2-1.cdh5.7.2.p0.18/lib/hadoop")
library(rJava)
library(rhdfs)
hdfs.init()
hdfs.ls("/user")
input<-hdfs.cat("/user/mllib/Qualitative_Bankruptcy.data.txt")
library(Rserve)
library(RHive)
rhive.init()
rhive.connect("192.168.100.140", defaultFS="hdfs://192.168.100.140:8020")
rhive.query("show databases")
rhive.query("show tables")	
input2 <- rhive.query("select * from default.mm")	
Oozie定时任务
1.常用命令操作地址：http://blog.csdn.net/oracle8090/article/details/54599068
Es集群搭建：
1.http://blog.csdn.net/haoxiaoyan/article/details/54093028
ElasticSearch常用指令：
1、创建索引:curl -XPUT http://192.168.100.140:9200/test1/es/1 -d "{\"first_name\":\"test1\"}"
2.   通过文件导入：curl -XPOST 192.168.100.140:9200/bank/account/_bulk?pretty --data-binary @accounts.json
3.2、查询索引:curl -XPOST 192.168.100.140:9200/aaa/_search?pretty -d "{\"query\": { \"match_all\": {} }}"
4.　　　　　　curl -XGET 192.168.100.140:9200/aaa/_search?pretty -d "{\"query\": { \"match_all\": {} }}"
5.　　　　　　curl -XGET 192.168.100.140:9200/aaa/bbb/222
6.3、修改索引：curl -XPUT "http://192.168.100.140:9200/fendo/account/222" -d "{\"first_name\":\"fk\"}
7.4、删除索引：curl -XDELETE http://192.168.100.140:9200/fendo/account/222
8.5、查看所有索引：curl 192.168.100.140:9200/_cat/indices?v
Es-hadoop
1.一. hive部分
1.前提是加载jar包   每次使用hive启动时都要加载，也可以写在配置文件里（不提倡这种做法，hive配置其他应用时容易造成冲突。）
加载jar包方法：add jar ///opt/cloudera/parcels/CDH-5.7.2-1.cdh5.7.2.p0.18/lib/hive/lib/elasticsearch-hadoop-5.0.2.jar;

//同步es到hive
(1)第一种方法
CREATE EXTERNAL TABLE lxw1234_es_tags (
cookieid string,
age string,
name string 
)
STORED BY 'org.elasticsearch.hadoop.hive.EsStorageHandler'
TBLPROPERTIES(
'es.nodes' = '192.168.100.140:9200,192.168.100.141:9200,192.168.100.142:9200',
'es.index.auto.create' = 'false',
'es.resource' = 'hello',
'es.read.metadata' = 'true',
'es.mapping.names' = 'cookieid:_metadata._id, age:age, name:name');
(2)第二种方法
CREATE EXTERNAL TABLE company (
cookieid string,
address string,
address_suggest_input string,
address_suggest_output string,
address_suggest_weight bigint,
age bigint,
brand_suggest_output string,
brand_suggest_weight bigint,
business_scope  string,
business_scope_suggest_input  string,
business_scope_suggest_output  string,
business_scope_suggest_weight  bigint,
business_status  string,
ceo_suggest_output  string,
ceo_suggest_weight  bigint,
legal_man  string,
legal_man_suggest_input  string,
legal_man_suggest_output  string,
legal_man_suggest_weight  bigint,
name string,
name_suggest_input string,
name_suggest_weight bigint,
province string,
registered_capital string,
registered_data  date,
score  float
)
STORED BY 'org.elasticsearch.hadoop.hive.EsStorageHandler'
TBLPROPERTIES(
'es.nodes' = '192.168.100.140:9200,192.168.100.141:9200,192.168.100.142:9200',
'es.index.auto.create' = 'false',
'es.resource' = 'company',
'es.read.metadata' = 'true',
'es.mapping.names' = '
cookieid:_metadata._id,
address:address,
address_suggest_input:address_suggest.input,
address_suggest_output:address_suggest.output,
address_suggest_weight:address_suggest.weight,
age:age,
brand_suggest_output:brand_suggest.output,
brand_suggest_weight:brand_suggest.weight,
business_scope:business_scope,
business_scope_suggest_input:business_scope_suggest.input,
business_scope_suggest_output:business_scope_suggest.output,
business_scope_suggest_weight:business_scope_suggest.weight,
business_status:business_status,
ceo_suggest_output:ceo_suggest.output,
ceo_suggest_weight:ceo_suggest.weight,
legal_man:legal_man,
legal_man_suggest_input:legal_man_suggest.input,
legal_man_suggest_output:legal_man_suggest.output,
legal_man_suggest_weight:legal_man_suggest.weight,
name:name,
name_suggest_input:name_suggest.input,
name_suggest_weight:name_suggest.weight,
province:province,
registered_capital:registered_capital,
registered_data:registered_data,
score:score
');
//同步hive到es
//建立视图表
CREATE EXTERNAL TABLE user(id BIGINT, name STRING) STORED BY 'org.elasticsearch.hadoop.hive.EsStorageHandler'
TBLPROPERTIES('es.resource' = 'radio/artists','es.index.auto.create' = 'true',
'es.nodes'='192.168.100.140,192.168.100.141,192.168.100.142','es.port'='9200');
/////创建元数据外部表
CREATE TABLE user_source (id INT, name STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';
//引入数据
LOAD DATA LOCAL INPATH '/root/data/ceshi.txt' OVERWRITE INTO TABLE user_source;
//写入ES
INSERT OVERWRITE TABLE user SELECT s.id, s.name FROM user_source s;
//////////////////////////////////////////////////////////////////////////////////////////////////////
二. spark部分
//spark向es中写入数据。
//启动spark-shell并加载jar包（jar包版本自定义）
./spark-shell --jars ../lib/elasticsearch-spark-20_2.10-5.0.2.jar 
import org.apache.spark.SparkConf
import org.elasticsearch.spark._
val conf = new SparkConf()
conf.set("es.index.auto.create", "true")
conf.set("es.nodes","192.168.100.140,192.168.100.141,192.168.100.142")//es的节点，多个用逗号分隔
conf.set("es.port","9200")//端口号
val numbers = Map("one" -> 1, "two" -> 2, "three" -> 3)
val airports = Map("OTP" -> "Otopeni", "SFO" -> "San Fran")
sc.makeRDD(Seq(numbers, airports)).saveToEs("spark/docs")
//////////////////////////////////////////////////////////////////////////////////////////////////////////////
Spark-sql------>同步elasticsearch
bin/spark-sql –master spark://192.168.100.140:7077 –jars /root/software/elasticsearch-hadoop-5.0.2/dist/elasticsearch-hadoop-5.0.2.jar
启动es服务   su - elasticsearch -c "/opt/elasticsearch-5.0.2/bin/elasticsearch >/dev/null 2>&1 &"
启动node.js  在/usr/local/ elasticsearch-head目录下启动    /usr/local/elasticsearch-head/node_modules/grunt/bin/grunt server
elasticsearch-head 的es集群管理工具是基于node.js搭建的。所以需要启动node.js.


1.词频量统计，基于cdh hadoop  自带的demo 运行指令如下：
wordcount----hadoop  jar /opt/cloudera/parcels/CDH/jars/hadoop-examples.jar wordcount  输入路径：/user/root/input 输出路径 /user/root/output
命令：/opt/cloudera/parcels/CDH/jars/hadoop-examples.jar wordcount  /user/root/input  /user/root/output

2.hive创建表：
Create external table testtable (
name string,
message string
) 
row format delimited fields terminated by '\t' 
lines terminated by '\n' 
location '/user/file.csv' 
tblproperties ("skip.header.line.count"="1", "skip.footer.line.count"="2");
就是上面sql中tblproperties的2个属性
“skip.heaer.line.count” 跳过文件行首多少行
“skip.footer.line.count”跳过文件行尾多少行

DROP TABLE IF EXISTS 表名;
-- TAB2 同TAB1 一样都是外部表
CREATE EXTERNAL TABLE 表名
(
   id INT,
   col_1 BOOLEAN,
   col_2 DOUBLE
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','//数据之间分割,csv格式之间是‘,’分割。/t  /n
LOCATION '/user/test;//加载数据文件地址
//加载hdfs数据到hive中
load DATA INPATH '/user/test/data1.csv' INTO TABLE 表名//数据文件名。
例如：
load data inpath '/user/test/myfile/artrile.txt' into table arc;

3.权限问题
设置权限指令： hdfs dfs -chmod 777 /user/...   //将文件权限设置为可读可写等等 // 777是所有权限全都开通。

4.hive & impala语句使用规则：
Hive和impala语句支持大部分sql,有个别方式不支持，具体差距：
https://www.cnblogs.com/HondaHsu/p/4346354.html
https://www.cnblogs.com/HondaHsu/p/4346354.html
Impala共享hive:INVALIDATE METADATA;
5.hbase规则
Hbase存储方式键值对
常用命令:hbase shell
（1）创建表：create <table>, {NAME => , VERSIONS => 例如：create 'User','info'(创建一个User表，并且有一个info列族)
（2）查看所有表:list
（3）查看表详情:describe 'User'
（4）删除指定的列族:alter 'User', 'delete' => 'info'
（5） 插入数据:put <table>,,,例如：put 'User', 'row1', 'info:name', 'xiaoming’           
（6）根据rowKey查询某个记录:get <table>,,[,....] 例如：get 'User', 'row2'
（7）查询所有记录：scan 'User'
（8）扫描前2条：scan 'User', {LIMIT => 2}
（9）范围查询：scan 'User', {STARTROW => 'row2'}  ----scan 'User', {STARTROW => 'row2', ENDROW => 'row2'}
（10）统计表记录数:count <table>, {INTERVAL => intervalNum, CACHE => cacheNum}例如：count 'User'
（11）删除列：delete 'User', 'row1', 'info:age'
（12）删除所有行：deleteall 'User', 'row2'
（13）删除表中所有数据：truncate 'User'
（14）禁用表：disable 'User'
（15）启用表：enable 'User'
（16）测试表是否存在：exists 'User'
（17）删除表前，必须先disable：drop 'TEST.USER'
4.6.hive到hbase的使用
命令： CREATE EXTERNAL TABLE h1
(id string, name string,age int,sex string)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' 
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,info:name,info:age,info:sex") TBLPROPERTIES("hbase.table.name" = "User");
创建一个hive表加载hbase数据。
5.spark启动问题
（1）spark是独立于hadoop之外的；
（2）Spark RDD编程
Spark中RDD是一个不可变的分布式对象集合。每个RDD被分为多个分区，这些分区运行在集群的不同的节点上。
RDD可以包含Python、Java、Scala中的任意类型的对象，以及自定义的对象。
创建RDD的两种方法：
1 读取一个数据集(SparkContext.textFile()) : lines = sc.textFile("README.md")
2 读取一个集合(SparkContext.parallelize()) : lines = sc.paralelize(List("pandas","i like pandas"))
RDD的两种操作：
1 转化操作(transformation) : 由一个RDD生成一个新的RDD
2 行动操作(action) : 对RDD中的元素进行计算，并把结果返回
RDD的惰性计算：
可以在任何时候定义新的RDD，但Spark会惰性计算这些RDD。它们只有在第一次行动操作中用到的时候才会真正的计算。
此时也不是把所有的计算都完成，而是进行到满足行动操作的行为为止。
lines.first() : Spark只会计算RDD的第一个元素的值
常见的转化操作：
对一个RDD的转化操作：
原始RDD：
1
2	scala> val rdd = sc.parallelize(List(1,2,3,3))
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at :27
map() : 对每个元素进行操作，返回一个新的RDD
1
2	scala> rdd.map(x => x +1 ).collect()
res0: Array[Int] = Array(2, 3, 4, 4)
flatMap() : 对每个元素进行操作，将返回的迭代器的所有元素组成一个新的RDD返回
1
2	scala> rdd.flatMap(x => x.to(3)).collect()
res2: Array[Int] = Array(1, 2, 3, 2, 3, 3, 3)
filter() : 最每个元素进行筛选，返回符合条件的元素组成的一个新RDD
1
2	scala> rdd.filter(x => x != 1).collect()
res3: Array[Int] = Array(2, 3, 3)
distinct() : 去掉重复元素
1
2	scala> rdd.distinct().collect()
res5: Array[Int] = Array(1, 2, 3)
sample(withReplacement,fration,[seed]) : 对RDD采样，以及是否去重
　　第一个参数如果为true,可能会有重复的元素，如果为false，不会有重复的元素；
　　第二个参数取值为[0,1]，最后的数据个数大约等于第二个参数乘总数；
　　第三个参数为随机因子。
1
2
3
4
5
6
7
8	scala> rdd.sample(false,0.5).collect()
res7: Array[Int] = Array(3, 3)
 
scala> rdd.sample(false,0.5).collect()
res8: Array[Int] = Array(1, 2)
 
scala> rdd.sample(false,0.5,10).collect()
res9: Array[Int] = Array(2, 3)
对两个RDD的转化操作：
原始RDD：
1
2
3
4
5	scala> val rdd1 = sc.parallelize(List(1,2,3))
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[13] at parallelize at :27
 
scala> val rdd2 = sc.parallelize(List(3,4,5))
rdd2: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[14] at parallelize at :27
union() ：合并，不去重
1
2	scala> rdd1.union(rdd2).collect()
res10: Array[Int] = Array(1, 2, 3, 3, 4, 5)
1
2	scala> rdd1.intersection(rdd2).collect()
res11: Array[Int] = Array(3)
intersection() ：交集
subtract() ： 移除相同的内容
1
2	scala> rdd1.subtract(rdd2).collect()
res12: Array[Int] = Array(1, 2)
cartesian() ：笛卡儿积
1
2	scala> rdd1.cartesian(rdd2).collect()
res13: Array[(Int, Int)] = Array((1,3), (1,4), (1,5), (2,3), (2,4), (2,5), (3,3), (3,4), (3,5))
 常见的行动操作：
原始RDD：
1
2	scala> val rdd = sc.parallelize(List(1,2,3,3))
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at :27
collect() ：返回所有元素
1
2	scala> rdd.collect()
res14: Array[Int] = Array(1, 2, 3, 3)
count() ：返回元素个数
1
2	scala> rdd.count()
res15: Long = 4
countByValue() ： 各个元素出现的次数
1
2	scala> rdd.countByValue()
res16: scala.collection.Map[Int,Long] = Map(1 -> 1, 2 -> 1, 3 -> 2)
take(num) ： 返回num个元素
1
2	scala> rdd.take(2)
res17: Array[Int] = Array(1, 2)
top(num) ： 返回前num个元素
1
2	scala> rdd.top(2)
res18: Array[Int] = Array(3, 3)
takeOrdered(num)[(ordering)] ：按提供的顺序，返回最前面的num个元素（需要好好再研究一下）
1
2
3
4
5	scala> rdd.takeOrdered(2)
res28: Array[Int] = Array(1, 2)
 
scala> rdd.takeOrdered(3)
res29: Array[Int] = Array(1, 2, 3)
takeSample(withReplacement,num,[seed]) ：采样
1
2
3
4
5
6
7
8	scala> rdd.takeSample(false,1)
res19: Array[Int] = Array(2)
 
scala> rdd.takeSample(false,2)
res20: Array[Int] = Array(2, 3)
 
scala> rdd.takeSample(false,2,20)
res21: Array[Int] = Array(3, 3)
reduce(func) ：并行整合RDD中的所有数据（最常用的）
1
2	scala> rdd.reduce((x,y) => x + y)
res22: Int = 9
aggregate(zeroValue)(seqOp,combOp) ：先使用seqOp将RDD中每个分区中的T类型元素聚合成U类型，再使用combOp将之前每个分区聚合后的U类型聚合成U类型， 特别注意seqOp和combOp都会使用zeroValue的值，zeroValue的类型为U
1
2	scala> rdd.aggregate((0,0))((x, y) => (x._1 + y, x._2 +1), (x,y) => (x._1 + y._1, x._2 + y._2))
res24: (Int, Int) = (9,4)
fold(zero)(func) ：将aggregate中的seqOp和combOp使用同一个函数op
1
2	scala> rdd.fold(0)((x, y) => x + y)
res25: Int = 9
foreach(func)：对每个元素使用func
1
2
3
4
5	scala> rdd.foreach(x => println(x*2))
4
6
6
2	
 
Spark执行FP-Group
1.启动：spark-shell
2.加载hdfs数据: val data = sc.textFile("hdfs://192.168.100.140:8020/user/mllib/Groceries.txt")
3.遍历前十条数据(测试)data.take(10).foreach(println)
4.去除无用数据：val dataNoHead = data.filter(line => !line.contains("items"))
5.测试：dataNoHead.take(5).foreach(println)
6.清洗数据：val dataS = dataNoHead.map(line => line.split("\\{"))
7.清洗数据：val dataGoods = dataS.map(s => s(1).replace("}\"",""))
8.转换成建模数据：val fpData = dataGoods.map(_.split(",")).cache
9.输出查看：fpData.take(5).foreach(line => line.foreach(print))
10.FP-Group模型建立
11.实例化FPGrowth并且设置支持度为0.05，不满足该支持度的数据将被去除和分区为3：val fpGroup = new FPGrowth().setMinSupport(0.05).setNumPartitions(3)
12.开始创建模型 使用向前准备好的fpData数据，进行FP模型的建立。调用FPGrowth里面的run方法，进行模型的创建:val fpModel = fpGroup.run(fpData)
13.获取满足支持度条件的频繁项集:val freqItems = fpModel.freqItemsets.collect
14.打印频繁项内容。输入命令：freqItems.foreach(f=>println("FrequentItem:"+f.items.mkString(",")+"OccurrenceFrequency:"+f.freq)) //FrequentItem:频繁项,OccurrenceFrequency:出现次数
15.SparkR加载路径：/opt/cloudera/parcels/CDH-5.7.2-1.cdh5.7.2.p0.18/lib/spark
16.运行SparkR   ---->./sparkR  
Sqoop2 同步数据命令：
1.测试连接接：sqoop list-databases --connect jdbc:mysql://192.168.100.139:3306/ --username root --password 123456
2.执行数据同步：sqoop import --connect jdbc:mysql://10.10.1.145:3306/hedait_project --username root --password 123456 --table sys_user_role  --target-dir /user/root/hedait/sys_user_role --fields-terminated-by ':' -m 1 
3.应用数据库（mysql ）导入hbase----->      sqoop import --connect jdbc:mysql://10.120.10.11:3306/sqoop --username sqoop --password sqoop --table test --hbase-create-table --hbase-table mysql_sqoop_test --column-family info --hbase-row-key id -m 1

Sqoop增量导入Hive
1) 复制MySQL的表结构到Hive
sqoop create-hive-table --connect jdbc:mysql://192.168.1.1:3306/radius --username root --password 123 --table um_appuser --hive-table um_appuser --fields-terminated-by "\0001"  --lines-terminated-by "\n"


2) 创建Hive表对应的目录
hdfs dfs -mkdir /user/hive/um_appuser
3) 修改表Hive表对应的目录
ALTER TABLE um_appuser SET LOCATION 'hdfs://node1:8020/user/hive/um_appuser';

4) 转换为外部表
ALTER TABLE um_appuser SET TBLPROPERTIES ('EXTERNAL'='TRUE');

将数据导入Sqoop
sqoop import --connect jdbc:mysql://192.168.1.1:3306/radius --username root --password 123 --table um_appuser --hive-import --hive-table um_appuser

在Hive中执行
SELECT id FROM um_appuser ORDER BY id DESC LIMIT 1;

增量导入
1)创建job（注意–last-value的值，上一步查询得到的结果）
sqoop job --create um_appuser -- import --connect jdbc:mysql://192.168.1.1:3306/radius --username root --password 123 --table um_appuser --hive-import --hive-table um_appuser --incremental append --check-column id --last-value 15902

2)查看已经创建的Sqoop job
sqoop job --list

2)创建调度任务
0 */1 * * * sqoop job --exec um_appuser > um_appuser_sqoop.log 2>&1 &

1) 查询Hive
SELECT id FROM um_appuser ORDER BY id DESC LIMIT 1; --SELECT COUNT(DISTINCT id) FROM um_appuser; SELECT COUNT(id) FROM um_appuser; SELECT id FROM um_appuser GROUP BY id HAVING COUNT(id) > 1;
2) 查询MySQL
SELECT COUNT(1) FROM um_appuser WHERE id <= （Hive查询出最新的id）;

sqoop支持两种增量导入模式，
 一种是 append，即通过指定一个递增的列，比如：
--incremental append  --check-column num_iid --last-value 0
varchar类型的check字段也可以通过这种方式增量导入（ID为varchar类型的递增数字）：
--incremental append  --check-column ID --last-value 8
另种是可以根据时间戳，比如：
--incremental lastmodified --check-column created --last-value '2012-02-01 11:0:00'
就是只导入created 比'2012-02-01 11:0:00'更大的数据。

sqoop定时增量导入:https://blog.csdn.net/ryantotti/article/details/14226635
Rhadoop使用前数据包加载
1.启动SparkR：library(SparkR)
Sys.setenv(JAVA_HOME="/usr/java/jdk1.8.0_45")
Sys.setenv(HADOOP_CMD="/usr/bin/hadoop")
Sys.setenv(HIVE_HOME="/opt/cloudera/parcels/CDH-5.7.2-1.cdh5.7.2.p0.18/lib/hive")
Sys.setenv(HADOOP_HOME="/opt/cloudera/parcels/CDH-5.7.2-1.cdh5.7.2.p0.18/lib/hadoop")
library(rJava)
library(rhdfs)
hdfs.init()
hdfs.ls("/user")
input<-hdfs.cat("/user/mllib/Qualitative_Bankruptcy.data.txt")
library(Rserve)
library(RHive)
rhive.init()
rhive.connect("192.168.100.140", defaultFS="hdfs://192.168.100.140:8020")
rhive.query("show databases")
rhive.query("show tables")	
input2 <- rhive.query("select * from default.mm")	
Oozie定时任务
1.常用命令操作地址：http://blog.csdn.net/oracle8090/article/details/54599068
Es集群搭建：
1.http://blog.csdn.net/haoxiaoyan/article/details/54093028
ElasticSearch常用指令：
1、创建索引:curl -XPUT http://192.168.100.140:9200/test1/es/1 -d "{\"first_name\":\"test1\"}"
2.   通过文件导入：curl -XPOST 192.168.100.140:9200/bank/account/_bulk?pretty --data-binary @accounts.json
3.2、查询索引:curl -XPOST 192.168.100.140:9200/aaa/_search?pretty -d "{\"query\": { \"match_all\": {} }}"
4.　　　　　　curl -XGET 192.168.100.140:9200/aaa/_search?pretty -d "{\"query\": { \"match_all\": {} }}"
5.　　　　　　curl -XGET 192.168.100.140:9200/aaa/bbb/222
6.3、修改索引：curl -XPUT "http://192.168.100.140:9200/fendo/account/222" -d "{\"first_name\":\"fk\"}
7.4、删除索引：curl -XDELETE http://192.168.100.140:9200/fendo/account/222
8.5、查看所有索引：curl 192.168.100.140:9200/_cat/indices?v
Es-hadoop
1.一. hive部分
1.前提是加载jar包   每次使用hive启动时都要加载，也可以写在配置文件里（不提倡这种做法，hive配置其他应用时容易造成冲突。）
加载jar包方法：add jar ///opt/cloudera/parcels/CDH-5.7.2-1.cdh5.7.2.p0.18/lib/hive/lib/elasticsearch-hadoop-5.0.2.jar;

//同步es到hive
(1)第一种方法
CREATE EXTERNAL TABLE lxw1234_es_tags (
cookieid string,
age string,
name string 
)
STORED BY 'org.elasticsearch.hadoop.hive.EsStorageHandler'
TBLPROPERTIES(
'es.nodes' = '192.168.100.140:9200,192.168.100.141:9200,192.168.100.142:9200',
'es.index.auto.create' = 'false',
'es.resource' = 'hello',
'es.read.metadata' = 'true',
'es.mapping.names' = 'cookieid:_metadata._id, age:age, name:name');
(2)第二种方法
CREATE EXTERNAL TABLE company (
cookieid string,
address string,
address_suggest_input string,
address_suggest_output string,
address_suggest_weight bigint,
age bigint,
brand_suggest_output string,
brand_suggest_weight bigint,
business_scope  string,
business_scope_suggest_input  string,
business_scope_suggest_output  string,
business_scope_suggest_weight  bigint,
business_status  string,
ceo_suggest_output  string,
ceo_suggest_weight  bigint,
legal_man  string,
legal_man_suggest_input  string,
legal_man_suggest_output  string,
legal_man_suggest_weight  bigint,
name string,
name_suggest_input string,
name_suggest_weight bigint,
province string,
registered_capital string,
registered_data  date,
score  float
)
STORED BY 'org.elasticsearch.hadoop.hive.EsStorageHandler'
TBLPROPERTIES(
'es.nodes' = '192.168.100.140:9200,192.168.100.141:9200,192.168.100.142:9200',
'es.index.auto.create' = 'false',
'es.resource' = 'company',
'es.read.metadata' = 'true',
'es.mapping.names' = '
cookieid:_metadata._id,
address:address,
address_suggest_input:address_suggest.input,
address_suggest_output:address_suggest.output,
address_suggest_weight:address_suggest.weight,
age:age,
brand_suggest_output:brand_suggest.output,
brand_suggest_weight:brand_suggest.weight,
business_scope:business_scope,
business_scope_suggest_input:business_scope_suggest.input,
business_scope_suggest_output:business_scope_suggest.output,
business_scope_suggest_weight:business_scope_suggest.weight,
business_status:business_status,
ceo_suggest_output:ceo_suggest.output,
ceo_suggest_weight:ceo_suggest.weight,
legal_man:legal_man,
legal_man_suggest_input:legal_man_suggest.input,
legal_man_suggest_output:legal_man_suggest.output,
legal_man_suggest_weight:legal_man_suggest.weight,
name:name,
name_suggest_input:name_suggest.input,
name_suggest_weight:name_suggest.weight,
province:province,
registered_capital:registered_capital,
registered_data:registered_data,
score:score
');
//同步hive到es
//建立视图表
CREATE EXTERNAL TABLE user(id BIGINT, name STRING) STORED BY 'org.elasticsearch.hadoop.hive.EsStorageHandler'
TBLPROPERTIES('es.resource' = 'radio/artists','es.index.auto.create' = 'true',
'es.nodes'='192.168.100.140,192.168.100.141,192.168.100.142','es.port'='9200');
/////创建元数据外部表
CREATE TABLE user_source (id INT, name STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';
//引入数据
LOAD DATA LOCAL INPATH '/root/data/ceshi.txt' OVERWRITE INTO TABLE user_source;
//写入ES
INSERT OVERWRITE TABLE user SELECT s.id, s.name FROM user_source s;
//////////////////////////////////////////////////////////////////////////////////////////////////////
二. spark部分
//spark向es中写入数据。
//启动spark-shell并加载jar包（jar包版本自定义）
./spark-shell --jars ../lib/elasticsearch-spark-20_2.10-5.0.2.jar 
import org.apache.spark.SparkConf
import org.elasticsearch.spark._
val conf = new SparkConf()
conf.set("es.index.auto.create", "true")
conf.set("es.nodes","192.168.100.140,192.168.100.141,192.168.100.142")//es的节点，多个用逗号分隔
conf.set("es.port","9200")//端口号
val numbers = Map("one" -> 1, "two" -> 2, "three" -> 3)
val airports = Map("OTP" -> "Otopeni", "SFO" -> "San Fran")
sc.makeRDD(Seq(numbers, airports)).saveToEs("spark/docs")
//////////////////////////////////////////////////////////////////////////////////////////////////////////////
Spark-sql------>同步elasticsearch
bin/spark-sql –master spark://192.168.100.140:7077 –jars /root/software/elasticsearch-hadoop-5.0.2/dist/elasticsearch-hadoop-5.0.2.jar
启动es服务   su - elasticsearch -c "/opt/elasticsearch-5.0.2/bin/elasticsearch >/dev/null 2>&1 &"
启动node.js  在/usr/local/ elasticsearch-head目录下启动    /usr/local/elasticsearch-head/node_modules/grunt/bin/grunt server
elasticsearch-head 的es集群管理工具是基于node.js搭建的。所以需要启动node.js.

你可能感兴趣的:(CDHhadoop数据操作使用)

Linux的软件包管理器手捧向日葵的花语 Linux OS linux 运维服务器
目录1.认识软件包管理器那什么是软件包管理器呢软件包管理器的工作原理2.使用软件包管理器查找软件安装软件卸载软件1.认识软件包管理器在Linux系统中，我们需要进行工具、指令的安装卸载，工具、指令的本质也是程序（我们也可以理解为软件）。在Linux系统中安装程序通常由三种方式：源代码安装：下载程序的源代码，然后编译，得到可执行程序。rpm包直接安装：将软件的rpm包下载下来，然后安装。通过包管理器
Python Turtle艺术绘画赏析与编程自由徜徉碧海蓝天 python 开发语言爬虫编程
PythonTurtle是一个强大的绘图库，通过简单的命令和指令，可以在屏幕上绘制出各种图形和艺术作品。本文将介绍PythonTurtle艺术绘画的一些技巧和示例代码，帮助您了解如何使用PythonTurtle库来创作独特的艺术作品。在开始之前，确保您已经安装了Python和Turtle库。如果您还没有安装，可以通过Python的官方网站下载并安装Python，然后在命令行中使用以下命令安装Tur
Linux编辑器——vim的基础使用 Yui_ Linux linux 编辑器 vim 笔记经验分享
文章目录1.vim的基本概念2.vim的基本操作3.vim命令模式命令集3.1移动光标3.2删除文字3.3复制3.4替换3.5撤销3.6更改3.7跳到指定的行1.vim的基本概念本文将介绍vim的三种模式，分别位：命令模式、插入模式、低行模式。他们的功能区分如下：正常/普通/命令模式控制屏幕光标的移动、字符、字或行的删除、移动某区段及进入插入模式，或者到末行模式插入模式只有在插入模式才可以做文字输
虚拟串口com0com安装教程设备感叹号如何处理初级代码游戏工业物联网 IoT com0com 虚拟串口
初级代码游戏的专栏介绍与文章目录-CSDN博客虚拟串口com0com安装教程(由于某种技术原因，图片丢失，请下载完整文档：【免费】虚拟串口com0com安装教程设备感叹号如何处理资源-CSDN文库)关于虚拟串口使用虚拟设备软件来调测是很常见的，由于当前电脑基本不再带有串口，因此使用虚拟设备需要预先安装虚拟串口。另外还需要串口工具来验证虚拟串口和虚拟设备。本例安装环境为win10家庭版，使用的虚拟串
详解Java之lambda 新绿MEHO JAVA Java JAVA
目录lambda引入语法函数式接口lambda表达式的使用语法精简：代码示例：变量捕获局部变量捕获成员变量捕获lambda在集合中的使用lambda的优缺点lambda引入Lambda表达式是JavaSE8中一个重要的新特性。lambda表达式允许你通过表达式来代替功能接口。lambda表达式就和方法一样,它提供了一个正常的参数列表和一个使用这些参数的主体(body,可以是一个表达式或一个代码块)
【Golang/gRPC/Nacos】在golang中将gRPC和Nacos结合使用 Rinai_R 微服务相关笔记学习经验分享微服务服务发现 golang Nacos
Nacos与gRPC前言关于这部分，前段时间我在看文档以及视频教程的时候，怎么都想不明白，到底为什么要用gRPC是什么，他在项目中应该充当什么样的角色？Nacos又是如何和他结合的？于是我就决定去看看一些小项目是如何实现的这个功能，现在将我最近学到的分享给大家。正文在正文开始之前，我们要先知道Nacos和gRPC在本篇内容中，会涉及到的作用：gRPCgRPC允许服务之间无缝通信，像调用本地函数一样
python+ollama本地大模型批量识别PDF，总结摘要以及关键词并输出EXCEL。月野难浔丶 python pdf 开发语言
现在市场上有很多PDF文件的识别，转化，等等。有些业务可能需要总结摘要和关键词等等一系列的操作。然而随着AI的兴起，本地大模型的部署，这些成为一种很方便的方法，接下来我将为各位介绍我所使用的方法。本篇文章旨在自动化处理PDF文档，提取并清理文本数据，然后使用一种大型模型生成摘要和关键词。最后，处理结果会被整理并输出到Excel文件中，便于后续分析和查看。人工智能（AI）是一种模拟人类智能的科技，它
CMake技术细节：解决未定义，提供参数初级代码游戏软件开发 cmake 未定义
初级代码游戏的专栏介绍与文章目录-CSDN博客我的github：codetoys，所有代码都将会位于ctfc库中。已经放入库中我会指出在库中的位置。这些代码大部分以Linux为目标但部分代码是纯C++的，可以在任何平台上使用。源码指引：github源码指引_初级代码游戏的博客-CSDN博客初用cmake，直接上“cmake..”，结果提示有东西未定义，很多时候是需要参数提供。参数提供的方法其实就是
Minio容器启动配置https 非ban必选 docker 大数据
不建议这样使用，建议使用nginx做反向代理，建议使用内网url作为上传文件api的endpoint1、公钥和私钥配置根据官网描述（HowtosecureaccesstoMinIOserverwithTLS），将TLS的公私钥放到：{{HOME}}/.minio/certs里私钥需要命名为：private.key公钥需要命名为：public.crt(如果公钥是以pem格式结尾，可直接改为crt格式
CDP中的Hive3之Apache Hive3特性对许 #Hive #Spark hive cdp
CDP中的Hive3之ApacheHive3特性1、ApacheHive3特性2、Hive不支持的接口和功能3、HiveonTez简介4、ApacheHive3架构概述CDP中采用的是ApacheHive3版本，相比Hive1/2，该版本在事务和安全性等方面有重大改进，了解这些版本之间的主要差异对于SQL用户至关重要，包括使用ApacheSpark和ApacheImpala的用户1、ApacheH
文件传输协议FTP、SFTP与FTPS 对许 Linux 基础理论网络 sftp
FTP、SFTP与FTPS1、FTP（FileTransferProtocol）2、FTPS（FileTransferProtocolSecure）3、SFTP（SecureFileTransferProtocol）4、‌FTP、SFTP与FTPS的区别文件传送协议（FTP、SFTP与FTPS）是TCP/IP协议簇中的一个成员，是使用最为广泛的文件传送协议。‌FTP、SFTP与FTPS的主要区别在
@RabbitListener或@RabbitHandler使用出现死循环 Youmans_station java rabbitmq
异常1问题：为什么会找不到消费实现？@RabbitListener或@RabbitHandler配置出错很大原因是取决于content_type的配置和方法的形参。如果通过客户端放入队列中有个content_type为空的的消息，@RabbitListener只有形参为String的Handler，是无法对应上消费实现的。@RabbitHandler没有使用可选参数isDefault消费者找不到任
使用Cursor调试Python代码的详细步骤 shine_du python java 开发语言 cursor
以下是使用Cursor调试Python代码的详细步骤：一、准备Python代码首先，确保你已经在Cursor中创建了一个Python项目并编写了要调试的Python代码。例如，以下是一段简单的Python代码示例，我们将对其进行调试：defcalculate_sum(numbers):total=0fornumberinnumbers:total+=numberreturntotaldefmain
debian php安装,如何在Debian 9上安装PHP 第四根肋骨 debian php安装
装有PHP7.0版的Debian9即将终止支持，并且不再收到安全更新。在本教程中，我们将引导您完成在Debian9服务器上安装PHP7.2的步骤。我们还将向您展示如何配置Apache和Nginx以运行PHP。先决条件在Debian9上安装PHP7.2以下步骤描述了如何使用OndrejSury存储库安装PHP7.2。首先，更新apt软件包列表并安装必要的依赖项，以通过HTTPS添加新存储库：sudo
多Agent框架之-CrewAI-人工智能代理团队的未来 WorkAgent 人工智能 ai langchain
CrewAI-aroleplayingAIAgentsgit地址：https://github.com/joaomdmoura/crewai#why-crewailangchain地址：CrewAIUnleashed:FutureofAIAgentTeamsAgent具有与另一个Agent联系的能力，以委派工作或提出问题。任务可以使用特定的代理工具覆盖，这些工具应该被使用，同时还可以指定特定的代理
利用LangChain实现网页内容爬取并总结 WorkAgent python langchain ai 人工智能
背景利用LangChain中load_summarize_chain实现网页内容爬取并总结。亮点：网页内容过长，导致超过LLM的token限制，使用LangChain中load_summarize_chain实现。Map-reduce思想：先对长文本进行切分map阶段-对每段进行summaryreduce-对每个map再进行总结实现长文本内容总结案例实现：背景：想查找某个产品的生产厂商，需要先去网
分布式-服务通信飘飘渺渺渺红尘 Java Web Service 分布式
目录一、RestTemplate1、简介2、使用2.1、GET2.2、POST2.3、exchange2.4、execute2.5、总结二、Feign1、简介2、使用2.1、OpenFeignServer2.2、OpenFeignClient3、@FeignClient4、参数三、Dubbo一、RestTemplate1、简介我们在访问http服务时，直接使用jdk的HttpURLConnecti
RabbitMQ消息监听异常问题探究风树种子 RabbitMQ RabbitMQ spring Wireshark 异常 requeue
问题场景在使用SpringRabbitMQ做消息监听时，如果监听程序处理异常了，且未对异常进行捕获，会一直重复接收消息，然后一直抛异常。为了更好的描述问题，下面写个简单的例子。通过访问null对象来引发空指针异常，消息监听处理程序代码清单:packageamqp;importorg.springframework.amqp.core.Message;importorg.springframewor
string.join()方法 BLUE_SEVEN
JavaStringjoin()join()方法返回使用指定分隔符拼接一个字符串。在join()方法中，为每个元素添加了分隔符。如果为null元素，则添加“null”。从JDK1.8开始，Java字符串才包含join()方法。Java字符串中有两种join()方法。1语法publicstaticStringjoin(CharSequencedelimiter,CharSequence...elem
DIY台式机并安装Win10+Debian双系统秋天的妖风 debian windows 程序人生 linux
缘起做为软件开发者，之前一直使用MacBook系列，在公司用MacBookProM1，在家用使用自己的2018款MacBookAir。公司的电脑比较新配置也比较高，做开发使用还算顺利。但是家里的电脑在做开发的时候，打开IDE就已经有点卡顿了，在编程的时候，提示功能更是严重延迟，跟不上手速，于是有了更新电脑的想法。由于MacBook天然对开发友好，还是想用MacBook，但是现在MacBook越来越
【Java】Lambda表达式玛卡~巴卡 Java基础 java 开发语言 Lambda
文章目录一、Lambda表达式1.1相关背景1.2函数式编程1.3匿名内部类和Lambda表达式二、Lambda表达式的使用2.1基本语法2.2使用案例三、变量捕获3.1匿名内部类的变量捕获3.2Lambda表达式的变量捕获四、Lambda表达式在集合中的使用4.1Collection接口4.2List接口4.3Map接口五、Lambda表达式的优缺点一、Lambda表达式1.1相关背景Lambd
@LoadBalanced注解的实现原理 DanceDonkey 客户端负载均衡 RestTemplate SpringCloud RPC
@LoadBalanced@LoadBalanced注解通常结合RestTemplate使用，RestTemplate是SpringCloud提供的一个编程式的实现远程过程调用的组件，简单来说就是可以实现发送http请求。但是在基于服务发现发送请求时，RestTemplate自己无法实现负载均衡，通常要标注@LoadBalanced。虽然之后一个RestTemplate对象，但这个对象是线程安全的
Linux系统下minio设置SSL证书进行HTTPS远程连接访问薄荷街的兔比先生 linux ssl https
文章目录1.配置SSL证书使用HTTPS访问2.MINIOSDK忽略证书验证3.使用受信任的证书1.配置SSL证书使用HTTPS访问生成域名对应的SSL证书，下载Apache版本，我目前只发现Apache这个里面有对应的私钥和证书私钥重命名为private.key证书重命名为public.crt，不更改为指定格式则会无法被识别。将公钥和证书放入root/.minio/certs文件夹中，此文件夹安
开发中使用RabbitMQ的注意事项无德皇叔
使用消息队列处理消息的时候，我们可能会遇到以下问题：消息处理失败消息体本身有误消息重复处理消息丢失对于消息处理失败，有可能有由于网络波动导致的数据处理异常，待网络稳定时消息就会正常处理，对于这种处理失败，我们应该继续尝试去处理消息。消息体本身有误，这会导致消息连续处理失败，占用较多的资源，写大量的无用日志，这种错误应该丢弃这部分无用消息，但要记录下日志，记清消息体本身数据，以及丢弃消息的原因。消息
纯C#编写的WebServer项目 masterofdotnet c#web服务服务器
http://www.codeplex.com/webserver这是一个完全用C#实现的Web服务器，可用于嵌入到客户端或者作为独立的Web服务器使用。性能上还是很不错的。尤其是作为一个RPC服务器来说。而且学习的价值也很大。
stream流的使用小韩学长yyds java
1.什么是Stream流?Stream（流）是一个来自数据源的元素队列并支持聚合操作元素是特定类型的对象，形成一个队列。Java中的Stream并不会存储元素，而是按需计算。数据源流的来源。可以是集合，数组，I/Ochannel，产生器generator等。聚合操作类似SQL语句一样的操作，比如filter,map,reduce,find,match,sorted等。和以前的Collection操
税务门户网站系统：数据分析与税务政策传播 liuxin33445566 安全 java 开发语言数据库前端
2.1SSM框架介绍本课题程序开发使用到的框架技术，英文名称缩写是SSM，在JavaWeb开发中使用的流行框架有SSH、SSM、SpringMVC等，作为一个课题程序采用SSH框架也可以，SSM框架也可以，SpringMVC也可以。SSH框架是属于重量级别的框架，配置繁琐，不够灵活，修改程序需要修改好多个文件，并且运行起来也占用内存较高，CPU使用率相对也高，SpringMVC是Spring开发的
使用嗅探大师(sniffmaster)破解https加密鹅肝手握高V五色 https 网络协议 tcpdump 爬虫抓包嗅探大师 sniffmaster
嗅探大师进行HTTPS暴力抓包不需要越狱、设置代理或安装信任证书，能够自动解密HTTPS数据，即使应用设置了PIN和双向验证也能够正常抓包。但是，要求被抓取的App必须使用iOS开发证书签名。对于未重签名的应用（如iOS系统应用或部分第三方应用），只能查看请求地址和请求头，无法查看请求体（body）。准备iOS设备连接设备：通过USB将iOS设备连接到电脑，设备需解锁并处于亮屏状态。信任电脑：如果
手机崩溃日志的查找与分析鹅肝手握高V五色 ios 网络
摘要本文介绍了一款名为克魔助手的iOS应用日志查看工具，该工具可以方便地查看iPhone设备上应用和系统运行时的实时日志和崩溃日志。同时还提供了崩溃日志的分析查看模块，可以对苹果崩溃日志进行符号化、格式化和分析，极大地简化了开发者的调试工作。引言在iOS应用开发过程中，调试日志和崩溃日志是开发者必不可少的工具。然而，使用XcodeConsole等工具查看日志可能不够方便，而且处理崩溃日志也相当繁琐
Python百度搜索引擎API使用手册宫和举Esmeralda
Python百度搜索引擎API使用手册python-baidusearch自己手写的百度搜索接口的封装，pip安装，支持命令行执行。BaiduSearchunofficialAPIforPythonwithnoexternaldependencies项目地址:https://gitcode.com/gh_mirrors/py/python-baidusearch概览本文档将详细介绍如何安装与使用p
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本