hiveContextNote

hive是数据仓库存储格式是文本不支持行级别的更新删除和插入所以在hive中只有drop table 没有delete table

所以 Df.write().mode(SaveMode.Append).saveAsTable("tableName") 插入都是以DataFrame级别进行的

val lastMaXIDDF:DataFrame = hiveContext.read().table(readTable).filter(conditions).agg(Map("recoid"->"max")).toDF("lastMaxId") “recoid”是readTable的某一列，求其最大值，生成的DataFrame只有唯一一列对应列名为lastMaxId

以追加形式写入数据库的某一张表，若无此表则创建此表默认将字段全部小写， Overwirite 也可以创建不存在的表

hive创建表：只创建表的结构 create table name1 like existingTableName

创建表复制结构以及数据：create table name2 as select * from existingTableName（启动Spark Job）

直接表结构：create table if not exists tableName(ip string,time string) row format delimited fields terminated by '\t'

"overwrite" drop the table first and create a table

"append" just like the insert

$等关键词符号需要加入 import hiveContext.implicits._

使用udf函数需要导入 import org.apache.spark.sql.functions._

插入hive分区表需指定：

hiveContext.setConf("hive.exec.dynamic.partition","true")

hiveContext.setConf("hive.exec.dynamic.partition.mode","nonstrict")

DataFrame.write().mode(SaveMode.Append).partitionBy("year","month","day").saveAsTable("tableName")

insert into table tableName partitionBy(year,month,day) select * ,year(createtime),month(createtime),dayofmonth(createtime) from existingTable

由sparkcontext 创建的hiveContext是一个RootContext，而对应的sparkContext其并行度是由SparkConf配置而成的。默认为2.SparkContext是一个Local Context 当指定本地运行时。

hiveContext通过执行sql语句指定当前即将执行语句的数据库。返回的是一个DataFrame。

DataFrame的show() 方法默认展示20行，且列内数据靠右展示。可以指定展示的行数以及是否被截断（false，靠左展示）。

hiveContext可以针对当前指定的数据库内的一张表进行分析。可以通过调用table(tableName)获取指定数据表的全部数据。通过tables()方法获取当前数据库内所有的数据表名及相关信息的DataFrame格式，也可以通过tables(databaseName)。可以通过tableNames（）方法返回Array[String]类型的数据表名，也可以获取指定数据库的表名tableNames（databaseName）.

refreshTable（tableName）将指定表的所有元数据缓存信息进行无效操作和刷新操作。Spark SQL或其他的数据源可能会缓存一张固定表的元数据，比如块位置。当这些元数据不是通过SPark SQL 进行更改时，可以使用本方法将当前内存中的元数据缓存无效化。

hiveContext.emptyDataFrame 返回一个空的DataFrame 等同于 createDataFrame(sparkContext.emptyRDD[Row],StructType(Nil))

hiveContext.range(start:Long,end:Long,step:Long,numPartitions:Int) Long类型返回一个Datarame 是起始数据的间隔数据序列的并行化RDD，然后转化为DataFrame.等同于：

createDataFrame(hiveContext.sparkContext.range(start,end,step,numPartitions).map(Row(_)),StructType(StructField("id",LongType,Nullable = false)::Nil))

DataFrame.registerTempTable(tableName) 当前临时表的生命周期与创建该DataFrame的SQLContext一致。

cacheTable(tableName) 在内存中进行持久化序列缓存该表为hiveContext已读取的表或者创建的临时表，

isCached(tableName) 验证当前表是否在内存中进行了缓存，如果该表是临时表被drop 或者没有进行使用hiveContext读取，ze会抛出异常改表不存在。dropTempTable(tableName) 从目录中删除指定临时表，如果表被缓存或者持久化，仍然不进行持久化。直接drop。

clearTable() 从内存中清除所有的缓存 cacheTable() 缓存指定表 unCacheTable（）从内存缓存中移除指定的表。

针对hiveContext进行相关操作时，需要引入import hiveContext.implicits._

hiveContext.read().Option("path",Path:String = "/user/shidaiwu/test/dtJson").format("Json").load() read 读取操作返回的是DataFrameReader，Option添加一些key-value 对，比如路径，如果不指定路径，需要在load（）时指定相关路径，且load()返回的是dataFrame，如果不指定将要读取文件的格式默认读取的是Parquet文件。指定的化，需要针对DataFrameReader进行format("Json")或（"text"）等操作指定将要读取文件的格式类型。

hiveContext.read().format("Json").load(Path:String = "/user/shidaiwu/test/dtJson")

hiveContext.read.parquet(parquetFilePath) 返回的是DataFrame 读取parquet文件

hiveContext.read.json(jsonFilePath) 返回的是DataFrame 读取Json文件 Json格式文件

hiveContext.read.text(texttFilePath) 返回的是DataFrame 读取Text文件只支持String列Column，其余格式数据会报错。

hiveContext.read.table(TableName) 从当前数据库中读取数据表所有数据或者临时表或者内存中的相关缓存表

hiveContext.read.jdbc(url:String,table:String,properties:Properties),与关系型数据库进行数据连接，properties主要是用户名和密码，url是数据库所在的连接url，读取指定表的数据。

DataFrame.write.format("json").option("path",JsonFilePath = "/user/shidaiwu/test/dtJson") .save() 保存到指定路径指定文件格式

DataFrame.write.save（path）默认保存为parquet格式文件

DataFrame.write.saveAsTable（tableName）在当前数据库中保存当前DataFrame,如果表存在写入mode为overwrite，则删除后insert，如果append则需要两个schema相同，如果不知定mode，则报异常。，如果表不存在则直接写入当前表。

DataFrame.write.insertInto（tableName）插入已存在的表，如果表不存在报异常，如果schema不同，报异常。

DataFrame.write.jdbc() .....一些列配置文件如果overwrite 无所谓删除再插入，如果append schema一定要一样，如果表不存在，直接写入。

DataFrame.write.json(path)

DataFrame.write.parquet(path) 写入的parquetFile的分区是由DataFrame的分区决定的

DataFrame.write.text(path)

写入时可以结合option format save等操作结合。

hiveContextNote

你可能感兴趣的:(hiveContextNote)