hiveContextNote

hive是数据仓库 存储格式是文本 不支持行级别的更新删除和插入 所以在hive中只有drop table 没有delete table

所以 Df.write().mode(SaveMode.Append).saveAsTable("tableName") 插入都是以DataFrame级别进行的

val lastMaXIDDF:DataFrame = hiveContext.read().table(readTable).filter(conditions).agg(Map("recoid"->"max")).toDF("lastMaxId") “recoid”是readTable的某一列,求其最大值,生成的DataFrame只有唯一一列 对应列名为lastMaxId

以追加形式写入数据库的某一张表,若无此表 则创建此表 默认将字段全部小写, Overwirite 也可以创建不存在的表

hive创建表:只创建表的结构 create table name1 like existingTableName

创建表复制结构 以及数据:create table name2 as select * from existingTableName(启动Spark Job) 

直接表结构:create table if not exists tableName(ip string,time string) row format delimited fields terminated by '\t'

"overwrite" drop the table first and create a table

"append" just like the insert

$等关键词符号 需要加入 import hiveContext.implicits._

使用udf函数 需要导入 import org.apache.spark.sql.functions._


插入hive分区表 需指定:

hiveContext.setConf("hive.exec.dynamic.partition","true")

hiveContext.setConf("hive.exec.dynamic.partition.mode","nonstrict")

DataFrame.write().mode(SaveMode.Append).partitionBy("year","month","day").saveAsTable("tableName")

insert into table tableName partitionBy(year,month,day) select * ,year(createtime),month(createtime),dayofmonth(createtime) from existingTable



由sparkcontext 创建的hiveContext是一个RootContext,而对应的sparkContext其并行度是由SparkConf配置而成的。默认为2.SparkContext是一个Local Context 当指定本地运行时。

hiveContext通过执行sql语句指定当前即将执行语句的数据库。返回的是一个DataFrame。

DataFrame的show() 方法默认展示20行,且列内数据靠右展示。可以指定展示的行数以及是否被截断(false,靠左展示)。

hiveContext可以针对当前指定的数据库内的一张表进行分析。可以通过调用table(tableName)获取指定数据表的全部数据。通过tables()方法获取当前数据库内所有的数据表名及相关信息的DataFrame格式,也可以通过tables(databaseName)。可以通过tableNames()方法返回Array[String]类型的数据表名,也可以获取指定数据库的表名tableNames(databaseName).

refreshTable(tableName) 将指定表的所有元数据缓存信息进行无效操作和刷新操作。Spark SQL或其他的数据源可能会缓存一张固定表的元数据,比如块位置。当这些元数据不是通过SPark SQL 进行更改时,可以使用本方法将当前内存中的元数据缓存无效化。

hiveContext.emptyDataFrame 返回一个空的DataFrame 等同于 createDataFrame(sparkContext.emptyRDD[Row],StructType(Nil))

hiveContext.range(start:Long,end:Long,step:Long,numPartitions:Int) Long类型 返回一个Datarame 是起始数据的间隔数据序列的并行化RDD,然后转化为DataFrame.等同于:

createDataFrame(hiveContext.sparkContext.range(start,end,step,numPartitions).map(Row(_)),StructType(StructField("id",LongType,Nullable = false)::Nil))

DataFrame.registerTempTable(tableName)  当前临时表的生命周期与创建该DataFrame的SQLContext一致。

cacheTable(tableName) 在内存中进行持久化序列缓存  该表为hiveContext已读取的表或者创建的临时表,

isCached(tableName) 验证当前表是否在内存中进行了缓存,如果该表是临时表被drop 或者 没有进行使用hiveContext读取,ze会抛出异常 改表不存在。dropTempTable(tableName) 从目录中删除指定临时表,如果表被缓存或者持久化,仍然不进行持久化。 直接drop。

clearTable()  从内存中清除所有的缓存  cacheTable() 缓存指定表  unCacheTable() 从内存缓存中移除指定的表。

针对hiveContext进行相关操作时,需要引入import hiveContext.implicits._

hiveContext.read().Option("path",Path:String = "/user/shidaiwu/test/dtJson").format("Json").load()  read 读取操作返回的是DataFrameReader,Option添加一些key-value 对,比如路径,如果不指定路径,需要在load()时指定相关路径,且load()返回的是dataFrame,如果不指定将要读取文件的格式默认读取的是Parquet文件。指定的化,需要针对DataFrameReader进行format("Json")或("text")等操作指定将要读取文件的格式类型。

hiveContext.read().format("Json").load(Path:String = "/user/shidaiwu/test/dtJson")

hiveContext.read.parquet(parquetFilePath) 返回的是DataFrame  读取parquet文件

hiveContext.read.json(jsonFilePath) 返回的是DataFrame 读取Json文件  Json格式文件

hiveContext.read.text(texttFilePath) 返回的是DataFrame 读取Text文件 只支持String列Column,其余格式数据会报错。

hiveContext.read.table(TableName) 从当前数据库中读取数据表所有数据  或者临时表 或者内存中的相关缓存表

hiveContext.read.jdbc(url:String,table:String,properties:Properties),与关系型数据库进行数据连接,properties主要是用户名和密码,url是数据库所在的连接url,读取指定表的数据。

DataFrame.write.format("json").option("path",JsonFilePath = "/user/shidaiwu/test/dtJson") .save() 保存到指定路径 指定文件格式

DataFrame.write.save(path) 默认保存为parquet格式文件

DataFrame.write.saveAsTable(tableName) 在当前数据库中保存当前DataFrame,如果表存在 写入mode为overwrite,则删除后insert,如果append则需要两个schema相同,如果不知定mode,则报异常。,如果表不存在 则直接写入当前表。

DataFrame.write.insertInto(tableName) 插入已存在的表,如果表不存在报异常,如果schema不同,报异常。

DataFrame.write.jdbc() .....一些列配置文件 如果overwrite 无所谓删除再插入,如果append schema一定要一样,如果表不存在,直接写入。

DataFrame.write.json(path)

DataFrame.write.parquet(path)   写入的parquetFile的分区是由DataFrame的分区决定的

DataFrame.write.text(path)

写入时 可以结合option format  save等操作结合。

你可能感兴趣的:(hiveContextNote)