Pycharm下连接hive的两种方式!!解决各种姿势报错

window pycharm下用spark连接hive操作数据
一、

  1. 在/opt/soft/spark234/conf下导入hive-site.xml

二、

  1. 把mysql的驱动包mysql-connector-java-5.1.38.jar拖入/opt/soft/spark234/jars

三、

  1. sbin下 ./start-all.sh 启动spark服务
  2. bin下 ./pyspark 开启软件

四、

  1. 执行命令 df = spark.sql(“select * from dws_events.dws_temp_uf_infos
    limit 3”); df.show()

  2. 成功表示:Linux下spark连接hive成功

五、

  1. window下解压spark包
  2. 在linux下的conf下内容全部拷贝到window下的conf中
  3. 把conf下的hive-site.xml中的地址改成虚拟机的地址 在jar包中导入mysql驱动(mysql-connector-java-5.1.38.jar)

六、

  1. window下配置环境变量
  2. 创建
    SPARK_HOME
    E:\spark-2.3.4-bin-hadoop2.6 配置path路径
  3. path下 %SPARK_HOME%\bin

七、

  1. 跳过第六步 可以通过参数设置
    .config(“hive.metastore.uris”,“thrift://192.168.133.195:9083”)

八、
配置环境变量方式代码如下:

import numpy as np
from matplotlib import pyplot as plt
from pyspark.sql import SparkSession

if __name__ == '__main__':
    spark = SparkSession.builder.appName("test")\
        .master("spark://192.168.133.195:7077").enableHiveSupport().getOrCreate()
    df = spark.sql("select * from dws_events.dws_temp_isfriends limit 3")
    df.show()

参数方式代码如下

import numpy as np
from matplotlib import pyplot as plt
from pyspark.sql import SparkSession

if __name__ == '__main__':
    spark = SparkSession.builder.appName("test")\
        .master("local[*]")\
        .config("hive.metastore.uris","thrift://192.168.133.195:9083")\
        .enableHiveSupport().getOrCreate()
    df = spark.sql("select * from dws_events.dws_temp_isfriends limit 3")
    df.show()

你可能感兴趣的:(知识归纳,环境搭建,信息配置,hive,python,spark)