Ubuntu18.04 pyspark连接mysql8.0之配置JDBC(java database connector)

Ubuntu18.04 pyspark连接mysql8.0 配置JDBC

  • 下载JDBC驱动文件
  • 启动mysql
  • 启动pyspark

下载JDBC驱动文件

https://dev.mysql.com/downloads/connector/j/
操作系统选择 Platform Independent,下载mysql-connector-java-***.tar.gz 文件
Shell 命令:
$ cd ~/Downloads
$ ls
就可以看到刚才下载到的MySQL的JDBC驱动程序,文件名称为mysql-connector-java-***.tar.gz(你下载的版本可能和这个不同)。

现在,使用下面命令,把该驱动程序拷贝到spark的安装目录下:

$ sudo tar -zxf ~/Downloads/mysql-connector-java-***.tar.gz -C /usr/local/spark/jars
$ cd /usr/local/spark/jars
$ ls
这时就可以在/usr/local/spark/jars目录下看到这个驱动程序文件所在的文件夹mysql-connector-java-***,进入这个文件夹,就可以看到驱动程序文件mysql-connector-java-***-bin.jar。

启动mysql

请输入下面命令启动已经安装在Linux系统中的mysql数据库(如果前面已经启动了MySQL数据库,这里就不用重复启动了)。
$ service mysql start
$ mysql -u root -p
输入密码之后创建名为”spark“的数据库并且创建表”student“,mysql命令行输入如下(语句后添加分号表示结束):
mysql> create database spark;
mysql> use spark;
mysql> create table student (id int(4), name char(20), gender char(4), age int(4));
mysql> alter table student change id id int auto_increment primary key;
mysql> insert into student values(1,‘Liuzhaocong’,‘M’,24);
mysql> insert into student values(2,‘GanYi’,‘M’,23);
mysql> insert into student values(3,‘Lanyang’,‘M’,23);
mysql> select * from student;(显示student表内容)

启动pyspark

启动pyspark时必须附加参数,指定驱动mysql的jar包
$ cd /usr/local/spark
$ ./bin/pyspark \
—jars /usr/local/spark/jars/mysql-connector-java-***/mysql-connector-java-***-bin.jar \
—driver-class-path /usr/local/spark/jars/mysql-connector-java-***/mysql-connector-java-***-bin.jar

上面的命令行中,在一行的末尾加入斜杠\,是为了告诉spark-shell,命令还没有结束。
启动进入pyspark以后,可以执行以下命令连接数据库,读取数据,并显示:

在这里插入图片描述
读取mysql中的“spark”数据库的名为“student”表,其中“user“对应你的mysql用户名(这里是root)”password“对应于mysql用户密码,输出结果如下所示:
Ubuntu18.04 pyspark连接mysql8.0之配置JDBC(java database connector)_第1张图片
参考:http://dblab.xmu.edu.cn/blog/1709-2/

你可能感兴趣的:(spark)