zhangronglin1

SparkSql

一、Shark

1、简介

Shark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎

2、优点：

	1）由于底层的计算采用了Spark，性能比MapReduce的Hive普遍快2倍以上，当数据全部load在内存的话，将快10倍以上，因此Shark可以作为交互式查询应用服务来使用
	2）Shark是完全兼容Hive的语法，表结构以及UDF函数等，已有的HiveSql可以直接进行迁移至Shark上Shark底层依赖于Hive的解析器，查询优化器

3、缺点

	由于SHark的整体设计架构对Hive的依赖性太强，难以支持其长远发展，比如不能和Spark的其他组件进行很好的集成，无法满足Spark的一栈式解决大数据处理的需求。

二、SparkSQL

1、介绍

1）Hive是Shark的前身，Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱离了Hive的限制。
2）SparkSQL支持查询原生的RDD。
3）能够在scala中写SQL语句。

2、Spark on Hive和Hive on Spark

**Spark on Hive**： Hive只作为储存角色，Spark负责sql解析优化，执行。
**Hive on Spark**：Hive即作为存储又负责sql的解析优化，Spark负责执行。

3、Dataset与DataFrame

前期：Dataset简单理解为一张表![在这里插入图片描述](https://img-blog.csdnimg.cn/20190418193853479.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3poYW5ncm9uZ2xpbjE=,size_16,color_FFFFFF,t_70)
Dataset的底层封装的是RDD，当RDD的泛型是Row类型的时候，我们也可以称它为DataFrame。即Dataset = DataFrame（Dataset与DataFrame的使用请见第三章、创建Dataset的几种方式）

4、SparkSQL的数据源

SparkSQL的数据源可以是JSON类型的字符串，JDBC,Parquent,Hive，HDFS等。
![在这里插入图片描述](https://img-blog.csdnimg.cn/2019041819453259.png)

5、SparkSQL底层架构

	![在这里插入图片描述](https://img-blog.csdnimg.cn/2019041819462122.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3poYW5ncm9uZ2xpbjE=,size_16,color_FFFFFF,t_70)
	首先拿到sql后解析一批未被解决的逻辑计划，再经过分析得到分析后的逻辑计划，再经过一批优化规则转换成一批最佳优化的逻辑计划，再经过SparkPlanner的策略转化成一批物理计划，随后经过消费模型转换成一个个的Spark任务执行。

6、谓词下推（predicate Pushdown）

![在这里插入图片描述](https://img-blog.csdnimg.cn/20190418194749816.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3poYW5ncm9uZ2xpbjE=,size_16,color_FFFFFF,t_70)

三、3. 创建Dataset的几种方式

1、读取json格式的文件创建DataSet

注意：json文件中不能嵌套json格式的内容
1.读取json格式两种方式
2.ds.show默认显示前20行，使用ds.show(行数)显示多行
3.ds.javaRDD/(scala ds.rdd) 将DataFrame转换成RDD
4.ds.printSchema()显示Dataset中的Schema信息
5.dataset自带的API 操作Dataset ，用的少
6.想使用sql查询，首先要将Dataset注册成临时表：dd.registerTempTable(“jtable”)，再使用sql,怎么使用sql? sqlContext.sql(“sql语句”)
7.不能读取嵌套的json文件
8.ds加载过来之后将列按照ascii排序了

package com.shsxt.java.sql.dataset;


import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;



/**
 * 读取json格式的文件创建DataSet
 * 
 * 注意 ：json文件中不能嵌套json格式的内容
 * 
 * 1.读取json格式两种方式
 * 2.ds.show默认显示前20行，使用ds.show(行数)显示多行
 * 3.ds.javaRDD/(scala ds.rdd) 将DataFrame转换成RDD
 * 4.ds.printSchema()显示Dataset中的Schema信息
 * 5.dataset自带的API 操作Dataset ，用的少
 * 6.想使用sql查询，首先要将Dataset注册成临时表：dd.registerTempTable("jtable")，再使用sql,怎么使用sql?  sqlContext.sql("sql语句")
 * 7.不能读取嵌套的json文件
 * 8.ds加载过来之后将列按照ascii排序了
 *
 * @author root
 */
public class CreateDSFromJosonFile {

    public static void main(String[] args) {

        SparkSession sparkSession = SparkSession
                .builder()
                .appName("jsonfile")
                .master("local")
                .getOrCreate();


        /**
         * Dataset的底层是一个一个的RDD
         * 注意：
         *      当 Dataset里的泛型是Row时，我们又可以称之为dataframe
         *
         * 以下两种方式都可以读取json格式的文件
         *
         */

        Dataset ds = sparkSession.read().format("json").load("data/json");
//		Dataset ds = sqlContext.read().json("data/json");
//		ds.show();


        ds.show();


        /**
         * 显示DataSet中的内容，默认显示前20行。如果现实多行要指定多少行show(行数)
         * 注意：当有多个列时，显示的列先后顺序是按列的ascii码先后显示。
         */
        ds.show(100);


        /**
         *DataSet转换成RDD
         */
//        JavaRDD javaRDD = ds.javaRDD();

        /**
         * 树形的形式显示schema信息
         */
        ds.printSchema();


        /**
         * dataset自带的API 操作dataset
         */
		//select name from table
		ds.select("name").show();
		//select name ,age+10 as addage from table
		ds.select(ds.col("name"),ds.col("age").plus(10).alias("addage")).show();
		//select name ,age from table where age>19
		ds.select(ds.col("name"),ds.col("age")).where(ds.col("age").gt(19)).show();
		//select age,count(*) from table group by age
		ds.groupBy(ds.col("age")).count().show();

        /**
         * 将dataset注册成临时的一张表，这张表相当于临时注册到内存中，逻是辑上的表，不会雾化到磁盘
         */

        ds.createOrReplaceTempView("jtable");
        //        ds.registerTempTable("jtable");

        Dataset sql = sparkSession.sql("select age,count(*) as gg from jtable group by age");
        sql.show();
//
//        Dataset sql2 = sparkSession.sql("select name,age from jtable");
//        sql2.show();
        sparkSession.stop();
    }
}

2、读取json格式的RDD创建Dataset

package com.shsxt.java.sql.dataset;


import org.apache.spark.SparkContext;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.*;


import java.util.Arrays;

/**
 * 读取json格式的RDD创建DF
 * @author root
 *
 */
public class CreateDSFromJsonRDD {
	public static void main(String[] args) {
        SparkSession sparkSession = SparkSession
                .builder()
                .appName("jsonrdd")
                .master("local")
                .getOrCreate();

        /**
         * 注意：
         *   1.由于是java版,故通过javaSparkcontext.parallelize来创建json格式的JavaRDD
         *   所以我们通过sparkcontext来创建javaSparkcontext
         *   2.如果是scala版本，直接通过sparkcontext.parallelize来创建，就无需创建javaSparkcontext
         */

        SparkContext sc = sparkSession.sparkContext();

        JavaSparkContext jsc = new JavaSparkContext(sc);

        JavaRDD nameRDD = jsc.parallelize(Arrays.asList(
					"{'name':'zhangsan','age':\"18\"}",
					"{\"name\":\"lisi\",\"age\":\"19\"}",
					"{\"name\":\"wangwu\",\"age\":\"20\"}"
				));

		JavaRDD scoreRDD = jsc.parallelize(Arrays.asList(
				"{\"name\":\"zhangsan\",\"score\":\"100\"}",
				"{\"name\":\"lisi\",\"score\":\"200\"}",
				"{\"name\":\"wangwu\",\"score\":\"300\"}"
				));

		Dataset nameds = sparkSession.read().json(nameRDD);
        Dataset scoreds = sparkSession.read().json(scoreRDD);


		//注册成临时表使用
        nameds.createOrReplaceTempView("nameTable");
        scoreds.createOrReplaceTempView("scoreTable");

        Dataset result =
                sparkSession.sql("select nameTable.name,nameTable.age,scoreTable.score "
							+ "from nameTable join scoreTable "
							+ "on nameTable.name = scoreTable.name");
		result.show();
		sc.stop();
	}
}

3、通过反射的方式将非json格式的RDD转换成Dataset

注意：

1.这种方式不推荐使用
2.自定义类要实现序列化接口
3.自定义类访问级别必须是Public
4.RDD转成Dataset会把自定义类中字段的名称按assci码排序

package com.shsxt.java.sql.dataset;



import org.apache.spark.SparkContext;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;

import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;

import org.apache.spark.sql.SparkSession;

/**
 * 通过反射的方式将非json格式的RDD转换成Dataset
 * 注意：这种方式不推荐使用
 *
 * @author root
 */
public class CreateDSFromRDDWithReflect {
    public static void main(String[] args) {
        /**
         * 注意：
         * 1.自定义类要实现序列化接口
         * 2.自定义类访问级别必须是Public
         * 3.RDD转成Dataset会把自定义类中字段的名称按assci码排序
         */

        SparkSession sparkSession = SparkSession
                .builder()
                .appName("reflect")
                .master("local")
                .getOrCreate();

        SparkContext sc = sparkSession.sparkContext();

        JavaSparkContext jsc = new JavaSparkContext(sc);

        JavaRDD lineRDD = jsc.textFile("data/person.txt");

        JavaRDD personRDD = lineRDD.map(
                new Function() {

            private static final long serialVersionUID = 1L;

            @Override
            public Person call(String line) throws Exception {
                Person p = new Person();

                p.setId(line.split(",")[0]);
                p.setName(line.split(",")[1]);
                p.setAge(Integer.valueOf(line.split(",")[2]));
                return p;
            }
        });
        /**
         * 传入进去Person.class的时候，sqlContext是通过反射的方式创建Dataset
         * 在底层通过反射的方式获得Person的所有field，结合RDD本身，就生成了Dataset
         */
        Dataset dataFrame = sparkSession.createDataFrame(personRDD, Person.class);

        dataFrame.show();
        dataFrame.printSchema();
        dataFrame.registerTempTable("person");
        Dataset sql = sparkSession.sql("select  name,id,age from person where id = 2");
        sql.show();
        

        /**
         * 将Dataset转成JavaRDD
         * 注意：
         * 1.可以使用row.getInt(0),row.getString(1)...通过下标获取返回Row类型的数据，但是要注意列顺序问题---不常用
         * 2.可以使用row.getAs("列名")来获取对应的列值。
         *
         //		 */
		JavaRDD javaRDD = dataFrame.javaRDD();
		JavaRDD map = javaRDD.map(new Function() {

			/**
			 *
			 */
			private static final long serialVersionUID = 1L;

			@Override
			public Person call(Row row) throws Exception {
				Person p = new Person();

//				p.setId(row.getString(1));
//				p.setName(row.getString(2));
//				p.setAge(row.getInt(0));

                p.setId(row.getAs("id"));
				p.setName(row.getAs("name"));
				p.setAge(row.getAs("age"));

				return p;
			}
		});

		map.foreach(x-> System.out.println(x));

        sparkSession.stop();
    }
}

4、动态创建Schema将非json格式RDD转换成Dataset

/**
 * 
 */
package com.shsxt.java.sql.dataset;


import org.apache.spark.SparkContext;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.sql.*;

import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;

import java.util.Arrays;
import java.util.List;

/**
 * 动态创建Schema将非json格式RDD转换成Dataset
 * @author root
 *
 */
public class CreateDSFromRDDWithStruct {
	public static void main(String[] args) {
        SparkSession sparkSession = SparkSession
                .builder()
                .appName("struct")
                .master("local")
                .getOrCreate();

        SparkContext sc = sparkSession.sparkContext();

        JavaSparkContext jsc = new JavaSparkContext(sc);
		JavaRDD lineRDD = jsc.textFile("data/person.txt");
		/**
		 * 转换成Row类型的RDD
		 */
		final JavaRDD rowRDD = lineRDD.map(new Function() {

			/**
			 * 
			 */
			private static final long serialVersionUID = 1L;

			@Override
			public Row call(String s) throws Exception {

				return RowFactory.create(
						s.split(",")[0],
						s.split(",")[1],
						Integer.valueOf(s.split(",")[2])
					);
			}
		});
		/**
		 * 动态构建DataFrame中的元数据，一般来说这里的字段可以来源自字符串，也可以来源于外部数据库
		 */
		
		List asList = Arrays.asList(
                DataTypes.createStructField("id", DataTypes.StringType, true),
                DataTypes.createStructField("name", DataTypes.StringType, true),
                DataTypes.createStructField("age", DataTypes.IntegerType, true)
        );


		StructType schema = DataTypes.createStructType(asList);

		Dataset df = sparkSession.createDataFrame(rowRDD, schema);
		df.printSchema();
		df.show();


		sc.stop();
		
	}
}

5、读取JDBC中的数据创建Dataset(MySql为例)

第一种方式读取MySql数据库表，加载为Dataset
第二种方式读取MySql数据表加载为Dataset

package com.shsxt.java.sql.dataset;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.*;

import java.util.HashMap;
import java.util.Map;
import java.util.Properties;


public class CreateDSFromMysql {
    public static void main(String[] args) {

        SparkSession sparkSession = SparkSession
                .builder()
                .appName("mysql")
                .master("local")
                .getOrCreate();


        /**
         * 第一种方式读取MySql数据库表，加载为Dataset
         */
        Map options = new HashMap();
        options.put("url", "jdbc:mysql://127.0.0.1:3306/spark");
        options.put("driver", "com.mysql.jdbc.Driver");
        options.put("user", "root");
        options.put("password", "root");
        options.put("dbtable", "person");

        Dataset person = sparkSession.read().format("jdbc").options(options).load();

        person.show();

        person.createOrReplaceTempView("person");

//        person.registerTempTable("person");
        /**
         * 第二种方式读取MySql数据表加载为Dataset
         */

        DataFrameReader reader = sparkSession.read().format("jdbc");
        reader.option("url", "jdbc:mysql://127.0.0.1:3306/spark");
        reader.option("driver", "com.mysql.jdbc.Driver");
        reader.option("user", "root");
        reader.option("password", "root");
        reader.option("dbtable", "score");

        Dataset score = reader.load();
        score.show();
        score.createOrReplaceTempView("score");
//        score.registerTempTable("score");

        Dataset  result =
                sparkSession.sql("select person.id,person.name,person.age,score.score "
                        + "from person,score "
                        + "where person.name = score.name  and score.score> 82");
        result.show();
//
        result.registerTempTable("result");

        Dataset  df = sparkSession.sql("select id,name,age,score from result where age > 18");
        df.show();

        /**
         * 将Dataset结果保存到Mysql中
         */

        Properties properties = new Properties();
        properties.setProperty("user", "root");
        properties.setProperty("password", "root");
        /**
         * SaveMode:
         * Overwrite：覆盖
         * Append:追加
         * ErrorIfExists:如果存在就报错
         * Ignore:如果存在就忽略
         *
         */

        result.write().mode(SaveMode.Append).jdbc("jdbc:mysql://127.0.0.1:3306/spark", "result", properties);
        System.out.println("----Finish----");
        sparkSession.stop();


    }
}

6、读取parquet文件创建Dataset
注意：
可以将Dataset存储成parquet文件。保存成parquet文件的方式有两种

df.write().mode(SaveMode.Overwrite)format("parquet")
                                    .save("./sparksql/parquet");
df.write().mode(SaveMode.Overwrite).parquet("./sparksql/parquet");

SaveMode指定文件保存时的模式。
Overwrite：覆盖
Append：追加
ErrorIfExists：如果存在就报错
Ignore：如果存在就忽略

package com.shsxt.java.sql.dataset;


import org.apache.spark.sql.*;


public class CreateDFFromParquet {
	public static void main(String[] args) {
        SparkSession sparkSession = SparkSession
                .builder()
                .appName("parquet")
                .master("local")
                .getOrCreate();

        Dataset  df = sparkSession.read().json("data/json");

//		sparkSession.read().format("json").load("./spark/json");
		df.show();
		/**
		 * 将Dataset保存成parquet文件，
		 * SaveMode指定存储文件时的保存模式:
		 * 		Overwrite：覆盖
		 * 		Append:追加
		 * 		ErrorIfExists:如果存在就报错
		 * 		Ignore:如果存在就忽略
		 * 保存成parquet文件有以下两种方式：
		 */

		df.write().mode(SaveMode.Overwrite).format("parquet").save("data/parquet");
//		df.write().mode(SaveMode.Overwrite).parquet("data/parquet");

        /**
		 * 加载parquet文件成Dataset
		 * 加载parquet文件有以下两种方式：	
		 */

        Dataset load = sparkSession.read().format("parquet").load("data/parquet");
		load = sparkSession.read().parquet("data/parquet");
		load.show();
        sparkSession.stop();
	}
	
}

7、通过Bean class来创建 Dataset

/**
 *
 */
package com.shsxt.java.sql.dataset;

import org.apache.spark.SparkContext;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.sql.*;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;

import java.util.Arrays;
import java.util.List;

/**
 * 通过Bean class来创建 Dataset
 *
 * @author root
 */
public class CreateDSFromBeanClass {

    public static void main(String[] args) {
        SparkSession sparkSession = SparkSession
                .builder()
                .appName("beanclass")
                .master("local")
                .getOrCreate();


        Person person = new Person();
        person.setId("1");
        person.setAge(18);
        person.setName("zs");

        Person person2 = new Person();
        person2.setId("2");
        person2.setAge(20);
        person2.setName("ls");

        List people = Arrays.asList(person, person2);
        Encoder personEncoder = Encoders.bean(Person.class);

        Dataset dataset = sparkSession.createDataset(people, personEncoder);

        dataset.printSchema();

        dataset.show();

        dataset.registerTempTable("person");

        Dataset result = sparkSession.sql("select name , id  from person");

        result.show();

        sparkSession.stop();

    }
}

8、读取Hive中的数据加载成Dataset

package com.shsxt.java.sql.dataset;


import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SaveMode;
import org.apache.spark.sql.SparkSession;


public class CreateDSFromHive {

	public static void main(String[] args) {
        SparkSession sparkSession = SparkSession
                .builder()
                .appName("hvie")
                //开启hive的支持，接下来就可以操作hive表了
                // 前提需要是需要开启hive metastore 服务
                .enableHiveSupport()
                .getOrCreate();

        sparkSession.sql("USE spark");
        sparkSession.sql("DROP TABLE IF EXISTS student_infos");
		//在hive中创建student_infos表
        sparkSession.sql("CREATE TABLE IF NOT EXISTS student_infos (name STRING,age INT) row format delimited fields terminated by '\t' ");
        sparkSession.sql("load data local inpath '/root/student_infos' into table student_infos");
        //注意：此种方式，程序需要能读取到数据（如/root/student_infos），同时也要能读取到 metastore服务的配置信息。

        sparkSession.sql("DROP TABLE IF EXISTS student_scores");
        sparkSession.sql("CREATE TABLE IF NOT EXISTS student_scores (name STRING, score INT) row format delimited fields terminated by '\t'");
        sparkSession.sql("LOAD DATA "
				+ "LOCAL INPATH '/root/student_scores'"
				+ "INTO TABLE student_scores");



//		Dataset df = hiveContext.table("student_infos");//读取Hive表加载Dataset方式
        /**
         * 查询表生成Dataset
         */
		Dataset goodStudentsDF = sparkSession.sql("SELECT si.name, si.age, ss.score "
				+ "FROM student_infos si "
				+ "JOIN student_scores ss "
				+ "ON si.name=ss.name "
				+ "WHERE ss.score>=80");

		goodStudentsDF.registerTempTable("goodstudent");
        Dataset  result = sparkSession.sql("select * from goodstudent");
		result.show();
		
		/**
		 * 将结果保存到hive表 good_student_infos
		 */
        sparkSession.sql("DROP TABLE IF EXISTS good_student_infos");
		goodStudentsDF.write().mode(SaveMode.Overwrite).saveAsTable("good_student_infos");

        sparkSession.stop();
	}
}

四、Spark On Hive的配置

1、在Spark客户端配置spark On hive

在Spark客户端安装包下spark-2.2.1/conf中创建文件hive-site.xml：
配置hive的metastore路径
	
	   
	        hive.metastore.uris
	        thrift://node1:9083

2、启动Hive的metastore服务

hive --service metastore &

3、启动zookeeper集群，启动HDFS集群。

4、启动SparkShell 读取Hive中的表总数，对比hive中查询同一表查询总数测试时间。

	./spark-shell 
	--master spark://node1:7077
	spark.sql("select * from day_table").show;

注意：
如果使用Spark on Hive 查询数据时，出现错误：

找不到HDFS集群路径，要在客户端机器conf/spark-env.sh中设置HDFS的路径：

五、序列化问题

java中以下几种情况下不被序列化

1.反序列化时serializable 版本号不一致时会导致不能反序列化。

步骤：
1.将本地bean serialVersionUID 版本号改为1L，然后序列化
2.将本地bean serialVersionUID 版本号改为2L，然后反序列化
3.观察能否完成反序列化.
结论：简单来说，Java的序列化机制是通过在运行时判断类的serialVersionUID来验证版本一致性的。在进行反序列化时，
JVM会把传来的字节流中的serialVersionUID与本地相应实体（类）的serialVersionUID进行比较，如果相同就认为是一致的，可以进行反序列化，否则就会出现序列化版本不一致的异常。当实现java.io.Serializable接口的实体（类）没有显式地定义一个名为serialVersionUID，类型为long的变量时，Java序列化机制会根据编译的class自动生成一个serialVersionUID作序列化版本比较用，这种情况下，只有同一次编译生成的class才会生成相同的serialVersionUID 。如果我们不希望通过编译来强制划分软件版本，即实现序列化接口的实体能够兼容先前版本，未作更改的类，就需要显式地定义一个名为serialVersionUID，类型为long的变量，不修改这个变量值的序列化实体都可以相互进行串行化和反串行化。

package com.shsxt.java.sql.serializeTest;



import com.shsxt.java.sql.serializeTest.bean.User;

import java.io.FileInputStream;
import java.io.ObjectInputStream;

/**
 * 测试：反序列化时 实体类中的serialVersionUID  改变后能否反序列化？（不能）
 * 
 * 步骤：  1.将本地bean serialVersionUID 版本号改为1L，然后序列化
 * 2.将本地bean serialVersionUID 版本号改为2L，然后反序列化
 * 3.观察能否完成反序列化.
 * 结论：简单来说，Java的序列化机制是通过在运行时判断类的serialVersionUID来验证版本一致性的。在进行反序列化时，
 * JVM会把传来的字节流中的serialVersionUID与本地相应实体（类）的serialVersionUID进行比较，如果相同就认为是一致的，
 * 可以进行反序列化，否则就会出现序列化版本不一致的异常。
 * 当实现java.io.Serializable接口的实体（类）没有显式地定义一个名为serialVersionUID，类型为long的变量时，
 * Java序列化机制会根据编译的class自动生成一个serialVersionUID作序列化版本比较用，这种情况下，
 * 只有同一次编译生成的class才会生成相同的serialVersionUID 。如果我们不希望通过编译来强制划分软件版本，
 * 即实现序列化接口的实体能够兼容先前版本，未作更改的类，就需要显式地定义一个名为serialVersionUID，类型为long的变量，
 * 不修改这个变量值的序列化实体都可以相互进行串行化和反串行化。
 *
 * @author root
 */

public class DeSerializableTest {
    public static void main(String[] args) {
//        User user = new User();
//        user.setUsername("zhangsan");
//        user.setPasswd("1234");

        try {

            /**
             * 这里注意第一次运行的时候要把下面代码中的反序列部分注释，然后改正User对象中的serializableVersion的版本号，
             * 运行反序列化时，要把序列化代码注释，这样才能保证版本不一致。
             */

//			ObjectOutputStream out = new ObjectOutputStream(new FileOutputStream("data/user.txt"));
//			out.writeObject(user);
//			out.flush();
//			out.close();

            ObjectInputStream in = new ObjectInputStream(new FileInputStream("data/user.txt"));
            User user = (User) in.readObject();

            System.out.println(user);
            System.out.println(user.getPasswd() + "   " + user.getUsername());
            in.close();

        } catch (Exception e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }
}

2.子类中实现了serializable接口，父类中没有实现，父类中的变量不能被序列化,序列化后父类中的变量会得到null。

**注意**：父类实现serializable接口,子类没有实现serializable接口时，子类可以正常序列化

子类实现serializable 父类不实现serializable,当序列化子类时，反序列化得到父类中的某变量的数值时，该变量的数值与序列化时的数值不相同?（不相同）
步骤：
1.父类不实现serializable,子类实现serializable,父类中比子类中多一个common变量。
2.将子类序列化，然后反序列化，观察能否得到，设置父类中的变量common
3.将父类实现serializable,同样操作第二步骤，观察反序列化能否得到父类中的common值
结论：
一个子类实现了 Serializable 接口，它的父类都没有实现 Serializable 接口，序列化该子类对象，然后反序列化后输出父类定义的某变量的数值，该变量数值与序列化时的数值不同。（需要在父类中是实现默认的构造方法，否则会报异常:no validconstructor）在父类没有实现 Serializable 接口时，虚拟机是不会序列化父对象的，而一个 Java 对象的构造必须先有父对象，才有子对象，反序列化也不例外。所以反序列化时，为了构造父对象，只能调用父类的无参构造函数作为默认的父对象。因此当我们取父对象的变量值时，它的值是调用父类无参构造函数后的值。如果你考虑到这种序列化的情况，在父类无参构造函数中对变量进行初始化，否则的话，父类变量值都是默认声明的值，如 int 型的默认是 0，string 型的默认是 null。

应用场景：
根据父类对象序列化的规则，我们可以将不需要被序列化的字段抽取出来放到父类中，子类实现 Serializable 接口，父类不实现，根据父类序列化规则，父类的字段数据将不被序列化，

package com.shsxt.java.sql.serializeTest;



import com.shsxt.java.sql.serializeTest.bean.Apple;

import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.ObjectInputStream;

/**
 * 测试：子类实现serializable 父类不实现serializable,当序列化子类时，反序列化得到父类中的某变量的数值时，该变量的数值与序列化时的数值不相同?（不相同）
 * 
 * 步骤：  1.父类不实现serializable,子类实现serializable,父类中比子类中多一个common变量。
 * 2.将子类序列化，然后反序列化，观察能否得到，设置父类中的变量common
 * 3.将父类实现serializable,同样操作第二步骤，观察反序列化能否得到父类中的common值
 * 

 * 结论：一个子类实现了 Serializable 接口，它的父类都没有实现 Serializable 接口，序列化该子类对象，然后反序列化后输出父类定义的某变量的数值，
 * 该变量数值与序列化时的数值不同。（需要在父类中是实现默认的构造方法，否则会报异常:no validconstructor）
 * 在父类没有实现 Serializable 接口时，虚拟机是不会序列化父对象的，而一个 Java 对象的构造必须先有父对象，才有子对象，反序列化也不例外。
 * 所以反序列化时，为了构造父对象，只能调用父类的无参构造函数作为默认的父对象。因此当我们取父对象的变量值时，它的值是调用父类无参构造函数后的值。
 * 如果你考虑到这种序列化的情况，在父类无参构造函数中对变量进行初始化，否则的话，父类变量值都是默认声明的值，如 int 型的默认是 0，string 型的默认是 null。
 * 

 * 应用场景：
 * 根据父类对象序列化的规则，我们可以将不需要被序列化的字段抽取出来放到父类中，子类实现 Serializable 接口，
 * 父类不实现，根据父类序列化规则，父类的字段数据将不被序列化，
 */

/**
 * 测试子类实现serializable接口，父类不实现serializable接口，父类中的变量不能 被序列化。
 * 
 * 步骤：
 * 1.子类（Apple）实现serializable接口，父类（Fruit）不实现serializable接口。
 * 2.运行以下代码，观察结果。
 *
 * @author root
 */

public class ExtendsSerializableTest {
    public static void main(String[] args) {
//        Apple apple = new Apple();
//        apple.setCommon("in apple");
//        apple.setColor("red");
//        apple.setName("apple");
        try {
//            ObjectOutputStream out = new ObjectOutputStream(new FileOutputStream("data/apple.txt"));
//            out.writeObject(apple);
//            out.flush();
//            out.close();
//            System.out.println("before serializable : ");
//            System.out.println("apple common : " + apple.common);
//            System.out.println("apple name  : " + apple.name);
//            System.out.println("apple color : "+ apple.color);
//            System.out.println("\n-----------------------\n");
//
            ObjectInputStream in = new ObjectInputStream(new FileInputStream("data/apple.txt"));

            Apple apple = (Apple) in.readObject();
            System.out.println("after serializable :");
            System.out.println("apple common : " + apple.common);
            System.out.println("apple name : " + apple.name);
            System.out.println("apple color : " + apple.color);

        } catch (FileNotFoundException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        } catch (ClassNotFoundException e) {
            e.printStackTrace();
        }
    }


}

3.被关键字transient修饰的变量不能被序列化。

package com.shsxt.java.sql.serializeTest.bean;

import java.io.Serializable;

public class User implements Serializable {
	
    /**
	 * 
	 */
	private static final long serialVersionUID =2L;
	/**
	 * 
	 */
	private transient String username;
    private String passwd;
//    private String passwd;

    public String getUsername() {
        return username;
    }  
      
    public void setUsername(String username) {
        this.username = username;
    }  
      
    public String getPasswd() {
        return passwd;  
    }  
      
    public void setPasswd(String passwd) {
        this.passwd = passwd;  
    }

	@Override
	public String toString() {
		return "User [username=" + username + ", passwd=" + passwd + "]";
	}  
  
	
}

4.静态变量不能被序列化，属于类，不属于方法和对象，所以不能被序列化。
结论：
可以看到当改变静态变量的值时，序列化后的静态变量也是改变的，如果正常能被序列化的值，是在反序列化中得到的值是不会变的，可见，静态变量不能被序列化。
那为什么反序列化可以读到值呢？
一个静态变量不管是否被transient修饰，均不能被序列化，反序列化后类中static型变量isPerson的值为当前JVM中对应static变量的值，这个值是JVM中的,不是反序列化得出的

package com.shsxt.java.sql.serializeTest;



import com.shsxt.java.sql.serializeTest.bean.Person;

import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.ObjectInputStream;

/**
 * 问题：静态变量能否被序列化？(不能被序列化)
 * 
 * 结论：  可以看到当改变静态变量的值时，序列化后的静态变量也是改变的，如果正常能被序列化的值，是在反序列化中得到的值是不会变的，可见，静态变量不能被序列化。
 * 那为什么反序列化可以读到值呢？
 * 一个静态变量不管是否被transient修饰，均不能被序列化，反序列化后类中static型变量isPerson的值为当前JVM中对应static变量的值，
 * 这个值是JVM中的,不是反序列化得出的
 *
 * @author root
 */
public class StaticSerializableTest {

    public static void main(String[] args) {
//        Person person = new Person();
//        Person.isPerson = "yes";
//
//        person.setName("zhangsan");
//        person.setAge("18");
//        System.out.println("before serializable : ");
//        System.out.println("isPerson : " + Person.isPerson);
//        System.out.println("name : " + person.name);
//        System.out.println("age : " + person.age);

        try {
//            ObjectOutputStream out = new ObjectOutputStream(new FileOutputStream("data/personSerialize.txt"));
//            out.writeObject(person);
//            out.flush();
//            out.close();


//            System.out.println("\n=================\n");
//
            ObjectInputStream in = new ObjectInputStream(new FileInputStream("data/personSerialize.txt"));

            Person person = (Person) in.readObject();


            in.close();

            System.out.println("after serializable : ");
            System.out.println("isPerson : " + person.isPerson);
            System.out.println("name : " + person.name);
            System.out.println("age : " + person.age);

        } catch (FileNotFoundException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        } catch (ClassNotFoundException e) {
            e.printStackTrace();
        }

    }
}

六、储存DataSet

将DataSet存储为parquet文件。
将DataSet存储到JDBC数据库。
将DataSet存储到Hive表。

七、自定义函数UDF和UDAF

UDAF 用户自定义聚合函数

package com.shsxt.java.sql.udf_udaf;

import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.sql.*;

import org.apache.spark.sql.expressions.MutableAggregationBuffer;
import org.apache.spark.sql.expressions.UserDefinedAggregateFunction;
import org.apache.spark.sql.types.DataType;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;

/**
 * UDAF 用户自定义聚合函数
 *
 * @author root
 */
public class UDAF {
    public static void main(String[] args) {

        SparkSession sparkSession = SparkSession
                .builder()
                .appName("udaf")
                .master("local")
                .getOrCreate();

        JavaSparkContext sc = new JavaSparkContext(sparkSession.sparkContext());

        JavaRDD parallelize = sc.parallelize(
                Arrays.asList("zhangsan", "lisi", "wangwu", "zhangsan", "zhangsan", "lisi","zhangsan", "lisi", "wangwu", "zhangsan", "zhangsan", "lisi"),2);

        JavaRDD rowRDD = parallelize.map(new Function() {

            /**
             *
             */
            private static final long serialVersionUID = 1L;

            @Override
            public Row call(String s) throws Exception {

                return RowFactory.create(s);
            }
        });

        List fields = new ArrayList();
        fields.add(DataTypes.createStructField("name", DataTypes.StringType, true));
        StructType schema = DataTypes.createStructType(fields);
        Dataset df = sparkSession.createDataFrame(rowRDD, schema);
        df.registerTempTable("user");

        /**
         * 注册一个UDAF函数,实现统计相同值得个数
         * 注意：这里可以自定义一个类继承UserDefinedAggregateFunction类也是可以的
         * 数据：
         *     zhangsan
         *     zhangsan
         *     lisi
         *     lisi
         *
         *     select count(*)  from user group by name
         */

        sparkSession.udf().register("StringCount", new UserDefinedAggregateFunction() {

            /**
             *
             */
            private static final long serialVersionUID = 1L;

            /**
             * 初始化一个内部的自己定义的值,在Aggregate之前每组数据的初始化结果
             */
            @Override
            public void initialize(MutableAggregationBuffer buffer) {


                buffer.update(0, 0);


                System.out.println("init ....." + buffer.get(0));

            }

            /**
             * 更新 可以认为一个一个地将组内的字段值传递进来 实现拼接的逻辑
             * buffer.getInt(0)获取的是上一次聚合后的值
             * 相当于map端的combiner，combiner就是对每一个map task的处理结果进行一次小聚合
             * 大聚和发生在reduce端.
             * 这里即是:在进行聚合的时候，每当有新的值进来，对分组后的聚合如何进行计算
             */
            @Override
            public void update(MutableAggregationBuffer buffer, Row arg1) {

                buffer.update(0, buffer.getInt(0) + 1);

                System.out.println("update.....buffer" + buffer.toString() + " | row" + arg1.toString() );
            }

            /**
             * 合并 update操作，可能是针对一个分组内的部分数据，在某个节点上发生的 但是可能一个分组内的数据，会分布在多个节点上处理
             * 此时就要用merge操作，将各个节点上分布式拼接好的串，合并起来
             * buffer1.getInt(0) : 大聚合的时候 上一次聚合后的值
             * buffer2.getInt(0) : 这次计算传入进来的update的结果
             * 这里即是：最后在分布式节点完成后需要进行全局级别的Merge操作
             */

            public void merge(MutableAggregationBuffer buffer1, Row arg1) {
                // 2 3  4  5  6  7
                // 0 + 2 = 2
                // 2 + 3 = 5
                // 5 + 4  = 9

                buffer1.update(0, buffer1.getInt(0) + arg1.getInt(0));

                System.out.println("merge.....buffer ： " + buffer1.toString() + "| row" + arg1.toString() );
            }

            /**
             * 在进行聚合操作的时候所要处理的数据的结果的类型
             */
            @Override
            public StructType bufferSchema() {
                return DataTypes.createStructType(Arrays.asList(DataTypes.createStructField("bffer", DataTypes.IntegerType, true)));
            }

            /**
             * 最后返回一个和DataType的类型要一致的类型，返回UDAF最后的计算结果
             */
            @Override
            public Object evaluate(Row row) {
                return row.getInt(0);
            }

            /**
             * 指定UDAF函数计算后返回的结果类型
             */
            @Override
            public DataType dataType() {
                return DataTypes.IntegerType;
            }

            /**
             * 指定输入字段的字段及类型
             */
            @Override
            public StructType inputSchema() {
                return DataTypes.createStructType(Arrays.asList(DataTypes.createStructField("name", DataTypes.StringType, true)));
            }

            /**
             * 确保一致性 一般用true,用以标记针对给定的一组输入，UDAF是否总是生成相同的结果。
             */
            @Override
            public boolean deterministic() {
                return true;
            }

        });

        sparkSession.sql("select name ,StringCount(name) as number from user group by name").show();

        sc.stop();
    }
}

UDF 用户自定义函数

package com.shsxt.java.sql.udf_udaf;

import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;


import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.sql.*;

import org.apache.spark.sql.api.java.UDF2;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;
/**
 * UDF 用户自定义函数
 * @author root
 *
 */
public class UDF {
	public static void main(String[] args) {
        SparkSession sparkSession = SparkSession
                .builder()
                .appName("udf")
                .master("local")
                .getOrCreate();

        JavaSparkContext sc = new JavaSparkContext(sparkSession.sparkContext());
		JavaRDD parallelize = sc.parallelize(Arrays.asList("zhangsan","lisi","wangwu"));

		JavaRDD rowRDD = parallelize.map(new Function() {

			/**
			 * 
			 */
			private static final long serialVersionUID = 1L;

			@Override
			public Row call(String s) throws Exception {
				return RowFactory.create(s);
			}
		});
		
		/**
		 * 动态创建Schema方式加载DF
		 */
		List fields = new ArrayList();
		fields.add(DataTypes.createStructField("name", DataTypes.StringType,true));
		StructType schema = DataTypes.createStructType(fields);
		
		Dataset df = sparkSession.createDataFrame(rowRDD,schema);
		
		df.registerTempTable("user");

		/**
		 * 根据UDF函数参数的个数来决定是实现哪一个UDF  UDF1，UDF2。。。。UDF1xxx
		 */

		sparkSession.udf().register("StrLen",new UDF2() {

			/**
			 *
			 */
			private static final long serialVersionUID = 1L;

			@Override
			public Integer call(String t1, Integer t2) throws Exception {
				return t1.length() + t2;
			}
		} ,DataTypes.IntegerType );

		sparkSession.sql("select name ,StrLen(name,100) as length from user").show();
//
        sparkSession.stop();
		
	}
}

八、开窗函数

row_number() 开窗函数是按照某个字段分组，然后取另一字段的前几个的值，相当于 分组取topN

开窗函数格式：

row_number() over (partitin by XXX order by XXX)

package com.shsxt.java.sql.windowfun;


import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;


/**
 * row_number()开窗函数：
 * 主要是按照某个字段分组，然后取另一字段的前几个的值，相当于 分组取topN
 * row_number() over (partition by xxx order by xxx desc) xxx
 * @author root
 *
 */
public class RowNumberWindowFun {
    //-Xms800m -Xmx800m  -XX:PermSize=64M -XX:MaxNewSize=256m -XX:MaxPermSize=128m
	public static void main(String[] args) {
        SparkSession sparkSession = SparkSession
                .builder()
                .appName("window")
                .master("local")
                //开启hive的支持，接下来就可以操作hive表了
                // 前提需要是需要开启hive metastore 服务
                .enableHiveSupport()
                .getOrCreate();

        sparkSession.sql("use spark");
        sparkSession.sql("drop table if exists sales");
        sparkSession.sql("create table if not exists sales (riqi string,leibie string,jine Int) "
				+ "row format delimited fields terminated by '\t'");
        sparkSession.sql("load data local inpath './data/sales.txt' into table sales");
		/**
		 * 开窗函数格式：
		 * 【 row_number() over (partition by XXX order by XXX) as rank】
		 * 注意：rank 从1开始
		 */
		/**
		 * 以类别分组，按每种类别金额降序排序，显示 【日期，种类，金额】 结果，如：
		 * 
		 * 1 A 100
         * 2 B 200
         * 3 A 300
         * 4 B 400
         * 5 A 500
         * 6 B 600
		 * 排序后：
		 * 5 A 500  --rank 1
		 * 3 A 300  --rank 2 
		 * 1 A 100  --rank 3
		 * 6 B 600  --rank 1
		 * 4 B 400	--rank 2
         * 2 B 200  --rank 3
		 *
         * 2018 A 400     1
         * 2017 A 500     2
         * 2016 A 550     3
         *
         *
         * 2016 A 550     1
         * 2017 A 500     2
         * 2018 A 400     3
         *
		 */

		Dataset result = sparkSession.sql("select riqi,leibie,jine,rank "
							+ "from ("
								+ "select riqi,leibie,jine,"
								+ "row_number() over (partition by leibie order by jine desc) rank "
								+ "from sales) t "
						+ "where t.rank<=3");
		result.show(100);
		/**
		 * 将结果保存到hive表sales_result
		 */
//		result.write().mode(SaveMode.Overwrite).saveAsTable("sales_result");
        sparkSession.stop();
	}
}

你可能感兴趣的:(SparkSQL,Shark,Dataset,谓词下推,UDF和UDAF)

synchronized 的特性与机制坚持拒绝熬夜 java 开发语言笔记
目录1.synchronized的特性锁策略(1)既是乐观锁也是悲观锁(2)既是轻量级锁,也是重量级锁(3)轻量级锁基于自旋实现,重量级锁基于挂起等待实现(4)不是读写锁(5)是可重入锁(6)是非公平锁2.synchronized的使用3.synchronized的锁机制偏向锁自旋锁和重量级锁4.synchronized的优化策略1.锁的消除2.锁的粗化1.synchronized的特性(1)既是
TCP 客户端 - 服务器通信程序搭建 Oracle_666 网络服务器 tcp/ip
一、概述本文档针对TCP客户端程序和TCP服务器程序。客户端程序会连接到服务器并发送带有自定义协议格式的数据，而服务器程序则负责监听客户端连接，接收并处理这些数据。自定义协议格式为：先发送2字节网络字节序的长度头，随后是变长的数据负载。二、客户端程序2.1代码结构#include#include#include#include#include#include#definePORT8080//定义服
高云FPGA的管脚约束文件的复制在岸上走的鱼 fpga开发嵌入式硬件硬件架构
问：Gowin里面能不能直接拷贝一个管脚约束文件进去用？答：可以直接拷贝，但是拷贝前后两个工程对应的芯片必须要是同一个芯片拷贝方法:第一步：按照被拷贝约束文件对应的芯片新建一个工程，然后将原工程文件夹“src”里面的“.cst”文件拷到新建工程的相同目录下，第二步：回到新建工程目录下，点击芯片名右击，如下图：将“.V”文件和“.cst”文件一同加入这个工程，最后综合，布局布线就可以了，注意：有时拷
区块链驱动金融第四章——比特币实用指南：存储与使用全解析小DuDu 区块链金融
在比特币的世界里，存储和使用比特币是每个参与者都必须面对的重要环节。第四章围绕这两个关键方面展开了详细的阐述，为我们提供了全面而深入的见解。现在，就让我们一起走进这一章，探索如何安全、便捷地存储和使用比特币。比特币的存储方式：多样选择，各有优劣简单本地储存：便捷与风险并存把比特币存储在本地设备上是最直接的方式，就像把钱放在钱包里一样方便。人们通常会使用比特币钱包软件来管理比特币和私钥，通过这些软件
FlinkCDC实战：将 MySQL 数据同步至 ES 小DuDu flink mysql
当前需要处理的业务场景:将订单表和相关联的表(比如:商品表、子订单表、物流信息表)组织成宽表,放入到ES中,加速订单数据的查询.同步数据到es.概述1.什么是CDC2.什么是FlinkCDC3.FlinkCDCConnectors和Flink的版本映射实战1.宽表查询1.1创建mysql表1.2启动Flink集群和FlinkSQLCLI1.3在FlinkSQLCLI中使用FlinkDDL创建表1.
Spring Boot 3.4.0 发布：功能概览与示例小DuDu Java spring boot java
SpringBoot3.4.0带来了许多增强功能，使现代应用开发更加高效、便捷和强大。以下是最新功能的完整概述，以及一些帮助您快速入门的代码示例。1.应用程序版本管理SpringBoot引入了spring.application.version属性，方便开发者设置和访问应用程序版本。示例在application.properties中：spring.application.version=1.2.
NLU-预训练模型-2018：Bert（二）【“Masked LM”缺点：①预训练与微调不一致；②忽略了掩码位置间的依赖关系】【复杂度：O(n^2·d)；n：输入序列长度（规定最长512）】 u013250861 #NLP/词向量_预训练模型 bert 人工智能深度学习
五、BERT中的词嵌入1、为什么要使用BERT的嵌入使用BERT从文本数据中提取特征，即单词和句子的嵌入向量。我们可以用这些词和句子的嵌入向量做什么？首先，这些嵌入对于关键字/搜索扩展、语义搜索和信息检索非常有用。例如，如果你希望将客户的问题或搜索与已经回答的问题或文档化的搜索相匹配，这些表示将帮助准确的检索匹配客户意图和上下文含义的结果，即使没有关键字或短语重叠。其次，或许更重要的是，这些向量被
MATLAB中使用fread读取二进制数据时的大端序与小端序处理知行合一←_← matlab知识 matlab 开发语言
matlab里读取二进制数据时，默认按照小端序读取，怎么按照大端序读取文章目录前言一、大端序和小端序是什么？二、实际例子1.数据文件2.fread的参数总结前言只是记录matlab使用的小知识一、大端序和小端序是什么？大端序和小端序是在多个字节存储时，指定多字节数据在内存中的存储顺序，存储顺序不同，表示的值也就不同。大端序是指高位在地址较小的位置。小端序是指高位在地址较大的位置。比如地址从左到右依
单链表的操作知行合一←_← 数据结构数据结构
单链表单链表是什么单链表是一种线性的链式存储结构，由多个节点组成（头结点，中间节点和尾结点），单链表的存储结构图如下：来源于网页单链表的节点是分散的，与数组不同，数组的存储结构是连续的，单链表的每个节点存储了本节点的数据和下一个节点的地址，只能单向的查找。单链表的操作单链表的操作主要包括，创建，增删改查，翻转，排序。单链表的创建单链表的创建就是创建一个头结点这里有两种创建方式，一种是仅仅创建一个头
python web开发flask库安装与使用范哥来了 python 前端 flask
要在Python中使用Flask进行Web开发，首先需要安装Flask库。Flask是一个轻量级的Web框架，它使开发者能够快速构建网站或web服务。下面是安装Flask和创建一个简单的Flask应用程序的基本步骤。安装Flask确保您的环境中已经安装了Python（推荐版本3.7或更高）。接着，您可以通过pip来安装Flask。打开命令行工具（如终端或命令提示符），然后执行以下命令：pipins
Pytorch使用手册—扩展 TorchScript 使用自定义 C++ 操作符（专题五十三） AI专题精讲 Pytorch入门到精通 pytorch c++人工智能
提示本教程自PyTorch2.4起已弃用。有关PyTorch自定义操作符的最新指南，请参阅PyTorch自定义操作符。PyTorch1.0版本引入了一种名为TorchScript的新编程模型。TorchScript是Python编程语言的一个子集，可以被TorchScript编译器解析、编译和优化。此外，编译后的TorchScript模型可以选择序列化为磁盘文件格式，随后你可以从纯C++（以及Py
大模型微调归一码字人工智能
文章目录前言一、使用的库二、数据预处理1.引入库2.读入数据3.对数据进行预处理4.转换为json格式文件三，使用算子分析数据并进行数据处理四，划分训练集和测试集五，编写训练脚本开始训练六，进行模型推理人工评估总结前言这是使用知乎评论进行模型微调，让模型输出更加通畅接近人的使用语言一、使用的库modelscope：提供模型、数据集下载能力data-juicer：提供数据集处理能力ms-swift：
Web Component 教程（六）：基于 Stencil 脚手架开发 Web Component 乐闻x Web Component 学习记录前端 web component stencli
前言在现代前端开发中，WebComponent是一种逐渐受到关注的技术，它允许我们创建可以在任何框架或库（如React,Angular,Vue等）中使用的可重用组件。而Stencil是一个强大的开发工具，它帮助我们轻松构建这些WebComponent，使开发过程更高效、更简洁。那么，究竟如何使用Stencil来开发WebComponent呢？今天，我们就来探索这一主题，从安装和设置，到创建和使用组
JVM OOM问题如何排查和解决昔我往昔 jvm jvm
在Java开发中，JVMOOM（OutOfMemoryError）问题通常是指程序运行时，JVM无法为对象分配足够的内存空间，导致发生内存溢出的错误。这个问题往往和内存的配置、内存泄漏、或者资源过度使用等因素有关。1.OOM错误类型JVM中的OOM错误主要包括以下几种类型：java.lang.OutOfMemoryError:Javaheapspace：堆内存不足。堆内存用于存储对象，发生此错误时
使用 MistralAI 平台进行开源模型托管与调用 VYSAHF python
MistralAI是一个提供开放源码模型托管的平台，致力于帮助开发者更轻松地使用和管理开源模型。通过该平台，你可以方便地调用强大的深度学习模型，并将其集成到你的应用中。本文将带你了解如何利用MistralAI提供的服务来进行模型的托管和调用。技术背景介绍MistralAI的服务包括了如聊天模型和嵌入模型等，这些模型适用于聊天机器人、文本嵌入等各种场景。使用这些模型需要注册并获取一个有效的API密钥
后“智驾平权”时代，谁为安全冗余和体验升级“买单” 高工智能汽车安全人工智能
线控底盘，正在成为新势力争夺下一个技术普及红利的新赛点。尤其是进入2025年，比亚迪、长安等一线传统自主品牌率先开启高阶智驾的普及战，加上此前已经普及的智能座舱，舱驾智能的「科技平权」进一步加速行业启动「线控底盘」上车窗口期。去年4月，华为数字能源率先对外发布了DriveONE纯电智动方案，并与车企在EMB线控制动领域率先展开深度合作。这套方案通过驱动和制动系统的融合控制，来大幅缩短刹车距离和高速
【尚硅谷】鸿蒙应用开发 - 带源码课件 6v6-博客 harmonyos 华为
【尚硅谷】鸿蒙应用开发-带源码课件课程描述本教程精心设计了一款精致而小巧的实战应用，贯穿整个学习过程，真正做到理论与实践相结合。课程内容从基础到高级，层层递进，全面覆盖鸿蒙应用开发的所有必备技能。通过图解抽象知识、丰富的案例和清晰的讲解，帮助学习者快速掌握鸿蒙应用开发的核心技术。课程亮点实战驱动：以实际应用案例为主线，贯穿整个学习过程，让学习更贴近实际开发需求。内容全面：从基础概念到高级技能，系统
Angular Material表格的动态列宽设置 t0_54program 编程问题解决手册 angular.js 前端 javascript 个人开发
在前端开发中，AngularMaterial表格（mat-table）是非常流行的组件之一。它提供了丰富的功能，如排序、分页和过滤等。然而，有时我们需要动态调整表格列的宽度，以适应不同的数据和用户需求。本文将介绍如何在TypeScript中获取mat-table的列宽，并据此设置相应的过滤器宽度。问题描述在使用AngularMaterial表格时，如何获取每个列的宽度？例如，我们希望为每一列设置一
AI 大模型应用数据中心的数据清洗工具 SuperAGI2025 计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
1.背景介绍在人工智能大模型应用的浪潮中，数据清洗作为数据预处理的重要环节，对于提升模型性能和可靠性具有至关重要的作用。数据中心作为人工智能模型的运行环境，面临着海量数据流和多样化的数据类型，如何高效、准确地进行数据清洗，成为应用大模型的关键问题之一。本文将详细介绍AI大模型应用数据中心的数据清洗工具，包括核心概念、算法原理、具体操作步骤、应用场景等，旨在为AI大模型的实际应用提供参考。2.核心概
AI 大模型应用数据中心的数据迁移架构 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
AI大模型、数据中心、数据迁移、架构设计、迁移策略、性能优化、安全保障1.背景介绍随着人工智能（AI）技术的飞速发展，大规模AI模型的应用日益广泛，涵盖了自然语言处理、计算机视觉、语音识别等多个领域。这些AI模型通常需要海量的数据进行训练和推理，因此数据中心作为AI应用的基础设施，显得尤为重要。然而，随着AI模型规模的不断扩大，数据中心面临着新的挑战：数据规模庞大:AI模型的训练和推理需要海量数据
Oracle数据库从入门到精通系列之六：临时文件快乐骑行^_^ 数据库日常分享专栏 Oracle数据库临时文件
Oracle数据库从入门到精通系列之六：临时文件Oracle中的临时数据文件是一种特殊类型的数据文件。当内存不足时，Oracle会使用它来存储一些临时数据，比如说一些比较大的排序或散列操作的中间结果、临时表中的数据以及结果集数据等。自12c起，对临时表的操作所产生的undo也会放到临时表空间中永久性的表和索引永远不会存储在临时表空间中，但是临时表中的数据及其索引会存放在这里。也就是应用程序储存数据
高级管理人员信息系统和数据仓库以及外部数据/非结构化数据与数据仓库牧码文数据仓库 hive 数据仓库数据挖掘数据库
内容目录高级管理人员信息系统和数据仓库以及外部数据/非结构化数据与数据仓库一、高级管理人员信息系统和数据仓库二、外部数据/非结构化数据与数据仓库高级管理人员信息系统和数据仓库以及外部数据/非结构化数据与数据仓库一、高级管理人员信息系统和数据仓库EIS-高级管理人员信息系统-计算机饿最有效形式之一。EIS处理，处于帮助高级管理人员制定决策的目的而设计的。比较典型的用途：趋势分析和发现关键比例指示器度
数据仓库和非结构化数据。 weixin_30631587 数据库
数据仓库包含标准化数据。还包含外部数据/非结构化数据如果外部数据量小可以保持数据库内部或者专用服务器。如果量大只能记住地址，在etl加载当然也有需求是实时数据比如股票汇率拿只能etl过程处理非结构化数据包含图片，视频音频如果是传统数据库db2oracle存在里面是不合适的。存储影响性能如果是hadoop无所谓影响不大，但是从使用者的角度非结构化数据只能转换关系使用建一张元数据表存储非结构化存储位置
需求分析与问题定义原理与代码实战案例讲解 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
需求分析与问题定义原理与代码实战案例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在软件工程领域，需求分析与问题定义是至关重要的环节。它们决定了软件项目的成功与否，直接影响着软件的质量、成本和交付时间。随着软件项目的复杂性和规模日益增加，对需求分析与问题定义的要求也越来越高。本文将深入探讨需求分析与问题定义的原理，并
使用LangChain与Amazon Bedrock构建JCVD风格的Chatbot scaFHIO langchain python
技术背景介绍在人工智能时代，构建一个智能化的聊天机器人不仅是一个趋势，更是提升与用户互动体验的关键之一。本文将向你展示如何使用LangChain和AmazonBedrock构建一个仿效让·克劳德·范·达美（JCVD）风格的聊天机器人。我们将借助于Anthropic提供的Claude模型，通过AmazonBedrock强大的基础设施来实现这一目标。核心原理解析LangChain作为一个强大的框架，简
部分标签数据集生成与过滤特定标签方法阳光明媚大男孩机器学习人工智能
完整代码总结这段代码的目的是通过构建一个部分标签学习（PartialLabelLearning,PLL）框架来生成一个包含部分标签的数据集，并且支持根据给定的标签列表对数据集进行筛选和过滤。代码包含了多个类和函数，主要分为以下几部分：数据预处理与加载：使用PyTorch和torchvision来加载CIFAR-10数据集，并对其进行标准化处理。部分标签数据集的生成：为每个样本生成多个候选标签，并模
实测 Gemini 2.0 Flash 图像生成：多模态 AI 的创作力边界 python
近日，Google发布了Gemini2.0Flash的实验性图像生成功能（Gemini2.0Flash(ImageGeneration)Experimental）。我也第一时间体验了这一功能，再次感受到AI技术对传统图像处理工具的颠覆性冲击。本文从主要功能、安装方法、应用场景，并通过实际测试展示其能力，希望帮助大家更好地了解和使用这一工具。引言Gemini2.0Flash的实验性图像生成功能于20
Python文件操作红虾程序员 Python python
在Python中文件操作是一项基础且重要的功能，它主要包括打开、读写、关闭等操作。1.打开文件使用open()函数来打开文件，其基本语法如下： f=open(file_path,mode,encoding=None)f：是open函数的文件对象，拥有属性和方法。file_path：文件的路径，可以是相对路径或绝对路径。mode：打开文件的模式，常见的模式有：r：以只读模式打开文件，文件指针会放在文
互联网打工人的发际线保卫战：与代码共舞，和头发共存
凌晨两点的写字楼，键盘声与咖啡机嗡鸣交织成互联网人的夜曲。某大厂程序员小李摸了摸日渐稀疏的头顶，看着钉钉弹出的第17条客户反馈，突然意识到：在这场与需求、bug、OKR的持久战中，头发和健康正在悄然“掉线”。卫健委数据显示，互联网从业者脱发率高达36%，颈椎病患病率是其他行业的2.7倍。当996成为常态，如何守住最后一方头皮领土，成为互联网人的生存必修课。一、发量消失的元凶图谱三重暴击下的毛囊末日
实现免密登录功能鸿蒙示例代码
本文原创发布在华为开发者社区。介绍本示例基于关键资产存储服务API实现了免密登录功能。实现免密登录功能源码链接效果预览使用说明注意，设备需设置锁屏密码后才可使用免密登录功能。输入账号和密码，勾选“记住密码”，底部会出现提示弹窗，点击“登录”按钮后，点击“重新加载该页面”，会出现输入锁屏密码的弹窗，输入成功，应用自动填充账号和密码。实现思路保存账户信息通过asset.add接口保存用户信息，此处设置
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi