2301_81170993

Spark课程总结

一、

1、spark是什么

2、spark四大特性

速度快

易用性

通用性

兼容性

3、简述spark与mapreduce的区别？

基于内存与磁盘

进程与线程

二、

1、rdd的概念

2、rdd的五大属性

3、rdd的创建方式

4、rdd的算子操作分类

1、transformation（转换）

2、action (动作)

5、RDD常见的算子操作说明重点需要掌握

三、

1、RDD的算子操作案例

2、RDD的依赖关系

窄依赖

宽依赖

Lineage（即血统）

3、RDD的缓存机制

1、什么是rdd的缓存机制、好处是什么？

2、如何对rdd设置缓存？ cache和persist方法的区别是什么？

3、什么时候设置缓存？

4、如何清除缓存？

四、

1、sparksql简介

2、sparksql特性

3、DataFrame简介

4、DataFrame和RDD对比

RDD

DataFrame

5、DataFrame常用的操作

6、通过IDEA开发程序实现把RDD转换DataFrame

五、

1、sparksql操作hivesql

2、sparksql操作jdbc数据源

3、sparksql中自定义函数

4、sparksql整合hive

一、

1、spark是什么

spark是针对于大规模数据处理的统一分析引擎，它是基于内存计算框架，计算速度非常之快，但是它仅仅只是涉及到计算，并没有涉及到数据的存储，后期需要使用spark对接外部的数据源，比如hdfs。

2、spark四大特性

速度快

job的输出结果可以保存在内存
spark任务以线程的方式运行在进程中

易用性

可以快速去编写spark程序通过 java/scala/python/R/SQL等不同语言

通用性

一个==生态系统==，包含了很多模块，
sparksql：通过sql去开发spark程序做一些离线分析
sparkStreaming：主要是用来解决公司有实时计算的这种场景
Mlib：它封装了一些机器学习的算法库
Graphx：图计算

兼容性

spark程序就是一个计算逻辑程序，这个任务要运行就需要计算资源（内存、cpu、磁盘），
哪里可以给当前这个任务提供计算资源，就可以把spark程序提交到哪里去运行
standAlone(后期使用较多)
它是spark自带的独立运行模式，整个任务的资源分配由spark集群的老大Master负责
yarn(后期使用较多)
可以把spark程序提交到yarn中运行，整个任务的资源分配由yarn中的老大ResourceManager负责
mesos
它也是apache开源的一个类似于yarn的资源调度平台

3、简述spark与mapreduce的区别？

spark处理速度为什么比mapreduce要快

基于内存与磁盘

（1）mapreduce任务后期再计算的时候，每一个job的输出结果会落地到磁盘，后续有其他的job需要依赖于前面job的输出结果，这个时候就需要进行大量的磁盘io操作。性能就比较低。
（2）spark任务后期再计算的时候，job的输出结果可以保存在内存中，后续有其他的job需要依赖于前面job的输出结果，这个时候就直接从内存中获取得到，避免了磁盘io操作，性能比较高
对于spark程序和mapreduce程序都会产生shuffle阶段，在shuffle阶段中它们产生的数据都会落地到磁盘。

进程与线程

（1）mapreduce任务以进程的方式运行在yarn集群中，比如程序中有100个MapTask，一个task就需要一个进程，这些task要运行就需要开启100个进程。
（2）spark任务以线程的方式运行在进程中，比如程序中有100个MapTask，后期一个task就对应一个线程，这里就不在是进程，这些task需要运行，
这里可以极端一点：只需要开启1个进程，在这个进程中启动100个线程就可以了。进程中可以启动很多个线程，而开启一个进程与开启一个线程需要的时间和调度代价是不一样。开启一个进程需要的时间远远大于开启一个线程。

二、

1、rdd的概念

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合.
Dataset: 就是一个集合，存储很多数据.
Distributed：它内部的元素进行了分布式存储，方便于后期进行分布式计算.
Resilient：表示弹性，rdd的数据是可以保存在内存或者是磁盘中.

2、rdd的五大属性

（1）A list of partitions

一个分区列表，数据集的基本组成单位。
（2）A function for computing each split

一个计算每个分区的函数
（3）A list of dependencies on other RDDs

一个rdd会依赖于其他多个rdd
通过lineage血统记录下rdd与rdd之间的依赖关系
好处
就在于后期某个rdd的部分分区数据丢失的时候，可以通过血统进行重新计算恢复得到
这也是spark任务自身的一个容错机制
（4）Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)

（可选项）一个Partitioner，即RDD的分区函数
（5）Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file)

一个列表，存储每个Partition的优先位置(可选项)

3、rdd的创建方式

1、通过已经存在的scala集合去构建

val rdd1=sc.parallelize(List(1,2,3,4,5))
val rdd2=sc.parallelize(Array("hadoop","hive","spark"))
val rdd3=sc.makeRDD(List(1,2,3,4))

2、加载外部的数据源去构建

val rdd1=sc.textFile("/words.txt")

3、从已经存在的rdd进行转换生成一个新的rdd

val rdd2=rdd1.flatMap(_.split(" "))
val rdd3=rdd2.map((_,1))

4、rdd的算子操作分类

1、transformation（转换）

根据已经存在的rdd转换生成一个新的rdd, 它是延迟加载，它不会立即执行
map / flatMap / reduceByKey 等

2、action (动作)

它会真正触发任务的运行，将rdd的计算的结果数据返回给Driver端，或者是保存结果数据到外部存储介质中
collect / saveAsTextFile 等

5、RDD常见的算子操作说明
重点需要掌握

map / mapPartitions foreach / foreachPartition算子区别操作？

1) map / mapPartitions (transformation算子)

map：用于遍历RDD，将函数f应用于每一个元素，返回新的RDD
mapPartitions：用于遍历操作RDD中的每一个分区，返回生成一个新的RDD。
如果在映射的过程中，需要频繁创建额外的对象，使用mapPartitions要比map高效。
比如，将RDD中的所有数据通过JDBC连接写入数据库，如果使用map函数，可能要为每一个元素都创建一个connection，这样开销很大，如果使用mapPartitions，那么只需要针对每一个分区建立一个connection。

2) foreach / foreachPartition (action算子)

foreach: 用于遍历RDD, 将函数f应用于每一个元素，无返回值。

foreachPartition: 用于遍历操作RDD中的每一个分区，无返回值。：

一般使用mapPartitions或者foreachPartition算子比map和foreach更加高效，推荐使用。

3) coalesce/ repartition 算子

coalesce: 合并分区/减少分区默认不shuffle
默认 coalesce 不能扩大分区数量。除非添加true的参数，或者使用repartition。
repartition: 重新分区，有shuffle
repartition(numPartitions)其本质是调用了coalesce(numPartitions,true)方法, 第二个参数默认是true,表示会产生shuffle。
适用场景：
1、如果要shuffle，都用 repartition
2、不需要shuffle，仅仅是做分区的合并，coalesce
3、repartition常用于扩大分区。

三、

1、RDD的算子操作案例

重点掌握rdd常见的一些算子操作
- flatMap
- map
- reduceByKey
- sortBy
- distinct
- count
- mapPartitions
- foreach

foreachPartition

//todo:利用spark实现点击流日志分析--TopN(求页面访问次数最多的前N位)
object TopN {
  def main(args: Array[String]): Unit = {
    //1、构建SparkConf
    val sparkConf: SparkConf = new SparkConf().setAppName("TopN").setMaster("local[2]")

    //2、构建SparkContext
    val sc = new SparkContext(sparkConf)
    sc.setLogLevel("warn")

    //3、读取数据文件
    val data: RDD[String] = sc.textFile("E:\\data\\access.log")

    //4、切分每一行，过滤出丢失的字段数据，获取页面地址
    val filterRDD: RDD[String] = data.filter(x=>x.split(" ").length>10)
    val urlAndOne: RDD[(String, Int)] = filterRDD.map(x=>x.split(" ")(10)).map((_,1))

    //5、相同url出现的1累加
    val result: RDD[(String, Int)] = urlAndOne.reduceByKey(_+_)

    //6、按照次数降序
    val sortedRDD: RDD[(String, Int)] = result.sortBy(_._2,false)


    //7、取出url出现次数最多的前5位
    val top5: Array[(String, Int)] = sortedRDD.take(5)
    top5.foreach(println)

    sc.stop()

  }

}

object Data2MysqlForeachPartitions {
  def main(args: Array[String]): Unit = {
    //1、构建SparkConf
    val sparkConf: SparkConf = new SparkConf().setAppName("Data2MysqlForeachPartitions").setMaster("local[2]")

    //2、构建SparkContext
    val sc = new SparkContext(sparkConf)
    sc.setLogLevel("warn")

    //3、读取数据文件
    val data: RDD[String] = sc.textFile("E:\\data\\person.txt")

    //4、切分每一行    // id  name  age
    val personRDD: RDD[(String, String, Int)] = data.map(x => x.split(",")).map(x => (x(0), x(1), x(2).toInt))

    //5、把数据保存到mysql表中
    //使用foreachPartition每个分区建立一次链接，减少与mysql链接次数
    personRDD.foreachPartition( iter =>{
      //把数据插入到mysql表操作
      //1、获取连接
      val connection: Connection = DriverManager.getConnection("jdbc:mysql://node03:3306/spark","root","123456")

      //2、定义插入数据的sql语句
      val sql="insert into person(id,name,age) values(?,?,?)"

      //3、获取PreParedStatement

      try {
        val ps: PreparedStatement = connection.prepareStatement(sql)

        //4、获取数据,给？号 赋值
        iter.foreach(line =>{

          ps.setString(1, line._1)
          ps.setString(2, line._2)
          ps.setInt(3, line._3)
         //设置批量提交
          ps.addBatch()
        })
		//执行批量提交
        ps.executeBatch()
      } catch {
        case e:Exception => e.printStackTrace()
      } finally {
        if(connection !=null){
          connection.close()
        }

      }
    }

  }
}

2、RDD的依赖关系

RDD和它依赖的父RDD的关系有两种不同的类型: 窄依赖（narrow dependency）和宽依赖（wide dependency）

窄依赖

窄依赖指的是每一个父RDD的Partition, 最多被子RDD的一个Partition使用,
所有的窄依赖不会产生shuffle: map/flatMap/filter/union等
总结：窄依赖我们形象的比喻为独生子女

宽依赖

宽依赖指的是多个子RDD的Partition, 会依赖同一个父RDD的Partition,
所有的宽依赖会产生shuffle: reduceByKey/sortByKey/groupBy/groupByKey/join等等
总结：宽依赖我们形象的比喻为超生

join分为宽依赖和窄依赖，如果RDD有相同的partitioner，那么将不会引起shuffle，这种join是窄依赖，反之就是宽依赖

Lineage（即血统）

RDD只支持粗粒度转换, 即只记录单个块上执行的单个操作。
将创建RDD的一系列Lineage（即血统）记录下来，以便恢复丢失的分区
RDD的Lineage会记录RDD的元数据信息和转换行为，lineage保存了RDD的依赖关系，当该RDD的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数据分区。

3、RDD的缓存机制

1、什么是rdd的缓存机制、好处是什么？

可以把一个rdd的数据缓存起来，后续有其他的job需要用到该rdd的结果数据，可以直接从缓存中获取得到，避免了重复计算。缓存是加快后续对该数据的访问操作。

2、如何对rdd设置缓存？ cache和persist方法的区别是什么？

RDD通过persist方法或cache方法可以将前面的计算结果缓存。
但是并不是这两个方法被调用时立即缓存，而是触发后面的action时，该RDD将会被缓存在计算节点的内存中，并供后面重用。

3、什么时候设置缓存？

1、某个rdd的数据后期被使用了多次
公共rdd进行持久化，避免后续需要，再次重新计算，提升效率。
2、rdd的数据来之不易时
为了获取得到一个rdd的结果数据，经过了大量的算子操作或者是计算逻辑比较复杂

4、如何清除缓存？

1、自动清除：一个application应用程序结束之后，对应的缓存数据也就自动清除

2、手动清除：调用rdd的unpersist方法

四、

1、sparksql简介

Spark SQL is Apache Spark’s module for working with structured data.

SparkSQL是apache Spark用来处理结构化数据的一个模块

大数据技术宏观上进行分类：

（1）数据存储
	HDFS  HBASE
	
（2）数据计算
	   a. 离线计算
	   		MR 、Hive 、RDD(spark-core)、sparksql
	   b. 实时计算
	        sparkStreaming 、Flink

2、sparksql特性

1、易整合

将SQL查询与Spark程序无缝混合
可以使用不同的语言进行代码开发（java、scala、python、R）

2、统一的数据源访问

以相同的方式连接到任何数据源

3、兼容hive

sparksql兼容hivesql

4、标准的数据库连接

支持标准的数据库连接JDBC或者ODBC

3、DataFrame简介

在Spark中，DataFrame是一种以RDD为基础的分布式数据集，类似于传统数据库的二维表格
DataFrame带有Schema元信息，即DataFrame所表示的二维表数据集的每一列都带有名称和类型，但底层做了更多的优化

4、DataFrame和RDD对比

RDD可以把它内部元素看成是一个java对象
DataFrame可以把内部是一个Row对象，它表示一行一行的数据

RDD

优点

1、编译时类型安全

开发会进行类型检查，在编译的时候及时发现错误

2、具有面向对象编程的风格

缺点

1、构建大量的java对象，占用了大量heap堆空间，导致频繁的GC
2、数据的序列化和反序列性能开销很大

DataFrame

DataFrame引入了schema元信息和off-heap(堆外内存)

优点

DataFrame引入了schema元信息，解决了rdd数据的序列化和反序列性能开销很大这个缺点。
DataFrame引入了off-heap，解决了rdd构建大量的java对象占用了大量heap堆空间，导致频繁的GC这个缺点。

缺点

1、编译时类型不安全
2、不在具有面向对象编程的风格

5、DataFrame常用的操作

1、DSL风格语法： spark自身提供了一套Api

/加载数据
val rdd1=sc.textFile("/person.txt").map(x=>x.split(" "))
//定义一个样例类
case class Person(id:String,name:String,age:Int)
//把rdd与样例类进行关联
val personRDD=rdd1.map(x=>Person(x(0),x(1),x(2).toInt))
//把rdd转换成DataFrame
val personDF=personRDD.toDF

//打印schema信息
personDF.printSchema

//展示数据
personDF.show

//查询指定的字段
personDF.select("name").show
personDF.select($"name").show
personDF.select(col("name").show
                
//实现age+1
 personDF.select($"name",$"age",$"age"+1)).show   

//实现age大于30过滤
 personDF.filter($"age" > 30).show
  
 //按照age分组统计次数
 personDF.groupBy("age").count.show 
   
//按照age分组统计次数降序
 personDF.groupBy("age").count().sort($"count".desc)show

2、SQL风格语法

把dataFrame注册成一张表，通过sparkSession.sql(sql语句)操作该表数据

//DataFrame注册成表
personDF.createTempView("person")

//使用SparkSession调用sql方法统计查询
spark.sql("select * from person").show
spark.sql("select name from person").show
spark.sql("select name,age from person").show
spark.sql("select * from person where age >30").show
spark.sql("select count(*) from person where age >30").show
spark.sql("select age,count(*) from person group by age").show
spark.sql("select age,count(*) as count from person group by age").show
spark.sql("select * from person order by age desc").show

6、通过IDEA开发程序实现把RDD转换DataFrame

1、利用反射机制
事先可以确定DataFrame的schema信息
定义一个样例类，样例类中的属性，通过反射之后生成DataFrame的schema信息
2、通过StructType动态指定schema信息
事先不确定DataFrame的schema信息，在开发代码的过程中动态指定
其本质调用底层方法

 //1、构建SparkSession对象
    val spark: SparkSession = SparkSession.builder().appName("StructTypeSchema").master("local[2]").getOrCreate()

    //2、获取sparkContext对象
    val sc: SparkContext = spark.sparkContext
    sc.setLogLevel("warn")

    //3、读取文件数据
    val data: RDD[Array[String]] = sc.textFile("E:\\person.txt").map(x=>x.split(" "))

    //4、将rdd与Row对象进行关联
    val rowRDD: RDD[Row] = data.map(x=>Row(x(0),x(1),x(2).toInt))

    //5、指定dataFrame的schema信息   
    //这里指定的字段个数和类型必须要跟Row对象保持一致
    val schema=StructType(
        StructField("id",StringType)::
        StructField("name",StringType)::
        StructField("age",IntegerType)::Nil
    )

    val dataFrame: DataFrame = spark.createDataFrame(rowRDD,schema)
    dataFrame.printSchema()
    dataFrame.show()

    dataFrame.createTempView("user")
    spark.sql("select * from user").show()


    spark.stop()

  }

五、

1、sparksql操作hivesql

主要是理解sparksql的四大特性中的

第三点 sparksql兼容hivesql

.enableHiveSupport() //-----开启对hive的支持

def main(args: Array[String]): Unit = {
    //1、构建SparkSession对象
    val spark: SparkSession = SparkSession.builder()
      .appName("HiveSupport")
      .master("local[2]")
      .enableHiveSupport() //-----开启对hive的支持
      .getOrCreate()
      
    //2、直接使用sparkSession去操作hivesql语句

      //2.1 创建一张hive表
       spark.sql("create table people(id string,name string,age int) row format delimited fields terminated by ','")

      //2.2 加载数据到hive表中
       spark.sql("load data local inpath './data/kaikeba.txt' into table people ")

      //2.3 查询
      spark.sql("select * from people").show()

    spark.stop()
  }
}

2、sparksql操作jdbc数据源

1、sparksql通过 JDBC加载mysql表的数据

2、sparksql处理完成的数据，保存到mysql表中

//todo:通过sparksql把结果数据写入到mysql表中
object Data2Mysql {
  def main(args: Array[String]): Unit = {
    //1、创建SparkSession
    val spark: SparkSession = SparkSession
                                .builder()
                                .appName("Data2Mysql")
                                .master("local[2]")
                                .getOrCreate()
    //2、读取mysql表中数据
        //2.1 定义url连接
        val url="jdbc:mysql://node03:3306/spark"
        //2.2 定义表名
        val table="user"
        //2.3 定义属性
        val properties=new Properties()
        properties.setProperty("user","root")
        properties.setProperty("password","123456")

    val mysqlDF: DataFrame = spark.read.jdbc(url,table,properties)

    //把dataFrame注册成一张表
      mysqlDF.createTempView("user")

    //通过sparkSession调用sql方法
      //需要统计经度和维度出现的人口总数大于1000的记录 保存到mysql表中
      val result: DataFrame = spark.sql("select * from user where age > 30")

    //保存结果数据到mysql表中
         result.write.mode("append").jdbc(url,"kaikeba",properties)
//result.write.mode(args(0)).jdbc(url,args(1),properties       
    //mode:指定数据的插入模式
        //overwrite: 表示覆盖，如果表不存在，事先帮我们创建
        //append   :表示追加， 如果表不存在，事先帮我们创建
        //ignore   :表示忽略，如果表事先存在，就不进行任何操作
        //error    :如果表事先存在就报错（默认选项）

    //关闭
     spark.stop()
  }
}

打包—提交到集群

spark-submit \
--master spark://node01:7077 \
--class com.kaikeba.sql.Data2Mysql \
--executor-memory 1g \
--total-executor-cores 4 \
--driver-class-path /home/hadoop/mysql-connector-java-5.1.38.jar \
--jars /home/hadoop/mysql-connector-java-5.1.38.jar \
spark_class02-1.0-SNAPSHOT.jar \
append  kaikeba

3、sparksql中自定义函数

自定义udf函数

核心代码

def main(args: Array[String]): Unit = {
    //1、创建SparkSession
    val sparkSession: SparkSession = SparkSession.builder().appName("SparkSQLFunction").master("local[2]").getOrCreate()

    //2、构建数据源生成DataFrame
    val dataFrame: DataFrame = sparkSession.read.text("E:\\data\\test_udf_data.txt")

    //3、注册成表
    dataFrame.createTempView("t_udf")


    //4、实现自定义的UDF函数

        //小写转大写
        sparkSession.udf.register("low2Up",new UDF1[String,String]() {
          override def call(t1: String): String = {
            t1.toUpperCase
          }
        },StringType)

        //大写转小写
        sparkSession.udf.register("up2low",(x:String)=>x.toLowerCase)


    //4、把数据文件中的单词统一转换成大小写
    sparkSession.sql("select  value from t_udf").show()
    sparkSession.sql("select  low2Up(value) from t_udf").show()
    sparkSession.sql("select  up2low(value) from t_udf").show()

    sparkSession.stop()

  }

4、sparksql整合hive

步骤

1、需要把hive安装目录下的配置文件hive-site.xml, 拷贝到每一个spark安装目录下对应的conf文件夹中
2、需要一个连接mysql驱动的jar包，拷贝到spark安装目录下对应的jars文件夹中
3、可以使用spark-sql脚本后期执行sql相关的任务
使用方式

spark-sql \
--master spark://node01:7077 \
--executor-memory 1g \
--total-executor-cores 4 \
--conf spark.sql.warehouse.dir=hdfs://node01:8020/user/hive/warehouse

应用场景

#!/bin/sh
#定义sparksql提交脚本的头信息
SUBMITINFO="spark-sql --master spark://node01:7077 --executor-memory 1g --total-executor-cores 4 --conf spark.sql.warehouse.dir=hdfs://node01:8020/user/hive/warehouse" 
#定义一个sql语句
SQL="select * from default.hive_source;" 
#执行sql语句   类似于 hive -e sql语句
echo "$SUBMITINFO" 
echo "$SQL"
$SUBMITINFO -e "$SQL"

利用大数据领域Doris提升企业数据决策效率大数据洞察大数据网络 ai
利用大数据领域Doris提升企业数据决策效率关键词：大数据、Doris、企业数据决策、数据处理、效率提升摘要：本文围绕利用大数据领域的Doris来提升企业数据决策效率展开。首先介绍了背景，包括目的、预期读者、文档结构和相关术语。接着阐述了Doris的核心概念、架构以及与其他系统的联系。详细讲解了Doris的核心算法原理和具体操作步骤，并给出Python代码示例。同时介绍了相关的数学模型和公式。通过
什么是 Paxos和Raft MonkeyKing.sun paxos raft
Raft和Paxos是两种经典的分布式一致性算法（ConsensusAlgorithms），广泛应用于数据库、分布式系统、微服务架构中，用来确保在多个节点中即使有部分节点故障，系统仍然可以就“某一值”达成一致（即：分布式共识）。它们不是区块链专属，但在联盟链、私有链或数据库复制系统中常被用来替代PoW、PBFT等共识机制。一、什么是Paxos？定义：Paxos是一种保证在部分节点失效或网络延迟时，
默克树技术原理 MonkeyKing.sun guava 缓存
“默克树”（MerkleTree，有时也译作“梅克尔树”）是一种树形数据结构，在区块链、分布式系统等领域广泛使用，目的是为了高效且安全地验证数据的完整性和存在性。一、什么是默克树技术原理？MerkleTree的核心原理如下：将一组数据（如交易、文件、记录等）进行哈希处理，得到数据的哈希值作为叶子节点；将相邻两个哈希值再做一次哈希，生成其父节点；不断两两组合哈希直到构造出一个最终的根哈希值（Merk
Go 中 gRPC Metadata 使用详解 Code季风深入探索Go RPC：构建与实践 golang 开发语言后端学习 rpc
在分布式系统中，客户端和服务端之间的通信不仅仅是数据的交换，还涉及到身份验证、日志追踪等额外信息的传递。gRPC提供了一种名为Metadata的机制来满足这种需求。本文将通过一个具体的示例来讲解如何在Go语言中使用gRPC的Metadata。一、简介Metadata是一种键值对结构，它可以在不改变请求或响应消息体的情况下携带额外的信息。这些信息通常用于认证（如token）、追踪（如traceid）
《高并发系统性能优化三板斧：缓存 + 异步 + 限流》猕员桃 10篇关于分布式和高并发性能优化缓存
高并发系统性能优化三板斧：缓存+异步+限流引言在互联网应用的高并发场景下，系统性能面临巨大挑战。以某电商平台会员活动为例，活动期间瞬时QPS可达10万+，若未进行有效优化，服务器将迅速崩溃。本文从缓存、异步、限流三个核心维度，结合实际案例详细解析高并发系统的性能优化策略，并分享全链路压测与问题定位的实战经验。一、缓存策略分层：从本地到分布式的立体防护1.1本地缓存选型与实战（Caffeine）本地
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案 mmlihaio 数据库云原生 python
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案1.引言在当今的人工智能和大数据时代，高效的向量检索已成为许多应用场景的关键需求。Tair作为阿里云开发的云原生内存数据库服务，不仅提供了丰富的数据模型和企业级能力，还引入了基于非易失性内存(NVM)存储介质的持久内存优化实例。本文将深入探讨如何利用Tair向量数据库功能，实现高性能的向量存储和检索。2.Tair向量数据库概述Ta
解锁阿里云E-MapReduce：大数据处理的超能力秘籍云资源服务商阿里云云计算人工智能云原生
一、引言在数字化浪潮汹涌澎湃的当下，大数据已然成为推动各行业创新发展的核心驱动力。从电商平台精准的个性化推荐，到金融机构严密的风险评估，再到医疗领域高效的疾病预测，大数据的应用场景无处不在，深刻地改变着我们的生活与工作方式。在这片充满机遇与挑战的大数据领域中，阿里云E-MapReduce宛如一颗璀璨的明星，占据着举足轻重的地位。它凭借强大的大数据处理能力、卓越的性能表现以及丰富的功能特性，为企业和
【SequoiaDB】4 巨杉数据库SequoiaDB整体架构 Alen_Liu_SZ 巨杉数据库 SequoiaDB架构编目节点协调节点数据节点巨杉数据库
1整体架构SequoiaDB巨杉数据库作为分布式数据库，由数据库存储引擎与数据库实例两大模块组成。其中，数据库存储引擎模块是数据存储的核心，负责提供整个数据库的读写服务、数据的高可用与容灾、ACID与发你不是事务等全部核心数据服务能力。数据库实例模块则作为协议与语法的适配层，用户可根据需要创建包括MySQL、PostgreSQL与SparkSQL在内的结构化数据实例；支持JSON语法的MongoD
2024鸿蒙OS实战开发项目大全：从入门到精通（含101个实战案例）超详细的鸿蒙实战案例人工智能_SYBH harmonyos 华为鸿蒙开发实战项目开发入门精通
订阅专栏可获取100个实战项目源码和教程！！！（需要哪个给哪个，订阅后发邮箱，无法全给）探索鸿蒙OS开发的世界，一个非同小可的旅程即将开始。在这篇目录博客中，我将带您一览一系列令人难以置信的实战开发项目，每一个都是对HarmonyOS应用开发者的绝佳启发和宝贵资源。从基础的UI组件到复杂的分布式场景，从ArkTS的细致教学到JS的灵活运用，这一百个项目涵盖了你需要知道的HarmonyOS实战技术和
ArkTS与仓颉语言的深度解析（鸿蒙操作系统多设备）爱学习的小齐哥哥仓颉华为仓颉 HarmonyOS5
一、引言随着物联网和智能设备的飞速发展，多设备协同开发成为当前软件开发领域的重要课题。鸿蒙操作系统作为面向全场景的分布式操作系统，为开发者提供了ArkTS和仓颉语言两种强大的开发工具，助力实现高效的多设备应用开发。本文将全面剖析这两种语言在鸿蒙多设备开发中的应用，探讨其优势、开发环境、实现一次开发多端部署的方法以及在不同设备上的性能表现和适配策略，并结合智能驾驶应用场景进行实例分析。二、ArkTS
川翔云电脑全新上线：三维行业高效云端算力新选择渲染101专业云渲染电脑 houdini maya blender 3d 云计算
一、核心定位与优势云端虚拟工作站服务依托云端高性能CPU/GPU集群，提供远程桌面服务，支持普通设备运行专业软件。按需付费模式：无需采购高端硬件，大幅降低成本投入。生态协同优势：与渲染101同属母公司，可在云电脑中完成创作后一键提交至渲染101平台进行分布式渲染。二、硬件配置与性能参数CPU机型（侧重计算能力）GPU机型（图形渲染/AI训练）性能亮点支持最高8卡并联，显存叠加提升复杂场景处理能力。
PCDN如何提升网络流量的传输效率数据库
PCDN如何提升网络流量的传输效率在当今数字化时代，网络流量的快速增长对传统的CDN（内容分发网络）提出了更高要求。PCDN（P2PCDN）作为一种创新的内容分发技术，通过利用边缘节点的带宽资源，显著提升了宽带流量的传输效率，为用户带来更流畅的网络体验。分布式节点优化宽带流量传输传统CDN依赖中心化服务器分发内容，当用户请求激增时，容易导致服务器负载过高，影响宽带流量的传输速度。PCDN则采用分布
ArkTS 开发学习路径全攻略：从入门到实战码农乐园学习
随着HarmonyOS的持续演进，ArkTS（ArkTypeScript）已成为鸿蒙系统的主力开发语言。特别是HarmonyOSNEXT推行纯鸿蒙化后，ArkTS成为构建鸿蒙原生应用的唯一选择。本文将为你梳理一套系统化的学习路径，从语法基础到实战项目，再到系统能力调用与分布式开发，一步步带你成为合格的鸿蒙开发者。第一阶段：ArkTS语言和HarmonyOS基础入门学习目标：掌握ArkTS基础语法；
微服务分布式事务的几种解决方案及应用场景凌晨四点的打铁声分布式事务微服务分布式数据库 springcloud
文章目录分布式事务的几种方案1.2pcseata的AT一阶段二阶段-回滚二阶段-提交2.柔性事务——TCC事务补偿型3.柔性事务-最大努力通知型方案4.柔性事务-可靠消息+最终一致性方案（异步确保型）分布式事务的几种方案2pc模式TCC模式：柔性事务——TCC事务补偿型柔性事务-最大努力通知型方案柔性事务-可靠消息+最终一致性方案（异步确保型）1.2pc2pc就是2phasecommit二阶段提交
大数据面试必备：Kafka性能优化 Producer与Consumer配置指南
Kafka面试题-在Kafka中，如何通过配置优化Producer和Consumer的性能?回答重点在Kafka中，通过优化Producer和Consumer的配置，可以显著提高性能。以下是一些关键配置项和策略：1、Producer端优化:batch.size：批处理大小。增大batch.size可以使Producer每次发送更多的消息，但要注意不能无限制增大，否则会导致内存占用过多。linger
技术调研：时序数据库（一） myskybeyond 时序数据库时序数据库数据库
选择时序数据库时，选择当下主流的解决方案。目前主流的开源解决方案有InfluxDB、TDengine和TimescaleDB。下文从多个维度对比分析，最终根据需求做出选型决策。1.核心架构与设计理念数据库架构特点核心优势InfluxDB-专为时序数据设计的分布式数据库-基于时间线（TimeSeries）模型-开源版（OSS）与商业版（Cloud/Enterprise）功能差异大高写入吞吐量、原生支
图扑软件智慧云展厅，开启数字化展馆新模式智慧园区可视化 5g 人工智能大数据安全云计算
随着疫情的影响以及新兴技术的不断发展，展会的发展形式也逐渐从线下转向线上。通过“云”上启动、云端互动、双线共频的形式开展。通过应用大数据、人工智能、沉浸式交互等多重技术手段，构建数据共享、信息互通、精准匹配的高精度“云展厅”，突破时空壁垒限制。图扑软件运用HT强大的渲染功能，数字孪生“云展位”，1:1复现实际展厅内部独特的结构造型和建筑特色。也可以第一人称视角漫游，模拟用户在展厅内的参观场景，在保
深入剖析Redis高性能的原因，IO多路复用模型，Redis数据迁移，分布式锁实现
一、深入剖析Redis单线程处理命令仍具备高性能的原因Redis虽然是单线程处理命令的（主线程负责网络I/O和命令处理），但它依然具备百万级QPS的吞吐能力。这个看似矛盾的现象，其实是Redis高性能架构设计和底层实现精妙配合的结果。下面我们从架构、内核原理、操作系统机制、与其他系统对比等多维度深入剖析，为何Redis单线程却读写性能极高。1.Redis是“单线程处理命令”，但不是完全单线程模块是
C# 中 EventWaitHandle 实现多进程状态同步的深度解析 Leon@Lee c#开发语言
在现代软件开发中，多进程应用场景日益普遍。无论是分布式系统、微服务架构，还是传统的客户端-服务器模型，进程间的状态同步都是一个关键挑战。C#提供了多种同步原语，其中EventWaitHandle是一个强大的工具，特别适合处理跨进程的同步需求。本文将深入探讨EventWaitHandle的工作原理、使用场景及最佳实践。一、EventWaitHandle基础原理EventWaitHandle是.NET
Golang cron 定时任务完全指南：从入门到精通 Golang编程笔记 Golang编程笔记 Golang开发实战 golang wpf 开发语言 ai
Golangcron定时任务完全指南：从入门到精通关键词：Golang、cron、定时任务、任务调度、并发处理、分布式任务、最佳实践摘要：本文将全面介绍Golang中实现cron定时任务的各个方面，从基础概念到高级应用，涵盖标准库使用、第三方库对比、并发处理、分布式任务调度等核心内容。我们将通过详细的代码示例、架构图解和实际应用场景分析，帮助开发者掌握在Golang中构建可靠、高效的定时任务系统的
vue大数据量列表渲染性能优化：虚拟滚动原理 Java小卷 Vue3开源组件实战 vue3 自定义Tree 虚拟滚动
前面咱完成了自定义JuanTree组件各种功能的实现。在数据量很大的情况下，我们讲了两种实现方式来提高渲染性能：前端分页和节点数据懒加载。前端分页小节：Vue3扁平化Tree组件的前端分页实现节点数据懒加载小节：ElementTreePlus版功能演示：数据懒加载关于扁平化结构Tree和嵌套结构Tree组件的渲染嵌套结构的Tree组件是一种递归渲染，性能上比起列表结构的v-for渲染比较一般。对于
redis的scan使用详解，结合spring使用详解黑皮爱学习 redis自学笔记 redis spring 数据库
Redis的SCAN命令是一种非阻塞的迭代器，用于逐步遍历数据库中的键，特别适合处理大数据库。下面详细介绍其使用方法及在Spring框架中的集成方式。SCAN命令基础SCAN命令的基本语法：SCANcursor[MATCHpattern][COUNTcount]cursor：迭代游标，初始为0，每次迭代返回新的游标值。MATCHpattern：可选，用于过滤键的模式（如user:*）。COUNTc
MongoDB框架零基础入门码农研究僧 Python 100天精通全栈 mongodb nosql 数据库
目录前言1.安装配置2.关启配置3.基本概念4.基本操作4.1创建集合4.2删除集合4.3插入文档4.4更新文档4.5删除文档4.6查询文档前言先科普讲解一下NoSQL（notonlysql）本身NoSQL非关系型数据库就具备了ACID（原子性、一致性、持久性、隔离性）数据持久化一般还是要使用关系型数据库，内存的数据库使用检索MongoDB是C++编写，一个基于分布式文件存储的开源数据库系统。将其
PostgreSQL 容器化分布式技术方案 TechVision大咖圈 postgresql 分布式数据库分布式数据库
目录引言：为什么选择容器化PostgreSQLPostgreSQL容器化基础分布式架构设计高可用实现方案读写分离架构动态扩缩容策略生产环境实践总结与展望引言：为什么选择容器化PostgreSQL在数字化转型的浪潮中，数据库作为企业的"心脏"，其稳定性和扩展性直接影响着业务的成败。PostgreSQL作为世界上最先进的开源关系型数据库，配合容器化技术，就像是给数据库插上了翅膀——既保持了数据的可靠性
分布式I/O在风电行业的应用明达技术自动化物联网
在全球倡导清洁能源的大背景下，风力发电作为一种可持续的能源解决方案，正得到越来越广泛的应用。风力发电机通过将风能转化为机械能，再进一步转化为电能，为我们的生产生活提供绿色电力。然而，风电行业在发展过程中面临着诸多严峻挑战。风机所处的环境条件异常恶劣。海上风机长期处于盐雾、高湿的环境中，设备极易受到腐蚀；而位于戈壁地区的风机，则要承受风沙大、高低温差大的考验。这种恶劣环境对风机电气系统的设备耐久度和
【分布式技术】Bearer Token以及MAC Token深入理解问道飞鱼微服务相关技术分布式技术分布式 macos mac token bearer token
BearerToken以及MACToken深入理解**BearerToken详解****1.什么是BearerToken？****2.BearerToken的构建详情****（1）生成流程****（2）Token示例（JWT）****（3）Token类型****3.BearerToken的工作原理****（1）认证流程****（2）无状态性****4.BearerToken的使用场景****（1）
MongoDB 高性能应用场景与实践 AI自闭实验者 mongodb 数据库
```htmlMongoDB高性能应用场景与实践MongoDB高性能应用场景与实践随着大数据时代的到来，数据库作为数据存储和管理的核心工具，其性能和可扩展性显得尤为重要。在众多的数据库解决方案中，MongoDB凭借其灵活的数据模型、高性能和易于扩展的特点，在许多场景下成为开发者的首选。什么是MongoDB？MongoDB是一个开源的、面向文档的NoSQL数据库管理系统。它以JSON样式的文档存储数
缓存与加速技术实践-MongoDB数据库应用曼汐 . 数据库缓存 mongodb
一.什么是MongoDBMongoDB是一个文档型数据库，数据以类似JSON的文档形式存储。MongoDB的设计理念是为了应对大数据量、高性能和灵活性需求。MongoDB使用集合（Collections）来组织文档（Documents），每个文档都是由键值对组成的。数据库（Database）：存储数据的容器，类似于关系型数据库中的数据库。集合（Collection）：数据库中的一个集合，类似于关系
EventBus之Reactor实战太阳伞下的阿呆 reactor event bus 观察者模式
如果你想要使用一个轻量级的消息中间件，不需要分布式支持，那么可以选择RxJava或者Reactor，本文将讲述如何入门使用该框架，以及常用的一些功能生产者广播多消费者模式Sinks.Many:创建一个允许我们将数据推送到一个Flux的sink。我们使用Sinks.many().multicast().onBackpressureBuffer()来创建一个支持背压的多播Sink（广播模式）。Flux
App Store暗藏虚假抖音，内含间谍软件窃取照片和加密货币 FreeBuf- TikTok App Store iOS Android
卡巴斯基网络安全研究人员近日发现名为SparkKitty的新型间谍软件活动，该恶意程序已感染苹果AppStore和谷歌Play官方商店的多个应用。这款间谍软件旨在窃取用户移动设备中的所有图片，疑似专门搜寻加密货币相关信息。该攻击活动自2024年初开始活跃，主要针对东南亚和中国用户。伪装流行应用渗透设备SparkKitty间谍软件通过看似无害的应用程序渗透设备，通常伪装成TikTok等流行应用的修改
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p

Spark课程总结

一、

1、spark是什么

2、spark四大特性

速度快

易用性

通用性

兼容性

3、简述spark与mapreduce的区别？

基于内存与磁盘

进程与线程

二、

1、rdd的概念

2、rdd的五大属性

3、rdd的创建方式

4、rdd的算子操作分类

1、transformation（转换）

2、action (动作)

5、RDD常见的算子操作说明 重点需要掌握

三、

1、RDD的算子操作案例

2、RDD的依赖关系

窄依赖

宽依赖

Lineage（即血统）

3、RDD的缓存机制

1、什么是rdd的缓存机制、好处是什么？

2、如何对rdd设置缓存？ cache和persist方法的区别是什么？

3、什么时候设置缓存？

4、如何清除缓存？

四、

1、sparksql简介

2、sparksql特性

3、DataFrame简介

4、DataFrame和RDD对比

RDD

DataFrame

5、DataFrame常用的操作

6、通过IDEA开发程序实现把RDD转换DataFrame

五、

1、sparksql操作hivesql

2、sparksql操作jdbc数据源

3、sparksql中自定义函数

4、sparksql整合hive

你可能感兴趣的:(spark,大数据,分布式)

5、RDD常见的算子操作说明
重点需要掌握