技术闲聊DD

Spark学习（5）-Spark Core之RDD

1 RDD详解

1.1 为什么需要RDD

分布式计算需要:

分区控制
Shuffle控制
数据存储\序列化\发送
数据计算API
等一系列功能
这些功能, 不能简单的通过Python内置的本地集合对象(如 List\ 字典等)去完成。我们在分布式框架中, 需要有一个统一的数据抽象对象, 来实现上述分布式计算所需功能。这个抽象对象, 就是RDD。

1.2 什么是RDD?

1.2.1 RDD含义

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，代表一个不可变、可分区、里面的元素可并行计算的集合。

Dataset：一个数据集合，用于存放数据的。
Distributed：RDD中的数据是分布式存储的，可用于分布式计算。
Resilient：RDD中的数据可以存储在内存中或者磁盘中。

1.2.2 RDD定义

RDD（Resilient Distributed Dataset）弹性分布式数据集，是Spark中最基本的数据抽象，代表一个不可变、可分区、里面的元素可并行计算的集合。
所有的运算以及操作都建立在 RDD 数据结构的基础之上。
可以认为RDD是分布式的列表List或数组Array，抽象的数据结构，RDD是一个抽象类Abstract Class和泛型Generic Type。

1.3 RDD的5大特性

1.3.1 RDD是有分区的（必有）

RDD的分区是RDD数据存储的最小单位。一份RDD的数据，本质上分隔成了多个分区。

1.3.2 RDD的方法会作用到其所有的分区上（必有）

1.3.3 RDD之前是有依赖关系的（必有）

1.3.4 Key-Value型的RDD可以有分区器（选有）

默认分区器：Hash分区规则，可以手动设置一个分区器（rdd.partitionBy的方法来设置）。
这个特性是可能的，因为不是所有的RDD都是Key-Value型。
Key-Value RDD：RDD中存储的是二元元组，这个就是Key-Value型RDD。
二元元组：只有两个元素的元组，比如：(“hadoop”,6)。

1.3.5 RDD的分区规划会尽量靠近数据所在的服务器（选有）

在初始化RDD(读取数据的时候)规划的时候，分区会尽量规划到存储数据所在的服务器上。
因为这样可以走本地读取，避免网络读取。
本地读取：Executor所在的服务器，同样是一个DataNode，同时这个DataNode上有它要读的数据，所以可以直接读取到机器硬盘即可，无需走网络传输。
总结：
Spark会在确保并行计算能力的前提下，尽可能确保本地读取。

1.4 WordCount中RDD

2 RDD 编程入门

2.1 程序入口 SparkContext对象

Spark RDD 编程的程序入口对象是SparkContext对象(不论何种编程语言)，只有构建出SparkContext, 基于它才能执行后续的API调用和计算。
本质上, SparkContext对编程来说, 主要功能就是创建第一个RDD出来。

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    # 0. 初始化执行环境 构建SparkContext对象
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    src = SparkContext(conf=conf)

2.2 RDD的创建

RDD的创建主要有2种方式：

通过并行化集合创建 ( 本地对象转分布式RDD )
读取外部数据源 ( 读取文件 )

2.2.1 并行化创建

概念：并行化创建，是指：将本地集合转成分布式RDD

# _*_ coding:utf-8 _*_
"""
@Software  ：pyspark
@FileName  ：01_RDD_create_parallelize.py
@Date      ：2022/11/18 6:28
@Author    ：wuk
并行化集合，将本地集合转成分布式对象RDD
"""
from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    # 0. 初始化执行环境 构建SparkContext对象
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    src = SparkContext(conf=conf)

    # 演示通过并行化集合的方式去创建RDD, 本地集合 -> 分布式对象(RDD)
    rdd = src.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9])
    # parallelize方法, 没有给定 分区数, 默认分区数是多少?  根据CPU核心来定
    print(f"默认分区数量：{rdd.getNumPartitions()}")
    rdd = src.parallelize([1, 2, 3], 3)
    print("分区数: ", rdd.getNumPartitions())

    # collect方法, 是将RDD(分布式对象)中每个分区的数据, 都发送到Driver中, 形成一个Python List对象
    # collect: 分布式 转 -> 本地集合
    print("rdd的内容是: ", rdd.collect())

parallelize：
参数1：集合对象，比如list
参数2：分区数量

2.2.2 获取RDD分区数

rdd.getNumPartitions()

2.2.3 读取文件创建

读取单个文件

# _*_ coding:utf-8 _*_
"""
@Software  ：pyspark
@FileName  ：02_RDD_create_textFile.py
@Date      ：2022/11/18 6:28
@Author    ：wuk
读取本地文件
"""
from pyspark import SparkContext, SparkConf

if __name__ == '__main__':
    # 构建SparkContext对象
    conf = SparkConf().setAppName("text").setMaster("local[*]")
    context = SparkContext(conf=conf)

    # 通过textFile API 读取数据
    # 读取本地文件数据
    file = context.textFile("./data/words.txt")
    print(f"默认分区数量：{file.getNumPartitions()}")
    print(f"内容是{file.collect()}")

    # 加最小分区数参数的测试
    text_file = context.textFile("./data/words.txt", 100)
    print(f"默认分区数量：{text_file.getNumPartitions()}")
    print(f"内容是{text_file.collect()}")

    # 读取HDFS文件数据测试
    context_text_file = context.textFile("hdfs://master:8020/input/word.txt")
    print(context_text_file.getNumPartitions())
    print(context_text_file.collect())

textFile：
参数1：必填，读取文件路径，可以是本地文件，也可以是HDFS路径。
参数2：选填，表示最小分区数量（一般不会去设置）

读取一堆文件

# _*_ coding:utf-8 _*_
"""
@Software  ：pyspark
@FileName  ：03_RDD_create_wholeTextFile.py
@Date      ：2022/11/18 6:28
@Author    ：wuk
wholeTextFiles 读取文件夹下的所有文件内容
"""
from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    context = SparkContext(conf=conf)
    files_rdd = context.wholeTextFiles("./data")
    print(files_rdd.collect())
    print(files_rdd.map(lambda x: x[1]).collect())

注意：该API适用于少量分区读取数据，是小文件专用。

2.3 算子

方法/函数：本地对象的API，叫做函数/方法.
算子：分布式集合对象的API，称为算子。
算子分类：Transformation算子（转换算子），Action算子（动作算子）。

注意：

对于这两类的算子，转换算子相当于在构建执行计划，action是一个执行让这个执行计划开始工作。
如果没有action，转换算子之间的迭代计划，就是一个没有通电的流水线，只有action的到来，这个数据处理的流水线才开始工作。

2.4 常用Transformation算子

定义：RDD的算子，返回值仍旧是一个RDD，称之为转换算子。
特性：这类算子是lazy懒加载的，如果没有action算子，转换算子是不工作的。

map

功能：将RDD数据一条条处理，处理逻辑基于map算子中接收的处理函数，返回新的RDD.

# _*_ coding:utf-8 _*_
"""
@Software  ：pyspark
@FileName  ：04_RDD_operators_map.py
@Date      ：2022/11/18 6:29
@Author    ：wuk
map的使用
"""
from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf= SparkConf().setAppName("test").setMaster("local[*]")
    context = SparkContext(conf=conf)
    rdd1 = context.parallelize([1, 2, 3, 4, 5, 6], 3)
    print(rdd1.getNumPartitions())
    print(rdd1.map(lambda x: x * 10).collect())

语法如下：

flatMap

功能：对rdd执行map操作，然后进行解嵌套操作。
解除嵌套：

# _*_ coding:utf-8 _*_
"""
@Software  ：pyspark
@FileName  ：05_RDD_operators_flatMap.py
@Date      ：2022/11/19 14:21
@Author    ：wuk
@Description  : flatMap的使用
"""
from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    context = SparkContext(conf=conf)
    rdd = context.parallelize(["hadoop spark hadoop", "spark hadoop hadoop", "hadoop flink spark"])
    # 得到所有的单词, 组成RDD, flatMap的传入参数 和map一致, 就是给map逻辑用的, 解除嵌套无需逻辑(传参)
    print(rdd.map(lambda x: x.split(" ")).collect())
    print(rdd.flatMap(lambda x: x.split(" ")).collect())

reduceByKey

功能：针对KV型RDD，自动按照key进行分组，然后根据你提供的聚合逻辑，完成组内数据(value)的聚合。
用法：

注意：reduceByKey中接收的函数，只负责聚合，不理会分组，分组是自动by key来分组的。

# _*_ coding:utf-8 _*_
"""
@Software  ：pyspark
@FileName  ：06_RDD_operators_reduceByKey.py
@Date      ：2022/11/19 14:32
@Author    ：wuk
@Description  : reduceByKey的使用
"""
from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    context = SparkContext(conf=conf)
    rdd = context.parallelize([('a', 1), ('a', 1), ('b', 1), ('b', 1), ('a', 1)])
    # reduceByKey 对相同key 的数据执行聚合相加
    print(rdd.reduceByKey(lambda a, b: a + b).collect())

聚合逻辑：

groupBy

功能：将RDD的数据进行分组
语法：

# _*_ coding:utf-8 _*_
"""
@Software  ：pyspark
@FileName  ：08_RDD_operators_groupBy.py
@Date      ：2022/11/19 14:33
@Author    ：wuk
@Description  : group by的使用
"""
from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize([('a', 1), ('a', 1), ('b', 1), ('b', 2), ('b', 3)])
    # 通过groupBy对数据进行分组
    # groupBy传入的函数的 意思是: 通过这个函数, 确定按照谁来分组(返回谁即可)
    # 分组规则 和SQL是一致的, 也就是相同的在一个组(Hash分组)
    print(rdd.groupBy(lambda t: t[0])
          .map(lambda t: (t[0], list(t[1])))
          .collect())

    rdd = sc.parallelize([1, 2, 3, 4, 5, 6])
    print(rdd.groupBy(lambda t: "even" if (t % 2 == 0) else "odd")
          .map(lambda t: (t[0], list(t[1])))
          .collect())

filter

功能：过滤想要的数据进行保留
语法：

# _*_ coding:utf-8 _*_
"""
@Software  ：pyspark
@FileName  ：09_RDD_operators_filter.py
@Date      ：2022/11/19 14:33
@Author    ：wuk
@Description  : filter的使用
"""
from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize([1, 2, 3, 4, 5, 6])
    print(rdd.filter(lambda x: x % 2 == 0).collect())

distinct

功能：对Rdd数据进行去重，返回新RDD。
语法：

# _*_ coding:utf-8 _*_
"""
@Software  ：pyspark
@FileName  ：10_RDD_operators_distinct.py
@Date      ：2022/11/19 14:33
@Author    ：wuk
@Description  : distinct的使用
"""
from pyspark import SparkContext, SparkConf

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize([1, 1, 1, 2, 2, 2, 3, 3, 3])
    # distinct 进行RDD数据去重操作
    print(rdd.distinct().collect())

    rdd2 = sc.parallelize([('a', 1), ('a', 1), ('a', 3), ('b', 3)])
    print(rdd2.distinct().collect())

union

功能：两个RDD合并成一个RDD返回
注意：
只合并，不去重，不同类型的依旧可以混合。

# _*_ coding:utf-8 _*_
"""
@Software  ：pyspark
@FileName  ：11_RDD_operators_union.py
@Date      ：2022/11/19 14:34
@Author    ：wuk
@Description  : union的使用
"""
from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd1 = sc.parallelize([1, 1, 3, 3])
    rdd2 = sc.parallelize(["a", "b", "a"])

    rdd3 = rdd1.union(rdd2)
    print(rdd3.collect())

join，leftOuterJoin，rightOuterJoin

功能：对于两个RDD执行join操作，实现内外连接。
注意：join只适合于二元元组。

# coding:utf8

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd1 = sc.parallelize([(1001, "zhangsan"), (1002, "lisi"), (1003, "wangwu"), (1004, "zhaoliu")])
    rdd2 = sc.parallelize([(1001, "销售部"), (1002, "科技部")])

    # 通过join算子来进行rdd之间的关联
    # 对于join算子来说 关联条件 按照二元元组的key来进行关联
    print(rdd1.join(rdd2).collect())

    # 左外连接, 右外连接 可以更换一下rdd的顺序 或者调用rightOuterJoin即可
    print(rdd1.leftOuterJoin(rdd2).collect())
    print(rdd1.rightOuterJoin(rdd2).collect())

intersection

功能：求两个RDD的交集。

# coding:utf8

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd1 = sc.parallelize([('a', 1), ('a', 3)])
    rdd2 = sc.parallelize([('a', 1), ('b', 3)])

    # 通过intersection算子求RDD之间的交集, 将交集取出 返回新RDD
    print(rdd1.intersection(rdd2).collect())

glom

功能：将RDD的数据，加上嵌套，这个嵌套按照分区来进行。

# coding:utf8

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9], 3)
    # 将数据进行分区
    print(rdd.glom().collect())

groupByKey

功能：针对kv型RDD，自动按照key分组

# coding:utf8

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize([('a', 1), ('a', 1), ('b', 1), ('b', 1), ('b', 1)])

    rdd2 = rdd.groupByKey()
    print(rdd2.collect())
    print(rdd2.map(lambda x: (x[0], list(x[1]))).collect())

sortBy

功能：对RDD数据进行排序，基于你指定的排序依据。
语法：

# coding:utf8

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize([('c', 3), ('f', 1), ('b', 11), ('c', 3), ('a', 1), ('c', 5), ('e', 1), ('n', 9), ('a', 1)], 3)

    # 使用sortBy对rdd执行排序

    # 按照value 数字进行排序
    # 参数1函数, 表示的是 ,  告知Spark 按照数据的哪个列进行排序
    # 参数2: True表示升序 False表示降序
    # 参数3: 排序的分区数
    """注意: 如果要全局有序, 排序分区数请设置为1"""
    print(rdd.sortBy(lambda x: x[1], ascending=True, numPartitions=1).collect())

    # 按照key来进行排序
    print(rdd.sortBy(lambda x: x[0], ascending=False, numPartitions=1).collect())

sortByKey

功能：针对kv型的rdd，根据key进行排序。
语法：

# coding:utf8

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize([('a', 1), ('E', 1), ('C', 1), ('D', 1), ('b', 1), ('g', 1), ('f', 1),
                          ('y', 1), ('u', 1), ('i', 1), ('o', 1), ('p', 1),
                          ('m', 1), ('n', 1), ('j', 1), ('k', 1), ('l', 1)], 3)

    print(rdd.sortByKey(ascending=True, numPartitions=3, keyfunc=lambda key: str(key).lower()).collect())

将案例提交到yarn集群中运行

方式1：在pyCharm中直接执行

如果在PyCharm中直接提交yarn，依赖了其他的python文件，可以通过设置属性来指定依赖的代码

方式2：在服务器上通过spark-submit提交到集群运行

2.5 常用Action算子

定义：返回值不是RDD的都是动作算子。

countByKey

功能：统计key出现的次数，一般适用于KV型RDD

# coding:utf8

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd = sc.textFile("./data/words.txt")
    rdd2 = rdd.flatMap(lambda x: x.split(" ")).map(lambda x: (x, 1))

    # 通过countByKey来对key进行计数, 这是一个Action算子
    result = rdd2.countByKey()

    print(result)
    print(type(result))

collect

功能：将RDD各个分区的数据，统一收集到Driver中，形成一个List对象
用法：
rdd.collect()

reduce

功能：对RDD数据按照传入的逻辑进行聚合。
语法：

fold

功能：和reduce一样，接收传入逻辑进行聚合，聚合是带有初始值的。

first

功能：取出RDD第一个元素
用法：

take

功能：取出前N个元素，组成List返给你
用法：

top

功能：对RDD数据集进行降序排序，取前N个
用法：

count

功能：计算RDD有多少条数据，返回值是一个数字。
用法：

takeSample

功能：随机抽样RDD的数据
用法：

takeOrdered

功能：对RDD进行排序取前N个
用法：

foreach

功能：对RDD每一个元素，执行你提供的逻辑操作，和map一致，不过没有返回值。
用法：

saveAsTextFile

功能：将RDD的数据写入文本文件中，支持本地写出，HDFS等文件系统。

注意点：

foreach，saveAsTextFile这两个算子是分区(Executor)执行的，跳过Driver。
反之，其余的Action算子都会将结果发送至Driver.

2.6 分区操作算子(Transformation & Action)

mapPartitions

foreachPartition

partitionBy

repartition，coalesce

对RDD的分区执行重新分区（仅数量）

# coding:utf8

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize([1, 2, 3, 4, 5], 3)

    # repartition 修改分区
    print(rdd.repartition(1).getNumPartitions())

    print(rdd.repartition(5).getNumPartitions())

    # coalesce 修改分区
    print(rdd.coalesce(1).getNumPartitions())

    print(rdd.coalesce(5, shuffle=True).getNumPartitions())

2.7 面试题: groupByKey和reduceByKey的区别

在功能上区别：
groupByKey仅仅有分组的功能而已。
reduceByKey除了有Bykey的分组功能外，还有reduce聚合功能，是一个分组+聚合一体化的算子。
性能上的区别：
reduceByKey的性能是远大于groupByKey+聚合逻辑(Shuffle)的，原因是reduceByKey在分组前已经做了预聚合，那么在Shuffle分组节点，被Shuffle的数据可以极大的减少，如下图所示：
groupByKey+聚合逻辑的执行流程，：

reduceByKey的执行流程如下：

如图：reduceByKey由于自带聚合逻辑，所以可以完成：
1. 先在分区内做预聚合
2. 再走分组流程（shuffle）
3. 分组后再做最终聚合

3 RDD 持久化

3.1 RDD的数据是过程数据

rdd之间进行迭代计算，当执行开启以后，新的rdd生成，老的就会消失，rdd的数据是过程数据，只在处理的过程中存在，一旦处理完成了，数据就不存在了。
该特性可以最大化利用资源，老旧rdd没有用了，就从内存中清理，给后续的计算腾出空间。
如图所示：

如上图，rdd3被两次使用，第一次使用后，其实rdd3就已经不存在了，第二次使用的时候，只能基于rdd的血缘关系，从rdd1重新执行，构建出rdd3。

3.2 RDD的缓存

3.2.1 缓存

针对上述rdd的过程数据问题，肯定需要优化，优化就是不要让rdd3消失，所以提供了rdd缓存技术，可以将指定的rdd数据保留在硬盘或者内存中。
缓存API如下：

3.2.2 缓存特点

缓存可以将过程RDD数据，持久化保存到内存或者硬盘上。
但是这个保存在设定上认为是不安全的，有丢失的风险，所以缓存有一个特点就是，保留RDD的血缘关系，一旦发生丢失，就可以基于血缘关系，重新计算这个RDD的数据。

3.2.3 缓存是如何保存

RDD是将自己的分区数据，每个分区自行将其数据保存在所在的Executor内存和硬盘上，这就是分散存储。

# coding:utf8
import time

from pyspark import SparkConf, SparkContext, StorageLevel

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    rdd1 = sc.textFile("./data/words.txt")
    rdd2 = rdd1.flatMap(lambda x: x.split(" "))
    rdd3 = rdd2.map(lambda x: (x, 1))

    rdd3.cache()
    # 缓存到磁盘和内存中
    print(rdd3.persist().getStorageLevel())

    rdd4 = rdd3.reduceByKey(lambda a, b: a + b)
    print(rdd4.collect())

    rdd5 = rdd3.groupByKey()
    rdd6 = rdd5.mapValues(lambda x: sum(x))
    print(rdd6.collect())
    # 清理缓存
    rdd3.unpersist()

3.3 RDD的checkPoint

checkPoint技术，也是将RDD数据保存下来，但是它只支持硬盘存储，并且被设定是安全的，不会保留血缘关系。
checkPoint存储RDD数据，是集中收集各个分区数据进行存储，而缓存是分散存储。

缓存和checkPoint的对比：

checkPoint不管分区数量是多少，风险是一样的，缓存分区越多，风险越高。
checkPoint支持写入HDFS，缓存不行，HDFS是高可靠存储，checkPoint被认为是安全的。
checkPoint不支持内存，缓存可以，缓存如果写入内存，性能比checkPoint好一些。
checkPoint被设计是安全的，所以不保留血缘关系，而缓存被设定是不安全的，所以保留。

API实现如下：

注意：
checkPoint是一种重量级的使用，也就是RDD的重新计算成本很高的时候，我们采用checkPoint比较合适，或者数据量很大，使用checkPoint比较合适。
如果数据量比较小，或者RDD重新计算速度比较快，用checkPoint没有必要，直接用缓存即可。

# coding:utf8
import time

from pyspark import SparkConf, SparkContext
from pyspark.storagelevel import StorageLevel

if __name__ == '__main__':
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    sc = SparkContext(conf=conf)

    # 1. 告知spark, 开启CheckPoint功能
    sc.setCheckpointDir("hdfs://master:8020/output/ckp")
    rdd1 = sc.textFile("./data/words.txt")
    rdd2 = rdd1.flatMap(lambda x: x.split(" "))
    rdd3 = rdd2.map(lambda x: (x, 1))

    # 调用checkpoint API 保存数据即可
    rdd3.checkpoint()

    rdd4 = rdd3.reduceByKey(lambda a, b: a + b)
    print(rdd4.collect())

    rdd5 = rdd3.groupByKey()
    rdd6 = rdd5.mapValues(lambda x: sum(x))
    print(rdd6.collect())

    rdd3.unpersist()

你可能感兴趣的:(大数据,spark,学习)

数据增强：扩充数据集提升模型泛化能力 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1.数据增强的重要性在机器学习领域，模型的泛化能力至关重要。一个泛化能力强的模型能够在未见数据上表现良好，而过拟合的模型则会在训练数据上表现出色，但在新数据上表现糟糕。数据增强是一种有效提升模型泛化能力的技术，它通过对现有数据进行各种变换，人为地扩充数据集，从而增加训练数据的数量和多样性。1.2.数据增强的应用场景数据增强广泛应用于各种机器学习任务中，包括：图像识别:对图像进行旋转
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
嵌入式C语言学习笔记（2）愿抬头有阳光 c语言学习笔记
1.数组指针数组指针本质上就是一个指针，它里面存放的是数组的首地址。#includevoidshow(int(*p)[4],intn){for(inti=0;i4*4=16;3.命令行传递参数，main函数的标准格式intmain(intargc,constchar*argv[]){return0;}//argc：参数的个数包括./a.out//argv：参数的值列表argv[0]="./a.ou
【算法学习之路】12.DFS 零零时算法学习之路深度优先算法学习 c++开发语言数据结构全排列
DFS前言一.DFS简介二.思路三.缺点四.三种类型五.题目1.2前言我会将一些常用的算法以及对应的题单给写完，形成一套完整的算法体系，以及大量的各个难度的题目，目前算法也写了几篇，题单正在更新，其他的也会陆陆续续的更新，希望大家点赞收藏我会尽快更新的！！！一.DFS简介1.深度优先搜索，是一种用于遍历或搜索树或图的算法。所谓深度优先，就是说每次搜尝试向更深的节点走。2.在搜索算法中，该DFS常常
C++学习笔记：引用 etp_ c++学习笔记
引用是已知变量的别名，通过将引用变量用作参数，函数将使用原始数据而不是其副本。下面将r作为a的别名：inta;int&r=a;就像char*是指向char的指针一样，int&是指向int的引用。（a和r指向相同的值和内存单元)注意：&r表示r引用变量的地址。引用和指针的区别1.必须在声明引用时将其初始化，而不能像指针那样先声明再赋值。2.引用更接近const指针，一旦与某个变量关联起来便有一直效忠
关于使用python进行处理雷达数据笔记六毛驴 python 数据分析
好久不见，甚是想念本人深知这段时间鸽了一篇博（上一篇博），后续会补上的，今天想写一下关于使用python进行TI雷达接收回波数据处理的一些常见问题和解决方法。这也是前几天领导给我布置的任务，所以我将这段时间自己遇到的并且已经解决的问题进行了简单的汇总，也会推荐几本这几天阅读了python书籍。python书籍推荐：python学习手册MarkLutz著（对应python版本3.X，2.X都可）Py
Tsfresh + TA-Lib + LightGBM ：A 股市场量化投资策略实战入门船长@Quant Python 金融科技 python tsfresh TA-Lib LightGBM 量化技术策略开发
Tsfresh+TA-Lib+LightGBM：A股市场量化投资策略实战入门本项目以A股市场为研究对象，通过量化技术对市场数据进行分析，构建量化投资策略，并利用历史数据回测验证策略的有效性。项目旨在为量化技术初学者提供一个系统的学习框架，帮助读者掌握从数据获取到策略评估的全流程操作。文中内容仅限技术学习与代码实践参考，市场存在不确定性，技术分析需谨慎验证，不构成任何投资建议。适合量化新手建立系统认
Docker打包深度学习项目 FLY_LTL docker 深度学习容器
文章目录Docker打包深度学习项目1.Docker和NVIDIAContainerToolkit的安装1.Docker2.NVIDIAContainerToolkit3.添加国内镜像源2.使用Dockerfile打包并保存镜像1.Dockerfile2.通过Dockerfile生成镜像3.保存镜像和加载4.运行Docker并测试参考Docker打包深度学习项目本文来源于个人实践总结，供各位同学参
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
使用TensorFlow、OpenCV和Pygame实现图像处理与游戏开发 UwoiGit tensorflow opencv pygame
在本篇文章中，我们将介绍如何结合使用TensorFlow、OpenCV和Pygame来进行图像处理和游戏开发。这三个工具在机器学习、计算机视觉和游戏开发领域都非常流行，并且它们的结合可以提供强大的功能和无限的创造力。我们将逐步介绍如何安装和配置这些工具，并提供相关的源代码示例。安装TensorFlowTensorFlow是一个基于数据流图的开源机器学习框架，提供了丰富的工具和库来构建和训练各种深度
机器学习之KMeans算法知舟不叙机器学习算法 kmeans
文章目录引言1.KMeans算法简介2.KMeans算法的数学原理3.KMeans算法的步骤3.1初始化簇中心3.2分配数据点3.3更新簇中心3.4停止条件4.KMeans算法的优缺点4.1优点4.2缺点5.KMeans算法的应用场景5.1图像分割5.2市场细分5.3文档聚类5.4异常检测6.Python实现KMeans算法7.总结引言KMeans算法是机器学习中最经典的无监督学习算法之一，广泛应
机器学习流程—数据预处理清洗不二人生机器学习机器学习人工智能数据预处理
文章目录机器学习流程—数据预处理清洗定义问题数据预处理数据加载与展示重复数据处理数据类型空值处理无关特征删除数据分布删除异常值生成标签和特征数据分割机器学习流程—数据预处理清洗数据处理是将数据从给定形式转换为更可用和更理想的形式的任务，即使其更有意义、信息更丰富。使用机器学习算法、数学建模和统计知识，整个过程可以自动化。这个完整过程的输出可以是任何所需的形式，如图形、视频、图表、表格、图像等等，具
仓颉：关于封装，继承，多态繁星幽蓝悼梦影仓颉华为 harmonyos
在对于仓颉有了初步了解之后，我们自然会想在我们之前所学习，编写的简单代码上添加一些其他的功能，今天我们就来讲几个重要的小功能封装为了提高数据访问的安全性，我们可以使用访问修饰符private。那么我们应该通过什么方法提高呢，我们有两种方法：1.通过方法2.通过属性设计器。参考如下代码packagecjchapter4.chapter1publicclassUser{privatevara1:Int
游戏成瘾与学习动力激发策略研究——了解“情感解离”“创伤理论” *TQK* 知也思维认知心理学研究
一、情感解离（EmotionalDissociation）定义：情感解离是一种心理防御机制，指个体在经历无法承受的情绪压力或创伤时，通过切断情感体验与认知、记忆或现实感知的联系来保护自我。它不是简单的“麻木”，而是大脑为应对极端刺激而启动的“紧急逃生通道”。核心特征1、意识分裂现实解离：感到身体或环境“不真实”（如玩游戏时出现“灵魂出窍”般的视角抽离）情感隔离：能描述事件但无法体验对应情绪（如你通
HarmonyOS TEXT 语音搜索场景学习和总结 harmonyos
在HarmonyOS中实现语音搜索功能时，涉及到麦克风权限的申请、音频数据的采集、编码和传输等多个步骤。以下是对上述代码的详细解析和补充说明：麦克风权限的申请与检查在HarmonyOS中，使用麦克风需要申请ohos.permission.MICROPHONE权限。在代码中，通过GRPermissionsUtils.checkPermissions方法来检查和申请权限。如果权限被授予，则可以继续进行
深入学习 DNS 域名解析 dns解析
一、前言在平时工作中相信大家都离不开DNS解析，因为DNS解析是互联网访问的第一步，无论是使用笔记本浏览器访问网络还是打开手机APP的时候，访问网络资源的第一步必然要经过DNS解析流程。二、DNS是什么DNS（域名系统DomainNameSystem），它是一个记录域名和Ip地址相互映射的一个系统，是互联网的“电话簿”，负责将人类可读的域名（如example.com）转换为机器可识别的IP地址（如
深度革命：ResNet 如何用 “残差连接“ 颠覆深度学习安意诚Matrix 机器学习笔记深度学习人工智能
一文快速了解ResNet创新点在深度学习的历史长河中，2015年或许是最具突破性的一年。这一年，微软亚洲研究院的何恺明团队带着名为ResNet（残差网络）的模型横空出世，在ImageNet图像分类竞赛中以3.57%的错误率夺冠，将人类视觉的识别误差（约5.1%）远远甩在身后。更令人震撼的是，ResNet将神经网络的深度推至152层，彻底打破了"深层网络无法训练"的魔咒。这场革命的核心，正是一个简单
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算【超级详细版】 AI筑梦师计算机视觉算法深度学习人工智能机器学习计算机视觉 python
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算1.引言1.1研究背景在计算机视觉、模式识别、医学影像分析和自动驾驶等领域，形状匹配是核心任务之一。然而，现实世界的形状往往存在可变性（Variability），主要体现在以下几个方面：形变（Deformation）：物体可能由于柔性材料、外力作用或生物运动发生非刚性形变。尺度变化（ScaleVariation）：目标形状在不同场景下可能大
Java 大视界 -- Java 大数据在智能体育赛事直播数据分析与观众互动优化中的应用（142）青云交大数据新视界 Java 大视界 java 大数据体育赛事直播数据分析观众互动数据采集个性化推荐
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
C#搭建Json RPC2.0 Server/Client Flora*.* rpc c#
写在前面这篇文章写了改，改了写，中间耽搁好长时间，最终还是决定坚持写下来，因为我自己在学习这部分开发时也花了很长时间去理解，所以这篇文章也相当于是对我这部分开发和学习的一个总结，希望它能给你带来帮助。因为本人能力有限，所以文中有些写的不明白或者有错误的地方还请大佬批评指正，我也会不断在项目中进行总结，更新这篇文章，让其更加通俗易懂！背景介绍在MES项目开发中，我们不希望经常改动主程序，但因为不同客
基于C语言的数据结构之串——带你熟练掌握串的基本操作！！超级详细！！ Elnaij 数据结构 c语言算法
目录前言1.数据结构——串1.1基本知识主串、子串、模式串1.2对几个字符串库函数的简单介绍1.2.1strcmp1.2.2strcpy1.2.3strlen1.2.4strcat1.3串的分类1.3.1静态分配内存的串1.3.2动态分配内存的串2.串的基本操作2.1初始化串2.2输出字符2.3插入子串2.4删除子串2.5取子串操作2.6撤销删除操作结束语前言掌握串之前最好先去学习好顺序表和单链表
C++与C语言的区别 @haihi c++c语言开发语言
前言本文主要用C语言和C++做对比来学习C++，便于个人理解。C++包含C语言，是对C语言的扩展，在C++中，支持C语言的语法使用，C++是C语言的超集一、C++与C语言的区别C语言简单高效，适合低级系统编程和硬件相关的开发。C++更加灵活、强大，适合大型项目开发，尤其是需要面向对象、代码复用和复杂数据结构的应用。1.编程范式C语言：C是一种过程式编程语言，主要关注函数和过程。程序是通过一系列函数
从C语言开始的C++编程生活（1） Elnaij C++基础知识 c语言 c++
前言本系列文章承接C语言的学习，需要有C语言的基础才能学会哦。第1篇主要讲的是有关于C++的命名空间、输入和输出。C++才起步，都很简单呢！目录前言命名空间namespace基本语法作用使用命名空间域作用限定符::基本语法usingnamespace命名空间域名基本语法作用using命名空间域名::变量名基本语法作用C++的输入和输出“>”流提取符基本语法代码解释命名空间namespace基本语法
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
【一起学Rust | Tauri2.0框架】基于 Rust 与 Tauri 2.0 框架实现跨平台二维码扫描应用金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 rust 开发语言后端
《一起学Rust|Tauri2.0框架》是一个结合Rust语言与Tauri框架开发跨平台应用的教程。Tauri2.0是一个非常适合构建跨平台桌面应用的框架，它让开发者可以使用Web技术（如HTML、CSS、JavaScript）来创建前端，同时利用Rust编写后端逻辑，确保应用运行高效且轻量。在这个教程中，开发者可以学习如何使用Rust与Tauri2.0框架实现一个跨平台二维码扫描应用。具体步骤可
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐洪显彦Lawyer
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐TBBKAnalysis关于淘宝“爆款”数据爬取与分析。具体分析见—项目地址:https://gitcode.com/gh_mirrors/tb/TBBKAnalysis在数字化时代的数据洪流中，每一个细微的数据点都蕴含着洞察未来的机遇。今天，我们要探讨的是一个独特且极具启发性的开源项目——TBBKAnalysis。该项目源自知乎上一
SAP-ABAP：SAP采购模块（MM-PUR）学习指南爱喝水的鱼丶 VIP详情查看专栏 SAP业务学习捷径 SAP-ABAP开发基础详解 ABAP SAP ERP 运维 SAP采购业务学习
Ⅰ.模块全景图采购管理需求计划供应商协同采购执行财务集成采购申请/MRP供应商评估/合同订单/收货/发票应付账款Ⅱ.核心配置矩阵2.1组织结构配置对象事务码配置关系业务影响示例值采购组织OX01分配公司代码跨法人采购1000-US工厂OX18链接采购组织库存管理2000-CH采购组OME9指定采购专家责任划分PG01-IT采购2.2单据类型配置单据类型配置路径关键字段审批策略应用场景标准采购订单M
【含文档+PPT+源码】基于微信小程序农家乐美食餐厅预约推广系统编程毕设微信小程序美食小程序
项目介绍本课程演示的是一款基于微信小程序农家乐美食餐厅预约推广系统，主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的Java学习者。1.包含：项目源码、项目文档、数据库脚本、软件工具等所有资料2.带你从零开始部署运行本套系统3.该项目附带的源码资料可作为毕设使用该系统功能架构图如下：技术栈说明技术栈：后端：SpringBoot+Vue+ElementUI（后端是前后端分离的）前端：Un
Python 模拟鼠标轨迹算法 a485240 鼠标轨迹计算机外设
一.鼠标轨迹模拟简介传统的鼠标轨迹模拟依赖于简单的数学模型，如直线或曲线路径。然而，这种方法难以捕捉到人类操作的复杂性和多样性。AI大模型的出现，使得能够通过深度学习技术，学习并模拟更自然的鼠标移动行为。二.鼠标轨迹算法实现AI大模型通过学习大量的人类鼠标操作数据，能够识别和模拟出自然且具有个体差异的鼠标轨迹。以下是实现这一技术的关键步骤：数据收集：收集不同玩家在各种游戏环境中的鼠标操作数据，包括
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情