溺水的鱼X

PySpark基础 —— RDD

一、Spark环境测试

1.导入相关库

# import os
# os.environ['JAVA_HOME'] = 'D:\ProgramData\Spark\jdk1.8.0_302'
# os.environ['HADOOP_HOME'] = 'D:\ProgramData\Spark\winutils-master\hadoop-2.7.1'
# os.environ['SPARK_HOME'] = 'D:\ProgramData\Spark\spark-3.1.2-bin-hadoop2.7'
from pyspark.sql import SparkSession
import findspark
findspark.init()

2.创建SparkSession实例

# local本地模式
# [*], 最大的线程数量
# [4], 线程数量设置为4
spark = SparkSession.Builder().master("local[*]").getOrCreate()
spark
# http://localhost:4040/

3.创建Spark的DataFrame

df = spark.createDataFrame(
    data=[['python', '数据分析'],
          ['pyspark', '大数据']],
    schema=('name', 'type'))
df.show()
# 关闭SparkSession
# spark.stop()

+-------+--------+
|   name|    type|
+-------+--------+
| python|数据分析|
|pyspark|  大数据|
+-------+--------+

4.创建Pandas的DataFrame

import numpy as np
import pandas as pd
pd_df = pd.DataFrame(np.random.rand(100, 3))
pd_df.head(10)

5.从Pandas的DataFrame创建Spark的DataFrame

spark_df = spark.createDataFrame(pd_df)
spark_df.show(10)

+-------------------+-------------------+--------------------+
|                  0|                  1|                   2|
+-------------------+-------------------+--------------------+
| 0.7734370300584474|0.42283178859893444|  0.8257498529298667|
|0.44575544415993906|0.49245180252222975|0.014261692547622662|
| 0.3420733794127957| 0.8822635169563398| 0.35380553666355063|
|0.31045724993989887|0.12137972216632553| 0.08901413277815406|
| 0.7241060466628902| 0.6316423526465608|  0.3991496071189753|
|0.22678194237871974| 0.9869818222587557|  0.6060528459473943|
|0.22495181866362846| 0.4185845149128945| 0.47356977129591526|
| 0.7396151249153267| 0.7804451983660282|  0.9502911251018666|
|0.15263591158972922| 0.8882795838843202|  0.3790204587517769|
| 0.9089614551221472| 0.2663836523951706|  0.8517316157986443|
+-------------------+-------------------+--------------------+
only showing top 10 rows

6.将Spark的DataFrame转为Pandas的DataFrame

pd_df = spark_df.select("*").toPandas()
pd_df.head(10)

二、RDD

1.RDD——创建RDD

import pyspark
from pyspark import SparkContext, SparkConf
import findspark
findspark.init()
# 或sc = SparkContext(master='local[*]', appName='test')
# SparkContext，无法同时运行多个SparkContext环境
conf = SparkConf().setAppName('test').setMaster('local[*]')
sc = SparkContext(conf=conf)

1.查看Spark环境信息

# 查看Python版本
sc.pythonVer
# '3.8'

# 查看Spark版本
sc.version
# 或pyspark.__version__
# '3.1.2'

# 查看主机URL
sc.master
# 'local[*]'

# 查看运行Spark的用户名称
sc.sparkUser()
# 'joe'

# 查看应用程序ID
sc.applicationId
# 'local-1665974057511'

# 查看应用程序名称
sc.appName
# 'test'

# 查看默认的并行级别（线程数量）
sc.defaultParallelism
# 4

# 查看默认的最小分区数量
sc.defaultMinPartitions
# 2

# 查看Spark Web URL
sc.uiWebUrl
# 'http://DESKTOP-H03ONKG:4041'

# 停止运行Spark
# sc.stop()
# '3.8'

2.创建RDD

创建RDD主要有两种方式
第一种：textFile方法
第二种：parallelize方法

2.1.textFile方法

本地文件系统加载数据

# 第2个参数，指定分区数量
file = "./data/hello.txt"
rdd = sc.textFile(file, 3)
# 展示所有元素
rdd.collect()

# ['python', 'numpy', 'pandas', 'matplotlib', 'pyspark']

2.2.parallelize方法

# 第2个参数，指定分区数量
rdd = sc.parallelize(range(1, 11), 2)
rdd.collect()
# [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

# 查看RDD的id
rdd.id()
# 3

# 查看分区数量
rdd.getNumPartitions()
# 2

2.3.wholeTextFiles方法

# 读取文件夹下所有文件
folder = './data/folder/'
rdd = sc.wholeTextFiles(folder)
rdd.collect()

'''
[('file:/C:/课程/PySpark/data/folder/1.txt', '第1个text文件内容'),
 ('file:/C:/课程/PySpark/data/folder/2.txt', '第2个text文件内容'),
 ('file:/C:/课程/PySpark/data/folder/3.txt', '第3个text文件内容'),
 ('file:/C:/课程/PySpark/data/folder/4.txt', '第4个text文件内容'),
 ('file:/C:/课程/PySpark/data/folder/5.txt', '第5个text文件内容'),
 ('file:/C:/课程/PySpark/data/folder/6.txt', '第6个text文件内容')]
'''

2.RDD——动作算子

import pyspark
from pyspark import SparkContext, SparkConf
import findspark
findspark.init()
conf = SparkConf().setAppName('test').setMaster('local[*]')
sc = SparkContext(conf=conf)

Action动作算子/行动操作

1.collect

rdd = sc.parallelize(range(10))
# 查看所有的元素
rdd.collect()
# [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

2.take

rdd = sc.parallelize(range(10))

# 查看指定数量的元素
rdd.take(4)
# [0, 1, 2, 3]

3.first

rdd = sc.parallelize(range(10))

# 获取第1个元素
rdd.first()
# 0

4.top

rdd = sc.parallelize(range(10))

# 获取top n的元素
rdd.top(3)
# [9, 8, 7]

5.takeOrdered

rdd = sc.parallelize([10, 7, 6, 9, 4, 3, 5, 2, 1])

# 按指定规则排序后，再抽取指定数量的元素
# 升序后抽取
rdd.takeOrdered(num=5)

# [1, 2, 3, 4, 5]

# 降序后抽取
rdd.takeOrdered(num=5, key=lambda x: -x)

# [10, 9, 7, 6, 5]

6.takeSample

rdd = sc.parallelize(range(10))

# 随机抽取指定数量的元素
# 第1个参数，是否重复抽样
# 第2个参数，抽样数量
# 第3个参数，随机种子
rdd.takeSample(False, 5, 0)

# [7, 8, 1, 5, 3]

7.count

rdd = sc.parallelize(range(10))

# 查看元素数量
rdd.count()
# 10

8.sum

rdd = sc.parallelize(range(10))

rdd.sum()  # 求和
rdd.max()  # 最大值
rdd.min()  # 最小值
rdd.mean()  # 平均值
rdd.stdev()  # 总体标准差
rdd.variance()  # 总体方差
rdd.sampleStdev()  # 样本标准差
rdd.sampleVariance()  # 样本方差
rdd.stats()  # 描述统计

# (count: 10, mean: 4.5, stdev: 2.8722813232690143, max: 9.0, min: 0.0)

9.histogram

rdd = sc.parallelize(range(51))
rdd.count()
# 51

# 按指定箱数，分组统计频数
rdd.histogram(2)
# ([0, 25, 50], [25, 26])
# 第1组[0, 25): 25
# 第2组[25, 50]: 26
# ([0, 25, 50], [25, 26])

# 按指定区间，分组统计频数
rdd.histogram([0, 10, 40, 50])’
# ([0, 10, 40, 50], [10, 30, 11])

10.fold

rdd = sc.parallelize(range(10))

# 按指定函数(add加法)对元素折叠
from operator import add
rdd.fold(0, add)

# 45

11.reduce

rdd = sc.parallelize(range(10))

# 二元归并操作，如累加
# 逐步对两个元素进⾏操作
rdd.reduce(lambda x, y: x + y)

from operator import add
rdd.reduce(add)

# 45

12.foreach

rdd = sc.parallelize(range(10))

# 对每个元素执行一个函数操作
# accumulator累加器
acc = sc.accumulator(value=0)
rdd.foreach(lambda x: acc.add(x))
acc.value

# 45

13.collectAsMap

rdd = sc.parallelize([("a", 1), ("b", 2), ("c", 3)])

# 将RDD转换为字典
rdd.collectAsMap()

# {'a': 1, 'b': 2, 'c': 3}

14.saveAsTextFile

rdd = sc.parallelize(range(5))

# 保存rdd为text文件到本地
# 如文件已存在, 将报错
rdd.saveAsTextFile("./data/rdd.txt")

15.textFile

# 加载text文件
rdd = sc.textFile("./data/rdd.txt")

# 判断是否为空
rdd.isEmpty()
# False

rdd.collect()
# ['0', '1', '2', '3', '4']

3.RDD——变换算子

import pyspark
from pyspark import SparkContext, SparkConf
import findspark
findspark.init()
conf = SparkConf().setAppName('test').setMaster('local[*]')
sc = SparkContext(conf=conf)

Transformation变换算子/转换操作

1.map

rdd = sc.parallelize(range(10))
rdd.collect()
# [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

# 对每个元素映射一个函数操作，如求平方
rdd.map(lambda x: x**2).collect()
# [0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

2.filter

# 筛选数据，如筛选大于5的元素
rdd.filter(lambda x: x > 5).collect()
# [6, 7, 8, 9]

3.flatMap

rdd = sc.parallelize(["hello world", "hello python"])
rdd.collect()
# flat展平
# ['hello world', 'hello python']

# 先以空格拆分为二维结构
rdd.map(lambda x: x.split(" ")).collect()
# [['hello', 'world'], ['hello', 'python']]

# 对每个元素映射一个函数操作
# 并将结果数据进行扁平化（展平）
rdd.flatMap(lambda x: x.split(" ")).collect()
# ['hello', 'world', 'hello', 'python']

4.sample

rdd = sc.parallelize(range(10))
# 每个分区按比例抽样
# 第1个参数，是否重复抽样
# 第2个参数，抽样概率
# 第3个参数，随机种子
rdd.sample(False, 0.5, 666).collect()
# [1, 2, 3, 8]

5.distinct

rdd = sc.parallelize([1, 1, 2, 2, 3, 3, 4, 5])

# 去重
rdd.distinct().collect()

# [4, 1, 5, 2, 3]

6.subtract

a = sc.parallelize(range(10))
a.collect()
# [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

b = sc.parallelize(range(5, 15))
b.collect()
# [5, 6, 7, 8, 9, 10, 11, 12, 13, 14]

# 差集，a-b
a.subtract(b).collect()
# [0, 1, 2, 3, 4]

7.union

# 并集，a+b
a.union(b).collect()
# [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]

8.intersection

# 交集
a.intersection(b).collect()

# [8, 9, 5, 6, 7]

9.cartesian

a = sc.parallelize([1, 2])
b = sc.parallelize(["python", "pyspark"])

# 笛卡尔积
a.cartesian(b).collect()
# [(1, 'python'), (1, 'pyspark'), (2, 'python'), (2, 'pyspark')]

10.sortBy

rdd = sc.parallelize([(1, 2, 3), (3, 2, 2), (4, 1, 1)])

# 按第3列排序，默认升序
rdd.sortBy(
    keyfunc=lambda x: x[2],
    ascending=True
).collect()

# [(4, 1, 1), (3, 2, 2), (1, 2, 3)]

11.zip

rdd1 = sc.parallelize([1, 2, 3])
rdd2 = sc.parallelize(["python", "pandas", "pyspark"])

# 两个RDD必须具有相同的分区，每个分区元素数量相同
# 类似于python内置函数zip
rdd1.zip(rdd2).collect()

# [(1, 'python'), (2, 'pandas'), (3, 'pyspark')]

12.zipWithIndex

rdd = sc.parallelize(["python", "pandas", "pyspark"])

# 将RDD和索引压缩, 类似于python内置函数enumerate
rdd.zipWithIndex().collect()

'''
0 python
1 pandas
2 pyspark
[('python', 0), ('pandas', 1), ('pyspark', 2)]
'''

lst = ["python", "pandas", "pyspark"]
for i, v in enumerate(lst):
    print(i, v)

'''
0 python
1 pandas
2 pyspark
'''

4.RDD——PairRDD变换算子

import pyspark
from pyspark import SparkContext, SparkConf
import findspark
findspark.init()
conf = SparkConf().setAppName('test').setMaster('local[*]')
sc = SparkContext(conf=conf)

PairRDD变换算子
包含key和value的RDD，类似python的字典

1.KeyBy

rdd = sc.parallelize(["a", "b", "c"])

# 创建一个键值对RDD
# 以函数返回值作为key，原有元素作为value
rdd.keyBy(lambda x: 1).collect()

# [(1, 'a'), (1, 'b'), (1, 'c')]

2.lookup

rdd = sc.parallelize(
    [("python", 1),
     ("python", 2),
     ("pandas", 3),
     ("pandas", 4)])

# 获取RDD的键
rdd.keys().collect()
# ['python', 'python', 'pandas', 'pandas']

# 获取RDD的值
rdd.values().collect()
# [1, 2, 3, 4]

dct = {"python": 1, "pandas": 3}
dct.keys()
# dict_keys(['python', 'pandas'])

dct.values()
# dict_values([1, 3])

dct.items()
# dict_items([('python', 1), ('pandas', 3)])

dct['python']
# 1

# 通过key访问value，动作算子
rdd.lookup("python")
# [1, 2]

3.reduceByKey

rdd.collect()
# [('python', 1), ('python', 2), ('pandas', 3), ('pandas', 4)]

# 以key分组对value执行二元归并操作，比如求和
rdd.reduceByKey(lambda x, y: x+y).collect()
# [('python', 3), ('pandas', 7)]

4.reduceByKeyLocally

# 以key分组并按指定函数合并value，返回python字典
from operator import add
dct = rdd.reduceByKeyLocally(add)
dct

# {'python': 3, 'pandas': 7}

5.foldByKey

# 以key分组并按指定函数(add加法)合并value
# 类似reduceByKey(分组求和)
# fold折叠，必须传递zeroValue的初始值
from operator import add
rdd.foldByKey(0, add).collect()

# [('python', 3), ('pandas', 7)]

6.combineByKey

# 以key分组按指定函数合并value，合并后返回列表
# createCombiner，将value转换为列表
# mergeValue，将value添加至列表
# mergeCombiners，将多个列表合并为一个列表
def to_list(x):
    return [x]


def append(x, y):
    x.append(y)
    return x


def extend(x, y):
    x.extend(y)
    return x


rdd.combineByKey(to_list, append, extend).collect()

# [('python', [1, 2]), ('pandas', [3, 4])]

7.subtractByKey

x = sc.parallelize([("a", 1), ("b", 2), ("c", 3)])
y = sc.parallelize([("a", 2), ("b", 2)])

# 按key求差集
x.subtractByKey(y).collect()
# [('c', 3)]

8.groupBy

rdd = sc.parallelize(range(10))
# 将RDD转换为迭代器
iterator = rdd.toLocalIterator()
type(iterator)
# generator

# groupBy：以函数返回值分组合并，合并后返回迭代器
# 如奇数为一个迭代器，偶数为一个迭代器
rdd_new = rdd.groupBy(lambda x: x % 2).collect()
rdd_new
'''
[(0, ),
 (1, )]
'''

[[x, list(y)] for x, y in rdd_new]
# [[0, [0, 2, 4, 6, 8]], [1, [1, 3, 5, 7, 9]]]

9.groupByKey

rdd = sc.parallelize(
    [("python", 1),
     ("python", 2),
     ("pandas", 3),
     ("pandas", 4)])

# 以key分组合并value，合并后返回迭代器
rdd_new = rdd.groupByKey().collect()
[[x, list(y)] for x, y in rdd_new]
# [['python', [1, 2]], ['pandas', [3, 4]]]

10.mapValues

rdd = sc.parallelize(
    [("python", [1, 2]),
     ("pandas", [3, 4])])

# 对value应用一个函数操作，比如求和
rdd.mapValues(sum).collect()

# [('python', 3), ('pandas', 7)]

11.groupBy+mapValues

rdd = sc.parallelize(range(10))
# 以函数返回值分组合并，合并后返回列表
# 如奇数为一个列表，偶数为一个列表
rdd.groupBy(lambda x: x % 2).mapValues(list).collect()

# [(0, [0, 2, 4, 6, 8]), (1, [1, 3, 5, 7, 9])]

12.groupByKey+mapValues

rdd = sc.parallelize(
    [("python", 1),
     ("python", 2),
     ("pandas", 3),
     ("pandas", 4)])

# 以key分组合并value为列表
rdd.groupByKey().mapValues(list).collect()
# [('python', [1, 2]), ('pandas', [3, 4])]

# 以key分组求value之和
rdd.groupByKey().mapValues(sum).collect()
# [('python', 3), ('pandas', 7)]

# 以key分组求value最大值
rdd.groupByKey().mapValues(max).collect()
# [('python', 2), ('pandas', 4)]

13.countByKey

# 以key分组计数，返回字典
rdd.countByKey().items()
# dict_items([('python', 2), ('pandas', 2)])

14.countByValue

rdd1 = sc.parallelize([(1, 1), (1, 1), (3, 4), (2, 1)])
rdd2 = sc.parallelize([1, 2, 2, 3, 3, 3])

# 如为键值对RDD，则以键值对(k-v)分组计数，返回字典
rdd1.countByValue().items()
# {(1, 1): 2, (3, 4): 1, (2, 1): 1}

# 如为单元素RDD，则以值(v)分组计数，返回字典
rdd2.countByValue().items()
# [(1, 1), (2, 2), (3, 3)]

15.cogroup

x = sc.parallelize([("a", 1), ("b", 2), ("a", 3)])
y = sc.parallelize([("a", 4), ("b", 5), ("b", 6)])

# groupWith等价于cogroup(combine group)
# 以key分组合并value，合并后返回迭代器
# 先对两个RDD分别goupByKey，再对合并结果groupByKey
rdd = x.cogroup(y).collect()
[[x, [list(z) for z in y]] for x, y in rdd]
# [['a', [[1, 3], [4]]], ['b', [[2], [5, 6]]]]

16.sortByKey

rdd = sc.parallelize(
    [("python", 1),
     ("python", 2),
     ("pandas", 3),
     ("pandas", 4)])

# 按key排序
rdd.sortByKey().collect()
# [('pandas', 3), ('pandas', 4), ('python', 1), ('python', 2)]

17.sampleByKey

fruit = sc.parallelize(["apple", "banana"])
number = sc.parallelize(range(10))
# cartesian笛卡尔积
rdd = fruit.cartesian(number)
rdd.collect()
'''
[('apple', 0),
 ('apple', 1),
 ('apple', 2),
 ('apple', 3),
 ('apple', 4),
 ('apple', 5),
 ('apple', 6),
 ('apple', 7),
 ('apple', 8),
 ('apple', 9),
 ('banana', 0),
 ('banana', 1),
 ('banana', 2),
 ('banana', 3),
 ('banana', 4),
 ('banana', 5),
 ('banana', 6),
 ('banana', 7),
 ('banana', 8),
 ('banana', 9)]
'''

# 以key分组按比例随机抽样
# withReplacement是否放回抽样
# fractions抽样比例
# seed随机种子
frac = {"apple": 0.3, "banana": 0.5}
rdd.sampleByKey(False, frac, 999).collect()

'''
[('apple', 1),
 ('apple', 4),
 ('apple', 5),
 ('apple', 7),
 ('apple', 8),
 ('banana', 0),
 ('banana', 1),
 ('banana', 2),
 ('banana', 4),
 ('banana', 5),
 ('banana', 8),
 ('banana', 9)]
'''

18.flatMapValues

rdd = sc.parallelize([("a", [1, 2, 3]),
                      ("b", [4, 5, 6])])

# 将value进行扁平化（展平），类似pandas的explode
rdd.flatMapValues(lambda x: x).collect()

# [('a', 1), ('a', 2), ('a', 3), ('b', 4), ('b', 5), ('b', 6)]

19.join

age = sc.parallelize(
    [("jack", 20),
     ("rose", 18),
     ("tony", 20)])
gender = sc.parallelize(
    [("jack", "male"),
     ("rose", "female"),
     ("tom", "male")])

# 按key内连接
age.join(gender).collect()
# [('jack', (20, 'male')), ('rose', (18, 'female'))]

20.leftOuterJoin

# 按key左连接
age.leftOuterJoin(gender).collect()
# [('jack', (20, 'male')), ('tony', (20, None)), ('rose', (18, 'female'))]

21.rightOuterJoin

# 按key右连接
age.rightOuterJoin(gender).collect()

# [('tom', (None, 'male')), ('jack', (20, 'male')), ('rose', (18, 'female'))]

22.fullOuterJoin

# 按key全连接
age.fullOuterJoin(gender).collect()

'''
[('tom', (None, 'male')),
 ('jack', (20, 'male')),
 ('tony', (20, None)),
 ('rose', (18, 'female'))]
'''

5.RDD——分区

import pyspark
from pyspark import SparkContext, SparkConf
import findspark
findspark.init()
conf = SparkConf().setAppName('test').setMaster('local[*]')
sc = SparkContext(conf=conf)

1.glom

rdd = sc.parallelize(range(10), 2)

rdd.collect()
# [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

# 将每个分区的元素转换为列表
rdd.glom().collect()
# [[0, 1, 2, 3, 4], [5, 6, 7, 8, 9]]

2.coalesce

# hive: coalesce空值处理

rdd = sc.parallelize(range(10), 3)
rdd.glom().collect()
# [[0, 1, 2], [3, 4, 5], [6, 7, 8, 9]]

# 重置分区数量
# shuffle=True，增加至指定分区数量
# shuffle=False，减少至指定分区数量
rdd_new = rdd.coalesce(2, shuffle=False)
rdd_new.glom().collect()
# [[0, 1, 2], [3, 4, 5, 6, 7, 8, 9]]

3.repartition

# 单元素RDD重置分区数量
rdd1 = sc.parallelize(range(10), 3)
# 键值对RDD重置分区数量
rdd2 = sc.parallelize(
    [("a", 1),
     ("a", 2),
     ("a", 3),
     ("c", 4)])

# 增加分区数量，实际上调用coalesce(shuffle=True)
# 减少分区数量，实际上调用coalesce(shuffle=False)
rdd1.repartition(4).glom().collect()
# [[6, 7, 8, 9], [3, 4, 5], [], [0, 1, 2]]

# 按key打乱，相同key不一定在同一分区
rdd2.repartition(2).glom().collect()
# [[('a', 1), ('a', 3), ('c', 4)], [('a', 2)]]

4.partitionBy

# 键值对RDD重置分区数量
rdd2 = sc.parallelize(
    [("a", 1),
     ("a", 2),
     ("a", 3),
     ("c", 4)])

# 相同key一定在同一个分区
rdd2.partitionBy(2).glom().collect()
# [[('c', 4)], [('a', 1), ('a', 2), ('a', 3)]]

5.mapPartitions

rdd = sc.parallelize(range(10), 2)

# 对每个分区分别应用一个函数，如求和
# 函数必须使用yield关键字(即生成器), 生成器返回迭代器
def func(x): yield sum(x)
rdd.mapPartitions(func).collect()
# [10, 35]

6.mapPartitionsWithIndex

rdd = sc.parallelize(range(10), 2)

# 对每个分区分别应用一个函数，如求和
# 并且对每个分区添加索引
# 函数必须使用yield关键字(即生成器)
def func(i, x): yield i, sum(x)
rdd.mapPartitionsWithIndex(func).collect()
# [(0, 10), (1, 35)]

7.repartitionAndSortWithinPartitions

rdd = sc.parallelize(
    [(0, 1),
     (3, 2),
     (1, 3),
     (0, 4),
     (3, 5),
     (2, 6)])

# 按指定函数进行重新分区repartition
# 并在每个分区内按key排序SortWithinPartitions
rdd_new = rdd.repartitionAndSortWithinPartitions(
    numPartitions=2,
    partitionFunc=lambda x: x % 2,
    ascending=True)
rdd_new.glom().collect()

# [[(0, 1), (0, 4), (2, 6)], [(1, 3), (3, 2), (3, 5)]]

8.foreachPartition

rdd = sc.parallelize(range(10), 2)
rdd.glom().collect()
# [[0, 1, 2, 3, 4], [5, 6, 7, 8, 9]]

# 对每个分区分别执行一个函数操作
# 先对每个分区求和
# 再对每个分区的执行结果求和
acc = sc.accumulator(value=0)
def func(x): acc.add(sum(x))
rdd.foreachPartition(func)
acc.value
# 45

9.aggregate

aggregate函数

# aggregate(zeroValue, seqOp, combOp)
# zeroValue：必须传递初始值
# seqOp：先对每个分区分别执行一个函数操作
# combOp：再对每个分区的执行结果，执行另一个函数操作

# 求元素之和及元素个数
rdd = sc.parallelize(range(1, 10), 3)
print(rdd.glom().collect())
# 第1个分区的元素：[1, 2, 3]
# 第2个分区的元素：[4, 5, 6]
# 第3个分区的元素：[7, 8, 9]

seqOp = (lambda x, y: (x[0] + y, x[1] + 1))
combOp = (lambda x, y: (x[0] + y[0], x[1] + y[1]))
rdd.aggregate(
    zeroValue=(0, 0),
    seqOp=seqOp,
    combOp=combOp)
# (45, 9)

seqOp执行过程

# seqOp：先对每个分区分别执行一个函数操作
# 第1个分区的元素：[1, 2, 3]
# 第2个分区的元素：[4, 5, 6]
# 第3个分区的元素：[7, 8, 9]
seqOp = (lambda x, y: (x[0] + y, x[1] + 1))
x[0] + y：累计求和；x[1] + 1：累计计数
x等于zeroValue初始值

第1个分区的执行结果：(6, 3)
x=(0, 0), y=[1, 2, 3]
(0+1, 0+1)：x与y的第1个元素
(1+2, 1+1)：上一步结果与y的第2个元素
(3+3, 2+1)：上一步结果与y的第3个元素

第2个分区的执行结果：(15, 3)
x=(0, 0), y=[4, 5, 6]
(0+4, 0+1)：x与y的第1个元素
(4+5, 1+1)：上一步结果与y的第2个元素
(9+6, 2+1)：上一步结果与y的第3个元素

第3个分区的执行结果：(24, 3)
x=(0, 0), y=[7, 8, 9]
(0+7, 0+1)：x与y的第1个元素
(7+8, 1+1)：上一步结果与y的第2个元素
(15+9, 2+1)：上一步结果与y的第3个元素

combOp执行过程

# combOp：再对每个分区的执行结果，执行另一个函数操作
# 第1个分区的执行结果：(6, 3)
# 第2个分区的执行结果：(15, 3)
# 第3个分区的执行结果：(24, 3)
combOp = (lambda x, y: (x[0] + y[0], x[1] + y[1]))
x[0] + y[0]：累计求和，x[1] + y[1]：累计求和
x等于zeroValue初始值

第一步：zeroValue初始值与第1个分区的执行结果相加
x=(0, 0), y=(6, 3)
(0+6, 0+3)

第二步：上一步结果与第2个分区的执行结果相加
x=(6, 3), y=(15, 3)
(6+15, 3+3)

第三步：上一步结果与第3个分区的执行结果相加
x=(21, 6), y=(24, 3)
(21+24, 6+3)

# 最终结果
(45, 9)

rdd = sc.parallelize(range(1, 10), 3)
rdd.glom().collect()
# [[1, 2, 3], [4, 5, 6], [7, 8, 9]]

# 求元素之和及元素个数
# seqOp：先对每个分区分别执行一个函数操作
# combOp：再对每个分区的执行结果，执行另一个函数操作
# zeroValue：必须传递初始值

# x累计求和，y累计计数
seqOp = (lambda x, y: (x[0] + y, x[1] + 1))
combOp = (lambda x, y: (x[0] + y[0], x[1] + y[1]))
# aggregate是动作算子
rdd.aggregate(
    zeroValue=(0, 0),
    seqOp=seqOp,
    combOp=combOp)

# (45, 9)

10.aggregateByKey

rdd = sc.parallelize(
    [("orange", 1),
     ("orange", 2),
     ("banana", 3),
     ("orange", 4),
     ("banana", 5),
     ("banana", 6)], 2)
rdd.glom().collect()

'''
[[('orange', 1), ('orange', 2), ('banana', 3)],
 [('orange', 4), ('banana', 5), ('banana', 6)]]
'''

# seqFunc：先对每个分区按key执行一个函数
# combFunc：再对每个分区的执行结果，按key执行另一个函数
# zeroValue：必须传递初始值
# 按key分组求value的最大值
# 高性能算子，执行效率高
rdd_new = rdd.aggregateByKey(
    zeroValue=0,
    seqFunc=lambda x, y: max(x, y),
    combFunc=lambda x, y: max(x, y))
rdd_new.collect()
# [('orange', 4), ('banana', 6)]

6.RDD——缓存

import pyspark
from pyspark import SparkContext, SparkConf
import findspark
findspark.init()
conf = SparkConf().setAppName('test').setMaster('local[*]')
sc = SparkContext(conf=conf)

1.缓存的好处

# 什么缓存?
# 缓存是一种可以实现内存与CPU之间高速交换数据的存储器
# 工作原理: 当CPU要读取一个数据, 优先从缓存中查找, 找到就立即读取并发给CPU处理

# 如果一个RDD被多个任务调用, 那么可以缓存到内存中, 提高计算效率
# 如果一个RDD后续不再被调用, 那么可以立即释放缓存, 避免资源浪费

2.缓存到内存

rdd = sc.parallelize(range(10000), 5)

rdd.cache()
# PythonRDD[1] at RDD at PythonRDD.scala:53

rdd.getStorageLevel()
# 常见的两种存储级别
# 第1种: 缓存到内存
# 第2种: 缓存到内存和磁盘
# StorageLevel(False, True, False, False, 1)
# 是否使用磁盘, False
# 是否使用内存, True
# 是否使用堆外内存, False
# - java虚拟机概念(jvm)
# - 堆外内存受操作系统管理
# - 堆内内存受jvm管理
# 是否以java反序列化格式存储, False
# - 序列化: 将对象转换为可传输的字节序列的过程
# - 反序列化: 将字节序列还原为对象的过程
# 备份数量, 1

# StorageLevel(False, True, False, False, 1)

rdd_cnt = rdd.count()
rdd_sum = rdd.reduce(lambda x, y: x+y)
rdd_mean = rdd_sum/rdd_cnt

print(rdd_mean)
# 立即释放缓存
rdd.unpersist()

# 4999.5
# PythonRDD[1] at RDD at PythonRDD.scala:53

3.缓存到内存和磁盘

rdd = sc.parallelize(range(10000), 5)

from pyspark.storagelevel import StorageLevel

# 缓存到内存和磁盘中, MEMORY_AND_DISK
# 如果内存存储不了, 其余部分存储至磁盘中
rdd.persist(StorageLevel.MEMORY_AND_DISK)

# 缓存到内存中
# 等价于rdd.cache()
# rdd.persist(StorageLevel.MEMORY_ONLY)

# PythonRDD[3] at RDD at PythonRDD.scala:53

rdd.getStorageLevel()
# StorageLevel(True, True, False, False, 1)

rdd_sum = rdd.reduce(lambda x, y: x+y)
rdd_cnt = rdd.count()
rdd_mean = rdd_sum/rdd_cnt
print(rdd_mean)
# 立即释放缓存
rdd.unpersist()
# 4999.5
# PythonRDD[3] at RDD at PythonRDD.scala:53

7.RDD——共享变量

import pyspark
from pyspark import SparkContext, SparkConf
import findspark
findspark.init()
conf = SparkConf().setAppName('test').setMaster('local[*]')
sc = SparkContext(conf=conf)

1.广播变量

# 设置广播变量, 提高计算效率
rdd = sc.parallelize(range(10))
rdd.collect()
# [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

broad = sc.broadcast(100)
broad.value
# 100

rdd.map(lambda x: x+broad.value).collect()
# [100, 101, 102, 103, 104, 105, 106, 107, 108, 109]

# 立即释放
broad.unpersist()

2.累加器-求和

rdd = sc.parallelize(range(10))
rdd.collect()
# [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

acc = sc.accumulator(0)
rdd.foreach(lambda x: acc.add(x))

acc.value
# 45

3.累加器求均值

rdd = sc.parallelize(range(10000))

# 累计求和
acc_sum = sc.accumulator(0)
# 累计计数
acc_cnt = sc.accumulator(0)


def func(x):
    acc_sum.add(x)
    acc_cnt.add(1)


rdd.foreach(func)
acc_sum.value/acc_cnt.value
# 4999.5

rdd.count()
# 10000

rdd.sum()
# 49995000

rdd.sum() / rdd.count()
# 4999.5

你可能感兴趣的:(数据分析,spark,大数据,hadoop)

2025年全球数据安全发展趋势 jinan886 人工智能大数据安全数据分析
随着云计算、大数据、人工智能等技术的迅猛发展，数据已成为驱动经济社会发展的关键生产要素。然而，数据泄露、网络攻击等安全事件频发，给个人隐私、企业利益乃至国家安全带来了前所未有的挑战。全球数据安全发展趋势正随着技术进步和威胁演变而不断变化，以下是主要趋势：1.数据隐私法规加强GDPR（欧盟《通用数据保护条例）和CCPA（加州消费者隐私法案）等法规推动了全球对数据隐私的重视，更多国家和地区正在制定或更
使用Chaindesk进行简单高效的文档检索 2501_92325368 langchain
##技术背景介绍Chaindesk是一个开源的文档检索平台，它帮助将个人数据与大型语言模型结合起来，实现高效的信息搜索和数据分析。Chaindesk的核心功能是通过创建数据存储库(datastore)并与大型语言模型进行交互，以提供快捷准确的文档检索能力。##核心原理解析Chaindesk通过一种称为Retriever的组件实现数据检索。Retriever可以与不同的数据存储库进行交互，拉取相关文
机器学习在智能仓储中的应用：库存管理与物流优化 Blossom.118 机器学习与人工智能机器学习人工智能深度学习机器人 sklearn tensorflow cnn
最近研学过程中发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的介绍。随着电子商务的蓬勃发展，仓储和物流行业面临着前所未有的挑战和机遇。智能仓储通过整合先进的信息技术，如物联网（IoT）、大数据和机器学习，能够实现从货物入库到出库的全流程
Python 数据分析与机器学习入门 (一)：环境搭建与核心库概览程序员阿超的博客 Python python 数据分析机器学习入门教程环境搭建 Anaconda JupyterNotebook
Python数据分析与机器学习入门(一)：环境搭建与核心库概览本文摘要本文是Python数据分析与机器学习入门系列的第一篇，专为初学者设计。文章首先阐明了Python在数据科学领域的优势，然后手把手指导读者如何使用Anaconda搭建一个无痛、专业的开发环境，并介绍了强大的交互式工具JupyterNotebook的基本操作。最后，简要概览了NumPy、Pandas、Scikit-learn等核心库
Python 数据分析与机器学习入门 (三)：Pandas 数据导入与核心操作程序员阿超的博客 Python python 数据分析机器学习 Pandas DataFrame Series 数据清洗
引言：Pandas是什么，为何如此重要？如果说NumPy是处理原始数值数组的利器，那么Pandas则是驾驭结构化数据的瑞士军刀。在真实世界的数据分析项目中，数据很少是单纯的数字矩阵。它们通常以表格形式存在，包含行和列，每列可能有不同的数据类型（如文本、数字、日期），并且带有描述性的列名和行索引。Pandas正是为高效处理这类数据而生。Pandas构建于NumPy之上，它不仅继承了NumPy的高性能
面经总结系列（十六）：元象科技大模型推理优化工程师 GoAI AI面经总结机器学习算法人工智能大模型机器学习深度学习
‍作者简介：CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。✨公众号：GoAI的学习小屋，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️点击链接加群。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的
大学专业科普 | 云计算、大数据鸭鸭鸭进京赶烤云计算大数据
大数据专业是近年来随着信息技术发展而兴起的热门学科，专注于从海量、多样化的数据中提取有价值信息，为各行业提供数据驱动的决策支持。专业定义大数据专业旨在培养掌握大数据采集、存储、管理、分析和应用等核心技术的人才。该专业融合了计算机科学、数学、统计学、数据科学和领域知识，重点解决大数据环境下的数据处理和分析问题。课程设置大数据专业的课程体系包括基础课程、专业核心课程和实践课程。（一）基础课程基础课程涵
Python批量下载网易云音乐飙升榜所有音乐文件 Python_小屋 graphviz netty gpu ai webgl
Python小屋刷题神器最近升级的新功能介绍推荐教材：《Python程序设计基础与应用》（ISBN：9787111606178），董付国，机械工业出版社，2018.8出版，2021.3第11次印刷作者荣誉：机械工业出版社计算机分社成立20周年本科教材”金牌作者“，机械工业出版社高等教育教材专家咨询委员会委员，机械工业出版社”面向新工科高等院校大数据专业系列教材“编审委员会委员，全国高等院校计算机基
[Python] -基础篇6-Python中的字符串处理技巧合集踏雪无痕老爷子 Python python 开发语言
Python中的字符串类型是非常常用的基础类型。不管是处理文本、数据分析，还是系统管理等场景，都不能离开字符串的操作。本文将分类整理Python字符串的常用技巧和方法，帮助你接地气地接触字符串处理的本质。1.基础操作1.1字符串切片s="Hello,Python!"print(s[0:5])#Helloprint(s[-7:])#Python!1.2字符串连接和处理name="Alice"gree
大数据ETL工具比较：Sqoop vs Flume vs Kafka AI天才研究院 AI人工智能与大数据大数据 etl sqoop ai
大数据ETL工具比较：SqoopvsFlumevsKafka关键词：大数据ETL、Sqoop、Flume、Kafka、数据迁移、日志采集、消息队列摘要：在大数据生态中，ETL（抽取-转换-加载）是数据价值挖掘的关键环节。不同业务场景对数据传输的实时性、可靠性、数据类型有差异化需求，催生了Sqoop、Flume、Kafka等特色鲜明的ETL工具。本文从核心架构、工作原理、性能指标、实战案例四个维度，
分类预测 | MATLAB实现BP神经网络多特征分类预测 matlab科研社分类 matlab 神经网络
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍近年来，随着大数据时代的到来以及计算能力的显著提升，人工智能技术得到了飞速发展。在众多人工智能算法中，反向传播神经网络（BackPropagationNeuralNetwork,BP神经网络）凭借其强大的非
物流数据行业分析（包含完整代码和流程）------python数据分析师项目Anaconda 欲梦yhd 数据分析项目大数据 conda python
一、引言数据分析流程为明确目的、获取数据、数据探索和预处理、分析数据、得出结论、验证结论、结果展现。物流业务中对数据进行深入挖掘和分析的过程，旨在提高运输效率、降低运输成本、提高客户满意度，以及提高公司的竞争力。本案例物流数据分析目的：a、配送服务是否存在问题b、是否存在尚有潜力的销售区域c、商品是否存在质量问题二、详细流程1、数据预处理（数据清洗）（1）数据导入使用panda库读取数据，编码方式
HoloViz Panel项目：跨环境无缝开发指南郁蝶文Yvette
HoloVizPanel项目：跨环境无缝开发指南panelholoviz/panel:Panel是一个开源的数据可视化库，专为Python生态设计，基于HoloViews构建，能够轻松将各种数据科学和数据分析结果转化为交互式仪表板应用。用户可以创建复杂的可视化界面，并与Bokeh、Plotly等其他可视化工具结合使用。项目地址:https://gitcode.com/gh_mirrors/pan/
Python 数据分析与可视化 Day 10 - 数据合并与连接
✅今日目标理解Pandas中数据合并的4种常用方式：concat、merge、join、combine掌握内连接、外连接、左连接、右连接等操作方式掌握按列对齐、按索引对齐的区别为后续数据整合、特征拼接等建模任务做准备一、concat合并（按行/列拼接）df1=pd.DataFrame({"姓名":["张三","李四"],"成绩":[85,90]})df2=pd.DataFrame({"姓名":["
Python 数据分析与可视化 Day 11 - 特征工程基础蓝婷儿 python python 数据分析人工智能
✅今日目标理解特征工程在数据分析和机器学习中的意义掌握常见特征类型的处理方式：数值型、类别型、时间型学习特征提取、转换、标准化、独热编码（One-HotEncoding）等核心操作为后续建模任务做好特征准备工作一、什么是特征工程？特征工程是将原始数据转换为模型可学习的“特征向量”的过程，是机器学习效果好坏的核心因素之一。常见任务包括：缺失值处理（已学）异常值处理（已学）数值归一化、标准化类别变量编
线性代数-第9篇：二次型与正定矩阵：优化问题的数学基础程序员勇哥人工智能(AI)线性代数人工智能大数据 python
线性代数-第9篇：二次型与正定矩阵：优化问题的数学基础在人工智能、量化投资和大数据分析中，优化问题无处不在，比如机器学习的损失函数最小化、量化投资组合的风险最小化等。而二次型与正定矩阵作为线性代数中的重要概念，为解决这些优化问题提供了坚实的数学基础。本篇将深入解析它们的原理及其在实际场景中的关键应用。一、二次型：从向量到函数的桥梁1.定义与表达式二次型是一个关于向量x\mathbf{x}x的二次齐
电商用户行为可视化大屏--大数据项目
一．项目目的1.深入了解服务：用户的浏览路径、购买频率、商品评价等数据，能够精准地刻画用户画像。了解用户的年龄、性别、地域等基本信息，以及他们的兴趣爱好、消费习惯等更深入的特征，从而为个性化的营销和服务提供依据。2.优化用户体验：通过分析用户在页面之间的跳转时间、购物车的使用情况等，找出可能存在的流程不畅或设计不合理的地方。3.提高运营效率：对商品销售数据、库存数据等进行关联分析，有助于合理安排库
《Python 实现 B 站视频信息爬虫：从批量获取到 CSV 保存》维他奶糖61 python 音视频爬虫
B站视频信息爬虫实战：用Python批量获取B站视频数据引言在数据分析和内容研究场景中，获取B站视频的标题、播放量、作者等信息是常见需求。本文将介绍如何使用Python编写一个B站视频爬虫，通过DrissionPage库实现自动化数据采集，并保存为CSV格式。相比传统Selenium，DrissionPage的API更简洁，适合快速开发爬虫脚本。技术栈与环境准备核心库：DrissionPage：基
memcpy与memcpy_toio：深入解析两大数据传输神器 jghhh01 c++c语言
在软件开发中，数据的高效传输是确保程序性能和稳定性的关键。C语言作为一种广泛应用于系统编程和嵌入式开发的语言，提供了多种用于数据复制和传输的函数。其中，memcpy和memcpy_toio是两个备受关注的数据传输函数，它们各自在特定场景下发挥着不可替代的作用。本文将深入解析这两个函数，探讨它们的用途、区别以及在实际应用中的最佳实践。一、memcpy：内存复制的基础工具memcpy是C标准库中的一个
Python商务数据分析——Matplotlib 数据可视化学习笔记爱吃代码的小皇冠 python numpy matplotlib pandas 学习笔记数据分析
一、Matplotlib基础认知1.1库功能与定位核心作用：将数据可视化展示，提升数据直观性与说服力应用场景：绘制折线图、饼图、柱状图等2D/3D图表双接口模式：MATLAB风格：通过pyplot函数快速绘图（自动管理图形对象）面向对象：显式创建Figure和Axes对象（适合复杂绘图）1.2核心对象架构容器类：图(Figure)、坐标系(Axes)、坐标轴(Axis)、刻度(Tick)基础类：线
centos 7+hadoop 2.7.3 mozhw c/c++linu/unix java
安装JDK版本:jdk-8u131-linux-x64.tar.gz需要先删除系统自带的openjdk先查找java再移除[hadoop@localhost~]$rpm-qa|grepjavajava-1.7.0-openjdk-1.7.0.111-2.6.7.8.el7.x86_64python-javapackages-3.4.1-11.el7.noarchtzdata-java-2016g-
Python 数据分析：numpy，抽提，基本索引。听故事学知识点怎么这么容易？好开心啊没烦恼 numpy python 数据分析 numpy 开发语言数据挖掘人工智能机器学习
目录1示例代码2欢迎纠错3免费爬虫------以下关于Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowchart流程图导出与导
Python 数据分析：pandas 的 DataFrame，抽行、抽列、抽行列。df[] / df.loc[] / df.iloc[]，位置索引 / 标签索引，切片 / 不切片好开心啊没烦恼 Python数据分析 python 数据分析 pandas 开发语言数据挖掘
目录1预备知识：Series1.1生成1.2抽提（1）单条（2）多条不连（3）多条连1.3取值2正文：DataFrame2.1生成df2.2抽提2.2.1抽列（1）单列df[]df.loc[]df.iloc[]（2）多列不连df[]df.loc[]df.iloc[]（3）多列连df[]←不存在这种抽提法！df.loc[]df.iloc[]2.2.2抽行（1）单行df[]df.loc[]df.ilo
Python 数据分析：numpy.transpose() ，转换维度。听故事学知识点怎么这么容易？好开心啊没烦恼 numpy numpy python 开发语言数据分析数据挖掘人工智能机器学习
目录1一维数组2二维数组3三维数组4欢迎纠错5免费爬虫------以下关于Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowch
基于django+Spark+大数据+爬虫技术的国漫推荐与可视化平台设计和实现(源码+论文+部署讲解等) 阿勇学长大数据项目实战案例 Java精品毕业设计实例 Python数据可视化项目案例大数据 django spark 国漫推荐与可视化平台毕业设计 Java
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
【有源码】基于爬虫+python的美食数据分析与可视化flask热门美食推荐系统的设计与实现 Q2643365023 Python 大数据 python 爬虫计算机毕设选题毕业设计源码计算机毕设项目数据分析美食推荐系统
注意：该项目只展示部分功能，如需了解，文末咨询即可。本文目录1.开发环境2系统设计2.1设计背景2.2设计内容3系统展示3.1功能展示视频3.2系统页面4更多推荐5部分功能代码1.开发环境开发语言：Python采用技术：flask、爬虫数据库：MySQL开发环境：PyCharm2系统设计2.1设计背景在现代社会中，人们对美食的兴趣和需求日益增长。互联网和社交媒体的普及使得各种美食信息、评论和推荐变
NLP随机插入 Humbunklung 机器学习自然语言处理人工智能 python nlp
文章目录随机插入示例Python代码示例随机插入随机插入是一种文本数据增强方法，其核心思想是在原句中随机选择若干位置，插入与上下文相关的词语，从而生成新的训练样本。这种方法能够增加句子的多样性，提高模型对不同词序和表达方式的鲁棒性。示例原句：机器学习可以提升数据分析的效率。随机插入后（插入“显著”）：机器学习可以显著提升数据分析的效率。Python代码示例下面是一个简单的随机插入实现，假设我们有一
从传统Cube到现代化指标体系：物化视图驱动的指标平台升级之路镜舟科技 StarRocks 物化视图数据架构 OLAP 数据分析数据库湖仓一体
在高并发、高吞吐量的数据分析场景下，简单的事情往往变得不那么简单。一个业务逻辑简单的指标大盘，在日常情况下可能运行良好，但一旦面临大促或年终数据汇总等高峰期，就会出现卡顿甚至崩溃的情况。为什么在这些特定场景下，原本稳定的系统会变得不稳定？这是因为传统的指标大盘解决方案在设计时，往往没有针对高并发、多维度分析和秒级刷新等特殊需求做好充分准备。一、传统数据架构在指标分析场景下的困境1.指标平台的常见诉
机器学习在智能供应链中的应用：需求预测与库存优化 Blossom.118 机器学习与人工智能机器学习人工智能机器人深度学习 python 神经网络 sklearn
在当今全球化的商业环境中，供应链管理的效率和灵活性对于企业的竞争力至关重要。智能供应链通过整合先进的信息技术，如物联网（IoT）、大数据和机器学习，能够实现从原材料采购到产品交付的全流程优化。机器学习技术在智能供应链中的应用尤为突出，尤其是在需求预测和库存优化方面。本文将探讨机器学习在智能供应链中的应用，并分析其带来的机遇和挑战。一、智能供应链中的需求预测准确的需求预测是供应链管理的核心。需求预测
AI驱动的智能电网:平衡供需提高效率 AI智能应用 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
智能电网，AI，机器学习，预测模型，优化算法，供需平衡，能源效率1.背景介绍随着全球能源需求的不断增长和可再生能源的快速发展，传统电网面临着越来越多的挑战。传统的电网结构是集中式供电，难以适应分布式能源的接入和负荷需求的波动性。智能电网应运而生，它利用先进的通信技术、传感器网络和数据分析技术，实现电网的自动化、智能化和可视化，从而提高电网的可靠性、效率和安全性。人工智能（AI）作为一种新兴技术，在
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默