惜于情

大数据应用技术（Spark）中级

一、Spark MLib

1、常见的机器学习流程

2、机器学习的分类

sklearn是机器学习中最常见的一个第三方模块，里边封装了大量特征处理的方法。

3、监督学习的分类

常见的分类算法：朴素贝叶斯模型、K近邻、支持向量机、决策树、逻辑回归（二分类问题）。

常见的回归算法：线性回归、逻辑回归、岭回归、Lasso。

4、无监督学习

常见的聚类算法：K-Means(K均值)聚类、MeanShift、层次聚类。

常见的关联学习规则算法：Apriori、FP-Tree、Eclat算法、灰色关联法。

5、Spark MLlib简介

MLlib是Apache Spark可扩展的机器学习库。

Spark 机器学习库从1.2 版本以后被分为两个包：spark.mllib 包含基于RDD的原始算法API。Spark MLlib 历史比较长，提供的算法实现都是基于原始的 RDD。

spark.ml 则提供了基于DataFrames 高层次的API，可以用来构建机器学习工作流（PipeLine）。ML Pipeline 弥补了原始 MLlib 库的不足，向用户提供了一个基于 DataFrame 的机器学习工作流式 API 套件。

从 Spark 2.0 开始，RDD-based API 已经进入维护模式，不再增加新的功能，并可能在 Spark 3.0 中移除。

6、ML——基于DataFrame的API库

ML API包含三个主要的抽象类：Transformer（转换器），Estimator（预测器）和Pipline（管道）。

转换器是一种算法,可以将一个DataFrame转换成另一个DataFrame。

例：一个特征变换器是输入一个DataFrame，读取一列(比如 text)，将其映射成一个新列(比如，特征向量)，然后输出一个新的包含这个映射列的DataFrame

预测器是一种算法,可以基于DataFrame产生一个转换器，是学习算法或者其他算法的抽象，用来训练数据。

例：一个机器学习算法是一个Estimator模型学习器，比如这个算法是LogisticRegression，调用fit()方法训练出一个LogisticRegressionModel，是一个Model，也是一个Transformer。

管道链接多个转换器和预测器生成一个机器学习工作流。管道被指定为一系列阶段,每个阶段是一个转换器或一个预测器。

上一步骤得到一个文档的模型，用测试数据经过相应处理变成特征向量后输入到模型中，通过预测的准确率来评估一个模型。

7、案例:基于逻辑回归算法的机器学习

# 1.训练数据集（含标签）
training = spark.createDataFrame([
    (0, "a b c d e spark", 1.0),
    (1, "b d", 0.0),
    (2, "spark f g h", 1.0),
    (3, "hadoop mapreduce", 0.0)
], ["id", "text", "label"])

# 2.配置一个pipeline管道，包括转换器和评估器
from pyspark.ml.feature import Tokenizer
from pyspark.ml.feature import HashingTF
from pyspark.ml.classification import LogisticRegression
from pyspark.ml import Pipeline

tokenizer = Tokenizer(inputCol="text", outputCol="words") #分词
hashingTF = HashingTF(inputCol=tokenizer.getOutputCol(), outputCol="features")  #hash分桶及词频率统计
lr = LogisticRegression(maxIter=10, regParam=0.001) #逻辑回归算法
pipeline = Pipeline(stages=[tokenizer, hashingTF, lr])

# 3.用管道训练出模型
model = pipeline.fit(training)

# 4.测试数据（不含label标签）
test = spark.createDataFrame([
    (4, "spark i j k"),
    (5, "l m n"),
    (6, "spark hadoop spark"),
    (7, "apache hadoop")
], ["id", "text"])

# 5.用测试数据来预测
prediction = model.transform(test)

# 6.打印出感兴趣的列
selected = prediction.select("id", "text", "prediction")
for row in selected.collect():
    rid, text, prediction = row
    print("(%d, %s) --> prediction=%f" % (rid, text, prediction))

运行结果：

二、图计算 GraphX

1、图的定义

图(Graph)是由顶点的非空有限集和边的有限集构成的，记作G=其中G表示一个图(Graph)，V表示图G中顶点(vertices)的集合，E表示是图G中边(edges)的集合。

度(degree)：对于无向图，顶点的度是指邻接于该顶点的边的总和

出度(out-degree): 以顶点v为起点的有向边数目

入度(in-degree): 以顶点v为终点的有向边数目

2、Spark GraphX

Spark平台下，面向大规模图计算的组件，通过引入属性图，构建图计算基础模型。使用RDD来存储图数据，并提供了实用的图操作方法。由于RDD的与生俱来的特性，GraphX高效地实现了图的分布式存储和处理，可以应用于社交网络等大规模的图计算场景。

目前Spark GraphX支持Scala和JavaAPI，还不支持PythonAPI。

3、GraphFrames库

4、GraphFrames介绍

GraphFrame 是GraphFrames API的核心抽象编程模型，是图的抽象，逻辑上可看作两部分：顶点DataFrame和边DataFrame。

顶点DataFrame必须包含列名“id”,作为顶点的唯一标识。
边DataFrame必须包含列名为“src”和“dst”，用来保存头和尾的唯一标识id。

我们通过以下例子来进行GraphFrames编程。

顶点：

边:

创建顶点DataFrame

v = sqlContext.createDataFrame([
(“a”, “Alice”, 34),
(“b”, “Bob”, 36),
(“c”, “Charlie”, 30),
(“d”, “David”, 29),
(“e”, “Esther”, 32),
(“f”, “Fanny”, 36)
], [“id”, “name”, “age”])

创建边DataFrame

e = sqlContext.createDataFrame([
(“a”, “e”, “friend”),
(“f”, “b”, “follow”),
(“c”, “e”, “friend”),
(“a”, “b”, “friend”),
(“b”, “c”, “follow”),
(“c”, “b”, “follow”),
(“f”, “c”, “follow”),
(“e”, “f”, “follow”),
(“e”, “d”, “friend”),
(“d”, “a”, “friend”)
], [“src”, “dst”, “relationship”])

根据顶点DataFrame和边DataFrame，创建GraphFrame对象

from graphframes import GraphFrame
g = GraphFrame(v,e)


### 5、GraphFrames基本操作

GraphFrame提供四种视图：顶点表视图、边表视图、三元组（Triplet）视图以及模式（Pattern）视图。四个视图返回类型都是DataFrame。

* 顶点表视图

  ```python
  >>> g.vertices.show()
  +---+-------+---+
  | id|   name|age|
  +---+-------+---+
  |  a|  Alice| 34|
  |  b|    Bob| 36|
  |  c|Charlie| 30|
  |  d|  David| 29|
  |  e| Esther| 32|
  |  f|  Fanny| 36|
  +---+-------+---+

边表视图

>>> g.edges.show()
+---+---+------------+
|src|dst|relationship|
+---+---+------------+
|  a|  e|      friend|
|  f|  b|      follow|
|  c|  e|      friend|
|  a|  b|      friend|
|  b|  c|      follow|
|  c|  b|      follow|
|  f|  c|      follow|
|  e|  f|      follow|
|  e|  d|      friend|
|  d|  a|      friend|
+---+---+------------+

三元组视图

>>> g.triplets.show()
+--------------+------------+--------------+                                    
|           src|        edge|           dst|
+--------------+------------+--------------+
| [e,Esther,32]|[e,f,follow]|  [f,Fanny,36]|
|[c,Charlie,30]|[c,e,friend]| [e,Esther,32]|
|  [a,Alice,34]|[a,e,friend]| [e,Esther,32]|
| [e,Esther,32]|[e,d,friend]|  [d,David,29]|
|  [f,Fanny,36]|[f,c,follow]|[c,Charlie,30]|
|    [b,Bob,36]|[b,c,follow]|[c,Charlie,30]|
|  [f,Fanny,36]|[f,b,follow]|    [b,Bob,36]|
|[c,Charlie,30]|[c,b,follow]|    [b,Bob,36]|
|  [a,Alice,34]|[a,b,friend]|    [b,Bob,36]|
|  [d,David,29]|[d,a,friend]|  [a,Alice,34]|
+--------------+------------+--------------+

模式视图

采用形如“(m)-[e]->(n)”的模式描述有向边

模式中有多条边时，需要用分号（“;”）拼接

>>> motifs = g.find("(m)-[e]->(n); (n)-[e2]->(m)")
>>> motifs.show()
+----------------+--------------+----------------+--------------+
|               m|             e|               n|            e2|
+----------------+--------------+----------------+--------------+
|[c, Charlie, 30]|[c, b, follow]|    [b, Bob, 36]|[b, c, follow]|
|    [b, Bob, 36]|[b, c, follow]|[c, Charlie, 30]|[c, b, follow]|
+----------------+--------------+----------------+--------------+

>>> motifs = g.find("(m)-[e]->(n); (n)-[e2]->(k)")
>>> motifs.show()
+----------------+--------------+----------------+--------------+----------------+
|               m|             e|               n|            e2|               k|
+----------------+--------------+----------------+--------------+----------------+
|[c, Charlie, 30]|[c, e, friend]| [e, Esther, 32]|[e, f, follow]|  [f, Fanny, 36]|
|  [a, Alice, 34]|[a, e, friend]| [e, Esther, 32]|[e, f, follow]|  [f, Fanny, 36]|
|  [f, Fanny, 36]|[f, c, follow]|[c, Charlie, 30]|[c, e, friend]| [e, Esther, 32]|
|    [b, Bob, 36]|[b, c, follow]|[c, Charlie, 30]|[c, e, friend]| [e, Esther, 32]|
.......
+----------------+--------------+----------------+--------------+----------------+

基本操作—顶点的度

>>> g.degrees.show()
+---+------+
| id|degree|
+---+------+
|  f|     3|
|  e|     4|
|  d|     2|
|  c|     4|
|  b|     4|
|  a|     3|
+---+------+

基本操作—入度

>>> g.inDegrees.show()
+---+--------+
| id|inDegree|
+---+--------+
|  f|       1|
|  e|       2|
|  d|       1|
|  c|       2|
|  b|       3|
|  a|       1|
+---+--------+

基本操作—出度

>>> g.outDegrees.show()
+---+---------+
| id|outDegree|
+---+---------+
|  f|        2|
|  e|        2|
|  d|        1|
|  c|        2|
|  b|        1|
|  a|        2|
+---+---------+

基本操作—图保存

>>> g.vertices.write.parquet("/home/test/vertices")
>>> g.edges.write.parquet("/home/test/edges")

基本操作—图加载

>>> v = spark.read.parquet("/home/test/vertices")
>>> e = spark.read.parquet("/home/test/edges")
>>> newGraph=GraphFrame(v, e)

6、GraphFrames实现的算法

广度优先搜索

bfs(fromExpr, toExpr, edgeFilter=None, maxPathLength=10)

参数：fromExpr表示Spark SQL表达式，指定搜索起点

toExpr表示Spark SQL表达式，指定搜索终点

edgeFilter指定搜索过程需要忽略的边，也是Spark SQL表达式

maxPathLength表示路径的最大长度，若搜索结果路径长度超过该值，则算法终止

>>> paths = g.bfs("id = 'a' ","id = 'f' ")
>>> paths.show()
+--------------+--------------+---------------+--------------+--------------+
|          from|            e0|             v1|            e1|            to|
+--------------+--------------+---------------+--------------+--------------+
|[a, Alice, 34]|[a, e, friend]|[e, Esther, 32]|[e, f, follow]|[f, Fanny, 36]|
+--------------+--------------+---------------+--------------+--------------+

最短路径

最短路径算法计算图中的每一个顶点到目标顶点的最短距离

shortestPaths(landmarks)

参数：landmarks表示要计算的目标顶点集

注意：该方法返回的是所有点到目标顶点集的最短路径，返回结果只是距离值，并不会返回完整的路径。

>>>results = g.shortestPaths(landmarks=["a", "d"])
>>>results.show()
+---+-------+---+----------------+
| id|   name|age|       distances|
+---+-------+---+----------------+
|  b|    Bob| 36|[d -> 3, a -> 4]|
|  e| Esther| 32|[d -> 1, a -> 2]|
|  a|  Alice| 34|[a -> 0, d -> 2]|
|  f|  Fanny| 36|[d -> 3, a -> 4]|
|  d|  David| 29|[d -> 0, a -> 1]|
|  c|Charlie| 30|[d -> 2, a -> 3]|
+---+-------+---+----------------+

PageRank算法
- 算法来源
  
  最早的搜索引擎采用的是分类目录的方法，即通过人工进行网页分类并整理出高质量的网站。那时Yahoo 和国内的hao123就是使用的这种方法。
  
  后来网页越来越多，人工分类已经不现实了。搜索引擎进入了文本检索的时代，即计算用户查询关键词与网页内容的相关程度来返回搜索结果。这种方法突破了数量的限制，但是搜索结果不是很好。因为总有某些网页来回地倒腾某些关键词使自己的搜索排名靠前。
  
  谷歌的两位创始人，当时还是美国斯坦福大学 (Stanford University) 研究生的拉里·佩奇(Larry Page) 和谢尔盖·布林 (Sergey Brin) 开始了对网页排序问题的研究。他们的借鉴了学术界评判学术论文重要性的通用方法，那就是看论文的引用次数。由此想到网页的重要性也可以根据这种方法来评价。于是PageRank的核心思想就诞生了，非常简单：
  
  （1）如果一个网页被很多其他网页链接到的话说明这个网页比较重要，也就是PageRank值会相对较高。（2）如果一个PageRank值很高的网页链接到一个其他的网页，那么被链接到的网页的PageRank值会相应地因此而提高。
- 算法原理
  
  假设一个由4个网页组成的群体：A，B，C和D。如果所有页面都只链接至A，那么A的PR（PageRank）值将是B，C及D的Pagerank总和。
  
  [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LU778LOu-1622810063598)(pic\1597211419307.png)]
  
  重新假设B链接到A和C，C只链接到A，并且D链接到全部其他的3个页面。因而B会给A和C每个页面半票，D投出的票只有三分之一算到了A的PageRank上。
  
  对于一个页面A，那么它的PR值为：
  
  （1）PR(A) 是页面A的PR值。
  
  （2）PR(Ti)是页面Ti的PR值，在这里，页面Ti是指向A的所有页面中的某个页面。
  
  （3）C(Ti)是页面Ti的出度，也就是Ti指向其他页面的边的个数。
  
  （4）d为阻尼系数，其意义是，在任意时刻，用户到达某页面后并继续向后浏览的概率。该数值是根据上网者使用浏览器书签的平均频率估算而得，通常d=0.85。
- 算法实例—基于 GraphFrames 的网页排名
```
#定义文件路径变量 filePath，其值为 web-Google 数据集路径
filePath="/home/test/web-Google.txt"

#定义文件的模式（schema），后加载数据集创建边 DataFrame
from pyspark.sql.types import *
schema=StructType([StructField("src",LongType(),True) ,StructField("dst",LongType(),True)])
edgesDF = spark.read.load(filePath,format='csv',schema=schema,delimiter='\t',mode='DROPMALFORMED')
edgesDF.cache()

#分别取出‘src’和‘dst’列，去重后合并为一个 DataFrames
srcDF=edgesDF.select(edgesDF.src).distinct() 
distDF=edgesDF.select(edgesDF.dst).distinct() 
verticesDF=srcDF.union(distDF).distinct().withColumnRenamed('src','id') 
verticesDF.cache()

#两个 DataFrame 准备好之后，可以使用GraphFrame 命令创建一个 GraphFrame
from graphframes import GraphFrame 
graph = GraphFrame(verticesDF,edgesDF)

#使用 PageRank 算法进行网页排名
ranks = graph.pageRank(resetProbability=0.15, maxIter=5)

#展示效果
ranks.vertices.select("id","pagerank").show(5)
+------+------------------+
|    id|          pagerank|
+------+------------------+
|     0|0.9443297702668855|
|552600|0.9507998487484948|
|904600|0.8124074386753581|
|     1|0.8449414153303386|
|247201|0.7162841433044718|
+------+------------------+

#查看每个页面所占的比重
ranks.edges.select("src","dst","weight").show(5)
+-----+------+-------------------+
|  src|   dst|             weight|
+-----+------+-------------------+
|    0| 11342|               0.25|
|    0|824020|               0.25|
|    0|867923|               0.25|
|    0|891835|               0.25|
|    1| 53051|                0.1|
+-----+------+-------------------+ 
```
三角形计数算法

用于确定通过图数据集中每个顶点的三角形数量。当计算三角形个数时，图都被作为无向图处理，平行边仅计算一次，自环则会被忽略；

API：triangleCount()
标签传播算法

最早是针对社区发现问题时提出的一种解决方案。社区是一个模糊的概念，一般来说，社区是指一个子图，其内部顶点间连接紧密，而与其他社区之间连接稀疏，根据各社区顶点有无交集，又可分为非重叠型社区（disjoint communities）和重叠型社区（overlapping communities）；

API：labelPropagation(maxIter)
最短路径

计算图中的每一个顶点到目标顶点的最短距离

API：shortestPaths(landmarks)
广度优先搜索

最常用的图搜索算法之一

API：bfs(fromExpr, toExpr, edgeFilter=None, maxPathLength=10)
连通分量

可用于发现网络中环，经常用于社交网络，发现社交圈子，算法使用顶点 ID 标注图中每个连通体，将连通体中序号最小的顶点的 ID 作为连通体的 ID。

API：.connectedComponents()

三、补充

1、数据预处理的任务包括去除重复数据、处理缺失值、处理离群值和敏感数据的转换等。

2、准备数据任务主要包括数据的采集、数据预处理和数据探索。

3、梯度是一个向量，有方向有大小，求梯度就是对梯度向量的各个元素求偏导t

4、算法复杂度主要包括时间复杂度和空间复杂度

5、线性回归能完成的任务是预测连续值

6、辅导视频重点看7.1，7.2，8.1, 8.2

Python selenium 库 AI老李 python python selenium 开发语言
关键要点PythonSelenium库用于自动化Web浏览器，适合测试和爬虫，中文教程资源丰富。推荐菜鸟教程、CSDN博客和Selenium-Python中文文档，涵盖基础到进阶。学习需注意浏览器驱动匹配和动态加载处理，可能需显式等待。资源推荐以下是适合初学者和中级学习者的中文教程：菜鸟教程：提供全面的Selenium教程，包括安装和示例，详见Selenium教程。Selenium-Python中
Python3 内置函数 AI老李 python python
关键要点Python3的内置函数是解释器直接提供的，无需导入即可使用，涵盖数据类型转换、数学操作、序列处理等多种功能。推荐使用官方文档、菜鸟教程和腾讯云开发者社区的中文资源，适合初学者和中级学习者。资源提供详细解释和示例，学习时可结合实际项目实践。简介Python3的内置函数是编程中常用的工具，方便用户快速实现各种操作。以下是几个主要资源，帮助您学习这些函数的用法。资源推荐Python官方文档：内
Python uWSGI 安装配置 AI老李 python python 开发语言
关键要点uWSGI安装和配置适合PythonWSGI应用，资源丰富，适合初学者和中级用户。推荐菜鸟教程和官方文档，涵盖Linux和Windows环境。配置需注意操作系统差异和框架（如Django、Flask）需求。安装步骤uWSGI安装通常通过pip或源码编译完成。以下是基本步骤：Linux：安装依赖（如build-essentialpython-dev），然后用pipinstalluwsgi或编
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
安全运维的 “五层防护”：构建全方位安全体系 KKKlucifer 安全运维
在数字化运维场景中，异构系统复杂、攻击手段隐蔽等挑战日益突出。保旺达基于“全域纳管-身份认证-行为监测-自动响应-审计溯源”的五层防护架构，融合AI、零信任等技术，构建全链路安全运维体系，以下从技术逻辑与实践落地展开解析：第一层：全域资产纳管——筑牢安全根基挑战云网基础设施包含分布式计算（Hadoop/Spark）、数据流处理（Storm/Flink）等异构组件，通信协议繁杂，传统方案难以全面纳管
CDO 三阶认证”是基于专知智库《首席数据官3.0转型框架》设计的分级能力认证体系，旨在通过“初级-中级-高级”三阶段评估，系统衡量首席数据官（CDO）的能力成熟度，推动其从“基础执行”到“战略引领人形机器人专利池研究中心首席数据官3.0 数据场景架构师数据场景生态首席数据官3.0 数据零件架构师数据场景架构师
“CDO三阶认证”是基于专知智库《首席数据官3.0转型框架》设计的分级能力认证体系，旨在通过“初级-中级-高级”三阶段评估，系统化衡量首席数据官（CDO）的能力成熟度，推动其从“基础执行”到“战略引领”的跃迁。以下从设计逻辑、阶段划分、评估标准、核心价值四方面展开说明：一、设计逻辑：基于“能力-指数”双轨模型的分级认证CDO三阶认证的核心是“能力重塑”与“指数增长”的双轨驱动，紧密贴合白皮书提出的
(七)自动化测试我思故我在6789 测试大神之路测试工具可用性测试
1.简述什么是UI自动化测试？正确回答通过率：78.0%[详情]推荐指数：★★★★试题难度：中级UI自动化测试（UserInterfaceAutomationTesting）是一种通过编写脚本或使用自动化测试工具，对用户界面（UI）进行自动化测试的方法。它可以模拟用户与应用程序或网站的交互，自动化执行用户界面上的操作，如点击按钮、输入文本、选择选项等，并检查应用程序或网站的响应和行为是否符合预期。
Hive 事务表(ACID)问题梳理
文章目录问题描述分析原因什么是事务表概念事务表和普通内部表的区别相关配置事务表的适用场景注意事项设计原理与实现文件管理格式参考博客问题描述工作中需要使用pyspark读取Hive中的数据，但是发现可以获取metastore，外部表的数据可以读取，内部表数据有些表报错信息是：AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveExcept
FileZilla二次开发实战指南：C++架构解析与界面功能扩展 109702008 编程网络开发语言人工智能网络
摘要：本文深入剖析开源FTP工具FileZilla的核心架构，解析其C++/wxWidgets技术栈，并手把手教你如何添加自定义界面功能。适合中级C++开发者进阶学习。一、FileZilla的技术底座：为什么选择C++？核心语言客户端/服务端均采用C++开发，保障跨平台（Windows/Linux/macOS）性能关键模块：网络引擎：FTP/FTPS/SFTP协议栈文件传输：异步I/O处理线程调度
原生cesium 实现多图例展示+点聚合(base64图标)
个人简介：某大型测绘遥感企业资深Webgis开发工程师，软件设计师(中级)、CSDN优质创作者作者：柳晓黑胡椒❣️专栏：cesium实践(原生)若有帮助，还请关注➕点赞➕收藏，不行的话我再努努力需求背景解决思路解决效果index.vue需求背景1.需要展示多个站点图例的图表及闪烁效果2.需要考虑层级高时，多图例的点聚合效果，且点聚合显示需要采用设计的圆形图标解决思路闪烁效果：采用css3的anim
云原生--微服务、CICD、SaaS、PaaS、IaaS 青秋. 云原生 docker 云原生微服务 kubernetes serverless service_mesh ci/cd
往期推荐浅学React和JSX-CSDN博客一文搞懂大数据流式计算引擎Flink【万字详解，史上最全】-CSDN博客一文入门大数据准流式计算引擎Spark【万字详解，全网最新】_大数据spark-CSDN博客目录1.云原生概念和特点2.常见云模式3.云对外提供服务的架构模式3.1IaaS（Infrastructure-as-a-Service）3.2PaaS（Platform-as-a-Servi
Spark运行架构 EmoGP Spark spark 架构大数据
Spark框架的核心是一个计算引擎，整体来说，它采用了标准master-slave的结构如下图所示，它展示了一个Spark执行时的基本结构，图形中的Driver表示master，负责管理整个集群中的作业任务调度，图形中的Executor则是slave，负责实际执行任务。由上图可以看出，对于Spark框架有两个核心组件：DriverSpark驱动器节点，用于执行Spark任务中的main方法，负
Spark 各种配置项 zhixingheyi_tian 大数据 spark Spark Conf spark jvm java
/bin/spark-shell--masteryarn--deploy-modeclient/bin/spark-shell--masteryarn--deploy-modeclusterTherearetwodeploymodesthatcanbeusedtolaunchSparkapplicationsonYARN.Inclustermode,theSparkdriverrunsinside
Spark RDD 及性能调优 Aurora_NeAr spark wpf c#
RDDProgrammingRDD核心架构与特性分区（Partitions）：数据被切分为多个分区；每个分区在集群节点上独立处理；分区是并行计算的基本单位。计算函数（ComputeFunction）：每个分区应用相同的转换函数；惰性执行机制。依赖关系（Dependencies）窄依赖：1个父分区→1个子分区（map、filter）。宽依赖：1个父分区→多个子分区（groupByKey、join）。
Apache Iceberg数据湖基础 Aurora_NeAr apache
IntroducingApacheIceberg数据湖的演进与挑战传统数据湖（Hive表格式）的缺陷：分区锁定：查询必须显式指定分区字段（如WHEREdt='2025-07-01'）。无原子性：并发写入导致数据覆盖或部分可见。低效元数据：LIST操作扫描全部分区目录（云存储成本高）。Iceberg的革新目标：解耦计算引擎与存储格式（支持Spark/Flink/Trino等）；提供ACID事务、模式
大数据技术之Flink
第1章Flink概述1.1Flink是什么1.2Flink特点1.3FlinkvsSparkStreaming表Flink和Streaming对比FlinkStreaming计算模型流计算微批处理时间语义事件时间、处理时间处理时间窗口多、灵活少、不灵活（窗口必须是批次的整数倍）状态有没有流式SQL有没有1.4Flink的应用场景1.5Flink分层API第2章Flink快速上手2.1创建项目在准备
Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
TypeScript-webpack 難釋懷 typescript webpack javascript
一、前言随着前端工程化的不断演进，使用TypeScript编写更加健壮、可维护的代码已成为主流趋势。而Webpack则是目前最流行的模块打包工具之一，它可以帮助我们将多个模块、资源文件进行打包压缩，适用于大型项目开发。本文将带你一步步搭建一个基于TypeScript+Webpack的开发环境，涵盖基础配置、编译流程、开发服务器设置等内容，适合初学者和中级开发者学习参考。二、什么是TypeScrip
大数据分析技术的学习路径，不是绝对的，仅供参考水云桐程序员学习大数据数据分析学习方法
阶段一：基础筑基（1-3个月）1.编程语言：Python：掌握基础语法、数据结构、流程控制、函数、面向对象编程、常用库（NumPy,Pandas）。SQL：精通SELECT语句（过滤、排序、分组、聚合、连接）、DDL/DML基础。理解关系型数据库概念（表、主键、外键、索引）。MySQL或PostgreSQL是很好的起点。Java/Scala：深入理解Hadoop/Spark等框架会更有优势。初学者
大数据开发高频面试题：Spark与MapReduce解析
被招网约司机的盯上了好几天实习了六个月，到期被通知不能转正。外包裁员让我去友商我该去吗？offer比较华为状态码浏览器插件嵌入式项目推荐2019秋招总结+云从语音算法面经+银行群面面经科大讯飞语音算法面经语音算法美团一面已挂科大讯飞智能语音方向值得去吗？语音算法oc科大讯飞语音算法二面荣耀一面语音算法面经，已挂荣耀_语音算法工程一面科大讯飞语音一面凉经8.18携程机器学习（语音方向）一面【vivo
spark处理kafka的用户行为数据写入hive 月光一族吖 spark kafka hive
在CentOS上部署Hadoop（Hadoop3.4.1）和Hive（Hive3.1.2）的详细步骤说明。这份指南面向单机安装（伪集群模式），如果需要搭建真正的多节点集群，各节点间的网络互访、SSH免密登录以及配置同步需进一步调整。注意：本指南假设你已拥有root权限或者具有sudo权限，并且系统连接Internet（用于下载安装包）。步骤中的版本号可根据实际需要进行更改。一、环境准备更新系统软件
跟我学C++中级篇—重载重写覆盖和隐藏 fpcc C++11 C++c++
一、函数的处理对于不少的开发者来说，函数在开发过程中是一个必须深入掌握的知识点。函数，看起来不难，应用起来也不难。但想要把函数用到灵活自如却不是一个简单的事情。在C++编程中，函数的应用其实相当复杂，就一个函数指针便可以让开发者头疼无比，更不要提其它的用法了。本文针对函数的升级用法进行一下分析说明，重点分析一下重载、重写、覆盖和隐藏这几个常见的用法，并对其功能、特点进行整体的对比，让大家能够有一个
Java面试题木鱼时刻软件开发 java 开发语言
说明本文档是Java技术面试问题与答案集合，涵盖Java基础知识、集合框架、并发编程、Spring框架、数据库、消息队列、系统设计等核心技术领域。模板使用指南难度分级：L1：低难度，适合初级开发者，基础概念和原理L2：中难度，适合中级开发者，实际问题解决和系统设计L3：高难度，适合高级开发者，复杂系统架构和深度技术挑战问题结构：每个问题按「类别-序号-具体问题」格式组织使用Markdown链接连接
Spark 4.0的VariantType 类型以及内部存储鸿乃江边鸟大数据 SQL spark spark sql 大数据
背景本文基于Spark4.0总结Spark中的VariantType类型，用尽量少的字节来存储Json的格式化数据分析这里主要介绍Variant的存储，我们从VariantBuilder.buildJson方法(把对应的json数据存储为VariantType类型)开始：publicstaticVariantparseJson(JsonParserparser,booleanallowDuplic
如何学习才能更好地理解人工智能工程技术专业和其他信息技术专业的关联性？人工智能教学实践 python编程实践人工智能学习人工智能
要深入理解人工智能工程技术专业与其他信息技术专业的关联性，需要跳出单一专业的学习框架，通过“理论筑基-实践串联-跨学科整合”的路径构建系统性认知。以下是分阶段、可落地的学习方法：一、建立“专业关联”的理论认知框架绘制知识关联图谱操作方法：用XMind或Notion绘制思维导图，以AI为中心，辐射关联专业的核心技术节点。例如：AI（机器学习）├─数据支撑：大数据技术（Hadoop/Spark）+数据
架构师面试题木鱼时刻软件开发架构
说明难度分级：L1：低难度，适合初级开发者，基础概念和原理L2：中难度，适合中级开发者，实际问题解决和系统设计L3：高难度，适合高级开发者，复杂系统架构和深度技术挑战问题结构：每个问题按「类别-序号-具体问题」格式组织使用Markdown链接连接到对应答案每个问题前标注难度等级答案结构：每个答案按「类别-序号」格式组织，与问题对应使用Markdown标题和代码块格式化答案内容采用结构化的要点列表呈
Spark从入门到熟悉（篇二）
本文介绍Spark的RDD编程，并进行实战演练，加强对编程的理解，实现快速入手知识脉络包含如下8部分内容：创建RDD常用Action操作常用Transformation操作针对PairRDD的常用操作缓存操作共享变量分区操作编程实战创建RDD实现方式有如下两种方式实现：textFile加载本地或者集群文件系统中的数据用parallelize方法将Driver中的数据结构并行化成RDD示例"""te
Kafka生态整合深度解析：构建现代化数据架构的核心枢纽
Kafka生态整合深度解析：构建现代化数据架构的核心枢纽导语：在当今数据驱动的时代，ApacheKafka已经成为企业级数据架构的核心组件。本文将深入探讨Kafka与主流技术栈的整合方案，帮助架构师和开发者构建高效、可扩展的现代化数据处理平台。文章目录Kafka生态整合深度解析：构建现代化数据架构的核心枢纽一、Kafka与流处理引擎的深度集成1.1Kafka+ApacheSpark：批流一体化处理
Spark on Docker：容器化大数据开发环境搭建指南 AI天才研究院 ChatGPT 实战 ChatGPT AI大模型应用入门实战与进阶大数据 spark docker ai
SparkonDocker：容器化大数据开发环境搭建指南关键词：Spark、Docker、容器化、大数据开发、分布式计算、开发环境搭建、容器编排摘要：本文系统讲解如何通过Docker实现Spark开发环境的容器化部署，涵盖从基础概念到实战部署的完整流程。首先分析Spark分布式计算框架与Docker容器技术的核心原理及融合优势，接着详细演示单节点开发环境和多节点集群环境的搭建步骤，包括Docker
SeaTunnel 社区月报（5-6 月）：全新功能上线、Bug 大扫除、Merge 之星是谁？ SeaTunnel bug SeaTunnel 开源数据集成大数据
在5月和6月，SeaTunnel社区迎来了一轮密集更新：2.3.11正式发布，新增对Databend、Elasticsearch向量、HTTP批量写入、ClickHouse多表写入等多个连接器能力，全面提升了数据同步灵活性。同时，近100个修复与优化PR合入，涵盖Spark引擎并行性修复、Paimon精度兼容性增强、Mongo-CDCExactlyOnce默认值优化、OracleDDL类型支持补全
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情