MYJace

Big Data Management笔记02：MapReduce &Spark

Big Data Management笔记02：MapReduce & Spark

MapReduce
- MapReduce in Hadoop
- - Shuffle
Spark
- Spark Architecture
- Resilient Distributed Dataset (RDD)
- - Create RDDs
  - RDD operations
  - - Transformations
    - Actions
- Lineage
- DAG（有向无环图）
- Lineage vs DAG in Spark
- Shuffle
- - Hash Shuffle
  - Sort Shuffle
- Spark Efficiency
MapReduce vs Spark

在前一节中，我们已经了解了Hadoop如何存储数据。这一节开始，我们把目光放到如何处理数据上，我们将着重介绍Hadoop中的计算框架：MapReduce和从MapReduce发展而来的Spark。

在具体介绍它们之前，我们先来看一看，我们为什么需要这两者来帮助我们处理数据。这其实是一个很简单的问题，我们先来看一看传统的数据处理方式：

可以很直观地看到，传统的数据处理方式的核心思想是“数据向计算靠拢”，需要把数据拉取到计算节点进行计算。但当我们在处理大数据问题时，显然这种方式是不合适的。我们在之前介绍HDFS时已经说过，所有的数据都被划分为Blocks存储于不同的DataNode中，若我们拉取这些数据，会产生很大的开销，而且这对于计算节点的压力也会很大。所以，既然我们在HDFS中已经把数据分布存储在众多DataNode之中，而且这些DataNode除了硬盘资源被使用（用于存储数据）以外，CPU和内存资源都很空闲。那么，我们为什么不把这些空闲资源也调用起来的呢？

正是这种“物尽其用”的想法，使得MapReduce诞生了。

MapReduce

我们首先要明确，MapReduce的核心思想为“计算向数据靠拢”。

以Hadoop的Master-Slave结构来看，就是将任务进行分割，分为很多小的子任务，把这些子任务发布给各SlaveNode（DataNode）去完成，最后将它们完成的结果整合起来即可。（DataNode各自处理自己存储的Blocks，不管其他Node）

当然，想要实现这种方式，必然有一些问题需要解决，比如：

Data relibility：如果某个DataNode失效或者丢失了一部分blocks
Equal split of data：我们希望每个DataNode处理的数据量比较均衡，不会出现某个DataNode过载的情况
Delay of worker：如果某个DataNode（尤其是比较重要的DataNode）的工作延迟了，很可能导致整个任务被延迟
Failure of worker
Aggregation the result：关乎我们如何整合每个DataNode完成的结果，并生成一个总体结果

...

MapReduce为我们很好地解决了以上所有问题。MapReduce是一款开源的编程框架，它

让我们能够在分布存储的大数据集上进行并行和分布式处理
且无需担心诸如DataRelibility之类的所有问题
为我们提供了逻辑编程的灵活性，而无需担心具体的实现细节

键值对（Key-value pair）是MapReduce中最基础的数据结构，这里的键和值可能是整数、浮点数、字符串等任意的数据结构。

MapReduce的主要组成部分就是Map和Reduce：

Map：
- 将小数据及进一步解析为一批键值对 ()，输入Map函数进行处理
- 每一个输入键值对 () 会生成一批键值对。而这一批键值对就是计算的中间结果 (intermediate outputs)
Reduce：
- 从多个Maps接受中间结果 k, list(value_k)>。（list(values)表示是一批同属于key_k的value）
- 将这些中间结果整合为最终的输出，最终结果会被返回到HDFS

MapReduce in Hadoop

数据（data）以blocks的形式存储于HDFS。Hadoop MapReduce把输入（input）划分为固定尺寸的输入分片（input splits），并为每一个分片（split）创建一个map任务。map任务对分片（split）中的每一条record运行用户定义的map函数。通常分片（split）的尺寸即为HDFS block的尺寸。
这很好理解，因为如果分片（split）的尺寸大于block的尺寸，那么就不可能把一个split完整存放于一个DataNode，这样当前DataNode在几你选哪个运算时，还将需要从另一个DataNode获取数据。

Map Tasks（Mappers） 会把输出写入local disk，即存储着block的Data Node的disk。注意，Map并不会把输出写入HDFS！！

Map的输出即为中间结果（intermediate result）
一旦任务完成，Map的输出即可被丢弃
如果进行Map Task的节点失效了，Hadoop会自动在拥有同样blocks的节点上重新进行Map Task

Reduce Taks （Reducers）：

通常每个Reduce Task的输入是所有Mappers的输出
Reduce的输出会保存在HDFS（如果是迭代操作，那么每一次迭代的输出都会被存入HDFS）
Reduce Tasks的数量不取决于输入（input）的尺寸，而是由用户指定的

MapReduce Dataflow

当有多个Reducers时，Map Tasks会将他们的输出进行划分：

每一个Reduce Task都有一个Partition
需要确保每一个Key的所有记录都在一个Partition内。比如第一个Map Task的输出为 1, v₁>, 1, v₂>, 2, v₃>，那么前两个record就必须在一个partition内，第三个record在另一个partition内（这是因为Reducers之间不会进行数据交换）
具体划分的方式可由用户定义的函数决定

Shuffle

之前我们只关注了Map和Reduce，但实际上，在Map到Reduce的中间还有一个过程，就是Shuffle，我们刚刚说到的Partitioning就是Shuffle的一部分。

Shuffle本质上是一个数据再分配的过程（data redistribution）

用以确保每个reducer获得与同一个键（key）关联的所有值
所有需要分组（grouping）的操作都需要它，比如word count, 计算每个部门的平均分等类似的操作

Hadoop中的Shuffle操作使用了Shuffle and Sort机制。每一个Mapper在完成计算后，结果都会在Buffer中以Key值进行排序，这样就不需要等到所有Mappers完成计算之后再发送结果，Reducers也可以在所有Mappers结束工作之前就开始工作。

有时，也会使用Combiner来减少要进行Shuffle的数据量，即在每一个partition中，将相同键（key）的键值对组合起来。是否使用以及如何使用Combiner完全取决于用户设计。

下图是以 Word Count为例的具体流程：

如果我们在此过程中使用Combiner，以DataNode2为例，那么Mapping结果为和，所以Shuffling中的Partition2为和

Spark

尽管MapReduce已经很强大，但是它仍然存在一些问题

MapReduce是一种优秀的one-pass计算方式，但它很难嵌套多种操作，表达能力有限（只有Map和Reduce）
MapReduce无法进行迭代操作
无法进行实时性更强的的流处理 (stream processing)
所有从硬盘 (disk) 上读取的数据，最后都要存回 (disk)。这就是我们之前提到的MapReduce的最终结果仍要返回HDFS，而且上一篇博客已经说过，HDFS每次存储数据都要建立3个副本，这会造成空间和时间的浪费

用两个例子看一下：

第一个例子是一个典型的ML任务。每一次迭代中，我们都需要从HDFS进行读写操作，而且很多时候，ML不仅需要从HDFS读取上一次迭代的结果，还需要再次从input读取数据。
第二个例子是对查询 (query) 的处理。对于每一次查询都需要从HDFS进行读取。
以上两个列子可以让我们得出一个结论：因为HDFS的副本 (replications) 创建操作，IO读取 (效率远低于Memory读取)以及序列化操作 (serialization)，MapReduce的效率会变得很低。而这些问题都源于MapReduce最大的一个弊端：缺少有效的数据共享 (data sharing)。

正因为MapReduce的这些问题，Spark诞生了。Spark是一款用于实时处理的开源集群计算框架。(an open-source cluster computing framework for real-time processing)。Spark提供了一个接口，用于使用隐式数据并行性 (implicit data parallelism) 和容错性 (faulte tolerance) 对整个集群进行编程。它建立在MapReduce之上，并支持更多样的计算。

Spark如今已形成一套完整的生态体系：

Spark Architecture

和Hadoop“一贯”的Master/Slave结构类似，Spark的结构主要有3个部分：

MasterNode
- 该节点负责集群 (cluster) 中的作业执行 (job execution)
- Driver program运行于MasterNode，该程序用以驱动应用。我们所编写的代码就是Driver program
- Driver program做的第一件事就是建立SparkContext （类似于DB中的connection，所有的command的执行都要通过这里）
ClusterManager
- 跨应用程序分配资源（与SparkContext协同工作）
- 分割任务并分配给WorkerNodes
WorkerNode
- 执行任务（work on partitions of RDDS in the WorkerNode）
- 最后将结果返回给SparkContext

作业（Job）指的是一系列的Transformations紧接着一个Action，只有Action会触发真正的执行（execution），比如Lazy Evaluation。具体的表现为，在运行Spark代码时，只要是Action以外的代码运行的都很快，但是当执行Action时，会花费一些时间去完成作业。这里给一个简单的例子，可以运行一下进行感受（推荐使用Jupyter Notebook）：

from pyspark import SparkContext, SparkConf

# Initialise SparkContext and SparkConf
conf = SparkConf().setMaster("local").setAppName("week_4")
sc = SparkContext(conf=conf)

data = ["This is sentence one", "This is sentence two", "This is another sentence", "And this is the forth sentence"]

rdd = sc.parallelize(data, 2)

def pre_processing(sent):
    words = sent.lower().split()
    res = []
    for word in words:
        res.append((word, 1))
    
    return res


pre_processing("This is sentence one")

rdd_1 = rdd.flatMap(pre_processing)

# Here take Action
rdd_1.collect()

Resilient Distributed Dataset (RDD)

RDD是Spark中数据所在的地方，同时他也是Spark的基本数据结构：

Dataset: 元素的集合 (a collection of elements)。这里的元素指代各种类型的数据，比如数字、txt、字典等。
Distributed: RDD中的数据会被分为很多分片 (chunks) 然后被分发给不同的工作节点，因此可以惊醒并行计算 (the data in an RDD can be splitted into chunks, then these chunks can be logically partioned across many severs. So user can do computation or other operations on different nodes of cluster. )
Redilient: RDD具有容错性 (fault tolerance)，这种容错性得益于RDD Lineage/DAG，因此可以在节点失效时，重新计算遗失或是损坏的partitions

RDD具有以下特征：

In memory computation：RDD会把计算的中间结果存储在不同机器的内存 (memory) 中，而不是像MapReduce一样存储于硬盘中 (disk/hard driver)，读写的速度会大大提高
Partitioning：是RDD并行性的基础，每一个partition是data的一个逻辑划分 (logic division)。人为划分时要尽可能保证均衡划分，这样会使得对不同workers分发的chunks更均衡
Fault tolerance
Immutability (不变形)：The data on RDD is unable to be changed once it is created. Data is safe although we share them across different processors. Reach consistency in computation.
Persistence：User can state which RDD they will reuse and choose a store strategy for this specific RDD (On memory/disk). 默认情况下，Spark将RDD存于内存 (memory)。但有两种例外，一种是memory空间不足，第二是用户请求将RDD存于disk
Coarse-grained operations：与Fine-grained operations相对。Fine-grained指的是操作 (operations) 可只对数据集中的一部分数据进行，所以，与之相对的Coarse-grained意味着操作会对数据集中的所有元素进行。RDD中的写操作 (writer) 是Coarse-grained，读操作 (read) 可能是Coarse-grained或是Fine-grained。 Coarse-grained的优点在于，它会让RDD更容易保证容错性，因为之前的操作是对所有的数据进行的，所以RDD Lineage可以知道所有之前的RDDs是怎样的，以及怎样的操作可以产生现在的RDDs，这样更易进行数据恢复。
Location-stickness：RDD可以为特定的计算定义首选位置，即把RDD chunks分配到哪里。让任务尽可能靠近数据。

Create RDDs

有两种方式：

并行化driver program中的现有集合
- 通常，Spark会根据集群 (cluster) 的数量自动设置partitions的数量
引用外部存储系统中的数据集
- 比如HDFS, HBase等任何可以提供Hadoop输入格式 (Input format) 的数据源
- 默认情况下，Spark会为文件的每一个block创建一个partition

RDD operations

类似于在MapReduce中，我们只有两个操作，分别是Map和Reduce表达能力有限。RDD中我们对Map和Reduce进行扩充，也就得到了Transformation（典型就是Map）和Actions（典型是Reduce）

Transformations

Transformations就是一些函数 (functions)，这些函数接受一个RDD作为输入（input），产生一个或多个RDDs作为输出（output）

Transformations可以进一步分为两类：

Narrow Transformation
- 不会进行Data Shuffling。这就意味着在同一个partition中的数据，在进行Transformation之后仍会在同一个partition之中，而在不同partition中的data也仍会在不同的partition中
- 典型的Function有：map,flatmap, filter, sample
Wide Transformation
- 会进行Data Shuffling。同一个partition中的数据在transformation之后可能会在不同的partition中
- 典型的Function有：sortByKey, reduceBykey, groupByKey, join （大部分的函数都需要使用Key）

需要格外注意的是，所有的Transformation操作，它们都不会改变输入的RDD，同时它们会输出新的RDD，所以在进行编程时，需要把Transformatin的结果存储进一个新的RDD 另外值得一提的是，Transformation遵循Lazy Evaluation原则，这意味着Evaluation不会启动，直到一个Action被触发

Actions

以RDD作为输入，输出非RDD值。我们可以看做Actions返回一系列RDD Transfomantions的结果。最后的结果会返回给DriverProgram或者一个指定的外部存储 (External Storage)。重申一遍，这里的结果不一定是数字、列表、字符，可能是各种形式，但不会RDD Action操作包含了以下几种：collect, take, reduce, for each, count, save…

这里给出一些Transformations和Actions的简单例子，推荐使用Jupyter Notebook运行

from pyspark import SparkContext, SparkConf

# Initialise a SparkContext fitstly
conf = SparkConf().setMaster("local").setAppName("Example")
# Initialise 1 SparkContext with 1 configure file (If we use the same configure file to initialise another SparkText, error will occur)
sc = SparkContext(conf=conf)
# sc_2 = SparkContext(conf=conf)

data = range(1, 100)

# Create RDD by parallelize data (we can specify the number pf partitions)
rdd = sc.parallelize(data, 5)

# Using glom to view data from different partitions 
rdd.glom().collect()

# Create another RDD from a txt file on the disk
rdd_1 = sc.textFile("example.txt")

# The result is a list of strings, each element corresponging to 1 line in a text file
rdd_1.collect()

""" Narrow Transformation """
# Functionality of 'map': return a new RDD by applying a function to each element in the input RDD 
rdd_map = rdd_1.map(lambda x: (x, 1))
# rdd_map.collect()
rdd_map.take(4)

# Functionality of 'flat_map': flatten the array and then appply a function to each element
text = ['word count', 'word word count']
rdd_2 = sc.parallelize(text)
rdd_2.collect()

rdd_2.map(lambda x: x.split()).collect()

rdd_flatmap = rdd_2.flatMap(lambda x: x.split())
rdd_flatmap.collect()

# Functionality of 'filter': Only keep elements that satisfy the function we define
rdd_filter = rdd_flatmap.filter(lambda x: x != 'count')
rdd_filter.collect()

""" Wide Transformation """
# Fucntionality of 'reduceByKey': merge values for each key using the reduce function
rdd_reducebykey = rdd_map.reduceByKey(lambda x, y: x + y)
rdd_reducebykey.collect()

# Functionality of 'sortByKey'
rdd_flatmap.sortByKey().collect()

# Functionality of 'groupByKey': group values for each key into a single sequence
# rdd_map.groupByKey().collect()# If we use collect() directly, then we will see encoded result
for i in rdd_map.groupByKey().collect():
    print(i[0], [v for v in i[1]])

# We can use several ways to pass function we need to these Transformations
def func(x, y):
    return x + y

rdd_reducebykey = rdd_map.reduceByKey(func)
rdd_reducebykey.collect()

""" Actions """
# We have seen collect() and take() before
rdd.reduce(lambda x, y: x + y)

rdd.count()

这里我单独用一篇博客来介绍另外一些Spark中比较常见的Transformations Tips：Transformation Tips

Lineage

Transformations以RDD为输入，并输出新的RDD。所以RDD所有的可能来源有：Transformation的结果，从DriverProgram中已存的数据集进行并行化（parallelize）得来，从一个外部数据库得来。所以我们希望知道这些RDD之间的关系。

RDD Lineage是一幅有向图 (directed graph)，记录了一个RDD的所有“祖先”RDD。也被称为 RDD Operator Graph（RDD算子图）/RDD Dependency Graph（RDD关系图）。在Lineage中：

点（Node）表示RDDs
边（Edge）表示RDDs之间的依赖关系

我们看一个具体的例子：

我们可以用r5.toDebugString()来查看r5的Lineage图

RDD Lineage存在的最主要的一个原因是为了保证RDD的容错性 (Fault Tolerance)：如果RDD是由具有容错性的数据生成的，那么RDD也会具备容错性。
我们之前已经提到过，在Spark中RDD会被分为许多partitions，之后分发给各节点（Node）进行工作。所以一旦有某个节点失效了，那么这部分RDD数据（即partions）就遗失了。这个时候Cluster Manager会发现该点失效，同时分配一个新的节点来继续操作。这个新的节点会被告知去在RDD的某个特定的partition上进行操作同时也会被告知Lineage图。比如 A -> B -> C ，C丢失，那么，新的节点就可以根据Lineage图，重新计算出遗失的partition C。

顺便一提， MeSOS用于Driver Node Failure

DAG（有向无环图）

在DAG中：

点（Node）表示RDDs
边（Edge）表示对RDD进行的操作

DAG与Lazy Evaluation密切相关，这意味着，在进行一系列Transformations的过程中，DAG都不会被创建，直到Actions被调用。一旦DAG被创建，它会被提交给DAG Scheduler，之后DAG Scheduler会进一步将图分解为任务阶段 (stages of task)。任务阶段会被传达给Task Scheduler，Task Scheduler会通过cluster manager发起任务。

现在具体解释一下stage是什么：

stages是根据Transformations建立的
- Narrow Transformation 会被归纳为一个stage
- Wide Transformation 定义了2个stages的边界
DAG Scheduler会把stages提交给Task Scheduler
- Task的数量取决于partitions的数量
- 不相互依赖的stages（比如两个stages之间没有数据流通）可以提交给集群以并行执行

由于DAG提供具体操作的之间的关系，所以我们可以把它们进一步分为stages，进一步进行并行操作以及操作顺序调整以进行全局优化（Global Optimization）

Lineage vs DAG in Spark

都是有向无环图
终点（End Point）不同：DAG的终点通常是Action，Lineage的终点是一个RDD。同时每一个RDD都会有一个自己的Lineage，但是DAG是针对全局的，只会有一个
在Spark中，它们扮演的角色不同。DAG把整个工作流程划分为多个stages，并传递给task scheduler，为了进行lazy evaluation；Lineage是针对每个RDD，为了保证容错性

只有一种情况Lineage = DAG，那就是该Spark项目只建立一个RDD，而且它是最后一个步骤。

Shuffle

Spark和Hadoop中的Suffle有着明显的区别。

Spark中的Shuffle由某些操作触发，比如：distinct, join, repartition以及所有 *By 和 *ByKey 操作。在Hadoop中，由Reducer触发。
发生于阶段 (Stages) 之间，因此，只要有一个新的阶段 (Stage) 就会有一次Shuffle
Spark中的Shuffle主要有两种实现方式：基于Hash和基于Sort

Hash Shuffle

最大优势在于Hashing的速度远高于Sorting。如果你还记得，Shuffle的目的在于根据键值（key）来给Record分组，传统的Shuffle方式就是基于Sorting，而根据Sorting（O(nlogn)）和Hashing（O(n)）的时间复杂度，我们可以很轻易地得出结论，Hashing更高效。这是源于Hashing的特征，如果两个key，k₁与k₂相同，那么它们的哈希值（hash value）h(k₁) = h(k₂)，如果哈希值不同，那么这两个key就不会相同。
缺点在于要创建多余的文件。尽管Spark中没有Mapper和Reducer，我们这俩就把Shuffle之前的算子当做Mapper，之后的算子当做Reducer，即前一个Stage最后的操作，和后一个Stage的第一个操作。在Hash Shuffle中，每一个Mapper要为每一个Reducer创建一个File，并将对应的键值对写入File。因此，总共会有 M x R个File。因此，创建和丢弃这些文件的速度就成了限制Hash Shuffle的瓶颈。

为了解决上述的文件过多的问题，就要使用consolidateFiles来减少文件数量。具体的操作为：不再为每一个reducer创建一个新的file，而是为output file创建一个池 (pool)。所以，当Mapper输出数据时，它向这个池请求R个文件进行操作，操作结束后，将这R个文件返还给文件池，下一个Mapper会进行同样的操作。
我们用E来表示executor的数量，C表示cores的数量，T表示CPU的数量。对任意一个executor，它只能同时进行C/T个任务，因此它只能创建C/T个组，每个组有R个文件，因此一共有 E * C/T * R个文件，相比 M * R确实减少了

Sort Shuffle

前文提到，Hash Shuffle是为了避免Sort Shuffle的问题而提出来的，但是当Spark的设计者也意识到Sort Shuffle存在的问题后，也对Sort Shuffle进行了改进。

每一个Mapper建立两个文件
- 一个是按键值进行排序的数据 (sorted by key)
- 另一个是每一个‘chunk’首尾的index
这些文件会被合并，最后被Reducer读取
当partitions的数量小到一定程度时，会变回Hash Shuffle。当number of partitions很大，Hash Shuffle不给力，反之，Hash Shuffle更好，所以partitions的数量需要权衡。

Spark Efficiency

有以下几个因素会影响Spark的效率：

Transformations的数量
- 因为每一个Transformation都需要遍历整个数据集（RDD），所以Transformation越少越好
Transformation的Size
- 越小的输入尺寸，会有越低的遍历成本
Shuffles
- 因为partitions之间的数据交换成本是很高的，所以Shuffle越少越好

MapReduce vs Spark

在介绍了MapReduce和Spark之后，可能会有人产生一个疑问，那就是Spark中的Transformation就等同于MapReduce中的Map，Action就等同于Reduce吗？

答案是否定的。这里我们依然用之前已经看过的一张图就能理解：

在这张图中，我用蓝色标注了Spark的操作，红色标注了MapReduce的操作。可以清楚地看到，在Spark中，它经过了map, reduceByKey, groupByKey三个Transformations和一个Action。而在MapReduce中，它实际上只有Map，Shuffle和Reduce三个过程。

探索AI人工智能中遗传算法的进化奥秘 AI学长带你学AI 人工智能 ai
探索AI人工智能中遗传算法的进化奥秘关键词：遗传算法、自然选择、基因编码、适应度函数、群体进化、交叉变异、优化问题摘要：本文将用生物进化视角解读人工智能中的遗传算法原理。通过达尔文进化论的生活化比喻，结合Python代码实例演示如何模拟基因遗传、自然选择等过程，揭示遗传算法在路径规划、参数优化等场景的应用奥秘。最后探讨遗传算法的局限性与未来发展方向。背景介绍目的和范围本文旨在用通俗易懂的方式解析遗
深度剖析AI人工智能领域多模态大模型 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南人工智能 ai
深度剖析AI人工智能领域多模态大模型关键词：AI人工智能、多模态大模型、模型架构、算法原理、应用场景摘要：本文旨在对AI人工智能领域的多模态大模型进行深度剖析。首先介绍多模态大模型的背景知识，包括目的、预期读者等。接着阐述核心概念，分析其架构和原理，并给出相应的流程图。通过Python代码详细讲解核心算法原理和具体操作步骤，同时用数学模型和公式进一步阐释。在项目实战部分，给出实际案例及详细代码解读
Open AI在AI人工智能领域的创新之路 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南人工智能 ai
OpenAI在AI人工智能领域的创新之路关键词：OpenAI、人工智能、创新之路、技术突破、应用场景摘要：本文深入探讨了OpenAI在AI人工智能领域的创新之路。首先介绍了OpenAI的背景信息，包括其成立目的、发展历程等。接着详细阐述了OpenAI的核心概念，如强化学习、生成式对抗网络等，并通过示意图和流程图展示其原理和架构。然后讲解了相关核心算法原理，结合Python代码进行具体说明。同时，给
Python爬虫实战：研究psd-tools库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 psd-tools
一、引言1.1研究背景AdobePhotoshop是目前最流行的图像处理软件之一，其原生文件格式PSD（PhotoshopDocument）包含了丰富的图像信息和编辑历史。PSD文件不仅在设计领域广泛使用，还在数字营销、版权保护和安全分析等领域具有重要价值。然而，手动分析大量PSD文件是一项繁琐且耗时的工作，因此开发自动化的PSD文件分析工具具有重要的现实意义。1.2研究目的本文旨在开发一个基于P
QuACK：用纯 Python 把 H100 推到“光速” 吴脑的键客人工智能 python 开发语言 gpu算力
FlashAttention的共同作者TriDao与普林斯顿大学的两位博士生最近联合推出了一个名为QuACK的新内核库。这一创新的内核库引起了广泛关注，尤其是在高性能计算领域。QuACK的开发背景QuACK的开发完全基于Python和CuTe-DSL，令人瞩目的是，它不涉及任何CUDAC++代码。这一设计理念打破了传统的编程框架，使得开发者能够在更友好的环境中进行高效的GPU编程。性能优势在强大的
1、基础 a风风a
创建项目django-adminproject_namecdproject_namepythonmanage.pyrunserver0.0.0.0:8000#pythonmanage.py(查看可用命令)创建应用pythonmanage.pystartappapp_namesetting中的INSTALLED_APPS=[追加'app_name',cdapp_name编辑views.py进入项目文
底分型量化选股公式如何编写？掌握这些要点轻松选出潜力股
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产股票量化，Python炒股，CSDN
2025.06.11华为暑期实习机试真题【最大的矩形新游戏】Java/Python/C++/JS/C 实现 MISAYAONE python 华为 java c++华为暑期实习机试
目录题目思路Code题目小华之前玩过一个游戏，在横轴上放了n个相邻的矩形，每个矩形的宽度是1，而第i(1≤i≤n)个矩形的高度为h[i],这n个短形构成了一个直方图，在直方图中我留能够勾勒出来的矩形的最大面积。这个游戏小华已经玩得很腻了，于是小华就想增加一下难度，现在有1次交换任意2个矩形的操作，请问在交换后，能够勾勒出的最大的短形面积能达到多少呢?输入描述第-行包含一个整数n(2=h的矩形聚集在
第六：Python+ selenium自动化测试（练习一）卢卡平头哥 python selenium 开发语言
一.练习场景1.在某网页上有些字段或者关键字等信息是感兴趣的1.1.希望将其摘取出来，进行其他操作。但是这些字段可能在网页的不同地方2.例如：需要在关于百度页面-联系我们，摘取全部的邮箱二.思路拆分1.首先需要得到当前页面的source内容，就像打开页面，右键-查看页面源代码2.找出规律，通过正则表达式去摘取匹配的字段，存储到字典或者列表3.循环打印字典或列表中内容，用for语句实现三.实现相关方
Python在股票数据分析中的应用，如何通过代码实现精准预测股价走势？股票程序化交易接口量化交易股票API接口 Python股票量化交易数据分析 python 股票数据分析股价走势预测代码实现股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>数据获取与导入在股票数据分析中，首先要获取相关数据。Python有许多库可实现这一功能，比如pandas-datareader。使用它可以轻松从知名数据源如雅虎财经获取股票的历史价格、成交量等数据。只需简单几行代码，就能将特定股票在特
金融量化交易如何精准把握市场趋势？这些策略你不能错过！股票程序化交易接口量化交易股票API接口 Python股票量化交易金融金融量化交易市场趋势技术分析策略基本面分析策略股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>金融量化交易把握市场趋势的基础认知金融量化交易旨在通过数学模型和计算机算法来执行交易决策。市场趋势反映了市场价格的总体走向，量化交易与市场趋势紧密相连。量化交易借助数据和算法去捕捉市场趋势信号，以决定买卖时机。准确把握市场趋势能为量化
Python+Selenium自动化测试环境搭建步骤（selenium环境搭建）
一、自动化简介1.自动化测试概念：是把以人为驱动的测试转化为机器执行的一种过程，它是一种以程序测试程序的过程2.自动化测试分类：一般IT上所说的自动化测试是指功能自动化测试，通过编码的方式用一段程序来测试一个软件的功能，这样就可以重复执行程序来进行重复测试的目的。如果一个软件有小部分功能发生改变，只要修改一部分自动化测试代码，就可以重复对软件进行测试，从而提高测试效率。3.什么样的项目适合做自动化
为什么选择Selenium自动化测试？ AIZHINAN selenium 测试工具自动化测试 pytest python 职场和发展
选择Selenium作为自动化测试工具的主要原因包括其开源、跨平台、多语言支持和强大的生态系统等优势。以下是详细分析：软件测试-Selenium自动化测试教程，零基础小白也能快速入门！python+selenium1.开源免费零成本：Selenium是开源工具，无需支付许可费用，适合预算有限的团队。社区支持：活跃的开发者社区提供丰富的学习资源、插件和问题解决方案。2.跨平台&跨浏览器支持多浏览器：
学习 Python 爬虫需要哪些基础知识？广州山泉婚姻 python 爬虫
学习Python爬虫需要掌握一些基础技术和概念。1.Python基础语法这是最根本的前提，需要熟悉：-变量、数据类型（字符串、列表、字典等）-条件判断、循环语句-函数、类与对象-模块和包的使用（如import语句）2.网页基础了解网页的构成和工作原理：-HTML结构：能看懂标签、属性，知道如何定位内容（如div、span、a标签等）-CSS选择器：用于精准定位网页元素（如类选择器.class、ID
python爬虫--爬去300个租房信息页朝畫夕拾
爬去300个租房信息页代码如下#--coding:utf-8--importtime,requestsfrombs4importBeautifulSouppage=0limit_count=300crawl_list=[]headers={'Content-type':'text/html;charset=UTF-8','User-Agent':'Mozilla/5.0(Macintosh;Int
tiktok 弹幕逆向分析 wx a15018601872 python java tiktok tiktok弹幕 tiktok弹幕逆向分析 a-bogus X-Gnarly
声明:本文章中所有内容仅供学习交流使用，不用于其他任何目的，抓包内容、敏感网址、数据接口等均已做脱敏处理，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！逆向分析部分python代码部分python代码is_match=check_payload_type(response_msg.payload_type,["im_enter_room_resp","msg"])ifis_mat
Python+Selenium自动化
1，什么是seleniumselenium是一个开源的自动化测试框架，主要适用WEB测试，可以支持多种语言(Java,C#,Python,php等)，既然支持多语言开发，那跨平台自然就不用多说啦，selenium有几个版本，一个是seleniumIDE(是一个安装在火狐浏览器上的一个插件，可以用来录制脚本，然后导出自动生成对应的开发语言文件)，seleniumGrid(自动化辅助工具，楼主还没深入
Anaconda 、Pytorch下载教程（保姆级）湲绘 pytorch opencv 人工智能 conda python 深度学习
#因为每次都自己去搜教程太麻烦，索性写个博客记录一下#一、Anaconda的下载与安装进入Anaconda官网官网：Anaconda|TheWorld’sMostPopularDataSciencePlatform下载地址：FreeDownload|Anaconda直接点击Download即可版本对应表如下，选择自己想要的python版本下载就好[环境配置]anaconda3的base环境与pyt
CosyVoice安装过程详解菜Queen AIGC python
CosyVoice安装过程详解安装过程参考官方文档前情提要系统环境：Ubuntu22.04.1python环境：miniconda25.3.1git：2.34.1git-lfs:3.0.21.Clone代码$gitclone--recursivehttps://github.com/FunAudioLLM/CosyVoice.git#若是submodule下载失败，要先进入CosyVoice目录再
关于Http直接请求方式调用CosyVoice2-API(非代码) 菜Queen AIGC http
文章目录1.前情提要2.API调用详解1.音频合成接口请求地址参数说明参数示例结果说明结果示例可能会遇到的问题2.获取操作步骤请求地址参数说明参数示例结果说明结果示例3.获取推理种子请求地址参数说明参数示例结果说明结果示例1.前情提要系统版本：Ubuntu22.04.1版本：CosyVoice2-2024/12python环境：miniconda3>python3.10注：CosyVoice2的本
基于AutoCut实现在文档中按照片段剪辑视频 Mr数据杨 Python 音频技术音视频
本项目致力于通过构建一个具备深度学习支持的多功能视频处理环境，为用户提供高效、智能的视频编辑和字幕生成工具。依托Anaconda环境管理工具和PyTorch的GPU加速能力，用户能够迅速搭建一个符合项目需求的Python环境。结合FunClip的源代码以及相关插件的安装和配置，用户可充分利用项目所支持的图像、音频识别功能，并以极少的配置便获得理想的视频裁剪效果。项目的核心在于简化深度学习项目的环境
Python从入门到弃坑学习笔记——第一章 Python入门 youweilong033 Python学习学习笔记 python pycharm
笔主趁着假期闲的蛋疼，打算开始学习一下Python，主要是之前就有很多朋友问我Python问题，甚至还有新闻学专业的，但我Python从没学过，还挺尴尬的。打算从现在开坑写一系列的Python学习笔记（flag立下了，乐。毕竟是从零开始学，在我的系列文章中，你将会看到包括但不限于：根据自己的想法命名东西，各种概念胡言乱语，shi一样的排版，某网课上的内容拿来主义。希望大佬们海涵，批评指正，有问题可
如何在PyCharm中删除虚拟环境小白的程序空间 Python学习 pycharm ide python
1、进入PythonInterpreters具体方法：Settings-->Project:自己命名的项目-->PythonInterpreters-PythonInterpreter下拉栏-->showall，具体步骤见下图。2、选择需要删除的python环境，具体下图所示。选择需要删除的环境-->点击‘-’号-->ok
Python 机器学习：NumPy 实现朴素贝叶斯分类器 Python编程之道 Python编程之道 python 机器学习 numpy ai
Python机器学习：NumPy实现朴素贝叶斯分类器关键词：朴素贝叶斯分类器、NumPy、机器学习、概率模型、条件概率、拉普拉斯平滑、向量化计算摘要：本文系统讲解朴素贝叶斯分类器的核心原理，基于NumPy实现高效的算法框架，涵盖从概率理论到工程实现的完整流程。通过数学公式推导、代码实现和鸢尾花数据集实战，展示如何利用向量化计算优化概率估计，解决特征独立性假设下的分类问题。同时分析算法优缺点及实际应
Python 全局解释器锁 (Global Interpreter Lock - GIL) Learning_By Doing python并发编程 python 开发语言并发编程 GIL
GIL是什么？全局解释器锁(GIL)是CPython解释器（官方、最常用的Python解释器）中的一个互斥锁(mutex)。它的核心作用是：在任意时刻，只允许一个线程执行Python字节码。这意味着，即使你的计算机有多个CPU核心，一个CPython进程中的多个线程也无法真正地并行执行Python代码。它们可以并发执行（即交替执行），但不能在同一瞬间并行运行。GIL为什么存在？GIL的存在主要是为
运维技术干货 — 不仅是 Linux 运维最佳实践 python算法小白 Linux
附Java/C/C++/机器学习/算法与数据结构/前端/安卓/Python/程序员必读书籍书单大全：书单导航页（点击右侧极客侠栈即可打开个人博客）：极客侠栈①【Java】学习之路吐血整理技术书从入门到进阶最全50+本（珍藏版)②【算法数据结构+acm】从入门到进阶吐血整理书单50+本（珍藏版)③【数据库】从入门到进阶必读18本技术书籍网盘吐血整理网盘(珍藏版)④【Web前端】从HTML到JS到AJ
Python Gradio：快速搭建人脸识别应用 Python编程之道 Python人工智能与大数据 Python编程之道 python 开发语言 ai
PythonGradio：快速搭建人脸识别应用关键词：Python,Gradio,人脸识别,深度学习,计算机视觉,交互式应用,模型部署摘要：本文详细介绍了如何使用Python的Gradio库快速搭建一个交互式的人脸识别应用。我们将从基础概念出发，逐步讲解人脸识别的核心算法原理、Gradio的界面设计方法，并通过完整的项目实战演示如何将深度学习模型部署为可交互的Web应用。文章包含详细的代码实现、数
Python基础-day8：迭代器和生成器的区别及其各自实现方式和使用场景
1.迭代器迭代器提供了一种惰性（lazyevaluation）获取数据的方法，使得我们能够逐步访问序列中的元素，而无需一次性加载所有数据。其主要优点包括节省内存、提高性能、支持自定义遍历逻辑等。1.1实现协议__iter__()：返回自身。__next__()：返回下一个元素；如果没有更多元素，则抛出StopIteration异常。注意：可迭代对象（Iterable）与迭代器不同：可迭代对象实现_
【day1】Python基础知识-pycharm版 m0_56051615 pycharm python ide
内容：IDLE介绍使用、建立python源文件、python程序格式（缩进和注释）、海龟绘图、对象的组成、栈内存和堆内存、标识符、变量安装PyCharm和AnacondaAnaconda是可以便捷获取包且对包能够进行管理，同时对环境可以统一管理的发行版本。包含了conda、Python在内的超过180个科学包及其依赖项。其包含的科学包包括：numpy,pandas,ipythonnotebook等
嵌入式学习-PyTorch（3）-day20 LGGGGGQ 学习 pytorch 人工智能
transforms结构及用法transforms.yp是一个工具箱就是将一个特定格式的图片经过这个工具的到想要的变换Tensor数据类型一、transforms的使用（Python）fromPILimportImagefromtorch.utils.tensorboardimportSummaryWriterfromtorchvisionimporttransformswriter=Summar
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s

Big Data Management笔记02：MapReduce &Spark

Big Data Management笔记02：MapReduce & Spark

MapReduce

MapReduce in Hadoop

Shuffle

Spark

Spark Architecture

Resilient Distributed Dataset (RDD)

Create RDDs

RDD operations

Transformations

Actions

Lineage

DAG（有向无环图）

Lineage vs DAG in Spark

Shuffle

Hash Shuffle

Sort Shuffle

Spark Efficiency

MapReduce vs Spark

你可能感兴趣的:(学习笔记,hadoop,spark,python)