并行计算框架

概念
- 框架与引擎
- 批处理框架
- 流处理框架
- 混合处理框架
MapReduce
Hadoop
- 基本处理过程
- 优势和局限
Spark
- Spark的批处理模式
- Spark的流处理模式
- 优势和局限
- 总结
MPI
- MPI的优点
- MPI的缺点
OpenMP
CUDA
- Cpu与Gpu
- CUDA框架
GraphLab
- GraphLab的优点
- GraphLab和MapReduce的对比
- GraphLab并行框架
  - Graph的构造
  - GraphLab的执行模型

概念

框架与引擎

处理框架和处理引擎负责对数据系统中的数据进行计算。虽然“引擎”和“框架”之间的区别没有什么权威的定义，但大部分时候可以将前者定义为实际负责处理数据操作的组件，后者则可定义为承担类似作用的一系列组件。例如Apache Hadoop可以看作一种以MapReduce作为默认处理引擎的处理框架。引擎和框架通常可以相互替换或同时使用。例如另一个框架Apache Spark可以纳入Hadoop并取代MapReduce。

批处理框架

批处理主要操作大容量静态数据集，并在计算过程完成后返回结果。批处理模式中使用的数据集特征：

有界：批处理数据集代表数据的有限集合
持久：数据通常始终存储在某种类型的持久存储位置中
大量：批处理操作通常是处理极为海量数据集的唯一方法

批处理非常适合需要访问全套记录才能完成的计算工作。例如在计算总数和平均数时，必须将数据集作为一个整体加以处理，而不能将其视作多条记录的集合。这些操作要求在计算进行过程中数据维持自己的状态。大量数据的处理需要付出大量时间，因此批处理不适合对处理时间要求较高的场合。

批处理框架应用：Apache Hadoop

流处理框架

流处理会对随时进入系统的数据进行计算。相比批处理模式，这是一种截然不同的处理方式。流处理方式无需针对整个数据集执行操作，而是对通过系统传输的每个数据项执行操作。

流处理中的数据集是“无边界”的，这就产生了几个重要的影响：

完整数据集只能代表截至目前已经进入到系统中的数据总量。
工作数据集也许更相关，在特定时间只能代表某个单一数据项。
处理工作是基于事件的，除非明确停止否则没有“尽头”。处理结果立刻可用，并会随着新数据的抵达继续更新。

流处理系统可以处理几乎无限量的数据，但同一时间只能处理一条（真正的流处理）或很少量（微批处理，Micro-batch Processing）数据，不同记录间只维持最少量的状态。虽然大部分系统提供了用于维持某些状态的方法，但流处理主要针对副作用更少，更加功能性的处理（Functional processing）进行优化。

功能性操作主要侧重于状态或副作用有限的离散步骤。有近实时处理需求的任务很适合使用流处理模式。分析、服务器或应用程序错误日志，以及其他基于时间的衡量指标是最适合的类型，因为对这些领域的数据变化做出响应对于业务职能来说是极为关键的。流处理很适合用来处理必须对变动或峰值做出响应，并且关注一段时间内变化趋势的数据。

流处理框架应用：Apache Storm，Apache Samza

混合处理框架

一些处理框架可同时处理批处理和流处理工作负载。这些框架可以用相同或相关的组件和API处理两种类型的数据，借此让不同的处理需求得以简化。

虽然侧重于某一种处理类型的项目会更好地满足具体用例的要求，但混合框架意在提供一种数据处理的通用解决方案。这种框架不仅可以提供处理数据所需的方法，而且提供了自己的集成项、库、工具，可胜任图形分析、机器学习、交互式查询等多种任务。

混合处理框架应用：Apache Spark，Apache Flink

MapReduce

MapReduce是Google提出的一个软件架构，用于大规模数据集的并行运算。

MapReduce的处理过程分为两个步骤：map（映射）和reduce（归纳）。每个阶段的输入输出都是key-value的形式，类型可以自行指定。map阶段对切分好的数据进行并行处理，处理结果传输给reduce，由reduce函数完成最后的汇总。Reduce又可以作为一个Map为下一级Reduce作准备，以此迭代。

MapReduce进程间的通信纯粹是用文件去联系的，每个进程做的事情就是去读取上一级进程生成的数据，然后处理后写入磁盘让下一级进程进行读取。这个特性使得MapReduce有着良好的容错性，当某一级的某一个进程出错了，JobMaster会重新调度这个进程到另外一个机器上重新运行。坏处是每当Map-Reduce的某一个步骤运行完后，需要重新调度下一级任务，调度产生的开销会非常的大（网络传输，文件读写磁盘IO）。

MapReduce通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性；每个节点会周期性的把完成的工作和状态的更新报告回来。如果一个节点保持沉默超过一个预设的时间间隔，主节点记录下这个节点状态为死亡，并把分配给这个节点的数据发到别的节点。每个操作使用命名文件的不可分割操作以确保不会发生并行线程间的冲突；当文件被改名的时候，系统可能会把他们复制到任务名以外的另一个名字上去。（避免副作用）。

归纳操作工作方式很类似，但是由于归纳操作在并行能力较差，主节点会尽量把归纳操作调度在一个节点上，或者离需要操作的数据尽可能近的节点上了。

Hadoop

Apache Hadoop是一款支持数据密集型分布式应用程序的开源批处理框架，包含多个组件，即多个层，通过配合使用可处理批数据：

HDFS：（Hadoop Distributed File System分布式文件系统层）可对集群节点间的存储和复制进行协调。HDFS确保了无法避免的节点故障发生后数据依然可用，可将其用作数据来源，可用于存储中间态的处理结果，并可存储计算的最终结果。
YARN：（Yet Another Resource Negotiator另一个资源管理器）可充当Hadoop堆栈的集群协调组件。该组件负责协调并管理底层资源和调度作业的运行。通过充当集群资源的接口，YARN使得用户能在Hadoop集群中使用比以往的迭代方式运行更多类型的工作负载。
MapReduce：Hadoop的原生批处理引擎。

基本处理过程

从HDFS文件系统读取数据集
将数据集拆分成小块并分配给所有可用节点
针对每个节点上的数据子集进行计算（计算的中间态结果会重新写入HDFS）
重新分配中间态结果并按照键进行分组
通过对每个节点计算的结果进行汇总和组合对每个键的值进行“Reducing”
将计算而来的最终结果重新写入 HDFS

优势和局限

由于每个任务需要多次执行读取和写入操作，因此速度相对较慢。但另一方面由于磁盘空间通常是服务器上最丰富的资源，这意味着MapReduce可以处理非常海量的数据集。同时也意味着相比其他类似技术，Hadoop的MapReduce通常可以在廉价硬件上运行，因为该技术并不需要将一切都存储在内存中。MapReduce具备极高的缩放潜力，生产环境中曾经出现过包含数万个节点的应用。与其他框架和引擎的兼容与集成能力使得Hadoop可以成为使用不同技术的多种工作负载处理平台的底层基础。

Spark

Apache Spark是一种包含流处理能力的下一代批处理框架。与Hadoop的MapReduce引擎基于各种相同原则开发而来的Spark主要侧重于通过完善的内存计算和处理优化机制加快批处理工作负载的运行速度。Spark可作为独立集群部署（需要相应存储层的配合），或可与Hadoop集成并取代MapReduce引擎。

Spark的批处理模式

与MapReduce不同，Spark的数据处理工作全部在内存中进行，只在一开始将数据读入内存，以及将最终结果持久存储时需要与存储层交互。所有中间态的处理结果均存储在内存中。

虽然内存中处理方式可大幅改善性能，Spark在处理与磁盘有关的任务时速度也有很大提升，因为通过提前对整个任务集进行分析可以实现更完善的整体式优化。为此Spark可创建代表所需执行的全部操作，需要操作的数据，以及操作和数据之间关系的Directed Acyclic Graph（有向无环图），即DAG，借此处理器可以对任务进行更智能的协调。

为了实现内存中批计算，Spark会使用一种名为Resilient Distributed Dataset（弹性分布式数据集），即RDD的模型来处理数据。这是一种代表数据集，只位于内存中，永恒不变的结构。针对RDD执行的操作可生成新的RDD。每个RDD可通过世系（Lineage）回溯至父级RDD，并最终回溯至磁盘上的数据。Spark可通过RDD在无需将每个操作的结果写回磁盘的前提下实现容错。

Spark的流处理模式

流处理能力是由Spark Streaming实现的。Spark本身在设计上主要面向批处理工作负载，为了弥补引擎设计和流处理工作负载特征方面的差异，Spark实现了一种叫做微批（Micro-batch）*的概念。在具体策略方面该技术可以将数据流视作一系列非常小的“批”，借此即可通过批处理引擎的原生语义进行处理。

Spark Streaming会以亚秒级增量对流进行缓冲，随后这些缓冲会作为小规模的固定数据集进行批处理。这种方式的实际效果非常好，但相比真正的流处理框架在性能方面依然存在不足。

优势和局限

使用Spark而非Hadoop MapReduce的主要原因是速度。在内存计算策略和先进的DAG调度等机制的帮助下，Spark可以用更快速度处理相同的数据集。

Spark的另一个重要优势在于多样性。既可作为独立集群部署，亦可与现有Hadoop集群集成，可运行批处理和流处理，运行一个集群即可处理不同类型的任务。

除了引擎自身的能力外，围绕Spark还建立了包含各种库的生态系统，可为机器学习、交互式查询等任务提供更好的支持。相比MapReduce，Spark任务更是“众所周知”地易于编写，因此可大幅提高生产力。

为流处理系统采用批处理的方法，需要对进入系统的数据进行缓冲。缓冲机制使得该技术可以处理非常大量的传入数据，提高整体吞吐率，但等待缓冲区清空也会导致延迟增高。这意味着Spark Streaming可能不适合处理对延迟有较高要求的工作负载。

由于内存通常比磁盘空间更贵，因此相比基于磁盘的系统，Spark成本更高。然而处理速度的提升意味着可以更快速完成任务，在需要按照小时数为资源付费的环境中，这一特性通常可以抵消增加的成本。

Spark内存计算这一设计的另一个后果是，如果部署在共享的集群中可能会遇到资源不足的问题。相比Hadoop MapReduce，Spark的资源消耗更大，可能会对需要在同一时间使用集群的其他任务产生影响。

总结

Spark是多样化工作负载处理任务的最佳选择。Spark批处理能力以更高内存占用为代价提供了无与伦比的速度优势。对于重视吞吐率而非延迟的工作负载，则比较适合使用Spark Streaming作为流处理解决方案。

MPI

MPI（Message Passing Interface 消息传递接口）。是一个跨语言的并行计算接口，可以被fortran，c，c++等调用，常在超级电脑、电脑簇等分布式内存环境应用。MPI的目标是高性能，大规模性，和可移植性。目前MPI的实现非常多，开源的有Open MPI和MPICH。

MPI的优点

允许静态任务调度，程序的调度是一次性的，就是比如开始申请了50个进程，那这50个进程就会一起跑，同生同死。
MPI的封装，让并发数据更操作变得非常的方便，显示并行提供了良好的性能和移植性。
由于MPI是基于消息的，划分计算任务，将任务映射到分布式进程集合中进行计算时，既可进行任务划分，也可进行数据划分，没有任何限制。
用 MPI 编写的程序可直接在多核集群上运行。集群的各节点之间可以采用 MPI 编程模型进行程序设计，每个节点都有自己的内存，可以对本地的指令和数据直接进行访问，各节点之间通过互联网络进行消息传递。具有很好的可移植性，完备的异步通信功能，较强的可扩展性。

MPI的缺点

MPI都没有提供GFS系统，这个让大文件的存放，读取都成了一个问题，如果底层有一个GFS，再在上面搭一个MPI的系统，使用起来会非常的舒服。
MPI的容错性一般不容易做，因为程序是同生同死的，某一个进程挂了，整个任务就挂了。
并行化改进需要大量地修改原有的串行代码，调试难度比较大。
通信会造成很大的开销，为了最小化延迟，通常需要大的代码粒度，细粒度的并行会引发大量的通信。
动态负载平衡困难。

OpenMP

OpenMp是线程级别的，是针对单主机上多核/多CPU并行计算而设计的工具，支持目前所有平台上的c,fortran等的共享内存式并行计算：
主线程(顺序的执行指令)生成一系列的子线程，并将任务划分给这些子线程进行执行。这些子线程并行的运行，由运行时环境将线程分配给不同的处理器。

OpenMp比较简单，修改现有的大段代码也容易。基本上OpenMp只要在已有程序基础上根据需要加并行语句即可。而MPI有时甚至需要从基本设计思路上重写整个程序，调试也困难得多，涉及到局域网通信这一不确定的因素。不过，OpenMp虽然简单却只能用于单机多CPU/多核并行，MPI才是用于多主机超级计算机集群的强悍工具，当然复杂。

CUDA

CUDA(Compute Unified Device Architecture)是一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题。它包含了CUDA指令集架构（ISA）以及GPU内部的并行计算引擎。

Cpu与Gpu

CPU擅长处理不规则数据结构和不可预测的存取模式，以及递归算法、分支密集型代码和单线程程序。这类程序任务拥有复杂的指令调度、循环、分支、逻辑判断以及执行等步骤。例如，操作系统、文字处理、交互性应用的除错、通用计算、系统控制和虚拟化技术等系统软件和通用应用程序等等。

GPU擅于处理规则数据结构和可预测存取模式。例如，光影处理、3D 坐标变换、油气勘探、金融分析、医疗成像、有限元、基因分析和地理信息系统以及科学计算等方面的应用。显示芯片通常具有更大的内存带宽。具有更大量的执行单元。和高阶 CPU 相比，显卡的价格较为低廉。

目前设计GPU+CPU架构平台的指导思想是：让CPU的更多资源用于缓存，GPU的更多资源用于数据计算。

当代CPU的微架构是按照兼顾“指令并行执行”和“数据并行运算”的思路而设计，就是要兼顾程序执行和数据运算的并行性、通用性以及它们的平衡性。CPU的微架构偏重于程序执行的效率，不会一味追求某种运算极致速度而牺牲程序执行的效率。

GPU的微架构就是面向适合于矩阵类型的数值计算而设计的，大量重复设计的计算单元，这类计算可以分成众多独立的数值计算——大量数值运算的线程，而且数据之间没有像程序执行的那种逻辑关联性。

CUDA框架

CUDA 是 NVIDIA 的 GPGPU 模型，它使用 C 语言为基础，可以直接以大多数人熟悉的 C 语言，写出在显示芯片上执行的程序，而不需要去学习特定的显示芯片的指令或是特殊的结构。

从CUDA体系结构的组成来说，包含了三个部分：开发库、运行期环境和驱动：

开发库是基于CUDA技术所提供的应用开发库。
运行期环境提供了应用开发接口和运行期组件，包括基本数据类型的定义和各类计算、类型转换、内存管理、设备访问和执行调度等函数。
驱动部分基本上可以理解为是CUDA-enable的GPU的设备抽象层，提供硬件设备的抽象访问接口。
应用领域例如游戏、高清视频、卫星成像等数据规模庞大的场景。

在 CUDA 的架构下，一个程序分为两个部份：host 端和 device 端。Host 端是指在 CPU 上执行的部份，而 device 端则是在显示芯片上执行的部份。Device 端的程序又称为 “kernel”。通常 host 端程序会将数据准备好后，复制到显卡的内存中，再由显示芯片执行 device 端程序，完成后再由 host 端程序将结果从显卡的内存中取回。

GraphLab

一般的机器学习类算法有以下两个特性:

数据依赖性很强。运算过程中参与计算的各个机器之间经常需要交换大量的数据。
流处理复杂。主要表现在整个处理过程需要反复地迭代计算，数据处理分支很多，很难实现真正的并行。

而当前被广泛使用的MapReduce 计算框架，Map阶段集群的各台机器各自完成负载较重的计算过程，数据并行度高，适合完成类似矩阵运算、数据统计等数据独立性强的计算，任务执行期间不需要相互之间进行数据通信，所以MapReduce 不适合数据依赖性强的任务，而且MapReduce 并行计算模型也不能高效表达迭代型算法。这种计算模型在处理如日志分析、数据统计等数据独立性的任务时具有明显的优势，但是在机器学习领域，MapReduce框架并不能很好地满足机器学习计算任务。

另一个并行实现方案就是采用纯MPI（Native MPI）的方式。纯MPI实现通过精细的设计将并行任务按照MPI协议分配到集群机器上，并根据具体应用，在计算过程中进行机器间的数据通信和同步。纯MPI的优点是，可以针对具体的应用，进行深度优化，从而达到很高的并行性能。但纯MPI存在的问题是，针对不同的机器学习算法，需要重写其数据分配、通信等实现细节，代码重用率低，机器拓展性能差，对编程开发人员的要求高，而且优化和调试成本高。因而，纯MPI不适合敏捷的互联网应用。

为解决机器学习的流处理，Google提出了Pregel框架，Pregel是严格的BSP模型(Bulk Synchronous Parallel，整体同步并行计算模型)，采用“计算-通信-同步”的模式完成机器学习的数据同步和算法迭代。Goolge曾称其80%的程序使用MapReduce完成，20%的程序使用Pregel实现。因而，Pregel是很成熟的机器学习流处理框架，但Google一直没有将Pregel的具体实现开源，外界对Pregel的模仿实现在性能和稳定性方面都未能达到工业级应用的标准。

2010年，CMU的Select实验室提出了GraphLab框架，GraphLab 是一个基于图像处理模型的开源图计算框架，框架使用C++语言开发实现。该框架是面向机器学习（ML）的流处理并行计算框架，可以运行在多处理机的单机系统、集群等多种环境下。

GraphLab 自成立以来就是一个发展很迅速的开源项目，GraphLab的设计目标是，像MapReduce一样高度抽象，可以高效执行与机器学习相关的、具有稀疏的计算依赖特性的迭代性算法，并且保证计算过程中数据的高度一致性和高效的并行计算性能。该框架最初是为处理大规模机器学习任务而开发的，但是该框架也同样适用于许多数据挖掘方面的计算任务。在并行图计算领域，该框架在性能上高出很多其他并行计算框架（例如，MapReduce、Mahout）几个数量级。

GraphLab的优点

GraphLab 作为一个基于图处理的并行计算框架，能够高效地执行机器学习相关的数据依赖性强，迭代型算法，其设计具有如下特点和优点。

统一的API 接口。对于多核处理器和分布式环境，采用统一的API 接口，一次编写程序即可高效地运行在共享内存环境或者分布式集群上。
高性能。优化C++执行引擎，在大量多线程操作和同步I/O 操作之间进行了很好的平衡。
可伸缩性强。GraphLab 能够智能地选择存储和计算的节点，原因是GraphLab 对于数据的存储与计算都使用了精心设计的优良算法。
集成HDFS。GraphLab 内置对HDFS 的支持，GraphLab 能够直接从HDFS中读数据或者将计算结果数据直接写入到HDFS 中。
功能强大的机器学习类工具集。GraphLab 在自身提供的API 接口之上实现了大量的开箱即用的工具集。

GraphLab和MapReduce的对比

GraphLab 的出现不是对MapReduce 算法的替代，相反，GraphLab 借鉴了MapReduce 的思想，将MapReduce 并行计算模型推广到了对数据重叠性、数据依赖性和迭代型算法适用的领域。本质上，GraphLab 填补了高度抽象的MapReduce 并行计算模型和底层消息传递、多线程模型（如MPI 和PThread）之间的空隙。

GraphLab 模拟了MapReduce 中的抽象过程：

对MapReduce的map操作，通过称为更新函数（Update Function）的过程进行模拟，更新函数能够读取和修改用户定义的图结构数据集。用户提供的数据图代表了程序在内存中和图的顶点、边相关联的内存状态，更新函数能够递归地触发更新操作，从而使更新操作作用在其他图节点上进行动态的迭代式计算。GraphLab 提供了强大的控制原语，以保证更新函数的执行顺序。
对MapReduce的reduce操作，通过称为同步操作（Sync Operation）的过程进行模拟。同步操作能够在后台计算任务进行的过程中执行合并（Reductions），和GraphLab 提供的更新函数一样，同步操作能够同时并行处理多条记录，这也保证了同步操作能够在大规模独立环境下运行。

GraphLab并行框架

GraphLab将数据抽象成Graph结构，将算法的执行过程抽象成Gather、Apply、Scatter三个步骤。其并行的核心思想是对顶点的切分。

Graph的构造

顶点是其最小并行粒度和通信粒度，边是机器学习算法中数据依赖性的表现方式。
对于某个顶点，其被部署到多台机器，一台机器作为master顶点，其余机器上作为mirror。Master作为所有mirror的管理者，负责给mirror安排具体计算任务;mirror作为该顶点在各台机器上的代理执行者，与master数据的保持同步。
对于某条边，GraphLab将其唯一部署在某一台机器上，而对边关联的顶点进行多份存储，解了边数据量大的问题。
同一台机器上的所有edge和vertex构成local graph,在每台机器上，存在本地id到全局id的映射表。
vertex是一个进程上所有线程共享的，在并行计算过程中，各个线程分摊进程中所有顶点的gather->apply->scatter操作。

GraphLab的执行模型

每个顶点每一轮迭代经过gather->apple->scatter三个阶段。

Gather阶段：工作顶点的边 (可能是所有边，也有可能是入边或者出边)从领接顶点和自身收集数据，记为gather_data_i，各个边的数据graphlab会求和，记为sum_data。这一阶段对工作顶点、边都是只读的。
Apply阶段：Mirror将gather计算的结果sum_data发送给master顶点，master进行汇总为total。Master利用total和上一步的顶点数据，按照业务需求进行进一步的计算，然后更新master的顶点数据，并同步mirror。Apply阶段中，工作顶点可修改，边不可修改。
Scatter阶段：工作顶点更新完成之后，更新边上的数据，并通知对其有依赖的邻结顶点更新状态。这scatter过程中，工作顶点只读，边上数据可写。

在执行模型中，graphlab通过控制三个阶段的读写权限来达到互斥的目的。在gather阶段只读，apply对顶点只写，scatter对边只写。并行计算的同步通过master和mirror来实现，mirror相当于每个顶点对外的一个接口人，将复杂的数据通信抽象成顶点的行为。

深入了解OpenCVSharp中常见的图像处理功能仰望大佬007 图像处理 opencv 计算机视觉 c#
深入了解OpenCVSharp中常见的图像处理功能前言1.图像加载与保存2.图像基本操作3.图像滤波4.边缘检测5.图像分割6.特征检测与描述子7.目标识别与跟踪8.图像融合与拼接9.形状匹配与模板匹配10.颜色空间转换与直方图11.图像转换与绘制12.图像分类与机器学习13.高级图像处理算法14.GPU加速与并行计算前言OpenCVSharp是C#语言中用于图像处理和计算机视觉的开源库，它提供了
【GPU驱动开发】-GPU架构简介怪怪王 GPU驱动驱动开发 GPU AI chatgpt 架构
前言不必害怕未知，无需恐惧犯错，做一个Creator！GPU（GraphicsProcessingUnit，图形处理单元）是一种专门用于处理图形和并行计算的处理器。GPU系统架构通常包括硬件和软件层面的组件。一、总体流程应用程序请求图形操作：应用程序通过图形API（如OpenGL、Vulkan）发送图形操作请求。图形API调用GPU驱动程序：图形API将请求传递给GPU驱动程序。GPU驱动程序解释
Transformer结构介绍和Pyotrch代码实现肆十二 Pytorch语法 transformer 深度学习人工智能
Transformer结构介绍和Pyotrch代码实现关注B站查看更多手把手教学：肆十二-的个人空间-肆十二-个人主页-哔哩哔哩视频(bilibili.com)基本结构介绍Transformer结构是近年来自然语言处理（NLP）领域的重要突破，它完全基于注意力机制（AttentionMechanism）来实现，克服了传统RNN模型无法并行计算以及容易丢失长距离依赖信息的问题。Transformer
什么是Rust 语言 chunmiao3032 rust 开发语言后端
Rust是一种专注于性能和内存安全的系统编程语言，其设计目标包括提供：零开销抽象、移动语义、内存安全、线程无数据竞争、类型安全和实时gc等功能。Rust使用RAII（ResourceAcquisitionIsInitialization）管理资源，通过所有权系统以编译时检查内存安全。它强调零开销的抽象和安全的并行计算。Rust语言的前景非常广阔，包括以下几个方面：系统编程：由于Rust的出色性能和
CUDA与CUDNN 关系 XF鸭小知识 caffe 深度学习人工智能
CUDA与cuDNN1、什么是CUDACUDA(ComputeUnifiedDeviceArchitecture)，是显卡厂商NVIDIA推出的运算平台。CUDA是一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题。2、什么是CUDNNNVIDIAcuDNN是用于深度神经网络的GPU加速库。它强调性能、易用性和低内存开销。NVIDIAcuDNN可以集成到更高级别的机器学
Unity中的Compute Shader popcorn丶渲染游戏开发 unity 图像处理
Unity中的ComputeShader前言一、定义二、创建三、computer代码解析四、c#调用方式五、计算关系六、平台支持七、引用前言游戏开发中，dot编程在处理大数量级的运算应用已经越来越广泛了，而GPU本身对大规模数据的并行计算已经越来越强了，因此现在许多游戏处理大量物体的计算可以利用GPU这一特性，加快并发计算速度，ComputeShader就是专门利用这一特性的。提示：以下是本篇文章
TiDB 7.5.0 LTS 高性能数据批处理方案 TiDB_PingCAP tidb 分布式云原生数据库
过去，TiDB由于不支持存储过程、大事务的使用也存在一些限制，使得在TiDB上进行一些复杂的数据批量处理变得比较复杂。TiDB在面向这种超大规模数据的批处理场景，其能力也一直在演进，其复杂度也变得越来越低：○从TiDB5.0开始，TiFlash支持MPP并行计算能力，在大批量数据上进行聚合、关联的查询性能有了极大的提升○到了TiDB6.1版本，引入了BATCHDML(https://docs.pi
AI芯片技术架构有哪些？FPGA芯片定义及结构分析 Hack电子人工智能架构 fpga开发
点击蓝字关注我们关注、星标公众号，精彩内容每日送达来源：网络素材ai芯片技术架构有哪些？AI芯片的技术架构可以根据其设计方式和特点进行分类。以下是几种常见的AI芯片技术架构：GPU（图形处理器）架构：GPU最初是用于图形渲染和游戏处理的，但由于其高度并行的特性，逐渐被应用于深度学习计算。GPU架构采用多个计算单元（CUDA核心）进行并行计算，能够高效地执行浮点运算和矩阵计算。NVIDIA的Tens
TiDB 7.5.0 LTS 高性能数据批处理方案 tidb数据库
过去，TiDB由于不支持存储过程、大事务的使用也存在一些限制，使得在TiDB上进行一些复杂的数据批量处理变得比较复杂。TiDB在面向这种超大规模数据的批处理场景，其能力也一直在演进，其复杂度也变得越来越低：○从TiDB5.0开始，TiFlash支持MPP并行计算能力，在大批量数据上进行聚合、关联的查询性能有了极大的提升○到了TiDB6.1版本，引入了BATCHDML(https://docs.pi
英伟达（NVIDIA）和CUDA 小米人er 我的博客英伟达
英伟达（NVIDIA）是一家知名的图形处理器（GPU）制造公司，而CUDA则是NVIDIA推出的一种并行计算架构和编程模型。CUDA全称为ComputeUnifiedDeviceArchitecture，即计算统一设备架构，它允许开发者使用C/C++、Fortran等编程语言在NVIDIA的GPU上进行通用计算。CUDA是NVIDIA从硬件进驻软件的重要工具，起到了连接的作用。通过CUDA，开发者
Fork/Join线程池青衫客36 并发编程 java 开发语言
Fork/Join线程池是Java7中引入的一个用于并行执行任务的框架，它的设计目的是充分利用多核处理器的计算能力，加快处理速度，提高性能。Fork/Join框架主要用于任务需要分解为多个子任务执行的场景，是一种分而治之的并行计算模型。它的核心思想是将一个大任务分解（Fork）成若干个小任务，如果这些小任务还太大，则继续分解，直到足够小可以直接计算，然后执行这些任务，并将结果合并（Join）。核心
ChatGPT魔法1：背后的原理王丰博 GPT chatgpt
1.AI的三个阶段1）上世纪50~60年代，计算机刚刚产生2）Machinelearning3）Deeplearning，有神经网络，最有代表性的是ChatGPT,GPT(GenerativePre-TrainedTransformer)2.深度神经网络llyaSutskever:做图像识别，使用了GPT去并行计算及训练。Alexnet数据库已经label好的（李飞飞）GPU算力3.GPT3.1T
深度神经网络中的BNN和DNN：基于存内计算的原理、实现与能量效率算法
引言深度神经网络（DNN）在机器学习领域越来越受欢迎，其在一系列任务中展现出最先进的性能。为了达到最佳结果，通常需要大量的训练数据和大型模型，从而使得训练和推理过程变得复杂。尽管图形处理单元（GPU）在许多应用中被用于提供并行计算能力，但较低能耗的平台有可能实现一系列新的应用。目前，一个趋势是降低权重和激活精度的能力，以前的研究表明，在某些情况下，权重和激活可以二值化（即二值化神经网络，BNN），
[机器学习]详解transformer---小白篇是安澜啊深度学习神经网络
1.背景：Transformer是2017年的一篇论文《AttentionisAllYouNeed》提出的一种模型架构，这篇论文里只针对机器翻译这一种场景做了实验，并且由于encoder端是并行计算的，训练的时间被大大缩短了。全面击败了当时的SOTA，现阶段，Transformer在cv领域也是全面开花，基于transformer的目标识别，语义分割等算法也是经常屠榜。论文:[1706.03762
C++ 11新特性之并发 hope_wisdom C++11新特性 c++开发语言并发 C++11
概述随着计算机硬件的发展，多核处理器已经成为主流，对程序并发执行能力的需求日益增长。C++11标准引入了一套全面且强大的并发编程支持库，为开发者提供了一个安全、高效地利用多核CPU资源进行并行计算的新框架，极大地简化了多线程开发。std::thread在C++11中，std::thread是用于创建和管理线程的核心组件。使用线程的一些要点如下。1、创建线程。通过调用std::thread构造函数，
cuda。小小娱乐 python
CUDA是由NVIDIA推出的通用并行计算架构，它允许开发人员利用NVIDIA的GPU进行高效的计算。1.高性能计算：CUDA使得GPU能够执行高度并行的计算任务，这对于需要处理大量数据的应用程序来说是非常有用的。GPU拥有成百上千个流处理器，可以同时执行多个计算任务。2.编程框架：CUDA提供了一个编程框架，支持多种编程语言，如C、C++、Fortran、Python等，使得开发者可以使用这些语
【白话前端】快速区分webGL，webGPU，unity3D和UE4 贝格前端工场前端 webgl ue4 unity3d three.js web 3d
在3D图形渲染的渲染领域，很多友友们对上述概念傻傻分不清，站在前端开发角度，我用简单语言说下，结论在文章最后。一、四者都能进行3D图形渲染它们之间有一些区别，下面我将对它们进行简单的区分：WebGPU：WebGPU是一种Web图形API，是基于底层的GPU硬件架构设计的，可以更好地利用现代GPU的并行计算能力，提供更高的图形渲染性能。WebGPU可以在Web浏览器中使用，同时也可以在其他平台上使用
多GPU-TensorFlow 听风1996
首先，TensorFlow并行计算分为：模型并行，数据并行。模型并行:根据不同模型设计不同并行方式，模型不同计算节点放在不同GPU或者机器上进行计算。数据并行是比较通用简便的实现大规模并行方式，同时使用多个硬件资源计算不同batch数据梯度，汇总梯度进行全局参数更新。数据并行:多块GPU同时训练多个batch数据，运行在每块GPU模型基于同一神经网络，网络结构一样，共享模型参数。1.同步数据并行，
Hadoop分布式系统架构-MapReduce-02 一直上上签X
1、MapReduce介绍MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Reduce负责“合”，即对map阶段的结果进行全局汇总。MapRedu
并行计算导论笔记 1 hijackedbycsdn 笔记
目录并行编程平台隐式并行超标量执行/指令流水线超长指令字处理器VLIW内存性能系统的局限避免内存延迟的方法并行计算平台控制结构通信模型共享地址空间平台消息传递平台对比物理组织理想并行计算机并行计算机互联网络网络拓朴结构基于总线的网络交叉开关网络多级网络全连接星形线性阵列、格网和k-d格网基于树的静态互连网络评价动态互连网络多处理器中的缓存一致性用无效协议维护数据一致性缓存侦听系统基于目录的系统分布
并行计算工具 MPI 简单教程疯狂的泰码君 MPI 并行计算 MPI
UsingMPIwithC并行程序使用户能够充分利用超级计算集群的多节点结构。消息传递接口(MPI)是一种标准，用于允许集群上的多个不同处理器相互通信。在本教程中，我们将使用英特尔C++编译器、GCC、IntelMPI和OpenMPI用C++创建多处理器“helloworld”程序。本教程假设用户具有Linux终端和C++经验。Setupand“Hello,World”这应该为您的环境准备好编译和
深度神经网络中的BNN和DNN：基于存内计算的原理、实现与能量效率算法
引言深度神经网络（DNN）在机器学习领域越来越受欢迎，其在一系列任务中展现出最先进的性能。为了达到最佳结果，通常需要大量的训练数据和大型模型，从而使得训练和推理过程变得复杂。尽管图形处理单元（GPU）在许多应用中被用于提供并行计算能力，但较低能耗的平台有可能实现一系列新的应用。目前，一个趋势是降低权重和激活精度的能力，以前的研究表明，在某些情况下，权重和激活可以二值化（即二值化神经网络，BNN），
国外现代并行计算课程CMU-15-418/15-618: Parallel Computer Architecture and Programming wwxy261 算法
这是与计算物理最相关的CS课程，计算物理方向很容易吃透作为项目写到简历上这部分主要包括多核计算OpenMPSIMD集群计算MPIGPU计算CUDA分布式计算MapReduceSpark互联网主要重视分布式计算，科学研究主要在多核和MPI，但是科学研究很少研究底层，只管应用。GPU在算法工程师领域用得比较多。18645(15spring)HowtoWriteFastCodeECE版的parallel
【全网最低价】司守奎《数学建模算法与应用》第三版pdf+数学建模资料（非常详细的算法学习和路线）小白推荐阿贵学长数学建模学习算法 matlab 性能优化深度学习
1.《数学建模算法与应用》主要内容包括时间序列、支持向量机、偏最小二乘面归分析、现代优化算法、数字图像处理、综合评价与决策方法、预测方法以及数学建模经典算法等内容。文章末尾有电子版PDF文件链接2.算法学习流程及详细过程主要算法：工具箱推荐遗传算法-beatxbx工具箱，求解速度很快，并行计算LIBSVM-比MATLAB自带工具箱好用得多yamlip，特别推荐，统一优化求解工具箱由于文件很多，学长
大模型学习一 wangqiaowq 学习
https://www.bilibili.com/video/BV1Kz4y1x7AK/?spm_id_from=333.337.search-card.all.clickGPU计算单元多并行计算能力强指数更重要A10080GV100A100海外100元/时单卡多卡并行：单机多卡模型并行有资源的浪费反向传播反向传播（Backpropagation，简称BP）是一种用于训练人工神经网络的关键算法，特
Spark是什么？与MapReduce的对比 Tim在路上
Spark是一个基于内存的集群计算系统，是一个分布式的计算框架。Spark可以将计算任务分发到多个机器并行计算。目前Spark集成了SQL查询，图处理，机器学习，流处理等，在计算引擎中生态比较健全，所以其适用范围比较广。Spark主要解决计算的并行化，集群资源的管理与分配，容错与恢复，任务的分发与回收管理等问题。SparkvsMapReduceJob的划分方式不同，MapReduce中一个map和
Java 8 Lambda 表达式杰哥长得帅
优缺点优点：简洁非常容易并行计算（Stream）利于编译器优化（猜测是因为编译是不用解析字面量，可能还有Java7中新加的invokedynamic指令动态绑定）可传递行为（函数编程），而不仅仅是值Listnumbers=Arrays.asList(1,2,3,4,5,6);publicintsumAll(Listnumbers){inttotal=0;for(intnumber:numbers)
人工智能专题：量子汇编语言和量子中间表示发展白皮书人工智能学派量子计算
今天分享的是人工智能系列深度研究报告：《人工智能专题：量子汇编语言和量子中间表示发展白皮书》。（报告出品方：量子信息网络产业联盟）报告共计：78页量子计算与量子编程概述随着社会生产力的发展，人们对高性能计算提出了更高的要求面对摩尔定律的逐渐失效，科学家和工程师正全力研究发展新的计算技术，推动算力发展。量子计算以量子比特为基本计算单元，利用量子叠加等原理实现并行计算，能在某些计算困难问题上提供指数级
分布式实战演示(ElcomSoft Distributed Password Recovery ) weixin_34071713
1、软件介绍ElcomSoftDistributedPasswordRecovery是一款俄罗斯安全公司出品的分布式密码暴力破解工具，能够利用Nvidia显卡使WPA和WPA2无线密钥破解速度提高100倍，而且软件还允许数千台计算机联网进行分布式并行计算。这意味着WPA密钥的破解速度从以前的数年减少到数天或数周。ElcomSoftDistributedPasswordRecovery的特色我们可以
【优化调度】基于粒子群算法求解水火电调度优化问题含Matlab源码 matlab科研助手
1简介粒子群算法因其原理简单,易于编程,适于并行计算等优点而得到了广泛的应用.本文探讨和分析了Matlab粒子群算法工具箱,并提出了基于该工具箱来实现水电站优化调度计算的方法.计算实例表明,Matlab粒子群算法工具箱可以很好地用于解决水电站优化调度问题,可获得比动态规划算法更好的精度.1算法介绍1.1关于速度和位置粒子群算法通过设计一种无质量的粒子来模拟鸟群中的鸟，粒子仅具有两个属性：速度和位置
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l

并行计算框架

概念

框架与引擎

批处理框架

流处理框架

混合处理框架

MapReduce

Hadoop

基本处理过程

优势和局限

Spark

Spark的批处理模式

Spark的流处理模式

优势和局限

总结

MPI

MPI的优点

MPI的缺点

OpenMP

CUDA

Cpu与Gpu

CUDA框架

GraphLab

GraphLab的优点

GraphLab和MapReduce的对比

GraphLab并行框架

Graph的构造

GraphLab的执行模型

你可能感兴趣的:(并行计算)