零如雨

Apache Spark处理大数据入门，看这一篇就够了

作者 Srini Penchikala ，译者丛一

什么是Spark

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一。

与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势。

首先，Spark为我们提供了一个全面、统一的框架用于管理各种有着不同性质（文本数据、图表数据等）的数据集和数据源（批量数据或实时的流数据）的大数据处理的需求。

Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍，甚至能够将应用在磁盘上的运行速度提升10倍。

Spark让开发者可以快速的用Java、Scala或Python编写程序。它本身自带了一个超过80个高阶操作符集合。而且还可以用它在shell中以交互式地查询数据。

除了Map和Reduce操作之外，它还支持SQL查询，流数据，机器学习和图表数据处理。开发者可以在一个数据管道用例中单独使用某一能力或者将这些能力结合在一起使用。

在这个Apache Spark文章系列的第一部分中，我们将了解到什么是Spark，它与典型的MapReduce解决方案的比较以及它如何为大数据处理提供了一套完整的工具。

Hadoop和Spark

Hadoop这项大数据处理技术大概已有十年历史，而且被看做是首选的大数据集合处理的解决方案。MapReduce是一路计算的优秀解决方案，不过对于需要多路计算和算法的用例来说，并非十分高效。数据处理流程中的每一步都需要一个Map阶段和一个Reduce阶段，而且如果要利用这一解决方案，需要将所有用例都转换成MapReduce模式。

在下一步开始之前，上一步的作业输出数据必须要存储到分布式文件系统中。因此，复制和磁盘存储会导致这种方式速度变慢。另外Hadoop解决方案中通常会包含难以安装和管理的集群。而且为了处理不同的大数据用例，还需要集成多种不同的工具（如用于机器学习的Mahout和流数据处理的Storm）。

如果想要完成比较复杂的工作，就必须将一系列的MapReduce作业串联起来然后顺序执行这些作业。每一个作业都是高时延的，而且只有在前一个作业完成之后下一个作业才能开始启动。

而Spark则允许程序开发者使用有向无环图（DAG）开发复杂的多步数据管道。而且还支持跨有向无环图的内存数据共享，以便不同的作业可以共同处理同一个数据。

Spark运行在现有的Hadoop分布式文件系统基础之上（HDFS）提供额外的增强功能。它支持将Spark应用部署到现存的Hadoop v1集群（with SIMR – Spark-Inside-MapReduce）或Hadoop v2 YARN集群甚至是Apache Mesos之中。

我们应该将Spark看作是Hadoop MapReduce的一个替代品而不是Hadoop的替代品。其意图并非是替代Hadoop，而是为了提供一个管理不同的大数据用例和需求的全面且统一的解决方案。

Spark特性

Spark通过在数据处理过程中成本更低的洗牌（Shuffle）方式，将MapReduce提升到一个更高的层次。利用内存数据存储和接近实时的处理能力，Spark比其他的大数据处理技术的性能要快很多倍。

Spark还支持大数据查询的延迟计算，这可以帮助优化大数据处理流程中的处理步骤。Spark还提供高级的API以提升开发者的生产力，除此之外还为大数据解决方案提供一致的体系架构模型。

Spark将中间结果保存在内存中而不是将其写入磁盘，当需要多次处理同一数据集时，这一点特别实用。Spark的设计初衷就是既可以在内存中又可以在磁盘上工作的执行引擎。当内存中的数据不适用时，Spark操作符就会执行外部操作。Spark可以用于处理大于集群内存容量总和的数据集。

Spark会尝试在内存中存储尽可能多的数据然后将其写入磁盘。它可以将某个数据集的一部分存入内存而剩余部分存入磁盘。开发者需要根据数据和用例评估对内存的需求。Spark的性能优势得益于这种内存中的数据存储。

Spark的其他特性包括：

支持比Map和Reduce更多的函数。
优化任意操作算子图（operator graphs）。
可以帮助优化整体数据处理流程的大数据查询的延迟计算。
提供简明、一致的Scala，Java和Python API。
提供交互式Scala和Python Shell。目前暂不支持Java。

Spark是用Scala程序设计语言编写而成，运行于Java虚拟机（JVM）环境之上。目前支持如下程序设计语言编写Spark应用：

Scala
Java
Python
Clojure
R

Spark生态系统

除了Spark核心API之外，Spark生态系统中还包括其他附加库，可以在大数据分析和机器学习领域提供更多的能力。

这些库包括：

Spark Streaming:
- Spark Streaming基于微批量方式的计算和处理，可以用于处理实时的流数据。它使用DStream，简单来说就是一个弹性分布式数据集（RDD）系列，处理实时数据。
Spark SQL:
- Spark SQL可以通过JDBC API将Spark数据集暴露出去，而且还可以用传统的BI和可视化工具在Spark数据上执行类似SQL的查询。用户还可以用Spark SQL对不同格式的数据（如JSON，Parquet以及数据库等）执行ETL，将其转化，然后暴露给特定的查询。
Spark MLlib:
- MLlib是一个可扩展的Spark机器学习库，由通用的学习算法和工具组成，包括二元分类、线性回归、聚类、协同过滤、梯度下降以及底层优化原语。
Spark GraphX:
- GraphX是用于图计算和并行图计算的新的（alpha）Spark API。通过引入弹性分布式属性图（Resilient Distributed Property Graph），一种顶点和边都带有属性的有向多重图，扩展了Spark RDD。为了支持图计算，GraphX暴露了一个基础操作符集合（如subgraph，joinVertices和aggregateMessages）和一个经过优化的Pregel API变体。此外，GraphX还包括一个持续增长的用于简化图分析任务的图算法和构建器集合。

除了这些库以外，还有一些其他的库，如BlinkDB和Tachyon。

BlinkDB是一个近似查询引擎，用于在海量数据上执行交互式SQL查询。BlinkDB可以通过牺牲数据精度来提升查询响应时间。通过在数据样本上执行查询并展示包含有意义的错误线注解的结果，操作大数据集合。

Tachyon是一个以内存为中心的分布式文件系统，能够提供内存级别速度的跨集群框架（如Spark和MapReduce）的可信文件共享。它将工作集文件缓存在内存中，从而避免到磁盘中加载需要经常读取的数据集。通过这一机制，不同的作业/查询和框架可以以内存级的速度访问缓存的文件。
此外，还有一些用于与其他产品集成的适配器，如Cassandra（Spark Cassandra 连接器）和R（SparkR）。Cassandra Connector可用于访问存储在Cassandra数据库中的数据并在这些数据上执行数据分析。

下图展示了在Spark生态系统中，这些不同的库之间的相互关联。

图1. Spark框架中的库

我们将在这一系列文章中逐步探索这些Spark库

Spark体系架构

Spark体系架构包括如下三个主要组件：

数据存储
API
管理框架

接下来让我们详细了解一下这些组件。

数据存储：

Spark用HDFS文件系统存储数据。它可用于存储任何兼容于Hadoop的数据源，包括HDFS，HBase，Cassandra等。

API：

利用API，应用开发者可以用标准的API接口创建基于Spark的应用。Spark提供Scala，Java和Python三种程序设计语言的API。

下面是三种语言Spark API的网站链接。

Scala API
Java
Python

资源管理：

Spark既可以部署在一个单独的服务器也可以部署在像Mesos或YARN这样的分布式计算框架之上。

下图2展示了Spark体系架构模型中的各个组件。

图2 Spark体系架构

弹性分布式数据集

弹性分布式数据集（基于Matei的研究论文）或RDD是Spark框架中的核心概念。可以将RDD视作数据库中的一张表。其中可以保存任何类型的数据。Spark将数据存储在不同分区上的RDD之中。

RDD可以帮助重新安排计算并优化数据处理过程。

此外，它还具有容错性，因为RDD知道如何重新创建和重新计算数据集。

RDD是不可变的。你可以用变换（Transformation）修改RDD，但是这个变换所返回的是一个全新的RDD，而原有的RDD仍然保持不变。

RDD支持两种类型的操作：

变换（Transformation）
行动（Action）

变换：变换的返回值是一个新的RDD集合，而不是单个值。调用一个变换方法，不会有任何求值计算，它只获取一个RDD作为参数，然后返回一个新的RDD。

变换函数包括：map，filter，flatMap，groupByKey，reduceByKey，aggregateByKey，pipe和coalesce。

行动：行动操作计算并返回一个新的值。当在一个RDD对象上调用行动函数时，会在这一时刻计算全部的数据处理查询并返回结果值。

行动操作包括：reduce，collect，count，first，take，countByKey以及foreach。

如何安装Spark

安装和使用Spark有几种不同方式。你可以在自己的电脑上将Spark作为一个独立的框架安装或者从诸如Cloudera，HortonWorks或MapR之类的供应商处获取一个Spark虚拟机镜像直接使用。或者你也可以使用在云端环境（如Databricks Cloud）安装并配置好的Spark。

在本文中，我们将把Spark作为一个独立的框架安装并在本地启动它。最近Spark刚刚发布了1.2.0版本。我们将用这一版本完成示例应用的代码展示。

如何运行Spark

当你在本地机器安装了Spark或使用了基于云端的Spark后，有几种不同的方式可以连接到Spark引擎。

下表展示了不同的Spark运行模式所需的Master URL参数。

如何与Spark交互

Spark启动并运行后，可以用Spark shell连接到Spark引擎进行交互式数据分析。Spark shell支持Scala和Python两种语言。Java不支持交互式的Shell，因此这一功能暂未在Java语言中实现。

可以用spark-shell.cmd和pyspark.cmd命令分别运行Scala版本和Python版本的Spark Shell。

Spark网页控制台

不论Spark运行在哪一种模式下，都可以通过访问Spark网页控制台查看Spark的作业结果和其他的统计数据，控制台的URL地址如下：

http://localhost:4040

Spark控制台如下图3所示，包括Stages，Storage，Environment和Executors四个标签页

（点击查看大图）

图3. Spark网页控制台

共享变量

Spark提供两种类型的共享变量可以提升集群环境中的Spark程序运行效率。分别是广播变量和累加器。

广播变量：广播变量可以在每台机器上缓存只读变量而不需要为各个任务发送该变量的拷贝。他们可以让大的输入数据集的集群拷贝中的节点更加高效。

下面的代码片段展示了如何使用广播变量。

	
	
		
		

		
		//
</code></pre> 
  </div> 
  <p>// Broadcast Variables<br> //<br> val broadcastVar = sc.broadcast(Array(1, 2, 3))<br> broadcastVar.value<br> </p> 
  <div class="crayon-main"> 
   <br> 
   <br> 
   <br> 
   <br> 
   <br> 
   <br> 
   <table class="crayon-table"> 
    <tbody> 
     <tr class="crayon-row"> 
      <td class="crayon-nums "><br> 
       <div class="crayon-nums-content"> 
        <div class="crayon-num">
          1 
        </div> 
        <div class="crayon-num crayon-striped-num">
          2 
        </div> 
        <div class="crayon-num">
          3 
        </div> 
        <div class="crayon-num crayon-striped-num">
          4 
        </div> 
        <div class="crayon-num">
          5 
        </div> 
       </div><br> </td> 
      <td class="crayon-code"> 
       <div class="crayon-pre"> 
        <div class="crayon-line" id="crayon-5ba7317106519025624228-1"> 
         <span class="crayon-c">//</span> 
        </div> 
        <div class="crayon-line crayon-striped-line" id="crayon-5ba7317106519025624228-2"> 
         <span class="crayon-c">// Broadcast Variables</span> 
        </div> 
        <div class="crayon-line" id="crayon-5ba7317106519025624228-3"> 
         <span class="crayon-c">//</span> 
        </div> 
        <div class="crayon-line crayon-striped-line" id="crayon-5ba7317106519025624228-4"> 
         <span class="crayon-e">val </span> 
         <span class="crayon-v">broadcastVar</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-o">=</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-v">sc</span> 
         <span class="crayon-sy">.</span> 
         <span class="crayon-e">broadcast</span> 
         <span class="crayon-sy">(</span> 
         <span class="crayon-t">Array</span> 
         <span class="crayon-sy">(</span> 
         <span class="crayon-cn">1</span> 
         <span class="crayon-sy">,</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-cn">2</span> 
         <span class="crayon-sy">,</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-cn">3</span> 
         <span class="crayon-sy">)</span> 
         <span class="crayon-sy">)</span> 
        </div> 
        <div class="crayon-line" id="crayon-5ba7317106519025624228-5"> 
         <span class="crayon-v">broadcastVar</span> 
         <span class="crayon-sy">.</span> 
         <span class="crayon-v">value</span> 
        </div> 
       </div></td> 
     </tr> 
    </tbody> 
   </table> 
   <br> 
  </div> 
  <br> 
  <p></p> 
  <p><b>累加器：</b>只有在使用相关操作时才会添加累加器，因此它可以很好地支持并行。累加器可用于实现计数（就像在MapReduce中那样）或求和。可以用add方法将运行在集群上的任务添加到一个累加器变量中。不过这些任务无法读取变量的值。只有驱动程序才能够读取累加器的值。</p> 
  <p>下面的代码片段展示了如何使用累加器共享变量：</p> 
  <pre><code>	<div id="crayon-5ba731710652b449536766" class="crayon-syntax crayon-theme-classic crayon-font-monaco crayon-os-pc print-yes notranslate" data-settings=" minimize scroll-mouseover" style="margin-top: 12px; margin-bottom: 12px; font-size: 12px !important; line-height: 15px !important; height: auto;">
	
		<div class="crayon-toolbar" data-settings=" mouseover overlay hide delay" style="font-size: 12px !important; height: 18px !important; line-height: 18px !important; margin-top: -19px; display: none; position: absolute; z-index: 2;"><span class="crayon-title"></span>
		<div class="crayon-tools" style="font-size: 12px !important;height: 18px !important; line-height: 18px !important;"><div class="crayon-button crayon-nums-button crayon-pressed" title="切换是否显示行编号"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div><div class="crayon-button crayon-plain-button" title="纯文本显示代码"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div><div class="crayon-button crayon-wrap-button" title="切换自动换行"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div><div class="crayon-button crayon-expand-button" title="点击展开代码" style="display: none;"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div><div class="crayon-button crayon-copy-button" title="复制代码"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div><div class="crayon-button crayon-popup-button" title="在新窗口中显示代码"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div></div></div>
		<div class="crayon-info" style="min-height: 16.8px !important; line-height: 16.8px !important;"></div>
		<div class="crayon-plain-wrap"><textarea wrap="soft" class="crayon-plain print-no" data-settings="dblclick" readonly="" style="tab-size: 4; font-size: 12px !important; line-height: 15px !important; z-index: 0; opacity: 0; overflow: hidden;">//
</code></pre> 
  <p>// Accumulators<br> //</p> 
  <p>val accum = sc.accumulator(0, “My Accumulator”)</p> 
  <p>sc.parallelize(Array(1, 2, 3, 4)).foreach(x => accum += x)</p> 
  <p>accum.value<br> </p> 
  <div class="crayon-main"> 
   <br> 
   <br> 
   <br> 
   <br> 
   <br> 
   <br> 
   <table class="crayon-table"> 
    <tbody> 
     <tr class="crayon-row"> 
      <td class="crayon-nums "><br> 
       <div class="crayon-nums-content"> 
        <div class="crayon-num">
          1 
        </div> 
        <div class="crayon-num crayon-striped-num">
          2 
        </div> 
        <div class="crayon-num">
          3 
        </div> 
        <div class="crayon-num crayon-striped-num">
          4 
        </div> 
        <div class="crayon-num">
          5 
        </div> 
        <div class="crayon-num crayon-striped-num">
          6 
        </div> 
        <div class="crayon-num">
          7 
        </div> 
        <div class="crayon-num crayon-striped-num">
          8 
        </div> 
        <div class="crayon-num">
          9 
        </div> 
       </div><br> </td> 
      <td class="crayon-code"> 
       <div class="crayon-pre"> 
        <div class="crayon-line" id="crayon-5ba731710652b449536766-1"> 
         <span class="crayon-c">//</span> 
        </div> 
        <div class="crayon-line crayon-striped-line" id="crayon-5ba731710652b449536766-2"> 
         <span class="crayon-c">// Accumulators</span> 
        </div> 
        <div class="crayon-line" id="crayon-5ba731710652b449536766-3"> 
         <span class="crayon-c">//</span> 
        </div> 
        <div class="crayon-line crayon-striped-line" id="crayon-5ba731710652b449536766-4">
            
        </div> 
        <div class="crayon-line" id="crayon-5ba731710652b449536766-5"> 
         <span class="crayon-e">val </span> 
         <span class="crayon-v">accum</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-o">=</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-v">sc</span> 
         <span class="crayon-sy">.</span> 
         <span class="crayon-e">accumulator</span> 
         <span class="crayon-sy">(</span> 
         <span class="crayon-cn">0</span> 
         <span class="crayon-sy">,</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-s">“My Accumulator”</span> 
         <span class="crayon-sy">)</span> 
        </div> 
        <div class="crayon-line crayon-striped-line" id="crayon-5ba731710652b449536766-6">
            
        </div> 
        <div class="crayon-line" id="crayon-5ba731710652b449536766-7"> 
         <span class="crayon-v">sc</span> 
         <span class="crayon-sy">.</span> 
         <span class="crayon-e">parallelize</span> 
         <span class="crayon-sy">(</span> 
         <span class="crayon-t">Array</span> 
         <span class="crayon-sy">(</span> 
         <span class="crayon-cn">1</span> 
         <span class="crayon-sy">,</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-cn">2</span> 
         <span class="crayon-sy">,</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-cn">3</span> 
         <span class="crayon-sy">,</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-cn">4</span> 
         <span class="crayon-sy">)</span> 
         <span class="crayon-sy">)</span> 
         <span class="crayon-sy">.</span> 
         <span class="crayon-st">foreach</span> 
         <span class="crayon-sy">(</span> 
         <span class="crayon-v">x</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-o">=&</span> 
         <span class="crayon-v">gt</span> 
         <span class="crayon-sy">;</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-v">accum</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-o">+=</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-v">x</span> 
         <span class="crayon-sy">)</span> 
        </div> 
        <div class="crayon-line crayon-striped-line" id="crayon-5ba731710652b449536766-8">
            
        </div> 
        <div class="crayon-line" id="crayon-5ba731710652b449536766-9"> 
         <span class="crayon-v">accum</span> 
         <span class="crayon-sy">.</span> 
         <span class="crayon-v">value</span> 
        </div> 
       </div></td> 
     </tr> 
    </tbody> 
   </table> 
   <br> 
  </div> 
  <br> 
  <p></p> 
  <p></p> 
  <h2>Spark应用示例</h2> 
  <p>本篇文章中所涉及的示例应用是一个简单的字数统计应用。这与学习用Hadoop进行大数据处理时的示例应用相同。我们将在一个文本文件上执行一些数据分析查询。本示例中的文本文件和数据集都很小，不过无须修改任何代码，示例中所用到的Spark查询同样可以用到大容量数据集之上。</p> 
  <p>为了让讨论尽量简单，我们将使用Spark Scala Shell。</p> 
  <p>首先让我们看一下如何在你自己的电脑上安装Spark。</p> 
  <p><b>前提条件：</b></p> 
  <ul> 
   <li>为了让Spark能够在本机正常工作，你需要安装Java开发工具包（JDK）。这将包含在下面的第一步中。</li> 
   <li>同样还需要在电脑上安装Spark软件。下面的第二步将介绍如何完成这项工作。</li> 
  </ul> 
  <p><b>注：</b>下面这些指令都是以Windows环境为例。如果你使用不同的操作系统环境，需要相应的修改系统变量和目录路径已匹配你的环境。</p> 
  <p><b>I. </b><b>安装JDK</b></p> 
  <p>1）从Oracle网站上下载JDK。推荐使用JDK 1.7版本。</p> 
  <p>将JDK安装到一个没有空格的目录下。对于Windows用户，需要将JDK安装到像c:\dev这样的文件夹下，而不能安装到“c:\Program Files”文件夹下。“c:\Program Files”文件夹的名字中包含空格，如果软件安装到这个文件夹下会导致一些问题。</p> 
  <p><b>注：</b><b>不要</b>在“c:\Program Files”文件夹中安装JDK或（第二步中所描述的）Spark软件。</p> 
  <p>2）完成JDK安装后，切换至JDK 1.7目录下的”bin“文件夹，然后键入如下命令，验证JDK是否正确安装：</p> 
  <p>java -version</p> 
  <p>如果JDK安装正确，上述命令将显示Java版本。</p> 
  <p><b>II. </b><b>安装Spark</b><b>软件：</b></p> 
  <p>从Spark网站上下载最新版本的Spark。在本文发表时，最新的Spark版本是1.2。你可以根据Hadoop的版本选择一个特定的Spark版本安装。我下载了与Hadoop 2.4或更高版本匹配的Spark，文件名是spark-1.2.0-bin-hadoop2.4.tgz。</p> 
  <p>将安装文件解压到本地文件夹中（如：c:\dev）。</p> 
  <p>为了验证Spark安装的正确性，切换至Spark文件夹然后用如下命令启动Spark Shell。这是Windows环境下的命令。如果使用Linux或Mac OS，请相应地编辑命令以便能够在相应的平台上正确运行。</p> 
  <pre><code>	<div id="crayon-5ba7317106530618763840" class="crayon-syntax crayon-theme-classic crayon-font-monaco crayon-os-pc print-yes notranslate" data-settings=" minimize scroll-mouseover" style="margin-top: 12px; margin-bottom: 12px; font-size: 12px !important; line-height: 15px !important; height: auto;">
	
		<div class="crayon-toolbar" data-settings=" mouseover overlay hide delay" style="font-size: 12px !important; height: 18px !important; line-height: 18px !important; margin-top: -18px; display: none; position: absolute; z-index: 2;"><span class="crayon-title"></span>
		<div class="crayon-tools" style="font-size: 12px !important;height: 18px !important; line-height: 18px !important;"><div class="crayon-button crayon-nums-button crayon-pressed" title="切换是否显示行编号"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div><div class="crayon-button crayon-plain-button" title="纯文本显示代码"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div><div class="crayon-button crayon-wrap-button" title="切换自动换行"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div><div class="crayon-button crayon-expand-button" title="点击展开代码" style="display: none;"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div><div class="crayon-button crayon-copy-button" title="复制代码"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div><div class="crayon-button crayon-popup-button" title="在新窗口中显示代码"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div></div></div>
		<div class="crayon-info" style="min-height: 16.8px !important; line-height: 16.8px !important;"></div>
		<div class="crayon-plain-wrap"><textarea wrap="soft" class="crayon-plain print-no" data-settings="dblclick" readonly="" style="tab-size: 4; font-size: 12px !important; line-height: 15px !important; z-index: 0; opacity: 0; overflow: hidden;">c:
</code></pre> 
  <p>cd c:\dev\spark-1.2.0-bin-hadoop2.4<br> bin\spark-shell<br> </p> 
  <div class="crayon-main"> 
   <br> 
   <br> 
   <br> 
   <br> 
   <br> 
   <br> 
   <table class="crayon-table"> 
    <tbody> 
     <tr class="crayon-row"> 
      <td class="crayon-nums "><br> 
       <div class="crayon-nums-content"> 
        <div class="crayon-num">
          1 
        </div> 
        <div class="crayon-num crayon-striped-num">
          2 
        </div> 
        <div class="crayon-num">
          3 
        </div> 
       </div><br> </td> 
      <td class="crayon-code"> 
       <div class="crayon-pre"> 
        <div class="crayon-line" id="crayon-5ba7317106530618763840-1"> 
         <span class="crayon-v">c</span> 
         <span class="crayon-o">:</span> 
        </div> 
        <div class="crayon-line crayon-striped-line" id="crayon-5ba7317106530618763840-2"> 
         <span class="crayon-i">cd</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-v">c</span> 
         <span class="crayon-o">:</span> 
         <span class="crayon-sy"></span><span class="crayon-v">dev</span><span class="crayon-sy"></span><span class="crayon-v">spark</span><span class="crayon-o">-</span><span class="crayon-cn">1.2.0</span><span class="crayon-o">-</span><span class="crayon-v">bin</span><span class="crayon-o">-</span><span class="crayon-v">hadoop2</span><span class="crayon-sy">.</span><span class="crayon-cn">4</span></span></span> 
        </div> 
        <div class="crayon-line" id="crayon-5ba7317106530618763840-3"> 
         <span class="crayon-v">bin</span> 
         <span class="crayon-sy"></span><span class="crayon-v">spark</span><span class="crayon-o">-</span><span class="crayon-v">shell</span></span> 
        </div> 
       </div></td> 
     </tr> 
    </tbody> 
   </table> 
   <br> 
  </div> 
  <br> 
  <p></p> 
  <p>如果Spark安装正确，就能够在控制台的输出中看到如下信息。</p> 
  <pre><code>	<div id="crayon-5ba7317106536163291347" class="crayon-syntax crayon-theme-classic crayon-font-monaco crayon-os-pc print-yes notranslate" data-settings=" minimize scroll-mouseover" style="margin-top: 12px; margin-bottom: 12px; font-size: 12px !important; line-height: 15px !important; height: auto;">
	
		<div class="crayon-toolbar" data-settings=" mouseover overlay hide delay" style="font-size: 12px !important; height: 18px !important; line-height: 18px !important; margin-top: -19px; display: none; position: absolute; z-index: 2;"><span class="crayon-title"></span>
		<div class="crayon-tools" style="font-size: 12px !important;height: 18px !important; line-height: 18px !important;"><div class="crayon-button crayon-nums-button crayon-pressed" title="切换是否显示行编号"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div><div class="crayon-button crayon-plain-button" title="纯文本显示代码"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div><div class="crayon-button crayon-wrap-button" title="切换自动换行"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div><div class="crayon-button crayon-expand-button" title="点击展开代码" style="display: none;"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div><div class="crayon-button crayon-copy-button" title="复制代码"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div><div class="crayon-button crayon-popup-button" title="在新窗口中显示代码"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div></div></div>
		<div class="crayon-info" style="min-height: 16.8px !important; line-height: 16.8px !important;"></div>
		<div class="crayon-plain-wrap"><textarea wrap="soft" class="crayon-plain print-no" data-settings="dblclick" readonly="" style="tab-size: 4; font-size: 12px !important; line-height: 15px !important; z-index: 0; opacity: 0; overflow: hidden;">….
</code></pre> 
  <p>15/01/17 23:17:46 INFO HttpServer: Starting HTTP Server<br> 15/01/17 23:17:46 INFO Utils: Successfully started service ‘HTTP class server’ on port 58132.<br> Welcome to<br> ____ __<br> / <strong>/</strong> ___ <em><strong><strong>/ /</strong><br> <em>\ / _ / _ `/ __/ '</em>/<br> /</strong></em>/ .__/_,<em>/</em>/ /<em>/_\ version 1.2.0<br> /</em>/</p> 
  <p>Using Scala version 2.10.4 (Java HotSpot™ 64-Bit Server VM, Java 1.7.0_71)<br> Type in expressions to have them evaluated.<br> Type :help for more information.<br> ….<br> 15/01/17 23:17:53 INFO BlockManagerMaster: Registered BlockManager<br> 15/01/17 23:17:53 INFO SparkILoop: Created spark context…<br> Spark context available as sc.<br> </p> 
  <div class="crayon-main"> 
   <br> 
   <br> 
   <br> 
   <br> 
   <br> 
   <br> 
   <table class="crayon-table"> 
    <tbody> 
     <tr class="crayon-row"> 
      <td class="crayon-nums "><br> 
       <div class="crayon-nums-content"> 
        <div class="crayon-num">
          1 
        </div> 
        <div class="crayon-num crayon-striped-num">
          2 
        </div> 
        <div class="crayon-num">
          3 
        </div> 
        <div class="crayon-num crayon-striped-num">
          4 
        </div> 
        <div class="crayon-num">
          5 
        </div> 
        <div class="crayon-num crayon-striped-num">
          6 
        </div> 
        <div class="crayon-num">
          7 
        </div> 
        <div class="crayon-num crayon-striped-num">
          8 
        </div> 
        <div class="crayon-num">
          9 
        </div> 
        <div class="crayon-num crayon-striped-num">
          10 
        </div> 
        <div class="crayon-num">
          11 
        </div> 
        <div class="crayon-num crayon-striped-num">
          12 
        </div> 
        <div class="crayon-num">
          13 
        </div> 
        <div class="crayon-num crayon-striped-num">
          14 
        </div> 
        <div class="crayon-num">
          15 
        </div> 
        <div class="crayon-num crayon-striped-num">
          16 
        </div> 
        <div class="crayon-num">
          17 
        </div> 
       </div><br> </td> 
      <td class="crayon-code"> 
       <div class="crayon-pre"> 
        <div class="crayon-line" id="crayon-5ba7317106536163291347-1">
          … 
         <span class="crayon-sy">.</span> 
        </div> 
        <div class="crayon-line crayon-striped-line" id="crayon-5ba7317106536163291347-2"> 
         <span class="crayon-cn">15</span> 
         <span class="crayon-o">/</span> 
         <span class="crayon-cn">01</span> 
         <span class="crayon-o">/</span> 
         <span class="crayon-cn">17</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-cn">23</span> 
         <span class="crayon-o">:</span> 
         <span class="crayon-cn">17</span> 
         <span class="crayon-o">:</span> 
         <span class="crayon-cn">46</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-e">INFO </span> 
         <span class="crayon-v">HttpServer</span> 
         <span class="crayon-o">:</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-e">Starting </span> 
         <span class="crayon-e">HTTP </span> 
         <span class="crayon-i">Server</span> 
        </div> 
        <div class="crayon-line" id="crayon-5ba7317106536163291347-3"> 
         <span class="crayon-cn">15</span> 
         <span class="crayon-o">/</span> 
         <span class="crayon-cn">01</span> 
         <span class="crayon-o">/</span> 
         <span class="crayon-cn">17</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-cn">23</span> 
         <span class="crayon-o">:</span> 
         <span class="crayon-cn">17</span> 
         <span class="crayon-o">:</span> 
         <span class="crayon-cn">46</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-e">INFO </span> 
         <span class="crayon-v">Utils</span> 
         <span class="crayon-o">:</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-e">Successfully </span> 
         <span class="crayon-e">started </span> 
         <span class="crayon-i">service</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-s">‘HTTP class server’</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-e">on </span> 
         <span class="crayon-i">port</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-cn">58132.</span> 
        </div> 
        <div class="crayon-line crayon-striped-line" id="crayon-5ba7317106536163291347-4"> 
         <span class="crayon-e">Welcome </span> 
         <span class="crayon-st">to</span> 
        </div> 
        <div class="crayon-line" id="crayon-5ba7317106536163291347-5"> 
         <span class="crayon-h">      </span> 
         <span class="crayon-e"><em><em><em><em>              </em></em></em></em></span> 
         <span class="crayon-v"><strong></strong></span> 
        </div> 
        <div class="crayon-line crayon-striped-line" id="crayon-5ba7317106536163291347-6"> 
         <span class="crayon-h">     </span> 
         <span class="crayon-o">/</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-v"></span> 
         <span class="crayon-o">/</span> 
         <span class="crayon-e"><strong>  </strong></span> 
         <span class="crayon-e"> </span> 
         <span class="crayon-v">_____</span> 
         <span class="crayon-o">/</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-o">/</span> 
         <span class="crayon-v"></span> 
         <span class="crayon-sy"></span> 
        </div> 
        <div class="crayon-line" id="crayon-5ba7317106536163291347-7"> 
         <span class="crayon-h">    </span> 
         <span class="crayon-v"></span> 
         <span class="crayon-sy"></span><span class="crayon-h"> </span><span class="crayon-sy"></span><span class="crayon-o">/</span><span class="crayon-h"> </span><span class="crayon-i"><em></em></span><span class="crayon-h"> </span><span class="crayon-sy"></span><span class="crayon-o">/</span><span class="crayon-h"> </span><span class="crayon-i"></span><span class="crayon-h"> </span><span class="crayon-sy">`</span><span class="crayon-o">/</span><span class="crayon-h"> </span><span class="crayon-v"><strong></strong></span><span class="crayon-o">/</span><span class="crayon-h">  </span>'<span class="crayon-v"><em></em></span><span class="crayon-o">/</span></span></span></span> 
        </div> 
        <div class="crayon-line crayon-striped-line" id="crayon-5ba7317106536163291347-8"> 
         <span class="crayon-h">   </span> 
         <span class="crayon-o">/</span> 
         <span class="crayon-v"></span> 
         <span class="crayon-o">/</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-sy">.</span> 
         <span class="crayon-v">__</span> 
         <span class="crayon-o">/</span> 
         <span class="crayon-sy"></span><span class="crayon-v"><em></em></span><span class="crayon-sy">,</span><span class="crayon-v"></span><span class="crayon-o">/</span><span class="crayon-v"><em></em></span><span class="crayon-o">/</span><span class="crayon-h"> </span><span class="crayon-o">/</span><span class="crayon-v"></span><span class="crayon-o">/</span><span class="crayon-sy"></span><span class="crayon-v"><em></em></span><span class="crayon-sy"></span><span class="crayon-h">   </span><span class="crayon-i">version</span><span class="crayon-h"> </span><span class="crayon-cn">1.2.0</span></span></span></span> 
        </div> 
        <div class="crayon-line" id="crayon-5ba7317106536163291347-9"> 
         <span class="crayon-h">      </span> 
         <span class="crayon-o">/</span> 
         <span class="crayon-v"></span> 
         <span class="crayon-o">/</span> 
        </div> 
        <div class="crayon-line crayon-striped-line" id="crayon-5ba7317106536163291347-10">
            
        </div> 
        <div class="crayon-line" id="crayon-5ba7317106536163291347-11"> 
         <span class="crayon-e">Using </span> 
         <span class="crayon-e">Scala </span> 
         <span class="crayon-i">version</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-cn">2.10.4</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-sy">(</span> 
         <span class="crayon-e">Java </span> 
         <span class="crayon-e">HotSpot</span> 
         <span class="crayon-sy">(</span> 
         <span class="crayon-v">TM</span> 
         <span class="crayon-sy">)</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-cn">64</span> 
         <span class="crayon-o">-</span> 
         <span class="crayon-e">Bit </span> 
         <span class="crayon-e">Server </span> 
         <span class="crayon-v">VM</span> 
         <span class="crayon-sy">,</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-i">Java</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-cn">1.7.0_71</span> 
         <span class="crayon-sy">)</span> 
        </div> 
        <div class="crayon-line crayon-striped-line" id="crayon-5ba7317106536163291347-12"> 
         <span class="crayon-e">Type </span> 
         <span class="crayon-st">in</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-e">expressions </span> 
         <span class="crayon-st">to</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-e">have </span> 
         <span class="crayon-e">them </span> 
         <span class="crayon-v">evaluated</span> 
         <span class="crayon-sy">.</span> 
        </div> 
        <div class="crayon-line" id="crayon-5ba7317106536163291347-13"> 
         <span class="crayon-v">Type</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-o">:</span> 
         <span class="crayon-e">help </span> 
         <span class="crayon-st">for</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-e">more </span> 
         <span class="crayon-v">information</span> 
         <span class="crayon-sy">.</span> 
        </div> 
        <div class="crayon-line crayon-striped-line" id="crayon-5ba7317106536163291347-14">
          … 
         <span class="crayon-sy">.</span> 
        </div> 
        <div class="crayon-line" id="crayon-5ba7317106536163291347-15"> 
         <span class="crayon-cn">15</span> 
         <span class="crayon-o">/</span> 
         <span class="crayon-cn">01</span> 
         <span class="crayon-o">/</span> 
         <span class="crayon-cn">17</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-cn">23</span> 
         <span class="crayon-o">:</span> 
         <span class="crayon-cn">17</span> 
         <span class="crayon-o">:</span> 
         <span class="crayon-cn">53</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-e">INFO </span> 
         <span class="crayon-v">BlockManagerMaster</span> 
         <span class="crayon-o">:</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-e">Registered </span> 
         <span class="crayon-i">BlockManager</span> 
        </div> 
        <div class="crayon-line crayon-striped-line" id="crayon-5ba7317106536163291347-16"> 
         <span class="crayon-cn">15</span> 
         <span class="crayon-o">/</span> 
         <span class="crayon-cn">01</span> 
         <span class="crayon-o">/</span> 
         <span class="crayon-cn">17</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-cn">23</span> 
         <span class="crayon-o">:</span> 
         <span class="crayon-cn">17</span> 
         <span class="crayon-o">:</span> 
         <span class="crayon-cn">53</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-e">INFO </span> 
         <span class="crayon-v">SparkILoop</span> 
         <span class="crayon-o">:</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-e">Created </span> 
         <span class="crayon-e">spark </span> 
         <span class="crayon-v">context</span> 
         <span class="crayon-sy">.</span> 
         <span class="crayon-sy">.</span> 
        </div> 
        <div class="crayon-line" id="crayon-5ba7317106536163291347-17"> 
         <span class="crayon-e">Spark </span> 
         <span class="crayon-e">context </span> 
         <span class="crayon-e">available </span> 
         <span class="crayon-st">as</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-v">sc</span> 
         <span class="crayon-sy">.</span> 
        </div> 
       </div></td> 
     </tr> 
    </tbody> 
   </table> 
   <br> 
  </div> 
  <br> 
  <p></p> 
  <p>可以键入如下命令检查Spark Shell是否工作正常。</p> 
  <pre><code>	<div id="crayon-5ba7317106539318513113" class="crayon-syntax crayon-theme-classic crayon-font-monaco crayon-os-pc print-yes notranslate" data-settings=" minimize scroll-mouseover" style="margin-top: 12px; margin-bottom: 12px; font-size: 12px !important; line-height: 15px !important; height: auto;">
	
		<div class="crayon-toolbar" data-settings=" mouseover overlay hide delay" style="font-size: 12px !important; height: 18px !important; line-height: 18px !important; margin-top: -19px; display: none; z-index: 4;"><span class="crayon-title"></span>
		<div class="crayon-tools" style="font-size: 12px !important;height: 18px !important; line-height: 18px !important;"><div class="crayon-button crayon-nums-button crayon-pressed" title="切换是否显示行编号"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div><div class="crayon-button crayon-plain-button" title="纯文本显示代码"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div><div class="crayon-button crayon-wrap-button" title="切换自动换行"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div><div class="crayon-button crayon-expand-button" title="点击展开代码" style="display: none;"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div><div class="crayon-button crayon-copy-button" title="复制代码"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div><div class="crayon-button crayon-popup-button" title="在新窗口中显示代码"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div></div></div>
		<div class="crayon-info" style="min-height: 16.8px !important; line-height: 16.8px !important;"></div>
		<div class="crayon-plain-wrap"><textarea wrap="soft" class="crayon-plain print-no" data-settings="dblclick" readonly="" style="tab-size: 4; font-size: 12px !important; line-height: 15px !important; z-index: 0; opacity: 0; overflow: hidden;">sc.version
		
			
				
			
				1
			
					sc.version

（或）

	
	
		
		

		
		sc.appName
		
			
				
			
				1
			
					sc.appName

完成上述步骤之后，可以键入如下命令退出Spark Shell窗口：

如果想启动Spark Python Shell，需要先在电脑上安装Python。你可以下载并安装Anaconda，这是一个免费的Python发行版本，其中包括了一些比较流行的科学、数学、工程和数据分析方面的Python包。

然后可以运行如下命令启动Spark Python Shell：

	
	
		
		

		
		c:
</code></pre> 
  <p>cd c:\dev\spark-1.2.0-bin-hadoop2.4<br> bin\pyspark<br> </p> 
  <div class="crayon-main"> 
   <br> 
   <br> 
   <br> 
   <br> 
   <br> 
   <br> 
   <table class="crayon-table"> 
    <tbody> 
     <tr class="crayon-row"> 
      <td class="crayon-nums "><br> 
       <div class="crayon-nums-content"> 
        <div class="crayon-num">
          1 
        </div> 
        <div class="crayon-num crayon-striped-num">
          2 
        </div> 
        <div class="crayon-num">
          3 
        </div> 
       </div><br> </td> 
      <td class="crayon-code"> 
       <div class="crayon-pre"> 
        <div class="crayon-line" id="crayon-5ba7317106542304394042-1"> 
         <span class="crayon-v">c</span> 
         <span class="crayon-o">:</span> 
        </div> 
        <div class="crayon-line crayon-striped-line" id="crayon-5ba7317106542304394042-2"> 
         <span class="crayon-i">cd</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-v">c</span> 
         <span class="crayon-o">:</span> 
         <span class="crayon-sy"></span><span class="crayon-v">dev</span><span class="crayon-sy"></span><span class="crayon-v">spark</span><span class="crayon-o">-</span><span class="crayon-cn">1.2.0</span><span class="crayon-o">-</span><span class="crayon-v">bin</span><span class="crayon-o">-</span><span class="crayon-v">hadoop2</span><span class="crayon-sy">.</span><span class="crayon-cn">4</span></span></span> 
        </div> 
        <div class="crayon-line" id="crayon-5ba7317106542304394042-3"> 
         <span class="crayon-v">bin</span> 
         <span class="crayon-sy"></span><span class="crayon-v">pyspark</span></span> 
        </div> 
       </div></td> 
     </tr> 
    </tbody> 
   </table> 
   <br> 
  </div> 
  <br> 
  <p></p> 
  <p></p> 
  <h2>Spark示例应用</h2> 
  <p>完成Spark安装并启动后，就可以用Spark API执行数据分析查询了。</p> 
  <p>这些从文本文件中读取并处理数据的命令都很简单。我们将在这一系列文章的后续文章中向大家介绍更高级的Spark框架使用的用例。</p> 
  <p>首先让我们用Spark API运行流行的Word Count示例。如果还没有运行Spark Scala Shell，首先打开一个Scala Shell窗口。这个示例的相关命令如下所示：</p> 
  <pre><code>	<div id="crayon-5ba7317106545194756835" class="crayon-syntax crayon-theme-classic crayon-font-monaco crayon-os-pc print-yes notranslate" data-settings=" minimize scroll-mouseover" style="margin-top: 12px; margin-bottom: 12px; font-size: 12px !important; line-height: 15px !important; height: auto;">
	
		<div class="crayon-toolbar" data-settings=" mouseover overlay hide delay" style="font-size: 12px !important; height: 18px !important; line-height: 18px !important; margin-top: -19px; display: none; position: absolute; z-index: 2;"><span class="crayon-title"></span>
		<div class="crayon-tools" style="font-size: 12px !important;height: 18px !important; line-height: 18px !important;"><div class="crayon-button crayon-nums-button crayon-pressed" title="切换是否显示行编号"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div><div class="crayon-button crayon-plain-button" title="纯文本显示代码"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div><div class="crayon-button crayon-wrap-button" title="切换自动换行"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div><div class="crayon-button crayon-expand-button" title="点击展开代码" style="display: none;"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div><div class="crayon-button crayon-copy-button" title="复制代码"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div><div class="crayon-button crayon-popup-button" title="在新窗口中显示代码"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div></div></div>
		<div class="crayon-info" style="min-height: 16.8px !important; line-height: 16.8px !important;"></div>
		<div class="crayon-plain-wrap"><textarea wrap="soft" class="crayon-plain print-no" data-settings="dblclick" readonly="" style="tab-size: 4; font-size: 12px !important; line-height: 15px !important; z-index: 0; opacity: 0; overflow: hidden;">import org.apache.spark.SparkContext
</code></pre> 
  <p>import org.apache.spark.SparkContext._</p> 
  <p>val txtFile = “README.md”<br> val txtData = sc.textFile(txtFile)<br> txtData.cache()<br> </p> 
  <div class="crayon-main"> 
   <br> 
   <br> 
   <br> 
   <br> 
   <br> 
   <br> 
   <table class="crayon-table"> 
    <tbody> 
     <tr class="crayon-row"> 
      <td class="crayon-nums "><br> 
       <div class="crayon-nums-content"> 
        <div class="crayon-num">
          1 
        </div> 
        <div class="crayon-num crayon-striped-num">
          2 
        </div> 
        <div class="crayon-num">
          3 
        </div> 
        <div class="crayon-num crayon-striped-num">
          4 
        </div> 
        <div class="crayon-num">
          5 
        </div> 
        <div class="crayon-num crayon-striped-num">
          6 
        </div> 
       </div><br> </td> 
      <td class="crayon-code"> 
       <div class="crayon-pre"> 
        <div class="crayon-line" id="crayon-5ba7317106545194756835-1"> 
         <span class="crayon-e">import </span> 
         <span class="crayon-v">org</span> 
         <span class="crayon-sy">.</span> 
         <span class="crayon-v">apache</span> 
         <span class="crayon-sy">.</span> 
         <span class="crayon-v">spark</span> 
         <span class="crayon-sy">.</span> 
         <span class="crayon-e">SparkContext</span> 
        </div> 
        <div class="crayon-line crayon-striped-line" id="crayon-5ba7317106545194756835-2"> 
         <span class="crayon-e">import </span> 
         <span class="crayon-v">org</span> 
         <span class="crayon-sy">.</span> 
         <span class="crayon-v">apache</span> 
         <span class="crayon-sy">.</span> 
         <span class="crayon-v">spark</span> 
         <span class="crayon-sy">.</span> 
         <span class="crayon-v">SparkContext</span> 
         <span class="crayon-sy">.</span> 
         <span class="crayon-i">_</span> 
        </div> 
        <div class="crayon-line" id="crayon-5ba7317106545194756835-3"> 
         <span class="crayon-h"> </span> 
        </div> 
        <div class="crayon-line crayon-striped-line" id="crayon-5ba7317106545194756835-4"> 
         <span class="crayon-e">val </span> 
         <span class="crayon-v">txtFile</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-o">=</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-s">"README.md"</span> 
        </div> 
        <div class="crayon-line" id="crayon-5ba7317106545194756835-5"> 
         <span class="crayon-e">val </span> 
         <span class="crayon-v">txtData</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-o">=</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-v">sc</span> 
         <span class="crayon-sy">.</span> 
         <span class="crayon-e">textFile</span> 
         <span class="crayon-sy">(</span> 
         <span class="crayon-v">txtFile</span> 
         <span class="crayon-sy">)</span> 
        </div> 
        <div class="crayon-line crayon-striped-line" id="crayon-5ba7317106545194756835-6"> 
         <span class="crayon-v">txtData</span> 
         <span class="crayon-sy">.</span> 
         <span class="crayon-e">cache</span> 
         <span class="crayon-sy">(</span> 
         <span class="crayon-sy">)</span> 
        </div> 
       </div></td> 
     </tr> 
    </tbody> 
   </table> 
   <br> 
  </div> 
  <br> 
  <p></p> 
  <p>我们可以调用cache函数将上一步生成的RDD对象保存到缓存中，在此之后Spark就不需要在每次数据查询时都重新计算。需要注意的是，cache()是一个延迟操作。在我们调用cache时，Spark并不会马上将数据存储到内存中。只有当在某个RDD上调用一个行动时，才会真正执行这个操作。</p> 
  <p>现在，我们可以调用count函数，看一下在文本文件中有多少行数据。</p> 
  <pre><code>	<div id="crayon-5ba7317106548623565425" class="crayon-syntax crayon-theme-classic crayon-font-monaco crayon-os-pc print-yes notranslate" data-settings=" minimize scroll-mouseover" style="margin-top: 12px; margin-bottom: 12px; font-size: 12px !important; line-height: 15px !important; height: auto;">
	
		<div class="crayon-toolbar" data-settings=" mouseover overlay hide delay" style="font-size: 12px !important; height: 18px !important; line-height: 18px !important; margin-top: -19px; display: none; z-index: 4;"><span class="crayon-title"></span>
		<div class="crayon-tools" style="font-size: 12px !important;height: 18px !important; line-height: 18px !important;"><div class="crayon-button crayon-nums-button crayon-pressed" title="切换是否显示行编号"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div><div class="crayon-button crayon-plain-button" title="纯文本显示代码"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div><div class="crayon-button crayon-wrap-button" title="切换自动换行"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div><div class="crayon-button crayon-expand-button" title="点击展开代码" style="display: none;"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div><div class="crayon-button crayon-copy-button" title="复制代码"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div><div class="crayon-button crayon-popup-button" title="在新窗口中显示代码"><div class="crayon-button-icon" style="background-size: 48px 128px; background-image: url("http://dataunion.org/wp-content/plugins/crayon-syntax-highlighter/css/images/toolbar/buttons@2x.png");"></div></div></div></div>
		<div class="crayon-info" style="min-height: 16.8px !important; line-height: 16.8px !important;"></div>
		<div class="crayon-plain-wrap"><textarea wrap="soft" class="crayon-plain print-no" data-settings="dblclick" readonly="" style="tab-size: 4; font-size: 12px !important; line-height: 15px !important; z-index: 0; opacity: 0; overflow: hidden;">txtData.count()
		
			
				
			
				1
			
					txtData.count()

然后，我们可以执行如下命令进行字数统计。在文本文件中统计数据会显示在每个单词的后面。

	
	
		
		

		
		val wcData = txtData.flatMap(l =&gt; l.split(" ")).map(word =&gt; (word, 1)).reduceByKey(_ + _)
</code></pre> 
  <p>wcData.collect().foreach(println)<br> </p> 
  <div class="crayon-main"> 
   <br> 
   <br> 
   <br> 
   <br> 
   <br> 
   <br> 
   <table class="crayon-table"> 
    <tbody> 
     <tr class="crayon-row"> 
      <td class="crayon-nums "><br> 
       <div class="crayon-nums-content"> 
        <div class="crayon-num">
          1 
        </div> 
        <div class="crayon-num crayon-striped-num">
          2 
        </div> 
        <div class="crayon-num">
          3 
        </div> 
       </div><br> </td> 
      <td class="crayon-code"> 
       <div class="crayon-pre"> 
        <div class="crayon-line" id="crayon-5ba731710654d527148418-1"> 
         <span class="crayon-e">val </span> 
         <span class="crayon-v">wcData</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-o">=</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-v">txtData</span> 
         <span class="crayon-sy">.</span> 
         <span class="crayon-e">flatMap</span> 
         <span class="crayon-sy">(</span> 
         <span class="crayon-v">l</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-o">=&</span> 
         <span class="crayon-v">gt</span> 
         <span class="crayon-sy">;</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-v">l</span> 
         <span class="crayon-sy">.</span> 
         <span class="crayon-e">split</span> 
         <span class="crayon-sy">(</span> 
         <span class="crayon-s">" "</span> 
         <span class="crayon-sy">)</span> 
         <span class="crayon-sy">)</span> 
         <span class="crayon-sy">.</span> 
         <span class="crayon-e">map</span> 
         <span class="crayon-sy">(</span> 
         <span class="crayon-t">word</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-o">=&</span> 
         <span class="crayon-v">gt</span> 
         <span class="crayon-sy">;</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-sy">(</span> 
         <span class="crayon-t">word</span> 
         <span class="crayon-sy">,</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-cn">1</span> 
         <span class="crayon-sy">)</span> 
         <span class="crayon-sy">)</span> 
         <span class="crayon-sy">.</span> 
         <span class="crayon-e">reduceByKey</span> 
         <span class="crayon-sy">(</span> 
         <span class="crayon-v"><em></em></span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-o">+</span> 
         <span class="crayon-h"> </span> 
         <span class="crayon-v"></span> 
         <span class="crayon-sy">)</span> 
        </div> 
        <div class="crayon-line crayon-striped-line" id="crayon-5ba731710654d527148418-2">
            
        </div> 
        <div class="crayon-line" id="crayon-5ba731710654d527148418-3"> 
         <span class="crayon-v">wcData</span> 
         <span class="crayon-sy">.</span> 
         <span class="crayon-e">collect</span> 
         <span class="crayon-sy">(</span> 
         <span class="crayon-sy">)</span> 
         <span class="crayon-sy">.</span> 
         <span class="crayon-st">foreach</span> 
         <span class="crayon-sy">(</span> 
         <span class="crayon-v">println</span> 
         <span class="crayon-sy">)</span> 
        </div> 
       </div></td> 
     </tr> 
    </tbody> 
   </table> 
   <br> 
  </div> 
  <br> 
  <p></p> 
  <p>如果想查看更多关于如何使用Spark核心API的代码示例，请参考网站上的Spark文档。</p> 
  <h2>后续计划</h2> 
  <p>在后续的系列文章中，我们将从Spark SQL开始，学习更多关于Spark生态系统的其他部分。之后，我们将继续了解Spark Streaming，Spark MLlib和Spark GraphX。我们也会有机会学习像Tachyon和BlinkDB等框架。</p> 
  <h2>小结</h2> 
  <p>在本文中，我们了解了Apache Spark框架如何通过其标准API帮助完成大数据处理和分析工作。我们还对Spark和传统的MapReduce实现（如Apache Hadoop）进行了比较。Spark与Hadoop基于相同的HDFS文件存储系统，因此如果你已经在Hadoop上进行了大量投资和基础设施建设，可以一起使用Spark和MapReduce。</p> 
  <p>此外，也可以将Spark处理与Spark SQL、机器学习以及Spark Streaming结合在一起。关于这方面的内容我们将在后续的文章中介绍。</p> 
  <p>利用Spark的一些集成功能和适配器，我们可以将其他技术与Spark结合在一起。其中一个案例就是将Spark、Kafka和Apache Cassandra结合在一起，其中Kafka负责输入的流式数据，Spark完成计算，最后Cassandra NoSQL数据库用于保存计算结果数据。</p> 
  <p>不过需要牢记的是，Spark生态系统仍不成熟，在安全和与BI工具集成等领域仍然需要进一步的改进。</p> 
  <h2>参考文献</h2> 
  <ul> 
   <li>Spark主站</li> 
   <li>Spark示例</li> 
   <li>2014年Spark峰会演示文稿和视频</li> 
   <li>Spark on Databricks website</li> 
   <li>Databricks网站上的Spark栏目</li> 
  </ul> 
  <h2>关于作者</h2> 
  <p><b>Srini Penchikala</b>目前是一家金融服务机构的软件架构师，这个机构位于德克萨斯州的奥斯汀。他在软件系统架构、设计和开发方面有超过20年的经验。Srini目前正在撰写一本关于NoSQL数据库模式的书。他还是曼宁出版社出版的《Spring Roo in Action》一书的合著者（http://www.manning.com/SpringRooinAction）。他还曾经出席各种会议，如JavaOne，SEI Architecture Technology Conference（SATURN），IT Architect Conference（ITARC），No Fluff Just Stuff，NoSQL Now和Project World Conference等。Srini还在InfoQ，The ServerSide，OReilly Network（ONJava），DevX Java，java.net以及JavaWorld等网站上发表过很多关于软件系统架构、安全和风险管理以及NoSQL数据库等方面的文章。他还是InfoQ NoSQL数据库社区的责任编辑。</p> 
  <div></div> 
  <p><strong>查看英文原文：</strong>Big Data Processing with Apache Spark – Part 1: Introduction</p> 
  <p> </p> 
  <p>文章出处：http://www.infoq.com/cn/articles/apache-spark-introduction</p> 
 </div> 
</div>
                            </div>
                        </div>
                    </div>
                    <!--PC和WAP自适应版-->
                    <div id="SOHUCS" sid="1305771346449436672"></div>
                    <script type="text/javascript" src="/views/front/js/chanyan.js"></script>
                    <!-- 文章页-底部 动态广告位 -->
                    <div class="youdao-fixed-ad" id="detail_ad_bottom"></div>
                </div>
                <div class="col-md-3">
                    <div class="row" id="ad">
                        <!-- 文章页-右侧1 动态广告位 -->
                        <div id="right-1" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad">
                            <div class="youdao-fixed-ad" id="detail_ad_1"> </div>
                        </div>
                        <!-- 文章页-右侧2 动态广告位 -->
                        <div id="right-2" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad">
                            <div class="youdao-fixed-ad" id="detail_ad_2"></div>
                        </div>
                        <!-- 文章页-右侧3 动态广告位 -->
                        <div id="right-3" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad">
                            <div class="youdao-fixed-ad" id="detail_ad_3"></div>
                        </div>
                    </div>
                </div>
            </div>
        </div>
    </div>
    <div class="container">
        <h4 class="pt20 mb15 mt0 border-top">你可能感兴趣的:(大数据)</h4>
        <div id="paradigm-article-related">
            <div class="recommend-post mb30">
                <ul class="widget-links">
                    <li><a href="/article/1943961125532004352.htm"
                           title="数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验" target="_blank">数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验</a>
                        <span class="text-muted">ui设计前端开发老司机</span>
<a class="tag" taget="_blank" href="/search/ui/1.htm">ui</a>
                        <div>hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”</div>
                    </li>
                    <li><a href="/article/1943922306841636864.htm"
                           title="提升企业级数据处理效率！TDengine 四个集群优化点详解" target="_blank">提升企业级数据处理效率！TDengine 四个集群优化点详解</a>
                        <span class="text-muted">TDengine （老段）</span>
<a class="tag" taget="_blank" href="/search/TDengine/1.htm">TDengine</a><a class="tag" taget="_blank" href="/search/%E8%BF%90%E7%BB%B4/1.htm">运维</a><a class="tag" taget="_blank" href="/search/%E5%A4%A7%E6%95%B0%E6%8D%AE/1.htm">大数据</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">数据库</a><a class="tag" taget="_blank" href="/search/%E7%89%A9%E8%81%94%E7%BD%91/1.htm">物联网</a><a class="tag" taget="_blank" href="/search/%E6%97%B6%E5%BA%8F%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">时序数据库</a><a class="tag" taget="_blank" href="/search/%E6%9C%8D%E5%8A%A1%E5%99%A8/1.htm">服务器</a><a class="tag" taget="_blank" href="/search/%E8%BF%90%E7%BB%B4/1.htm">运维</a><a class="tag" taget="_blank" href="/search/tdengine/1.htm">tdengine</a>
                        <div>为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi</div>
                    </li>
                    <li><a href="/article/1943863430855323648.htm"
                           title="中国银联豪掷1亿采购海光C86架构服务器" target="_blank">中国银联豪掷1亿采购海光C86架构服务器</a>
                        <span class="text-muted">信创新态势</span>
<a class="tag" taget="_blank" href="/search/%E6%B5%B7%E5%85%89%E8%8A%AF%E7%89%87/1.htm">海光芯片</a><a class="tag" taget="_blank" href="/search/C86/1.htm">C86</a><a class="tag" taget="_blank" href="/search/%E5%9B%BD%E4%BA%A7%E8%8A%AF%E7%89%87/1.htm">国产芯片</a><a class="tag" taget="_blank" href="/search/%E6%B5%B7%E5%85%89%E4%BF%A1%E6%81%AF/1.htm">海光信息</a>
                        <div>近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力</div>
                    </li>
                    <li><a href="/article/1943846405751762944.htm"
                           title="全面探索Kafka：架构、应用与流处理" target="_blank">全面探索Kafka：架构、应用与流处理</a>
                        <span class="text-muted"></span>

                        <div>Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全</div>
                    </li>
                    <li><a href="/article/1943843882395561984.htm"
                           title="Flink时间窗口详解" target="_blank">Flink时间窗口详解</a>
                        <span class="text-muted">bxlj_jcj</span>
<a class="tag" taget="_blank" href="/search/Flink/1.htm">Flink</a><a class="tag" taget="_blank" href="/search/flink/1.htm">flink</a><a class="tag" taget="_blank" href="/search/%E5%A4%A7%E6%95%B0%E6%8D%AE/1.htm">大数据</a>
                        <div>一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时</div>
                    </li>
                    <li><a href="/article/1943842744464109568.htm"
                           title="探索实时流处理的未来：Kafka Streams 深度指南" target="_blank">探索实时流处理的未来：Kafka Streams 深度指南</a>
                        <span class="text-muted">秋或依</span>

                        <div>探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处</div>
                    </li>
                    <li><a href="/article/1943841484293861376.htm"
                           title="Elasticsearch搜索引擎存储：从原理到实践的全景解析" target="_blank">Elasticsearch搜索引擎存储：从原理到实践的全景解析</a>
                        <span class="text-muted">Python×CATIA工业智造</span>
<a class="tag" taget="_blank" href="/search/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E/1.htm">搜索引擎</a><a class="tag" taget="_blank" href="/search/elasticsearch/1.htm">elasticsearch</a><a class="tag" taget="_blank" href="/search/%E5%A4%A7%E6%95%B0%E6%8D%AE/1.htm">大数据</a>
                        <div>引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值</div>
                    </li>
                    <li><a href="/article/1943816515543429120.htm"
                           title="【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！" target="_blank">【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！</a>
                        <span class="text-muted"></span>

                        <div>作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！</div>
                    </li>
                    <li><a href="/article/1943766218141921280.htm"
                           title="C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行）" target="_blank">C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行）</a>
                        <span class="text-muted">han_xue_feng</span>
<a class="tag" taget="_blank" href="/search/java/1.htm">java</a>
                        <div>腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的</div>
                    </li>
                    <li><a href="/article/1943758777144635392.htm"
                           title="Python爬虫：从图片或扫描文档中提取文字数据的完整指南" target="_blank">Python爬虫：从图片或扫描文档中提取文字数据的完整指南</a>
                        <span class="text-muted">Python爬虫项目</span>
<a class="tag" taget="_blank" href="/search/2025%E5%B9%B4%E7%88%AC%E8%99%AB%E5%AE%9E%E6%88%98%E9%A1%B9%E7%9B%AE/1.htm">2025年爬虫实战项目</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E7%88%AC%E8%99%AB/1.htm">爬虫</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98/1.htm">数据挖掘</a><a class="tag" taget="_blank" href="/search/c%2B%2B/1.htm">c++</a>
                        <div>1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py</div>
                    </li>
                    <li><a href="/article/1943748187600777216.htm"
                           title="【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？" target="_blank">【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？</a>
                        <span class="text-muted">架构师李肯</span>
<a class="tag" taget="_blank" href="/search/%E5%B5%8C%E5%85%A5%E5%BC%8F%E7%89%A9%E8%81%94%E7%BD%91%E5%BC%80%E5%8F%91%E8%BF%9B%E9%98%B6/1.htm">嵌入式物联网开发进阶</a><a class="tag" taget="_blank" href="/search/c%E8%AF%AD%E8%A8%80/1.htm">c语言</a><a class="tag" taget="_blank" href="/search/%E9%9D%A2%E8%AF%95/1.htm">面试</a><a class="tag" taget="_blank" href="/search/%E6%80%A7%E8%83%BD%E4%BC%98%E5%8C%96/1.htm">性能优化</a>
                        <div>【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试</div>
                    </li>
                    <li><a href="/article/1943745288636264448.htm"
                           title="python基于Hadoop的NBA球员大数据分析与可视化系统" target="_blank">python基于Hadoop的NBA球员大数据分析与可视化系统</a>
                        <span class="text-muted"></span>

                        <div>目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。</div>
                    </li>
                    <li><a href="/article/1943745288128753664.htm"
                           title="大数据技术之集群数据迁移" target="_blank">大数据技术之集群数据迁移</a>
                        <span class="text-muted"></span>

                        <div>dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.</div>
                    </li>
                    <li><a href="/article/1943711945752375296.htm"
                           title="如何通过YashanDB优化企业大数据处理流程" target="_blank">如何通过YashanDB优化企业大数据处理流程</a>
                        <span class="text-muted"></span>
<a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">数据库</a>
                        <div>在当今数据驱动的商业环境中，企业面临着巨大的数据处理挑战。性能瓶颈、数据一致性问题和可扩展性需求使得大数据处理成为一项复杂任务。作为一种新兴的数据库管理系统，YashanDB以其独特的架构设计和强大的数据处理能力，在解决这些挑战方面提供了有效的手段。本文旨在探讨如何利用YashanDB优化大数据处理流程，为企业提供高效、可靠的解决方案。YashanDB的体系架构与部署形态YashanDB支持多种部</div>
                    </li>
                    <li><a href="/article/1943675461791969280.htm"
                           title="Pandas 学习教程" target="_blank">Pandas 学习教程</a>
                        <span class="text-muted">_pass_</span>
<a class="tag" taget="_blank" href="/search/Data-Alaysis/1.htm">Data-Alaysis</a><a class="tag" taget="_blank" href="/search/pandas/1.htm">pandas</a><a class="tag" taget="_blank" href="/search/%E4%BF%A1%E6%81%AF%E5%8F%AF%E8%A7%86%E5%8C%96/1.htm">信息可视化</a>
                        <div>目录定义基本操作一维数组操作二维数组操作数据选择过滤数据处理数据清洗数据转换数据分析排序分组聚合数据透视表高级操作合并数据时间序列处理自定义函数调用数据可视化集成数据导出和导入大数据分块处理定义全称：'paneldata'and'pythondataanalysis'Analy:Series(一维数据)、DataFrame(二维数据)主要应用：数据清洗：处理缺失数据、重复数据等数据转换：改变数据的</div>
                    </li>
                    <li><a href="/article/1943656940542423040.htm"
                           title="如何通过YashanDB提升客户体验" target="_blank">如何通过YashanDB提升客户体验</a>
                        <span class="text-muted"></span>
<a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">数据库</a>
                        <div>如何优化查询速度？这是许多企业在使用数据库技术时常常会遇到的问题。查询速度的快慢直接影响到用户的体验，尤其是在大数据量和高并发的使用场景中。顾客期望迅速获取信息，若响应时间过长，可能导致客户流失。因此，优化数据库的性能成为提升客户体验的关键举措之一。YashanDB作为一种高性能的数据库技术架构，提供了多种优化机制，以提升系统的查询速度和整体处理能力。多种部署架构YashanDB支持多种部署架构，</div>
                    </li>
                    <li><a href="/article/1943656939288326144.htm"
                           title="如何通过YashanDB数据库实现企业级数据分区管理？" target="_blank">如何通过YashanDB数据库实现企业级数据分区管理？</a>
                        <span class="text-muted"></span>
<a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">数据库</a>
                        <div>在当今大数据时代，企业面临着海量数据的管理和优化访问的问题。如何有效地组织和划分庞大的数据集，以提升查询性能和运维效率，成为数据库系统设计的核心挑战。数据分区技术作为解决大规模数据处理的关键手段，能够显著减少无关数据的访问，优化资源利用率。本文聚焦于YashanDB数据库，详细解析其数据分区管理的实现机制及应用，为企业级应用提供高效、灵活的数据分区解决方案。YashanDB中的数据分区基础Yash</div>
                    </li>
                    <li><a href="/article/1943647098150907904.htm"
                           title="国产开源高性能对象存储RustFS保姆级上手指南" target="_blank">国产开源高性能对象存储RustFS保姆级上手指南</a>
                        <span class="text-muted">光爷不秃</span>
<a class="tag" taget="_blank" href="/search/%E5%AF%B9%E8%B1%A1%E5%AD%98%E5%82%A8/1.htm">对象存储</a><a class="tag" taget="_blank" href="/search/rust/1.htm">rust</a><a class="tag" taget="_blank" href="/search/%E5%9B%BD%E4%BA%A7%E5%BC%80%E6%BA%90%E8%BD%AF%E4%BB%B6/1.htm">国产开源软件</a><a class="tag" taget="_blank" href="/search/rust/1.htm">rust</a><a class="tag" taget="_blank" href="/search/%E4%BA%91%E8%AE%A1%E7%AE%97/1.htm">云计算</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E6%BA%90%E8%BD%AF%E4%BB%B6/1.htm">开源软件</a><a class="tag" taget="_blank" href="/search/github/1.htm">github</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E6%BA%90/1.htm">开源</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E4%BB%93%E5%BA%93/1.htm">数据仓库</a><a class="tag" taget="_blank" href="/search/database/1.htm">database</a>
                        <div>在云计算与大数据爆发的时代，企业和开发者对存储方案的要求愈发严苛——不仅要能扛住海量数据的读写压力，还得兼顾安全性、可扩展性和兼容性。今天给大家介绍一款基于Rust语言开发的开源分布式对象存储系统——RustFS，它不仅是MinIO的国产化优秀替代方案，更是AI、大数据和云原生场景的理想之选。本文将从基础介绍到实战操作，带大家快速上手这款"优雅的存储解决方案"。一、RustFS核心特性解析Rust</div>
                    </li>
                    <li><a href="/article/1943602937058095104.htm"
                           title="通过YashanDB提升大数据处理能力的指南" target="_blank">通过YashanDB提升大数据处理能力的指南</a>
                        <span class="text-muted"></span>
<a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">数据库</a>
                        <div>数据的急剧增长给数据库技术领域带来了诸多挑战，包括性能瓶颈、数据一致性问题及处理效率低下等。为了应对这些挑战，企业需采取有效的技术手段来提升大数据处理能力。YashanDB作为一款高性能的数据库产品，通过其先进的体系架构、优化的数据存储形式以及强大的并发控制能力，有效地提升了大数据环境下的处理性能。本文旨在为技术人员和决策者提供深入的技术分析和可操作的建议，通过YashanDB的功能特性来实现大数</div>
                    </li>
                    <li><a href="/article/1943531109476265984.htm"
                           title="Java多线程实战指南：从基础到高并发的核心技术解析" target="_blank">Java多线程实战指南：从基础到高并发的核心技术解析</a>
                        <span class="text-muted">添砖Java中</span>
<a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/spring/1.htm">spring</a><a class="tag" taget="_blank" href="/search/boot/1.htm">boot</a><a class="tag" taget="_blank" href="/search/spring/1.htm">spring</a><a class="tag" taget="_blank" href="/search/cloud/1.htm">cloud</a><a class="tag" taget="_blank" href="/search/spring/1.htm">spring</a>
                        <div>一、为什么必须掌握多线程？在单核CPU时代，多线程主要用于提高程序响应速度；在如今的多核处理器时代，多线程已成为榨干硬件性能的必备技能。无论是高并发Web服务器、实时数据处理系统，还是游戏引擎，都离不开多线程技术的支撑。典型案例：电商秒杀系统：1秒内处理10万+请求大数据处理：并行计算TB级数据金融交易系统：毫秒级订单撮合二、线程创建的四大核心方式1.继承Thread类（不推荐）classMyTh</div>
                    </li>
                    <li><a href="/article/1943498957204287488.htm"
                           title="3D 可视化技术开启污水治理全新发展阶段" target="_blank">3D 可视化技术开启污水治理全新发展阶段</a>
                        <span class="text-muted">广州华锐视点</span>
<a class="tag" taget="_blank" href="/search/3d/1.htm">3d</a>
                        <div>3D可视化大屏展示技术在污水厂的应用，已然开启了污水处理的全新篇章。它不仅为污水厂解决了当下管理和展示的难题，更如同一座灯塔，照亮了未来污水处理领域的发展道路。随着科技的持续进步，3D可视化大屏展示技术必将迎来更加辉煌的发展。一方面，其与人工智能、大数据、物联网等前沿技术的融合将愈发紧密。借助人工智能算法，大屏系统将具备更强大的自主学习和分析能力，能够根据实时数据和历史经验，自动优化污水处理工艺参</div>
                    </li>
                    <li><a href="/article/1943498073896448000.htm"
                           title="UI前端大数据可视化实战策略：如何设计交互式数据探索界面？" target="_blank">UI前端大数据可视化实战策略：如何设计交互式数据探索界面？</a>
                        <span class="text-muted">UI前端开发工作室</span>
<a class="tag" taget="_blank" href="/search/ui/1.htm">ui</a><a class="tag" taget="_blank" href="/search/%E5%89%8D%E7%AB%AF/1.htm">前端</a><a class="tag" taget="_blank" href="/search/%E4%BF%A1%E6%81%AF%E5%8F%AF%E8%A7%86%E5%8C%96/1.htm">信息可视化</a>
                        <div>hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“被动观看”到“主动探索”的可视化革命传统大数据可视化常陷入“图表堆砌”的困境：企业dashboard上布满折线图、饼图，却难以回答“销售额下降的核心区域是哪里”“用户流失与哪个行为强相关”等深度问题。</div>
                    </li>
                    <li><a href="/article/1943495931806674944.htm"
                           title="【HTML网页】智能健康监测——全方位健康管理专家（包含网页源代码）" target="_blank">【HTML网页】智能健康监测——全方位健康管理专家（包含网页源代码）</a>
                        <span class="text-muted"></span>

                        <div>智能健康监测分析系统智能健康监测分析系统是一种基于物联网、大数据、人工智能等技术的综合性健康管理解决方案。它具有以下六大核心功能：实时监测系统通过智能传感器和可穿戴设备，实时采集用户的生理数据，例如心率、血压、血氧饱和度、血糖水平和睡眠质量等，确保用户随时掌握自己的身体状况。健康数据分析利用人工智能和大数据分析技术，系统对采集到的数据进行处理和分析，提取有价值的健康信息，如心率变异性、呼吸频率等，</div>
                    </li>
                    <li><a href="/article/1943390803137196032.htm"
                           title="Elasticsearch 高可用实战：架构设计与场景化解决方案" target="_blank">Elasticsearch 高可用实战：架构设计与场景化解决方案</a>
                        <span class="text-muted">辣呼呼的哈哈</span>
<a class="tag" taget="_blank" href="/search/Elasticsearch/1.htm">Elasticsearch</a><a class="tag" taget="_blank" href="/search/%E5%85%A5%E9%97%A8%E5%88%B0%E7%B2%BE%E9%80%9A/1.htm">入门到精通</a><a class="tag" taget="_blank" href="/search/elasticsearch/1.htm">elasticsearch</a><a class="tag" taget="_blank" href="/search/wpf/1.htm">wpf</a><a class="tag" taget="_blank" href="/search/%E5%A4%A7%E6%95%B0%E6%8D%AE/1.htm">大数据</a><a class="tag" taget="_blank" href="/search/%E5%85%A8%E6%96%87%E6%A3%80%E7%B4%A2/1.htm">全文检索</a><a class="tag" taget="_blank" href="/search/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E/1.htm">搜索引擎</a><a class="tag" taget="_blank" href="/search/restful/1.htm">restful</a><a class="tag" taget="_blank" href="/search/java/1.htm">java</a>
                        <div>Elasticsearch高可用实战：架构设计与场景化解决方案本文深入探讨Elasticsearch在高并发、大数据量场景下的高可用架构设计，结合电商搜索、日志分析等真实案例，提供可落地的技术方案与Java实现。一、高可用架构设计原则1.分布式架构核心要素客户端负载均衡层协调节点数据节点-分片1数据节点-分片2数据节点-分片3副本分片副本分片副本分片2.高可用黄金法则冗余设计：至少3节点集群+1副</div>
                    </li>
                    <li><a href="/article/1943371397019529216.htm"
                           title="oracle 数据库迁移expdp，impdp（数据泵导出导入）方法" target="_blank">oracle 数据库迁移expdp，impdp（数据泵导出导入）方法</a>
                        <span class="text-muted">小张是铁粉</span>
<a class="tag" taget="_blank" href="/search/oracle/1.htm">oracle</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">数据库</a>
                        <div>一.优缺点优点：1.高效性能：expdp，impdp使用并行技术，可以显著提高导出导入速度，尤其适用于大数据量的迁移。支持压缩和加密，减少导出文件的大小并提高安全性。2.灵活的对象选择：可以导出整个数据库、特定表空间、用户（Schema）或单个表。支持过滤条件，例如只导出特定表的数据或元数据。3.跨平台兼容性：支持跨平台迁移（例如从Linux到Windows），但需要注意字节序（endiannes</div>
                    </li>
                    <li><a href="/article/1943362450518765568.htm"
                           title="用Python的Chartify库，商业数据可视化效率提升13倍！" target="_blank">用Python的Chartify库，商业数据可视化效率提升13倍！</a>
                        <span class="text-muted">忆愿</span>
<a class="tag" taget="_blank" href="/search/Python%E7%BC%96%E7%A8%8B%E7%9A%84%E8%84%89%E5%8A%A8%E4%B9%8B%E5%A3%B0/1.htm">Python编程的脉动之声</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/opencv/1.htm">opencv</a><a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a><a class="tag" taget="_blank" href="/search/%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89/1.htm">计算机视觉</a><a class="tag" taget="_blank" href="/search/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0/1.htm">深度学习</a><a class="tag" taget="_blank" href="/search/%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/1.htm">神经网络</a><a class="tag" taget="_blank" href="/search/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/1.htm">机器学习</a>
                        <div>文章目录为啥要用Chartify？安装那些事儿从零开始画图基础柱状图进阶折线图散点图与气泡图专业数据分析必备技能多维度分析时间序列分析高级可视化技巧自定义主题交互式特性批量图表生成性能优化技巧大数据集处理内存优化实战案例：销售数据分析系统数据可视化这事儿，搞过的都知道有多费劲。用matplotlib画个图要调半天参数，才能让图表看起来稍微顺眼一点；seaborn虽然画出来的图确实好看，但是配置项太</div>
                    </li>
                    <li><a href="/article/1943286286299230208.htm"
                           title="【大数据】FP-growth算法" target="_blank">【大数据】FP-growth算法</a>
                        <span class="text-muted">大雨淅淅</span>
<a class="tag" taget="_blank" href="/search/%E5%A4%A7%E6%95%B0%E6%8D%AE/1.htm">大数据</a><a class="tag" taget="_blank" href="/search/%E7%AE%97%E6%B3%95/1.htm">算法</a><a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a><a class="tag" taget="_blank" href="/search/%E5%A4%A7%E6%95%B0%E6%8D%AE/1.htm">大数据</a>
                        <div>目录一、FP-growth算法概述二、FP-growth算法代码实现2.1FP-growth算法matlab实现2.2FP-growth算法python实现三、FP-growth算法应用四、FP-growth算法发展趋势一、FP-growth算法概述FP-growth算法是一种用于发现数据集中频繁项集的高效算法。它由JiaweiHan等人提出，旨在解决Apriori算法在大数据集上效率低下的问题。</div>
                    </li>
                    <li><a href="/article/1943275196848861184.htm"
                           title="第八十九篇 大数据开发中的数据算法：贪心策略 - 生活中的“精打细算”艺术" target="_blank">第八十九篇 大数据开发中的数据算法：贪心策略 - 生活中的“精打细算”艺术</a>
                        <span class="text-muted"></span>

                        <div>在资源有限的世界里，贪心算法教会我们：局部最优的累积，往往是通往全局最高效的捷径。本文通过3个生活化场景+原创图表，揭示大数据开发中最实用的优化策略。目录一、贪心算法核心思想：当下即最优二、三大核心应用场景详解（附原创图表）1.文件压缩优化：Huffman编码2.任务调度优化：SPT算法3.网络拓扑优化：Prim算法三、贪心算法适用性分析四、大数据工程最佳实践五、总结：贪心思维的艺术一、贪心算法核</div>
                    </li>
                    <li><a href="/article/1943155159542591488.htm"
                           title="vivo Pulsar 万亿级消息处理实践（3）-KoP指标异常修复" target="_blank">vivo Pulsar 万亿级消息处理实践（3）-KoP指标异常修复</a>
                        <span class="text-muted"></span>

                        <div>作者：vivo互联网大数据团队-ChenJianbo本文是《vivoPulsar万亿级消息处理实践》系列文章第3篇。Pulsar是Apache基金会的开源分布式流处理平台和消息中间件，它实现了Kafka的协议，可以让使用KafkaAPI的应用直接迁移至Pulsar，这使得Pulsar在Kafka生态系统中更加容易被接受和使用。KoP提供了从Kafka到Pulsar的无缝转换，用户可以使用Kafka</div>
                    </li>
                    <li><a href="/article/1943123685556678656.htm"
                           title="广州曼顿2P数字微断：保护电力设备的安全守护者" target="_blank">广州曼顿2P数字微断：保护电力设备的安全守护者</a>
                        <span class="text-muted">mdkk678</span>
<a class="tag" taget="_blank" href="/search/%E5%AE%89%E5%85%A8/1.htm">安全</a>
                        <div>在现代社会，电力设备的安全运行对各行各业至关重要。然而，电力系统中存在各种电压波动、过载和短路等问题，可能对设备造成损害。为了保护电力设备免受这些问题的影响，广州曼顿推出了2P数字微断器。本文将介绍这一创新产品的特点和优势，以及它对电力设备的保护作用。广州曼顿科技有限公司专注用户侧智慧数字电气产品研制，以及智慧电能服务大数据云平台建设。基于人工智能技术，大幅提升人触电时的生命安全保障，以及电气火灾</div>
                    </li>
                                <li><a href="/article/114.htm"
                                       title="戴尔笔记本win8系统改装win7系统" target="_blank">戴尔笔记本win8系统改装win7系统</a>
                                    <span class="text-muted">sophia天雪</span>
<a class="tag" taget="_blank" href="/search/win7/1.htm">win7</a><a class="tag" taget="_blank" href="/search/%E6%88%B4%E5%B0%94/1.htm">戴尔</a><a class="tag" taget="_blank" href="/search/%E6%94%B9%E8%A3%85%E7%B3%BB%E7%BB%9F/1.htm">改装系统</a><a class="tag" taget="_blank" href="/search/win8/1.htm">win8</a>
                                    <div>戴尔win8 系统改装win7 系统详述  
 
第一步：使用U盘制作虚拟光驱： 
        1）下载安装UltraISO：注册码可以在网上搜索。 
        2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文 
</div>
                                </li>
                                <li><a href="/article/241.htm"
                                       title="BeanUtils.copyProperties使用笔记" target="_blank">BeanUtils.copyProperties使用笔记</a>
                                    <span class="text-muted">bylijinnan</span>
<a class="tag" taget="_blank" href="/search/java/1.htm">java</a>
                                    <div>BeanUtils.copyProperties VS PropertyUtils.copyProperties 
 
两者最大的区别是： 
BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。 
既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp</div>
                                </li>
                                <li><a href="/article/368.htm"
                                       title="MyEclipse中文乱码问题" target="_blank">MyEclipse中文乱码问题</a>
                                    <span class="text-muted">0624chenhong</span>
<a class="tag" taget="_blank" href="/search/MyEclipse/1.htm">MyEclipse</a>
                                    <div>一、设置新建常见文件的默认编码格式，也就是文件保存的格式。 
在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。 
在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 
Window-->Preferences-->General -</div>
                                </li>
                                <li><a href="/article/495.htm"
                                       title="发送邮件" target="_blank">发送邮件</a>
                                    <span class="text-muted">不懂事的小屁孩</span>
<a class="tag" taget="_blank" href="/search/send+email/1.htm">send email</a>
                                    <div>  
import org.apache.commons.mail.EmailAttachment;  
import org.apache.commons.mail.EmailException;  
import org.apache.commons.mail.HtmlEmail;  
import org.apache.commons.mail.MultiPartEmail;  
</div>
                                </li>
                                <li><a href="/article/622.htm"
                                       title="动画合集" target="_blank">动画合集</a>
                                    <span class="text-muted">换个号韩国红果果</span>
<a class="tag" taget="_blank" href="/search/html/1.htm">html</a><a class="tag" taget="_blank" href="/search/css/1.htm">css</a>
                                    <div>动画 指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 
1 transition  制作鼠标滑过图片时的放大效果 
 

css
.wrap{
		width: 340px;height: 340px;
		position: absolute;
		top: 30%;
		left: 20%;
		overflow: hidden;
		bor</div>
                                </li>
                                <li><a href="/article/749.htm"
                                       title="网络最常见的攻击方式竟然是SQL注入" target="_blank">网络最常见的攻击方式竟然是SQL注入</a>
                                    <span class="text-muted">蓝儿唯美</span>
<a class="tag" taget="_blank" href="/search/sql%E6%B3%A8%E5%85%A5/1.htm">sql注入</a>
                                    <div>NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。 
信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击 行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占</div>
                                </li>
                                <li><a href="/article/876.htm"
                                       title="java笔记2" target="_blank">java笔记2</a>
                                    <span class="text-muted">a-john</span>
<a class="tag" taget="_blank" href="/search/java/1.htm">java</a>
                                    <div>类的封装： 
1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 
2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 
3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 
4，封装的特性： 
      4.1设置</div>
                                </li>
                                <li><a href="/article/1003.htm"
                                       title="[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx”" target="_blank">[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx”</a>
                                    <span class="text-muted">aijuans</span>
<a class="tag" taget="_blank" href="/search/%E5%AD%A6%E4%B9%A0Android%E9%81%87%E5%88%B0%E7%9A%84%E9%94%99%E8%AF%AF/1.htm">学习Android遇到的错误</a>
                                    <div>        最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。 
 
昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。 
 
我就看了一下，和她要了psd的文件，还好我有一点</div>
                                </li>
                                <li><a href="/article/1130.htm"
                                       title="自己写的一个繁体到简体的转换程序" target="_blank">自己写的一个繁体到简体的转换程序</a>
                                    <span class="text-muted">asialee</span>
<a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E8%BD%AC%E6%8D%A2/1.htm">转换</a><a class="tag" taget="_blank" href="/search/%E7%B9%81%E4%BD%93/1.htm">繁体</a><a class="tag" taget="_blank" href="/search/filter/1.htm">filter</a><a class="tag" taget="_blank" href="/search/%E7%AE%80%E4%BD%93/1.htm">简体</a>
                                    <div>          今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。 
         实现的思路是重载request的调取参数的几个方法，然后做下转换。 
          </div>
                                </li>
                                <li><a href="/article/1257.htm"
                                       title="android意图和意图监听器技术" target="_blank">android意图和意图监听器技术</a>
                                    <span class="text-muted">百合不是茶</span>
<a class="tag" taget="_blank" href="/search/android/1.htm">android</a><a class="tag" taget="_blank" href="/search/%E6%98%BE%E7%A4%BA%E6%84%8F%E5%9B%BE/1.htm">显示意图</a><a class="tag" taget="_blank" href="/search/%E9%9A%90%E5%BC%8F%E6%84%8F%E5%9B%BE/1.htm">隐式意图</a><a class="tag" taget="_blank" href="/search/%E6%84%8F%E5%9B%BE%E7%9B%91%E5%90%AC%E5%99%A8/1.htm">意图监听器</a>
                                    <div>Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递 
  
显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。 
  
隐式意图;不指明调用的名称,根据设</div>
                                </li>
                                <li><a href="/article/1384.htm"
                                       title="spring3中新增的@value注解" target="_blank">spring3中新增的@value注解</a>
                                    <span class="text-muted">bijian1013</span>
<a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/spring/1.htm">spring</a><a class="tag" taget="_blank" href="/search/%40Value/1.htm">@Value</a>
                                    <div>        在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 
1.首先在applicationContext.xml中加入：    
<beans xmlns="http://www.springframework.</div>
                                </li>
                                <li><a href="/article/1511.htm"
                                       title="Jboss启用CXF日志" target="_blank">Jboss启用CXF日志</a>
                                    <span class="text-muted">sunjing</span>
<a class="tag" taget="_blank" href="/search/log/1.htm">log</a><a class="tag" taget="_blank" href="/search/jboss/1.htm">jboss</a><a class="tag" taget="_blank" href="/search/CXF/1.htm">CXF</a>
                                    <div>1. 在standalone.xml配置文件中添加system-properties： 
    <system-properties>        <property name="org.apache.cxf.logging.enabled" value=&</div>
                                </li>
                                <li><a href="/article/1638.htm"
                                       title="【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码" target="_blank">【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码</a>
                                    <span class="text-muted">bit1129</span>
<a class="tag" taget="_blank" href="/search/centos/1.htm">centos</a>
                                    <div>  编译必需的软件 
 
 Firebugs3.0.0 
 Maven3.2.3 
 Ant 
 JDK1.7.0_67 
 protobuf-2.5.0 
 Hadoop 2.5.2源码包 
 
  
  
  
 
 Firebugs3.0.0 
 
  
http://sourceforge.jp/projects/sfnet_findbug</div>
                                </li>
                                <li><a href="/article/1765.htm"
                                       title="struts2验证框架的使用和扩展" target="_blank">struts2验证框架的使用和扩展</a>
                                    <span class="text-muted">白糖_</span>
<a class="tag" taget="_blank" href="/search/%E6%A1%86%E6%9E%B6/1.htm">框架</a><a class="tag" taget="_blank" href="/search/xml/1.htm">xml</a><a class="tag" taget="_blank" href="/search/bean/1.htm">bean</a><a class="tag" taget="_blank" href="/search/struts/1.htm">struts</a><a class="tag" taget="_blank" href="/search/%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F/1.htm">正则表达式</a>
                                    <div>struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 
1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 
2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。 
本文介绍一下struts2通过xml文件进行校验的方法并说</div>
                                </li>
                                <li><a href="/article/1892.htm"
                                       title="记录-感悟" target="_blank">记录-感悟</a>
                                    <span class="text-muted">braveCS</span>
<a class="tag" taget="_blank" href="/search/%E6%84%9F%E6%82%9F/1.htm">感悟</a>
                                    <div>再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 
  
2015-1-11  1. 能在工作之余学习感兴趣的东西已经很幸福了； 
2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 
3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 
4. 一天内集中一个定长时间段看最新资讯和偏流式博</div>
                                </li>
                                <li><a href="/article/2019.htm"
                                       title="编程之美-数组中最长递增子序列" target="_blank">编程之美-数组中最长递增子序列</a>
                                    <span class="text-muted">bylijinnan</span>
<a class="tag" taget="_blank" href="/search/%E7%BC%96%E7%A8%8B%E4%B9%8B%E7%BE%8E/1.htm">编程之美</a>
                                    <div>
import java.util.Arrays;
import java.util.Random;

public class LongestAccendingSubSequence {

	/**
	 * 编程之美 数组中最长递增子序列 
	 * 书上的解法容易理解
	 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组，
	 * 然后求排序后的数组与原数</div>
                                </li>
                                <li><a href="/article/2146.htm"
                                       title="读书笔记5" target="_blank">读书笔记5</a>
                                    <span class="text-muted">chengxuyuancsdn</span>
<a class="tag" taget="_blank" href="/search/%E9%87%8D%E5%A4%8D%E6%8F%90%E4%BA%A4/1.htm">重复提交</a><a class="tag" taget="_blank" href="/search/struts2%E7%9A%84token%E9%AA%8C%E8%AF%81/1.htm">struts2的token验证</a>
                                    <div>1、重复提交 
2、struts2的token验证 
3、用response返回xml时的注意 
 
1、重复提交 
(1)应用场景 
(1-1)点击提交按钮两次。 
(1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 
(1-3)刷新页面 
(1-4)使用浏览器历史记录重复提交表单。 
(1-5)浏览器重复的 HTTP 请求。 
(2)解决方法 
(2-1)禁掉提交按钮 
(2-2)</div>
                                </li>
                                <li><a href="/article/2273.htm"
                                       title="[时空与探索]全球联合进行第二次费城实验的可能性" target="_blank">[时空与探索]全球联合进行第二次费城实验的可能性</a>
                                    <span class="text-muted">comsci</span>

                                    <div> 
 
     二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验 
  至今给我们大家留下很多迷团..... 
 
     关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了 
 
     在这里,我的意思是,现在</div>
                                </li>
                                <li><a href="/article/2400.htm"
                                       title="easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符" target="_blank">easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符</a>
                                    <span class="text-muted">daizj</span>
<a class="tag" taget="_blank" href="/search/oracle/1.htm">oracle</a><a class="tag" taget="_blank" href="/search/ORA-12154/1.htm">ORA-12154</a>
                                    <div>用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： 
C:\Users\Administrator>sqlplus username/pwd@192.168.0.5:1521/orcl 
SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 
Copyright (c) 198</div>
                                </li>
                                <li><a href="/article/2527.htm"
                                       title="简单排序:归并排序" target="_blank">简单排序:归并排序</a>
                                    <span class="text-muted">dieslrae</span>
<a class="tag" taget="_blank" href="/search/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F/1.htm">归并排序</a>
                                    <div>
    public void mergeSort(int[] array){
        int temp = array.length/2;
        
        if(temp == 0){
            return;
        }
        
        int[] a = new int[temp];
        int</div>
                                </li>
                                <li><a href="/article/2654.htm"
                                       title="C语言中字符串的\0和空格" target="_blank">C语言中字符串的\0和空格</a>
                                    <span class="text-muted">dcj3sjt126com</span>
<a class="tag" taget="_blank" href="/search/c/1.htm">c</a>
                                    <div>   \0 为字符串结束符，比如说： 
                      abcd (空格)cdefg； 
存入数组时，空格作为一个字符占有一个字节的空间，我们</div>
                                </li>
                                <li><a href="/article/2781.htm"
                                       title="解决Composer国内速度慢的办法" target="_blank">解决Composer国内速度慢的办法</a>
                                    <span class="text-muted">dcj3sjt126com</span>
<a class="tag" taget="_blank" href="/search/Composer/1.htm">Composer</a>
                                    <div>用法： 
有两种方式启用本镜像服务： 
1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 
2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 
为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下      1   2   3   4   5    </div>
                                </li>
                                <li><a href="/article/2908.htm"
                                       title="高效可伸缩的结果缓存" target="_blank">高效可伸缩的结果缓存</a>
                                    <span class="text-muted">shuizhaosi888</span>
<a class="tag" taget="_blank" href="/search/%E9%AB%98%E6%95%88%E5%8F%AF%E4%BC%B8%E7%BC%A9%E7%9A%84%E7%BB%93%E6%9E%9C%E7%BC%93%E5%AD%98/1.htm">高效可伸缩的结果缓存</a>
                                    <div>/**
 * 要执行的算法，返回结果v
 */
public interface Computable<A, V> {
	public V comput(final A arg);

}
 
  
/**
 * 用于缓存数据
 */
public class Memoizer<A, V> implements Computable<A, </div>
                                </li>
                                <li><a href="/article/3035.htm"
                                       title="三点定位的算法" target="_blank">三点定位的算法</a>
                                    <span class="text-muted">haoningabc</span>
<a class="tag" taget="_blank" href="/search/c/1.htm">c</a><a class="tag" taget="_blank" href="/search/%E7%AE%97%E6%B3%95/1.htm">算法</a>
                                    <div>三点定位， 
已知a,b,c三个顶点的x,y坐标 
和三个点都z坐标的距离，la，lb,lc 
 
求z点的坐标 
原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求 
但是，由于三个点的距离可能不准，不一定会有结果， 
所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 
运行 
gcc -lm test.c 
test.c代码如下 
 

#include "stdi</div>
                                </li>
                                <li><a href="/article/3162.htm"
                                       title="epoll使用详解" target="_blank">epoll使用详解</a>
                                    <span class="text-muted">jimmee</span>
<a class="tag" taget="_blank" href="/search/c/1.htm">c</a><a class="tag" taget="_blank" href="/search/linux/1.htm">linux</a><a class="tag" taget="_blank" href="/search/%E6%9C%8D%E5%8A%A1%E7%AB%AF%E7%BC%96%E7%A8%8B/1.htm">服务端编程</a><a class="tag" taget="_blank" href="/search/epoll/1.htm">epoll</a>
                                    <div>epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu</div>
                                </li>
                                <li><a href="/article/3289.htm"
                                       title="Hibernate对Enum的映射的基本使用方法" target="_blank">Hibernate对Enum的映射的基本使用方法</a>
                                    <span class="text-muted">linzx0212</span>
<a class="tag" taget="_blank" href="/search/enum/1.htm">enum</a><a class="tag" taget="_blank" href="/search/Hibernate/1.htm">Hibernate</a>
                                    <div>  
枚举 
  
/**
 * 性别枚举
 */
public enum Gender {

    MALE(0), FEMALE(1), OTHER(2);

    private Gender(int i) {
        this.i = i;
    }

    private int i;

    public int getI</div>
                                </li>
                                <li><a href="/article/3416.htm"
                                       title="第10章 高级事件（下）" target="_blank">第10章 高级事件（下）</a>
                                    <span class="text-muted">onestopweb</span>
<a class="tag" taget="_blank" href="/search/%E4%BA%8B%E4%BB%B6/1.htm">事件</a>
                                    <div>index.html 
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/</div>
                                </li>
                                <li><a href="/article/3543.htm"
                                       title="孙子兵法" target="_blank">孙子兵法</a>
                                    <span class="text-muted">roadrunners</span>
<a class="tag" taget="_blank" href="/search/%E5%AD%99%E5%AD%90/1.htm">孙子</a><a class="tag" taget="_blank" href="/search/%E5%85%B5%E6%B3%95/1.htm">兵法</a>
                                    <div>始计第一 
 
孙子曰： 
兵者，国之大事，死生之地，存亡之道，不可不察也。 
故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五 
曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑 
、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法 
者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校 
之以计，而索其情，曰</div>
                                </li>
                                <li><a href="/article/3670.htm"
                                       title="MySQL双向复制" target="_blank">MySQL双向复制</a>
                                    <span class="text-muted">tomcat_oracle</span>
<a class="tag" taget="_blank" href="/search/mysql/1.htm">mysql</a>
                                    <div>本文包括: 
 
  主机配置  
  从机配置  
  建立主-从复制  
  建立双向复制  
 
  背景 
按照以下简单的步骤: 
参考一下： 
 
  在机器A配置主机(192.168.1.30)  
  在机器B配置从机(192.168.1.29)  
  我们可以使用下面的步骤来实现这一点  
 
  
步骤1：机器A设置主机 
 
  在主机中打开配置文件 , </div>
                                </li>
                                <li><a href="/article/3797.htm"
                                       title="zoj 3822 Domination(dp)" target="_blank">zoj 3822 Domination(dp)</a>
                                    <span class="text-muted">阿尔萨斯</span>
<a class="tag" taget="_blank" href="/search/Mina/1.htm">Mina</a>
                                    <div> 题目链接：zoj 3822 Domination 
 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。 
 解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理</div>
                                </li>
                </ul>
            </div>
        </div>
    </div>

<div>
    <div class="container">
        <div class="indexes">
            <strong>按字母分类：</strong>
            <a href="/tags/A/1.htm" target="_blank">A</a><a href="/tags/B/1.htm" target="_blank">B</a><a href="/tags/C/1.htm" target="_blank">C</a><a
                href="/tags/D/1.htm" target="_blank">D</a><a href="/tags/E/1.htm" target="_blank">E</a><a href="/tags/F/1.htm" target="_blank">F</a><a
                href="/tags/G/1.htm" target="_blank">G</a><a href="/tags/H/1.htm" target="_blank">H</a><a href="/tags/I/1.htm" target="_blank">I</a><a
                href="/tags/J/1.htm" target="_blank">J</a><a href="/tags/K/1.htm" target="_blank">K</a><a href="/tags/L/1.htm" target="_blank">L</a><a
                href="/tags/M/1.htm" target="_blank">M</a><a href="/tags/N/1.htm" target="_blank">N</a><a href="/tags/O/1.htm" target="_blank">O</a><a
                href="/tags/P/1.htm" target="_blank">P</a><a href="/tags/Q/1.htm" target="_blank">Q</a><a href="/tags/R/1.htm" target="_blank">R</a><a
                href="/tags/S/1.htm" target="_blank">S</a><a href="/tags/T/1.htm" target="_blank">T</a><a href="/tags/U/1.htm" target="_blank">U</a><a
                href="/tags/V/1.htm" target="_blank">V</a><a href="/tags/W/1.htm" target="_blank">W</a><a href="/tags/X/1.htm" target="_blank">X</a><a
                href="/tags/Y/1.htm" target="_blank">Y</a><a href="/tags/Z/1.htm" target="_blank">Z</a><a href="/tags/0/1.htm" target="_blank">其他</a>
        </div>
    </div>
</div>
<footer id="footer" class="mb30 mt30">
    <div class="container">
        <div class="footBglm">
            <a target="_blank" href="/">首页</a> -
            <a target="_blank" href="/custom/about.htm">关于我们</a> -
            <a target="_blank" href="/search/Java/1.htm">站内搜索</a> -
            <a target="_blank" href="/sitemap.txt">Sitemap</a> -
            <a target="_blank" href="/custom/delete.htm">侵权投诉</a>
        </div>
        <div class="copyright">版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.
<!--            <a href="https://beian.miit.gov.cn/" rel="nofollow" target="_blank">京ICP备09083238号</a><br>-->
        </div>
    </div>
</footer>
<!-- 代码高亮 -->
<script type="text/javascript" src="/static/syntaxhighlighter/scripts/shCore.js"></script>
<script type="text/javascript" src="/static/syntaxhighlighter/scripts/shLegacy.js"></script>
<script type="text/javascript" src="/static/syntaxhighlighter/scripts/shAutoloader.js"></script>
<link type="text/css" rel="stylesheet" href="/static/syntaxhighlighter/styles/shCoreDefault.css"/>
<script type="text/javascript" src="/static/syntaxhighlighter/src/my_start_1.js"></script>





</body>

</html>