草原和大树

IBM 技术文档：Spark, 快速数据分析的又一选择

IBM 技术文档： Spark, 快速数据分析的又一选择

原文出处：http://www.ibm.com/developerworks/library/os-spark/

摘要：尽管Hadoop在分布式数据分析领域备受瞩目，但还是有其他选择比典型的Hadoop平台更具优势。Spark是一种可伸缩（scalable）的基于内存计算（In-Memory Computing）的数据分析平台，比Hadoop集群存储方法更有性能优势。Spark采用Scala语言实现，提供了单一的数据处理环境。本文讲述Spark的集群计算方法，并与Hadoop进行比较。

Spark与Hadoop一样，是一种开源的集群计算环境，但在特定工作负载情况下比Hadoop更高效。Spark采用基于内存的分布式数据集，优化了迭代式的工作负载以及交互式查询。

Spark采用Scala语言实现，使用Scala作为应用框架。与Hadoop不同的是，Spark和Scala紧密集成，Scala像管理本地collective对象那样管理分布式数据集。

Spark支持分布式数据集上的迭代式任务，实际上它可以在Hadoop文件系统上与Hadoop一起运行，这是由第三方集群框架Mesos实现的。Spark由加州大学伯克利分校开发，用于构建大规模、低延时的数据分析应用。

Spark集群计算架构

Spark是一种类似于Hadoop的新型集群计算框架。不同的是，Spark用于特定工作负载类型的集群计算，这种计算在多个并行操作之间重用工作数据集（如机器学习算法）。为了优化这种类型的计算，Spark引入基于内存的集群计算，即将数据集缓存在内存中，减少访问延迟。

Spark还引入了一个抽象概念，即弹性分布式数据集RDD（resilient distributed datasets ）。RDD是一个分布在一组节点之间的只读的对象集合。这些集合是弹性的，即能够在部分数据集丢失的情况下重建。重建部分数据集的过程需要一种维护血统（lineage，即重建部分数据集所需的信息，说明数据是根据什么过程产生的）的容错机制支持。一个RDD可以是：（1）一个从文件创建的Scala对象，或（2）一个并行切片（分布在各个节点之间），或（3）从其他RDD转换得来，或（4）改变已有RDD的持久性，如请求将已有RDD缓存在内存中。

Spark应用称为driver，实现单个节点或一组节点上的操作。与Hadoop一样，Spark支持单节点和多节点集群。对于多节点操作，Spark依附于Mesos集群管理器。Mesos为分布式应用提供了有效的资源共享和隔离的平台（见图1）。这种配置允许Spark与Hadoop共用一个节点共享池。

图1 Spark依赖于Mesos集群管理器实现资源共享和隔离

Spark编程模型

Driver在数据集上执行两种操作：行为（action）和转换（transformation）。action，即在数据集上执行计算，并向driver返回一个值；transformation，即从已有数据集创建新的数据集。例如，执行Reduce操作（使用某个函数）、遍历数据集（即在每个元素上执行一个函数，类似Map操作），属于action；Map操作、Cache操作（即请求新的数据集缓存在内存中），属于transformation。

下面我们将简单介绍一下这两种操作的实例。不过首先熟悉一下Scala语言。

Scala简介

很多著名网站都使用Scala，像Twitter，LinkedIn，及Foursquare（其web应用框架叫Lift）。此外，有证据表明金融机构也对Scala的性能感兴趣（例如使用EDF Trading进行衍生工具定价）。

Scala是一种多范式的编程语言，支持命令式、函数式和面向对象的编程范式。从面向对象的角度来看，Scala中的每个值都是一个对象。同理，从函数式编程的角度来看，每个函数也都是一个值。Scala还是一种静态类型语言，其类型系统表达能力强且安全。

此外，Scala还是一种虚拟机语言，Scala编译器生成字节码，使用JRE2直接在Java虚拟机（JVM）上运行。这样，Scala可以在几乎任何支持JVM的地方运行（需要增加Scala运行时库），并使用已有的Java库和Java代码。

最后，Scala是可扩展的，可以以库的形式轻易无缝地集成到其他语言中去。

Scala实例

现在我们来看看Scala的几个实例。Scala有自己的解释器，可以交互式地使用它。本文不对Scala语言进行具体论述，可以参考这里。

清单1 使用解释器快速了解一下Scala语言。启动Scala之后，出现命令提示符，你就可以在交互模式下评估表达式和程序。创建变量有两种方式，一是使用val创建不可变变量（称为单一赋值的变量），二是使用var创建可变变量。如果试图对val变量进行更改，将提示错误。

清单1 Scala中的变量

$ scala

Welcome to Scala version 2.8.1.final (OpenJDK Client VM, Java 1.6.0_20).

Type in expressions to have them evaluated.

Type :help for more information.

scala> val a = 1

a: Int = 1

scala> var b = 2

b: Int = 2

scala> b = b + a

b: Int = 3

scala> a = 2

<console>6: error: reassignment to val

a = 2

^

接下来，定义一个简单的函数，计算一个Int类型的平方并返回这个值。使用def定义函数，后面紧跟函数名和参数列表。不需要指定返回值，函数本身可以推断出返回值。注意，这与变量赋值操作类似。这里我演示了在3这个对象上执行这个函数，返回一个名为res0的结果变量（该变量是Scala解释器自动创建的）。见清单2。

清单2 Scala中的函数

scala> def square(x: Int) = x*x

square: (x: Int)Int

scala> square(3)

res0: Int = 9

scala> square(res0)

res1: Int = 81

接着，我们看看如何在Scala中创建简单的类（见清单3）。定义一个简单的类Dog，接受String类型的参数（相当于构造器）。注意这里类直接接受参数，而不需要在类主体中定义这个类参数。类中只有一个打印该字符串的函数。创建一个类的实例，然后调用这个函数。注意解释器会插入一些竖线，它们不是代码的一部分。

清单3 Scala中的类

scala> class Dog( name: String ) {

| def bark() = println(name + " barked")

| }

defined class Dog

scala> val stubby = new Dog("Stubby")

stubby: Dog = Dog@1dd5a3d

scala> stubby.bark

Stubby barked

scala>

完成工作以后，只需要敲入:quit就可以退出Scala解释器。

安装Scala和Spark

首先下载和配置Scala。清单4给出了Scala的下载命令，并准备安装。根据Spark文档，这里使用2.8版本。

清单4 Scala安装

$ wget http://www.scala-lang.org/downloads/distrib/files/scala-2.8.1.final.tgz

$ sudo tar xvfz scala-2.8.1.final.tgz --directory /opt/

为了使Scala可见，将以下语句添加到.bashrc文件中（假设你使用Bash）：

export SCALA_HOME=/opt/scala-2.8.1.final export PATH= SCALAHOME/bin: PATH

然后按照清单5测试安装。这组命令加载bashrc文件，然后快速测试了Scala解释器。

清单5 配置并在交互模式下运行Scala

$ scala

Welcome to Scala version 2.8.1.final (OpenJDK Client VM, Java 1.6.0_20).

Type in expressions to have them evaluated.

Type :help for more information.

scala> println("Scala is installed!")

Scala is installed!

scala> :quit

$

现在可以看到Scala命令提示符了，输入:quit退出。注意Scala在JVM上下文中执行，所以还需要JVM。我用的是Ubuntu，默认自带了OpenJDK。

接下来，根据清单6获取最新的Spark框架。

清单6 下载和安装Spark框架

$ wget https://github.com/mesos/spark/tarball/0.3-scala-2.8/ mesos-spark-0.3-scala-2.8-0-gc86af80.tar.gz

$ sudo tar xvfz mesos-spark-0.3-scala-2.8-0-gc86af80.tar.gz

然后，设置Spark配置文件 ./conf/spar-env.sh，添加SCALA_HOME环境变量：

export SCALA_HOME=/opt/scala-2.8.1.final

最后，使用简单构建工具（sbt, simple build tool）更新Spark。sbt是Scala的构建工具，Spark中也使用它。在mesos-spark-c86af80子目录下执行更新和编译：

$ sbt/sbt update compile

注意这一步需要连接到互联网。完成以后，按照清单7测试一下Spark。这个测试例子运行SparkPi计算pi的估计值（在单位正方形中随机取点）。命令格式是示例程序（spark.examples.SparkPi），加上主机参数（即定义Mesos master）。本例实在localhost上运行，因为这是一个单节点集群。注意清单7执行了两个任务，但是它们是顺序执行的（任务0结束后任务1才开始）。

清单7 快速测试Spark

$ ./run spark.examples.SparkPi local[1]

11/08/26 19:52:33 INFO spark.CacheTrackerActor: Registered actor on port 50501

11/08/26 19:52:33 INFO spark.MapOutputTrackerActor: Registered actor on port 50501

11/08/26 19:52:33 INFO spark.SparkContext: Starting job...

11/08/26 19:52:33 INFO spark.CacheTracker: Registering RDD ID 0 with cache

11/08/26 19:52:33 INFO spark.CacheTrackerActor: Registering RDD 0 with 2 partitions

11/08/26 19:52:33 INFO spark.CacheTrackerActor: Asked for current cache locations

11/08/26 19:52:33 INFO spark.LocalScheduler: Final stage: Stage 0

11/08/26 19:52:33 INFO spark.LocalScheduler: Parents of final stage: List()

11/08/26 19:52:33 INFO spark.LocalScheduler: Missing parents: List()

11/08/26 19:52:33 INFO spark.LocalScheduler: Submitting Stage 0, which has no missing ...

11/08/26 19:52:33 INFO spark.LocalScheduler: Running task 0

11/08/26 19:52:33 INFO spark.LocalScheduler: Size of task 0 is 1385 bytes

11/08/26 19:52:33 INFO spark.LocalScheduler: Finished task 0

11/08/26 19:52:33 INFO spark.LocalScheduler: Running task 1

11/08/26 19:52:33 INFO spark.LocalScheduler: Completed ResultTask(0, 0)

11/08/26 19:52:33 INFO spark.LocalScheduler: Size of task 1 is 1385 bytes

11/08/26 19:52:33 INFO spark.LocalScheduler: Finished task 1

11/08/26 19:52:33 INFO spark.LocalScheduler: Completed ResultTask(0, 1)

11/08/26 19:52:33 INFO spark.SparkContext: Job finished in 0.145892763 s

Pi is roughly 3.14952

$

通过增加线程数目，不仅可以增加线程执行的并行度，同时还能缩短执行时间（见清单8）。

清单8 使用两个线程测试Spark

$ ./run spark.examples.SparkPi local[2]

11/08/26 20:04:30 INFO spark.MapOutputTrackerActor: Registered actor on port 50501

11/08/26 20:04:30 INFO spark.CacheTrackerActor: Registered actor on port 50501

11/08/26 20:04:30 INFO spark.SparkContext: Starting job...

11/08/26 20:04:30 INFO spark.CacheTracker: Registering RDD ID 0 with cache

11/08/26 20:04:30 INFO spark.CacheTrackerActor: Registering RDD 0 with 2 partitions

11/08/26 20:04:30 INFO spark.CacheTrackerActor: Asked for current cache locations

11/08/26 20:04:30 INFO spark.LocalScheduler: Final stage: Stage 0

11/08/26 20:04:30 INFO spark.LocalScheduler: Parents of final stage: List()

11/08/26 20:04:30 INFO spark.LocalScheduler: Missing parents: List()

11/08/26 20:04:30 INFO spark.LocalScheduler: Submitting Stage 0, which has no missing ...

11/08/26 20:04:30 INFO spark.LocalScheduler: Running task 0

11/08/26 20:04:30 INFO spark.LocalScheduler: Running task 1

11/08/26 20:04:30 INFO spark.LocalScheduler: Size of task 1 is 1385 bytes

11/08/26 20:04:30 INFO spark.LocalScheduler: Size of task 0 is 1385 bytes

11/08/26 20:04:30 INFO spark.LocalScheduler: Finished task 0

11/08/26 20:04:30 INFO spark.LocalScheduler: Finished task 1

11/08/26 20:04:30 INFO spark.LocalScheduler: Completed ResultTask(0, 1)

11/08/26 20:04:30 INFO spark.LocalScheduler: Completed ResultTask(0, 0)

11/08/26 20:04:30 INFO spark.SparkContext: Job finished in 0.101287331 s

Pi is roughly 3.14052

$

使用Scala创建简单的Spark应用

要想创建Spark应用，需要将Spark及其依赖打包成一个JAR文件。在Spark主目录下使用sbt创建JAR包：

$ sbt/sbt assembly

结果文件是./core/target/scala_2.8.1/Spark Core-assembly-0.3.jar。将这个文件添加到CLASSPATH。本例不使用这个JAR，因为我们是在Scala解释器中运行的，不需要编译。

本例使用标准的MapReduce转换（见清单9）。首先导入必需的Spark类，然后定义自己的类（SparkTest），在类中定义主函数，负责解析输入参数。这些参数定义了Spark的执行环境（这里是单节点集群）。然后，创建SparkContext对象，告诉Spark怎样访问集群。这个对象需要两个参数：Mesos主节点名（这个参数已经传进来了）和Job名。从命令行解析分片数，告诉Spark这个job需要使用多少线程。最后一步设置是指定MapReduce操作需要使用的文本文件。

现在可以真正地使用Spark了，由一系列转换（transformation）组成。调用flatMap函数返回一个RDD（根据特定的函数对文本行进行分割）。然后将这个RDD传给map函数（创建键值对），最后通过ReduceByKey函数聚集键值对。ReduceByKey将键值对传递给匿名函数 _+_，这个函数接受两个参数（键和值），返回它们组合在一起的结果（即一个String和一个Int）。然后将这个值写入到一个文本文件（位于output目录）。

清单 9 Scala/Spark中的MapReduce（SparkTest.scala）

import spark.SparkContext

import SparkContext._

object SparkTest {

  def main( args: Array[String]) {

  if (args.length == 0) {

      System.err.println("Usage: SparkTest <host> [<slices>]")

      System.exit(1)

    }

  val spark = new SparkContext(args(0), "SparkTest")

    val slices = if (args.length > 1) args(1).toInt else 2

  val myFile = spark.textFile("test.txt")

    val counts = myFile.flatMap(line => line.split(" "))

                        .map(word => (word, 1))

                        .reduceByKey(_ + _)

  counts.saveAsTextFile("out.txt")

  }

}

SparkTest.main(args)

使用下面命令执行脚本：

$ scala SparkTest.scala local[1]

这个MapReduce测试文件将输出到output目录（output/part-00000）

其他大数据分析框架

还有很多其他大数据分析平台也值得一看。这些平台有的只是简单的基于脚本，有的提供类似于Hadoop的产品环境。

bashreduce是最简单的一种平台之一。顾名思义，它是在bash环境下，在多个机器上执行MapReduce类型的操作。bashreduce需要集群机器之间的无密码的SSH，并且可以通过UNIX风格的工具（sort, awk, netcat之类）提交脚本请求任务。

GraphLab是另一种有趣的MapReduce抽象实现，侧重机器学习算法的并行实现。GraphLab中，Map阶段定义了可以独立执行（在独立的主机上）的计算，Reduce阶段合并这些计算结果。

最后，还有最近新起的Twitter Storm。Storm是“实时处理的Hadoop”，重点是流处理和连续计算（即在计算时就将结果以流的形式输出）。Storm是用Clojure（现代版的Lisp语言）写的，同时也支持其他各种语言（如Ruby、Python）。Twitter于2011年9月将Storm开源。

更多资料请参考这里。

Spark的未来

Spark对于大数据分析方法这个日益庞大的家族而言，无疑增添了有趣的一笔。Spark处理分布式数据集的框架不仅是有效的，而且是高效的（通过简洁的Scala脚本）。Spark和Scala目前都还尚处于开发中。尽管如此，随着加入更多的关键互联网特性，它越来越从有趣的开源软件过渡为基础的web技术。

电脑也能玩PS4大作？shadPS4模拟器来了开源项目精选智能手机
ShadPS4是一款开源的PS4模拟器，由开发者BrutalSam及其团队主导开发。它的目标是模拟PS4的硬件和系统环境，从而在PC上运行PS4游戏。由于PS4的硬件架构（基于x86-64的AMDJaguarCPU和GCNGPU）与PC相似，ShadPS4的开发相对其他模拟器（如ARM架构的Android设备）更具可行性。Stars数21057Forks数1266主要特点跨平台兼容：支持Windo
C++位运算精要：高效解题的利器星途码客 c++算法 c++java 算法
引言在算法竞赛和底层开发中，位运算（BitManipulation）因其极高的执行效率而广受青睐。它能在O(1)时间复杂度内完成某些复杂操作，大幅优化程序性能。本文系统梳理C++位运算的核心技巧，涵盖基础操作、经典应用、优化策略及实战例题，帮助读者掌握这一高效工具。一、位运算基础1.六大基本操作运算符名称示例（二进制）说明&按位与1010&1100=1000同1为1，否则为0|按位或1010|11
Nginx 是如何解决惊群效应的？汤姆yu 架构师面试题 nginx 服务器运维
什么是惊群效应？第一次听到的这个名词的时候觉得很是有趣，不知道是个什么意思，总觉得又是奇怪的中文翻译导致的。复杂的说（来源于网络）TLDR;惊群效应（thunderingherd）是指多进程（多线程）在同时阻塞等待同一个事件的时候（休眠状态），如果等待的这个事件发生，那么他就会唤醒等待的所有进程（或者线程），但是最终却只能有一个进程（线程）获得这个时间的“控制权”，对该事件进行处理，而其他进程（线
python推导式及列推导式应用实践肖永威 Python python 开发语言
‌Python中的推导式‌是一种简洁且高效的代码编写方式，它允许在一行代码中完成常见的循环和集合及条件操作。Python提供了四种主要的推导式：列表推导式、字典推导式、集合推导式和生成器推导式。这些推导式可以根据一个数据序列构建另一个新的数据序列，常用于数据处理场景，提高可读性，并减少出错的可能性。Python中的推导式（Comprehensions）是一种简洁的构建列表（list）、字典（dic
亲测超简单pytorch3D安装教程！！！（已解决）小秋今天也要加油吖 pytorch 人工智能 python
不需要花里胡哨各种麻烦，只确认好你需要的pytorch3d版本，你环境的python、cuda、pytorch版本，去官网下载对应的安装包https://anaconda.org/pytorch3d/pytorch3d/files，再回来直接condainstall就好咯！！比如我的是python3.7，cuda11.1，pytorch1.9.1，那我就下载pytorch3d-0.7.1-py37
csv文件青禾子的夏 csv
CSV文件（Comma-SeparatedValues，逗号分隔值）是一种常用的文件格式，用于存储表格数据，如电子表格或数据库中的数据。CSV文件以纯文本形式存储，其中的每一行代表数据表中的一行，而行中的每个字段通常由逗号分隔。CSV文件由于其简单性和通用性，被广泛用于数据交换和备份。CSV文件的特点包括：文本格式：CSV文件是文本文件，可以使用任何文本编辑器（如记事本、Notepad++、VSC
Spring Boot进阶(46)：解密Spring Boot和Jackson的完美结合：打造高效的JSON序列化方案 bug菌¹ 滚雪球学SpringBoot #SpringBoot零基础入门 spring boot Jackson
1.前言在上一期《SpringBoot之Jackson配置全局时间日期格式》文中提到Jackson，Jackson是一个在Java中常用的JSON序列化和反序列化库，因为其操作简单、性能优秀、支持多种数据格式等特点，被广泛应用于各种后端开发场景中。而SpringBoot则是一个快速开发框架，能够快速帮助我们搭建项目架构。本文旨在介绍如何在SpringBoot中集成Jackson，以帮助读者更加方便
富文本编辑器输出在线html_一个在线实时预览代码编辑器的实现 weixin_39805195 富文本编辑器输出在线html
在线代码编辑器--Html/Markdown支持作为开发者，经常会使用各式编辑器，一个体验良好的编辑器会给使用者舒适的coding体验。但当我们不是使用自己熟悉的电脑，在任意的环境下，我们就需要有一个在线的编辑器进行coding。事实上已经有太多优秀的online编辑器（jsbin/jsfiddle等）。笔者也根据自己的工作需求，做了一个简介版的编辑器，用于Html以及Markdown的开发。本文
VUE 路由守卫 next() / next({ ...to, replace: true }) / next(‘/‘) 说明爱吃松果的美美 #vue 项目相关 vue.js
https://blog.csdn.net/qq_41912398/article/details/109231418next()——放行next(’/’)——中断当前导航，执行新的导航。注意这里不是直接转跳，而是中断。beforeEach((to,from,next)=>{beforeEach(('/logon',from,next)=>{beforeEach(('/logon',from,ne
每一个都很好用的4款markdown解析开源库罗米笔记 javascript 编辑器
大家好，我是辉子前面的文章写过了关于编辑器，还有markdown编辑器，今天写下关于解析markdown的开源库，大家可以学习和借鉴，以后还会出各种类库使用教程及详解1.Marked:一款可以编译和解析markdown的开源库，支持命令行、浏览器。它支持多种Markdown语法，并能够将Markdown文本转换为HTML。它的文档丰富，使用简单。https://github.com/markedj
【零基础速成】C语言核心语法精讲：从“Hello World“到实战编程 hweiyu00 分享 c语言开发语言
【零基础速成】C语言核心语法精讲：从"HelloWorld"到实战编程一、开发环境快速搭建（2分钟演示）在线编译器推荐菜鸟工具/Replit（免安装即用）本地配置方案VSCode+GCC配置演示第一个程序防坑指南中文路径报错分号缺失括号不匹配二、程序骨架解析（代码类比人类身体）#include//好比手机充电器：获取输入输出能力intmain(){//❤️程序心脏：所有代码从这里开始跳动print
NVIDIA A100能效跃迁与架构精解智能计算研究中心其他
内容概要作为NVIDIAAmpere架构的旗舰计算卡，A100通过系统性架构重构实现了计算密度与能效的突破性升级。其核心创新围绕第三代TensorCore展开，通过引入细粒度结构化稀疏支持与增强型混合精度计算，使稀疏模型训练速度提升至传统架构的2.5倍。SM多实例化技术将单个流式多处理器动态分割为7个独立实例，在云原生环境中实现GPU资源利用率从65%到95%的跃升。配合带宽达1.6TB/s的HB
A10应用优化与高效部署实战智能计算研究中心其他
内容概要A10应用优化与高效部署涉及从基础架构设计到资源管理的全流程技术实践。本文将从核心配置原则、部署策略设计、性能调优路径三大维度展开论述，重点剖析负载均衡算法选择、会话保持机制配置、硬件资源动态分配等关键技术环节。通过对比基准测试数据、解读压力场景下的系统响应曲线等方式，系统阐述如何平衡吞吐量与延迟的关系，同时结合自动化编排工具实现部署效率的跃升。文中深度拆解的银行交易系统扩容案例与电商大促
模型优化技术演进与行业场景突破智能计算研究中心其他
内容概要模型优化技术正经历从算法改进到系统级创新的范式跃迁。随着自动化机器学习（AutoML）与联邦学习技术的成熟，模型开发效率与隐私保护能力显著提升，而模型压缩技术则推动轻量化部署在边缘计算场景中加速落地。与此同时，量子计算为优化算法提供了新的计算维度，MXNet、PyTorch等框架通过动态计算图特性，在医疗影像识别和语音交互领域实现推理速度的突破性进展。技术演进阶段核心技术突破典型应用场景主
前沿算法优化与多场景应用实践智能计算研究中心其他
内容概要《前沿算法优化与多场景应用实践》围绕算法技术的创新与落地，系统性梳理了从底层理论到场景化落地的关键路径。在基础算法层，量子算法通过叠加态与纠缠态特性突破经典计算瓶颈，联邦学习结合差分隐私与模型聚合技术构建分布式安全框架，生成对抗网络（GAN）则通过生成器与判别器的动态博弈优化图像合成效果。与此同时，可解释性算法通过特征重要性分析与决策树可视化提升模型透明度，超参数调优策略则结合贝叶斯优化与
智能模型优化与跨行业应用趋势智能计算研究中心其他
内容概要智能模型优化技术正经历多维度的范式突破，从算法架构到部署模式均呈现显著变革。核心演进路径涵盖三大维度：在技术层，自动化机器学习（AutoML）与自适应学习优化技术大幅降低建模门槛，结合超参数优化与正则化方法，实现模型性能与效率的平衡；在架构层，边缘计算与联邦学习推动分布式模型部署，MXNet、PyTorch等框架通过模型压缩与量化技术，适配低功耗设备部署需求；在应用层，医疗诊断、金融预测等
使用Python将TXT文本内容读取后生成指定XML格式的文件 sxf_0123 python
任务说明：解析服务器内存和CPU信息。格式是无后缀的文本格式。将其转换为统一XML格式。源文件名：zmonitor.2017-04-06-14_28172.17.8.64saptmqas_cpu431CPUutilizationpercentage:1%172.17.8.95saptmprd_cpu426CPUutilizationpercentage:6%172.17.8.63saptmdev_
背包问题模版 ZYSongsongsongsong 算法
背包问题模版0-1背包基本定义：0-1背包问题是一个经典的组合优化问题，其核心描述为：给定一个容量为W的背包和N个物品，每个物品i具有：重量（wi）和价值（vi）目标：选择若干物品装入背包，使得：物品的总重量不超过背包容量W；物品的总价值最大化。关键特性：0-1选择：每个物品只能选择放入（1）或不放入（0），不能分割（即不能选择部分物品）。不可重复：每个物品最多只能选择一次。代码模版示例publi
Python列表常用函数（详解）宇文月 python 列表数据分析
列表Python中列表是可以修改的，而列表元组和字典是不可以修改的，这是列表跟元组和字典相比最主要的区别。以下是Python中列表的使用方法用法描述list.append（x）把x元素添加到列表末尾list.extend（L）将L列表添加到列表末尾，类似于合并list.remove（x）删除列表中第一个值为x的元素，如果没有，则返回一个错误list.insert（i，x）在索引为i的元素之前插入x
nextjs系列教程(三)：pages和路由 HarryDeveloper #nextjs合集 javascript 前端 react.js
Pages页面用法1.1概念介绍在Next.js中，一个page（页面）就是一个从.js、jsx、.ts或.tsx文件导出（export）的React组件，这些文件存放在pages目录下。每个page（页面）都使用其文件名作为路由（route）。1.2创建page页面如果你创建了一个命名为pages/about.jsx的文件并导出（export）一个如下所示的React组件，则可以通过/about
python baostock模块应用 pyswt baostock模块 python baostock
pythonbaostock模块是专门用来获取股票的一些参数，是因为我现在需要一些数据，所以在这分享一下它的用法，首先下载安装，pipinstallbaostock，就ok了，官方文档，用法也很简单:importbaostockasbsimportpandasaspd#登陆系统lg=bs.login()#显示登陆返回信息print('loginresponderror_code:'+lg.erro
初识Redis 反方向的空 Redis redis 数据库缓存
初始Redis关于redisRedis（REmoteDIctionaryServer）是一个开源的、高性能的键值存储系统，广泛用于缓存、消息队列、实时分析等场景。它支持多种数据结构，并提供了丰富的特性，使其成为一个功能强大且灵活的工具。Redis之所以受到如此多公司的⻘睐，必然有之过⼈之处，下面是关于Redis的8个重要特性速度快正常情况下，Redis执行命令的速度非常快，官方给出的数字是读写性能
Redis常见数据类型(1)String 反方向的空 Redis redis bootstrap java
Redis常见数据类型(1)String字符串类型是Redis最基础的数据类型，关于字符串需要特别注意：首先Redis中所有的键的类型都是字符串类型，而且其他几种数据结构也都是在字符串类似基础上构建的，例如列表和集合的元素类型是字符串类型，所以字符串类型能为其他4种数据结构的学习奠定基础.其次,字符串类型的值实际可以是字符串，包含⼀般格式的字符串或者类似JSON、XML格式的字符串；数字，可以是整
DeepSeek技术全景解析：DeepSeek多头隐式注意力（MLA）解析 AGI大模型资料分享员语言模型人工智能自然语言处理 agi wps 大模型 deepseek
在人工智能的飞速发展中，深度学习成为了众多前沿技术的基石。特别是在自然语言处理（NLP）领域，注意力机制已经成为了不可或缺的技术之一。今天，我们将详细解析一种极具创新性的注意力机制——DeepSeek的多头隐式注意力（MLA）。这项技术不仅在性能上打破了现有的瓶颈，而且通过低秩分解在大规模AI模型中的应用，为我们带来了更高效、更具可扩展性的解决方案。一、AI基础概念解析在深入理解DeepSeekM
Python列表常用方法五：元素如何去掉重复项奋进的LY python编程基础学习 python 开发语言
引言列表作为一个容器可以存储不同类型的数据元素，而且可以存储重复元素。在项目应用中，提取列表中唯一元素删除重复项是常见操作，实现方法也多种多样。列举几种常用方法方便遗忘时回忆。目录一、set()去重复二、列表推导式去重复三、numpy.unque()去重复四、字典的键去重复五、列表常用方法系列文章链接一、set()去重复使用集合set数据结构可以去重复，但会造成数据无序性，改变原始列表的有序性。示
扩展 MybatisPlus 添加强制更新字段的方法会功夫的李白 Java mybatis mybatisplus 数据库
因为MybatisPlus的update方法都是默认不更新值为null的字段，所以需要进行扩展，以适应某些强制更新字段的场景使用示例OrderItemDOorderItemDOUpdate=BeanUtils.toBean(orderItemDO,OrderItemDO.class);orderItemDOUpdate.setId(orderItemDO.getId());//退回到分发将清空所有
python3 Baostock的使用脚本无敌 Python python 开发语言
如果你不想注册的话，且想获取大量准确、完整的证券历史行情数据、上市公司财务数据的话，可以考虑使用Baostock库（无需注册或积分）Baostock是一个提供中国股票市场实时和历史数据的Python库，它基于BaoStock平台的API服务。通过使用Baostock，你可以获取股票、基金、债券、期货等各类金融市场的数据，并进行相应的数据分析和处理。以下是关于如何使用Baostock的一些基本步骤和
MultipartFile resource [file] cannot be resolved to absolute file path gaog2zh #spring全家桶 spring 文件上传
项目报错：java.io.FileNotFoundException:MultipartFileresource[file]cannotberesolvedtoabsolutefilepath，图示WebLogAspect为我们的项目日志切面类，用于记录日志原因：MultipartFile使用fastjson序列化会报错解决方案：这里解决方案选择忽略，代码如下/***获取方法的参数*@paramm
HTML静态网页作业——电影介绍-你的名字 5页无js 带音乐 (1) IT-司马青衫 html javascript 前端
HTML实例网页代码,本实例适合于初学HTML的同学。该实例里面有设置了css的样式设置，有div的样式格局，这个实例比较全面，有助于同学的学习,本文将介绍如何通过从头开始设计个人网站并将其转换为代码的过程来实践设计。精彩专栏推荐❤【作者主页——获取更多优质源码】❤【web前端期末大作业——毕设项目精品实战案例(1000套)】文章目录一、网页介绍一、网页效果二、代码展示1.HTML代码2.CSS代
【功能开发】DSP F2837x 检测中断所有函数运行一次的时间 DSP风味拿铁单片机嵌入式硬件电力电子软件 dsp开发
要查看DSPF28377的CPU在50微秒一次的中断内所有程序运行完总共占用了中断多长时间，可以采用硬件定时器测量和软件计时两种常见方法。方法一：使用硬件定时器测量原理利用DSP内部的高精度硬件定时器，在中断开始时记录定时器的值，在中断结束时再次记录定时器的值，通过两次记录值的差值来计算中断程序的执行时间。步骤1.初始化硬件定时器选择一个合适的硬件定时器（如CPU定时器），并对其进行初始化，配置定
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin

IBM 技术文档：Spark, 快速数据分析的又一选择

你可能感兴趣的:(IBM 技术文档：Spark, 快速数据分析的又一选择)