ivy2016

Scala mapreduce

本文只是带你进入 Scala 的世界，包括安装、不可变变量 val、可变变量 var、定义类、集合（包括列表（list）、集（set）、映射（map））以及集合遍历和集合库（能达到并行/并发效果）。

题外话，如果 Java 争气的话，还就真不会出现像 Scala 这些语言。对于函数编程风格的支持，尤其是对于 Lambda 表达式的支持，能够有助于减少必须要编写的逻辑无关样板代码，也许让它可以更简单的关注要面对的任务本身。而 Java 对 Lamdba 表达式的支持到 JavaSE8 才实现（你可以查一下 Java SE8 什么发布的，而其他语言何时支持匿名函数、Lambda 表达式、函数式编程、并行编程……）。

Scala，一门强类型定义的静态类型语言，结合了面向对象编程与函数编程思想，语法简洁，完全兼容Java，运行在 JVM 上。JVM 上的其他语言：Groovy、JRuby、Clojure。那么 Scala 有什么不同？能同时提供函数式风格和良好并发支持的强类型语言，只有 Scala。JRuby 和 Groovy 都是动态语言（Scala 是静态类型语言），它们不是函数式的，也无法提供比 Java 更好的并发解决方案。另一方面，Clojure 是一种混合型的函数式语言，它天生就是动态的，因此不是静态类型。而且它的语法类似 Lisp，除非你很熟悉，否则这可不是一种易于掌握的语言（Lisp 是号称高智商的人才能使用的语言，如果你看过《黑客与画家》，应该记得作者的一句话，大意是，如果竞争对手采用 Lisp 开发 Web，那就应该小心了，言下之意是，Lisp 跟其他语言相比，生产效率太高了，很容易实现一个想法）。

总结起来，Scala 特点体现在以下几方面：

Scala 运行在 JVM 上，这使得 Scala 可以和现存的应用同时运行；

Scala 可以直接使用 Java 类库，使得开发人员可以利用现有的框架和遗留代码；

Scala 和 Java 一样都是静态类型语言。因此，遵循相同的编程哲学；

Scala 语法与 Java 比较接近，使得开发人员可以快速掌握语言基础；

Scala 既支持面向对象范型，也支持函数式编程范型，这样，开发人员就可以逐步在代码中运用函数式编程的思想。

Scala 对 Java 的不同：

类型推断。在 Java 中，必须声明每个变量、实参或形参的类型。Scala 则会在可能的情况下推断出变量的类型；

函数式编程。Scala 将函数式编程的重要概念引入 Java，包括代码块、高阶函数（high-order function）以及复杂的集合库；

不变量。Java 的确允许使用不变量，不过是通过提供一个很少使用的修饰符实现的。Scala 会要求你明确地决定一个变量是否可变。这些决定将对应程序在并发环境中的行为，产生深远的影响；

高级程序构造。Scala 很好地使用了基础语言，并将有用的概念分层。包括并发应用的 Actor 模型、使用高阶函数的 Ruby 风格的集合以及作为一等对象类型（first-class）的 XML 的处理。

文中代码本人在 Scala 2.11 上编译并运行通过。

作为第一步，先安装好最新的 Scala 发布包 Typesafe stack，打开命令行窗口，键入“scala”：这将启动 REPL（读入-运算输出循环）交互式编码环境。然后就可以写下你的第一行 Scala 代码：

scala> val columbus: Int = 1492

columbus: Int = 1492

scala>

声明了一个类型为 Int 变量，初始值为 1492，就像在Java里 Int columbus = 1492; 一样。

Scala 把类型放在变量之后（反向的声明方式），还使用“val”显性地把变量声明为不可变。如果想修改这个变量:

scala> columbus=1500

:8: error: reassignment to val

       columbus=1500

scala>

错误消息精确地指出了错误位于行的位置。

再尝试声明这个变量，但这次用“var”，让其可变更。这样编译器能推断出 1492 是一个整数，也就不需要指定类型了：

scala> var columbus = 1492

columbus: Int = 1492

scala> columbus = 1500

columbus: Int = 1500

scala>

接下来，我们来定义一个类，名为 Employee，有三个不可变更的字段：name、age 和 company，拥有各自的缺省值。

scala> case class Employee(name:String="guest",

     | age:Int=30,

     | company:String="DevCode")

defined class Employee

scala>

关键字“case”相当于 Java 里的 switch 语句，只不过更为灵活。它说明该类具有模式匹配的额外机制，以及其他一些特性，包括用来创建实例的工厂方法（不需要使用“new”关键字来构造），同样也不需要创建缺省的 getter 方法。与 Java 中不同的是，变量缺省下的访问控制是 public（而不是protected），而Scala为公开变量创建一个 getter 方法，并命名为变量名。如果你愿意，你也可以把字段定义成可变且/或私有（private）的，只需要在参数之前使用“var”（例如：case class Person(private var name:String)）。

我们再来用不同方式创建一些实例，看看其他的特性，像是命名参数和缺省参数（从Scala2.8开始引入）：

scala> val guest=Employee()

guest: Employee = Employee(guest,30,DevCode)

scala> val guestAge=guest.age

guestAge: Int = 30

scala> val anna=Employee("Anna")

anna: Employee = Employee(Anna,30,DevCode)

scala> val thomas=Employee("Thomas",41)

thomas: Employee = Employee(Thomas,41,DevCode)

scala> val luke=Employee("Luke",company="LucasArt")

luke: Employee = Employee(Luke,30,LucasArt)

scala> val yoda=luke.copy("Yoda",age=800)

yoda: Employee = Employee(Yoda,800,LucasArt)

scala>

不过，下面的写法是行不通的（可不是因为 Darth 不是 DevCode 的雇员！）

scala> val darth=Employee("Darth","DevCode")

:9: error: type mismatch;

 found   : String("DevCode")

 required: Int

       val darth=Employee("Darth","DevCode")

scala>

这是由于构造函数在这个位置需要 age 作为参数，因为函数参数没有显性地进行命名。

现在我们再来看集合，这才是真正让人兴奋的地方。Scala 主要集合类型包括列表（list）、集（set）和映射（map）。

有了泛型（Java5 以上），Java可以遍历一个列表，比方说整数型列表，用下面代码：

List numbers = new arrayList();

numbers.add(1);

numbers.add(2);

numbers.add(3);

for(Integer n:numbers) {

    System.out.println("Number "+n);

运行结果：

Number 1

Number 2

Number 3

Scala 对于可变集合和不可变集合进行了系统性地区别处理，不过，鼓励使用不可变集合，也因此在缺省情况下创建不可变集合。这些集合是通过模拟的方式实现添加、更新和删除操作，在这些操作中，不是修改集合，而是返回新的集合。

与前面的 Java 代码等价的 Scala 代码可能像下面这样：

scala> val numbers=List(1,2,3)

numbers: List[Int] = List(1, 2, 3)

scala> for(n<-numbers) println("Number "+n)

Number 1

Number 2

Number 3

scala>

这里的“for”循环语法结构非常接近于 Java 的命令式编程风格。在 Scala（以及 Java 虚拟机上其他很多语言如：Groovy、JRuby 或 JPython）里还有另外一种方式来实现上面的逻辑。这种方式使用一种更加偏向函数编程的风格，引入了 Lambda 表达式（有时也称为闭包——closure）。简单地说，Lambda 表达式就是你可以拿来当作参数传递的函数。这些函数使用参数作为输入（在我们的例子中就是“n”整型变量），返回语句作为函数体的最终语句。他们的形式如下：

functionName { input =>

    body

scala> numbers.foreach{n:Int=> println("Number "+n) }

Number 1

Number 2

Number 3

scala>

上面的例子中，函数体只有一条语句（println……），返回的是单位（Unit，也就是“空结果”），也就是大致相当于 Java 中的 void，不过有一点不同的是——void是不返回任何结果的。

除了打印数值列表外，我们更想做处理和变换这些元素，这时我们需要调用方法来生成结果列表，以便后面接着使用。让我们尝试一些例子：

scala> val reversedList=numbers.reverse

reversedList: List[Int] = List(3, 2, 1)

scala> val numbersLessThan3=numbers.filter{n=>n<3}

numbersLessThan3: List[Int] = List(1, 2)

scala> val oddNumbers=numbers.filterNot{n=>n%2==0}

oddNumbers: List[Int] = List(1, 3)

scala> val highterNumbers=numbers.map{n=>n+10}

highterNumbers: List[Int] = List(11, 12, 13)

scala>

变换“map”非常有用，它对列表的每个元素应用闭包，结果是一个同样大小的、包含了每个变换后元素的列表。

我们在这里还想介绍最后的一个方法，就是“foldLeft”方法，它把状态从一个元素传播到另一个元素。比如说，要算出一个列表里所有元素的和，你需要累加，并在切换元素的时候保存中间的计数：

scala> val sumOfNumbers=numbers.foldLeft(0) {( total,element)=>

     | total+element

| }

sumOfNumbers: Int = 6

scala>

作为第一个变量传递给 foldLeft 的值0是初始值（也就是说在把函数用到第一个列表元素的时候 total=0）。

(total,element) 代表了一个 Tuple2，在 Scala 里这是一个二元组（就像要表示三维空间坐标，经常要用到 Tuple3(x,y,z) 等等）。

在合计时，Scala 编程接口实际上提供了一个“sum”方法，这样上一条语句就可以写成：

scala> val sumOfNumbers=numbers.sum

sumOfNumbers: Int = 6

scala>

还有许多其他的类似的集合变换方法，可以参照 scaladoc API。你也可以把这些方法组合起来（例如：numbers.reverse.filter……），让代码更加简洁，不过这样会影响可读性。

最后，{ n => n + 10 } 还可以简单地写成 (_ + 10)，也就是说如果输入参数只是用于你调用的方法，则不需要声明它；在我们的例子里，“n”被称为匿名变量，因为你可以把它用任何形式来代替，比如说“x”或者“number”，而下划线则表示一处需要用你的列表的每个元素来填补的空白。（与“_”的功能类似，Groovy保留了关键字“it”，而Python则使用的是“self”）。

scala> val hightNumbers=numbers.map(_+10)

hightNumbers: List[Int] = List(11, 12, 13)

scala>

在介绍了对整数的基本处理后，我们可以迈入下一个阶段，看看复杂对象集合的变换，例如，使用我们上面所定义的Employee 类：

scala> val allEmployees=List(luke, anna, guest, yoda, thomas)

allEmployees: List[Employee] = List(Employee(Luke,30,LucasArt), Employee(Anna,30

,DevCode), Employee(guest,30,DevCode), Employee(Yoda,800,LucasArt), Employee(Tho

mas,41,DevCode))

scala>

包含上面五个元素的列表，我们可以应用匿名方法，用一个条件来过滤，符合条件的员工——比如属于 DevCode 的雇员：

scala>  val devCodeEmployees=allEmployees.filter {_.company=="DevCode"}

devCodeEmployees: List[Employee] = List(Employee(Anna,30,DevCode), Employee(gues

t,30,DevCode), Employee(Thomas,41,DevCode))

scala> val oldEmployees=allEmployees.filter(_.age>100).map(_.name)

oldEmployees: List[String] = List(Yoda)

scala>

假设我们手头的 allEmployees 集合是我们使用SQL查询获得的结果集，查询语句可能类似于“SELECT * FROM employees WHERE company = ‘DevCode’ ”。现在我们可以把 List[Employee] 变换到以 company 名称作为键、属于该公司的所有员工的列表作为值的 Map 类型，这样就可以把雇员按 company 来排序：

scala> val sortedEmployees=allEmployees.groupBy(_.company)

sortedEmployees: scala.collection.immutable.Map[String,List[Employee]] = Map(Dev

Code -> List(Employee(Anna,30,DevCode), Employee(guest,30,DevCode), Employee(Tho

mas,41,DevCode)), LucasArt -> List(Employee(Luke,30,LucasArt), Employee(Yoda,800

,LucasArt)))

scala>

每一个列表已经作为一个值存入了（键——值）哈希表，为了示范如何进一步处理这些列表，可以设想我们需要计算每个公司的雇员平均年龄。

这具体意味着我们必须要计算每个列表的每个雇员的的“age”字段的和，然后除以该列表中雇员的数量。让我们先计算一下 DevCode：

scala> devCodeEmployees

res3: List[Employee] = List(Employee(Anna,30,DevCode), Employee(guest,30,DevCod

), Employee(Thomas,41,DevCode))

scala> val devCodeAges=devCodeEmployees.map(_.age)

devCodeAges: List[Int] = List(30, 30, 41)

scala> val devCodeAverageAge=devCodeAges.sum / devCodeAges.size

devCodeAverageAge: Int = 33

scala>

回到我们的 Map (key:String ->value:List[Employee])，下面是个更加一般性的例子。我们现在可以归并并计算每个公司的平均年龄，要做的只是写几行代码：

scala> val averageAgeByCompany = sortedEmployees.map{ case(key,value)=>

     | value(0).copy(name="average",age=(value.map(_.age).sum)/value.size)}

averageAgeByCompany: scala.collection.immutable.Iterable[Employee] = List(Employ

ee(average,33,DevCode), Employee(average,415,LucasArt))

scala>

这里的“case(key,value)”说明了Scala提供的模式匹配机制是多么强大。请参考Scala的文档来获取更多的信息。

到这里我们的任务就完成了。我们实现的是一个简单的Map-Reduce算法。由于每个公司雇员的归并是完全独立于其他公司，这个算法非常直观地实现了并行计算。

在后面的附录里给出了此算法的等价的实现，分为Java版本和Scala版本。

参考资料

The typesafe stack.
Scala 官网

附录

Map Reduce.Java

public class Employee {

    final String name;

    final Integer age;

    final String company;

    public Employee(String name, Integer age, String company) {

        this.name = name == null ? "guest" : name;

        this.age = age == null ? 30 : age;

        this.company = company == null ? "DevCode" : company;

    public String getName() {

        return name;

    public int getAge() {

        return age;

    public String getCompany() {

        return company;

    @Override

    public String toString() {

        return "Employee [name=" + name + ", age=" + age + ",

               company="

               + company + "]";

class Builder {

    String name, company;

    Integer age;

    Builder(String name) {

        this.name = name;

    Employee build() {

        return new Employee(name, age, company);

    Builder age(Integer age) {

        this.age = age;

        return this;

    Builder company(String company) {

        this.company = company;

        return this;

import java.util.ArrayList;

import java.util.Collection;

import java.util.List;

import com.google.common.base.Function;

import com.google.common.collect.ImmutableListMultimap;

import com.google.common.collect.ImmutableSet;

import com.google.common.collect.Multimaps;

public class MapReduce {

    public static final void main(String[] args) {

        Employee guest = new Builder("Guest").build();

        Employee anna = new Builder("Anna").build();

        Employee thomas = new Builder("Thomas").age(41).build();

        Employee luke = new

            Builder("Luke").company("LucasArt").build();

        Employee yoda = new

            Builder("Yoda").age(800).company("LucasArt").build();

        Collection employees = new ArrayList();

        employees.add(guest);

        employees.add(anna);

        employees.add(thomas);

        employees.add(luke);

        employees.add(yoda);

        ImmutableListMultimap

            personsGroupByCompany = Multimaps.index(employees, new Function() {

                public String apply(Employee person) {

                   return person.getCompany();

});

        ImmutableSet companyNamesFromMap =

            personsGroupByCompany.keySet();

        List averageAgeByCompany = new

            ArrayList();

        for(String company: companyNamesFromMap) {

             List employeesForThisCompany =

                personsGroupByCompany.get(company);

             int sum = 0;

             for(Employee employee: employeesForThisCompany) {

                 sum+= employee.getAge();

             averageAgeByCompany.add(new

                Employee("average",sum/employeesForThisCompany.size(),company));

     System.out.println("Result: "+averageAgeByCompany);

MapReduce.scala：

case class Employee(name: String = "guest", age: Int = 30, company: String = "DevCode")

    object MapReduce {

        def main(args: Array[String]): Unit = {

        val guest = Employee()

        val anna = Employee("Anna")

        val thomas = Employee("Thomas", 41)

        val luke = Employee("Luke", company = "LucasArt")

        val yoda = luke.copy("Yoda", age = 800)

        val allEmployees = List(luke, anna, guest, yoda, thomas)

        val sortedEmployees = allEmployees.groupBy(_.company)

        val averageAgeByCompany = sortedEmployees.map { case (key, value) =>

            value(0).copy(name = "average", age = (value.map(_.age).sum) / value.size)

        println("Result: "+averageAgeByCompany)

关于作者

Thomas Alexandre是DevCode的高级咨询顾问，专注于Java和Scala软件开发。他热爱技术，热衷于分享知识，永远在寻求方法、采用新的开源软件和标准来实现更加有效的编程。在十四年的Java开发经验之外，过去几年他集中精力在新的编程语言和Web框架上，例如Groovy/Grails和Scala/Lift。Thomas从法国里尔大学获得了计算机科学博士学位，在卡耐基梅隆大学度过了两年的博士后研究生涯，研究方向是安全和电子商务。

你可能感兴趣的:(Scala)

【大数据之路11】多范式编程语言 Scala 程序员老五大数据 scala 开发语言
多范式编程语言Scala1.Scala概述1.Scala介绍2.学习Scala的必要性1.基于编程语⾔⾃身2.基于活跃度2.Scala基础语法1.HelloScala2.变量定义1.变量与常量2.Scala自动类型识别3.lazy懒加载3.数据类型1.相关概述1.Scala数据类型列表2.测试代码3.Scala数据类型结构图2.Scala基本类型操作3.编码规范4.流程控制1.if2.块表达式3.
scala文件编译相关理解百流 scala scala 开发语言学习
scala文件编译相关理解源文件内容可包括在Scala中，一个源文件通常只包含一个公共类或对象，这是因为Scala编译器在编译源文件时，会根据文件名来生成类或对象的字节码文件。如果文件中包含多个公共类或对象，Scala编译器将无法确定应该生成哪个字节码文件，这可能会导致编译错误。一个Scala源文件可以包含多个非公共类或对象。这些非公共类或对象可以在其他类或对象中使用，但它们不能被其他源文件直接访
scala基础学习(数据类型)-集合百流 scala scala 学习开发语言
文章目录集合创建集合isEmpty获取数据添加元素删除元素常见方法交集&差集diff--并集++uniontostringtolisttoArraytoMap其余常用方法集合ScalaSet(集合)是没有重复的对象集合，所有的元素都是唯一的。Scala集合分为可变的和不可变的集合。默认情况下，Scala使用的是不可变集合，如果你想使用可变集合，需要引用scala.collection.mutabl
Scala语言的循环实现 Code侠客行包罗万象 golang 开发语言后端
Scala语言的循环实现在编程中，循环是一个非常重要的概念，它允许我们重复执行某些代码块。Scala作为一种现代化的编程语言，融合了函数式编程和面向对象编程的特点，提供了多种方式来实现循环。在本文中，我们将深入探讨Scala中的循环实现，包括基本的循环结构、使用集合与高阶函数、以及如何利用递归来实现循环。一、基础循环结构Scala提供了几种基础的循环结构，包括for循环、while循环和dowhi
SOME/IP服务接口辣椒卷二王网络协议网络 someip 车载中间件
本系列文章将分享我在学习SOME/IP过程中积累的一些感悟，并结合SOME/IP的理论知识进行讲解。主要内容是对相关知识的梳理，并结合实际代码展示SOME/IP的使用，旨在自我复习并与大家交流。文中引用了一些例图，但由于未能找到原作者信息，若存在侵权问题，请联系删除。什么是Some/IP在前面的博客中我们介绍了SOA，英文翻译过来是面向服务。SOME/IP（Scalableservice-Orie
搭建单机伪分布式Hadoop+spark+scala 啥也不会0-0 分布式 hadoop spark
目录一、准备环境包：二、创建centos7虚拟机并配置ip三、链接Xshell并上环境包四、安装JDK1.解压jdk2.设置JAVA环境变量3.执行source使设置生效：4.检查JAVA是否可用。五、免密登陆1.创建ssh秘钥，输入如下命令，生成公私密钥2.将master公钥id_dsa复制到master进行公钥认证，实现本机免密登陆，测试完exit退出六、安装Hadoop软件1.解压hadoo
【一天一门编程语言】Scala 语言程序设计极简教程 AI天才研究院一天一门编程语言 scala java 开发语言
Scala语言程序设计极简教程用markdown格式输出答案。不少于3000字。细分到2级目录。目录简介基本语法变量数据类型运算符流程控制函数类应用安装
虚拟机VMware Workstation Pro安装集群+hadoop+spark+scala 落枫兮 hadoop spark scala
参考资料：参考视频教程链接：大数据实验虚拟机安装Hadoop和Spark_哔哩哔哩_bilibiliup主：孤独时代的硕硕namenode安装选择镜像、路径、磁盘（最好不要c盘）、内存和处理器编辑名称与位置可点击此处自定义硬盘进行设置。选择语言、时区、软件、位置和网络
大数据手写面试题Scala语言实现大全（持续更新）大模型大数据攻城狮大数据数据结构算法面试题面试宝典
在大数据领域，Scala语言因其强大的函数式编程特性和对并发处理的良好支持而成为了开发者们的热门选择。有些面试官，为了考验面试者的基本功，需要让手写一些面试题，以数据结构和算法类的居多。本文将为您提供一些常见的Scala手写面试题及参考答案，帮助您在面试或工作中更好地运用Scala。目录1.冒泡排序2.二分查找3.快速排序4.归并排序5.手写Spark-WordCount6.手写Spark程序求平
Scala内建循环——for循环 Word的妈呀 scala 开发语言后端
1.for循环格式for（循环变量<-数据集）{//循环体代码}eg：vararray=1to5//12345vararray2=1unitl5//12345for(i<-array){println(i)}2.循环守卫在循环中添加条件，如果条件成立就执行格式：for（循环变量<-数据集ifcondition1；ifcondiition2...）{循环体}3.循环的返回值valret=for(i<
Scala的循环结构详解爱睡懒觉☞ scala 开发语言后端
在Scala编程语言中，循环结构为开发者提供了一种重复执行特定代码块的方式。下面将深入探讨Scala中的循环结构，帮助我们去更好地理解和运用它们。一、Scala中的基本循环结构1.while循环-while循环在满足给定条件时重复执行一段代码。-示例：vari=0while(iBoolean)(body:=>Unit):Unit={if(condition){bodybreakableLoop(c
[读书日志]从零开始学习Chisel 第一篇：书籍介绍，Scala与Chisel概述，Scala安装运行（敏捷硬件开发语言Chisel与数字系统设计） JoneMaster 从零开始学Chisel JM读书日志系列开发语言 scala 后端 fpga开发架构嵌入式硬件
简介：从20世纪90年代开始，利用硬件描述语言和综合技术设计实现复杂数字系统的方法已经在集成电路设计领域得到普及。随着集成电路集成度的不断提高，传统硬件描述语言和设计方法的开发效率低下的问题越来越明显。近年来逐渐崭露头角的敏捷化设计方法将把集成电路设计带入一个新的阶段。与此同时，集成电路设计也需要一种适应敏捷化设计方法的新型硬件开发语言。本书从实用性和先进性出发，较全面地介绍新型硬件开发语言Chi
安装栅栏-算法晚夜微雨问海棠呀算法 scala
给定一个数组trees，其中trees[i]=[xi,yi]表示树在花园中的位置。你被要求用最短长度的绳子把整个花园围起来，因为绳子很贵。只有把所有的树都围起来，花园才围得很好。返回恰好位于围栏周边的树木的坐标。输入:points=[[1,1],[2,2],[2,0],[2,4],[3,3],[4,2]]输出:[[1,1],[2,0],[3,3],[2,4],[4,2]]importscala.c
什么是三高架构? java1234_小锋 java 架构 java 微服务
大家好，我是锋哥。今天分享关于【什么是三高架构?】面试题。希望对大家有帮助；什么是三高架构?1000道互联网大厂Java工程师精选面试题-Java资源分享网“三高架构”通常是指高可用性（HighAvailability）、高性能（HighPerformance）和高扩展性（HighScalability）架构。这三个特性是现代计算系统、尤其是在分布式系统和云计算架构中，设计和部署的关键目标。以下是
SCALA学习手册.pdf(JasonSwartz) zxfxghfd scala 学习 pdf
书:python33com(<----web)Scala概述：“Scala是‘可扩展语言’（SCAlableLanguage）的缩写，于2003年创建，为JVM平台上的函数式编程以及面向对象编程提供一个高性能开发环境。”值与变量：“值（val）是不可变、有类型的存储单元；变量（var）是可变、有类型的存储单元。”数据类型与转换：“Scala支持多种数据类型，包括Byte、Short、Int、Lon
大数据学习（四）：Livy的安装配置及pyspark的会话执行猪笨是念来过倒大数据 pyspark
一个基于Spark的开源REST服务，它能够通过REST的方式将代码片段或是序列化的二进制代码提交到Spark集群中去执行。它提供了以下这些基本功能：提交Scala、Python或是R代码片段到远端的Spark集群上执行；提交Java、Scala、Python所编写的Spark作业到远端的Spark集群上执行；提交批处理应用在集群中运行。从Livy所提供的基本功能可以看到Livy涵盖了原生Spar
Kafuka查看版本的方法 thinking-fish 大数据大数据 kafka
kafka查看版本方法：定位到kafka的安装目录，然后执行以下脚本find./libs/-name\*kafka_\*|head-1|grep-o'\kafka[^\n]*'执行结果：运行结果：kafka_2.12-1.1.0-sources.jar，其中2.12表示Scala版本；1.1.0表示kafka版本！
学英语学Elasticsearch：04 Elastic integrations 工具箱实现对第三方数据源的采集、存储、可视化，开箱即用学会了没 elasticsearch 大数据搜索引擎 Elastic Agent Logstash 与第三方集成
：先看关键单词，再看英文，最后看中文总结，再回头看一遍英文原文，效果更佳！！关键词ingestion摄取/ɪnˈdʒɛstʃən/observability可观察性/ˌɑːbzərvəˈbɪlɪti/scalability可扩展性/ˌskeɪləˈbɪlɪti/deployment部署/dɪˈplɔɪmənt/functionality功能/ˌfʌŋkʃəˈnæləti/pre-packaged预
svg图片兼容性和用法优缺点独行侠_ef93
svg图片的使用方法第一次来认认真真的研究了下svg图片，之前只是在网上见过，但都是一晃而过也没当回事，最近网站改版看到同事有用到svg格式的图片，想想自己干了几年的重构也没用过，这些细节的知识是应该好好研究研究了。暂时还没研究得完全透切，先记下目前为止所看到的吧不然又给忘了。svg可缩放矢量图形（ScalableVectorGraphics），顾名思义就是任意改变其大小也不会变形，是基于可扩展标
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
车载以太网之SOME/IP IT_码农车载以太网车载以太网 SOME/IP
整体介绍SOME/IP(全称为：Scalableservice-OrientedMiddlewarEoverIP)，是运行在车载以太网协议栈基础之上的中间件，或者也可以称为应用层软件。发展历程AUTOSAR4.0-完成宝马SOME/IP消息的初步集成；AUTOSAR4.1-支持SOME/IP-SD及其发布/订阅功能；AUTOSAR4.2-添加transformer用于序列化以及其他相关优化；AUT
Scala学习之旅－对Option友好的flatMap 喝冰咖啡 scala 学习
聊点什么OptionflatMapvs.OptionOption的作用在Java/Scala中,Optional/Option(本文还是以scala代码为例)是用来表示某个对象存在或者不存在，也就是说,Option是某个类型T的Wrapper,如果T!=null,Option(T).isDefined==true如果T==null,Option(T).isEmpty==true有了Option这层
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
区块链的可伸缩性以及面临的挑战 Mindfulness code 区块链开发区块链
1.可伸缩性在过去的几年中，可伸缩性（Scalability,也称为可扩展性)问题一直是激烈辩论、严格研究和媒体关注的焦点。这是一个至关重要的问题，因为它可能意味着区块链不适于广泛应用，而仅限于联盟许可的私有网络。在经过对该领域的大量研究之后，人们提出了许多解决方案，下面将详细介绍这些解决方案。从理论上讲，解决可伸缩性问题的一般方法通常围绕协议级别的强化。例如，通常提到的比特比可伸缩性解决方案是增
Scala教程之:静态类型 flydean程序那些事
Scala是静态类型的，它拥有一个强大的类型系统，静态地强制以安全、一致的方式使用抽象，我们通过下面几个特征来一一说明：泛类型型变类型上界类型下界内部类抽象类型复合类型自类型隐式参数隐式转换多态方法类型推断通过这些特性，为安全可重用的编程抽象以及类型安全的扩展提供了强大的基础。泛类型和java一样，Scala也有泛型的概念，在scala里面泛型是使用方括号[]来接受类型参数的。通常使用字母A来作为
Pytorch深度学习- Tensorboard的使用以及图像变换transform的使用（小土堆） Mr chenxizhi 深度学习人工智能 python
Tensorboard中的SummaryWriter使用导入数据包fromtorch.utils.tensorboardimportSummaryWriter构造函数方法#那么生成的数据文件都存在于logs文件夹下writer=SummaryWriter("logs")add_scalar代码示例'''tag:数据标题global_step:x轴数据scalar_value:y轴数据'''#运行结
动手学深度学习（pytorch土堆）-02TensorBoard的使用 #include<菜鸡> 深度学习深度学习 pytorch 人工智能
1.可视化代码使用了torch.utils.tensorboard将数据记录到TensorBoard以便可视化。具体来说，它将标量数据记录到目录logs中，使用的是SummaryWriter类。代码分解如下：SummaryWriter("logs")：初始化一个TensorBoard的写入器，日志会保存到"logs"目录。writer.add_scalar("y=x",i,i)：在循环的每一次迭代
【OpenCV】官方文档学习，库的命名冲突处理办法【声明命名空间】深耕AI opencv 学习人工智能
原文：SomeofthecurrentorfutureOpenCVexternalnamesmayconflictwithSTLorotherlibraries.Inthiscase,useexplicitnamespacespecifierstoresolvethenameconflicts:Mata(100,100,CV_32F);randu(a,Scalar::all(1),Scalar::
【鼠鼠学AI代码合集#5】线性代数鼠鼠龙年发大财鼠鼠学AI系列代码合集人工智能线性代数机器学习
在前面的例子中，我们已经讨论了标量的概念，并展示了如何使用代码对标量进行基本的算术运算。接下来，我将进一步说明该过程，并解释每一步的实现。标量（Scalar）的基本操作标量是只有一个元素的数值。它可以是整数、浮点数等。通过下面的Python代码，我们可以很容易地进行标量的加法、乘法、除法和指数运算。代码实现：importtorch#定义两个标量x=torch.tensor(3.0)#标量x，值为3
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f