e_e

Scala mapreduce

本文只是带你进入 Scala 的世界，包括安装、不可变变量 val、可变变量 var、定义类、集合（包括列表（list）、集（set）、映射（map））以及集合遍历和集合库（能达到并行/并发效果）。

题外话，如果 Java 争气的话，还就真不会出现像 Scala 这些语言。对于函数编程风格的支持，尤其是对于 Lambda 表达式的支持，能够有助于减少必须要编写的逻辑无关样板代码，也许让它可以更简单的关注要面对的任务本身。而 Java 对 Lamdba 表达式的支持到 JavaSE8 才实现（你可以查一下 Java SE8 什么发布的，而其他语言何时支持匿名函数、Lambda 表达式、函数式编程、并行编程……）。

Scala，一门强类型定义的静态类型语言，结合了面向对象编程与函数编程思想，语法简洁，完全兼容Java，运行在 JVM 上。JVM 上的其他语言：Groovy、JRuby、Clojure。那么 Scala 有什么不同？能同时提供函数式风格和良好并发支持的强类型语言，只有 Scala。JRuby 和 Groovy 都是动态语言（Scala 是静态类型语言），它们不是函数式的，也无法提供比 Java 更好的并发解决方案。另一方面，Clojure 是一种混合型的函数式语言，它天生就是动态的，因此不是静态类型。而且它的语法类似 Lisp，除非你很熟悉，否则这可不是一种易于掌握的语言（Lisp 是号称高智商的人才能使用的语言，如果你看过《黑客与画家》，应该记得作者的一句话，大意是，如果竞争对手采用 Lisp 开发 Web，那就应该小心了，言下之意是，Lisp 跟其他语言相比，生产效率太高了，很容易实现一个想法）。

总结起来，Scala 特点体现在以下几方面：

Scala 运行在 JVM 上，这使得 Scala 可以和现存的应用同时运行；

Scala 可以直接使用 Java 类库，使得开发人员可以利用现有的框架和遗留代码；

Scala 和 Java 一样都是静态类型语言。因此，遵循相同的编程哲学；

Scala 语法与 Java 比较接近，使得开发人员可以快速掌握语言基础；

Scala 既支持面向对象范型，也支持函数式编程范型，这样，开发人员就可以逐步在代码中运用函数式编程的思想。

Scala 对 Java 的不同：

类型推断。在 Java 中，必须声明每个变量、实参或形参的类型。Scala 则会在可能的情况下推断出变量的类型；

函数式编程。Scala 将函数式编程的重要概念引入 Java，包括代码块、高阶函数（high-order function）以及复杂的集合库；

不变量。Java 的确允许使用不变量，不过是通过提供一个很少使用的修饰符实现的。Scala 会要求你明确地决定一个变量是否可变。这些决定将对应程序在并发环境中的行为，产生深远的影响；

高级程序构造。Scala 很好地使用了基础语言，并将有用的概念分层。包括并发应用的 Actor 模型、使用高阶函数的 Ruby 风格的集合以及作为一等对象类型（first-class）的 XML 的处理。

文中代码本人在 Scala 2.11 上编译并运行通过。

作为第一步，先安装好最新的 Scala 发布包 Typesafe stack，打开命令行窗口，键入“scala”：这将启动 REPL（读入-运算输出循环）交互式编码环境。然后就可以写下你的第一行 Scala 代码：

scala> val columbus: Int = 1492

columbus: Int = 1492

scala>

声明了一个类型为 Int 变量，初始值为 1492，就像在Java里 Int columbus = 1492; 一样。

Scala 把类型放在变量之后（反向的声明方式），还使用“val”显性地把变量声明为不可变。如果想修改这个变量:

scala> columbus=1500

:8: error: reassignment to val

       columbus=1500

scala>

错误消息精确地指出了错误位于行的位置。

再尝试声明这个变量，但这次用“var”，让其可变更。这样编译器能推断出 1492 是一个整数，也就不需要指定类型了：

scala> var columbus = 1492

columbus: Int = 1492

scala> columbus = 1500

columbus: Int = 1500

scala>

接下来，我们来定义一个类，名为 Employee，有三个不可变更的字段：name、age 和 company，拥有各自的缺省值。

scala> case class Employee(name:String="guest",

     | age:Int=30,

     | company:String="DevCode")

defined class Employee

scala>

关键字“case”相当于 Java 里的 switch 语句，只不过更为灵活。它说明该类具有模式匹配的额外机制，以及其他一些特性，包括用来创建实例的工厂方法（不需要使用“new”关键字来构造），同样也不需要创建缺省的 getter 方法。与 Java 中不同的是，变量缺省下的访问控制是 public（而不是protected），而Scala为公开变量创建一个 getter 方法，并命名为变量名。如果你愿意，你也可以把字段定义成可变且/或私有（private）的，只需要在参数之前使用“var”（例如：case class Person(private var name:String)）。

我们再来用不同方式创建一些实例，看看其他的特性，像是命名参数和缺省参数（从Scala2.8开始引入）：

scala> val guest=Employee()

guest: Employee = Employee(guest,30,DevCode)

scala> val guestAge=guest.age

guestAge: Int = 30

scala> val anna=Employee("Anna")

anna: Employee = Employee(Anna,30,DevCode)

scala> val thomas=Employee("Thomas",41)

thomas: Employee = Employee(Thomas,41,DevCode)

scala> val luke=Employee("Luke",company="LucasArt")

luke: Employee = Employee(Luke,30,LucasArt)

scala> val yoda=luke.copy("Yoda",age=800)

yoda: Employee = Employee(Yoda,800,LucasArt)

scala>

不过，下面的写法是行不通的（可不是因为 Darth 不是 DevCode 的雇员！）

scala> val darth=Employee("Darth","DevCode")

:9: error: type mismatch;

 found   : String("DevCode")

 required: Int

       val darth=Employee("Darth","DevCode")

scala>

这是由于构造函数在这个位置需要 age 作为参数，因为函数参数没有显性地进行命名。

现在我们再来看集合，这才是真正让人兴奋的地方。Scala 主要集合类型包括列表（list）、集（set）和映射（map）。

有了泛型（Java5 以上），Java可以遍历一个列表，比方说整数型列表，用下面代码：

List numbers = new arrayList();

numbers.add(1);

numbers.add(2);

numbers.add(3);

for(Integer n:numbers) {

    System.out.println("Number "+n);

运行结果：

Number 1

Number 2

Number 3

Scala 对于可变集合和不可变集合进行了系统性地区别处理，不过，鼓励使用不可变集合，也因此在缺省情况下创建不可变集合。这些集合是通过模拟的方式实现添加、更新和删除操作，在这些操作中，不是修改集合，而是返回新的集合。

与前面的 Java 代码等价的 Scala 代码可能像下面这样：

scala> val numbers=List(1,2,3)

numbers: List[Int] = List(1, 2, 3)

scala> for(n<-numbers) println("Number "+n)

Number 1

Number 2

Number 3

scala>

这里的“for”循环语法结构非常接近于 Java 的命令式编程风格。在 Scala（以及 Java 虚拟机上其他很多语言如：Groovy、JRuby 或 JPython）里还有另外一种方式来实现上面的逻辑。这种方式使用一种更加偏向函数编程的风格，引入了 Lambda 表达式（有时也称为闭包——closure）。简单地说，Lambda 表达式就是你可以拿来当作参数传递的函数。这些函数使用参数作为输入（在我们的例子中就是“n”整型变量），返回语句作为函数体的最终语句。他们的形式如下：

functionName { input =>

    body

scala> numbers.foreach{n:Int=> println("Number "+n) }

Number 1

Number 2

Number 3

scala>

上面的例子中，函数体只有一条语句（println……），返回的是单位（Unit，也就是“空结果”），也就是大致相当于 Java 中的 void，不过有一点不同的是——void是不返回任何结果的。

除了打印数值列表外，我们更想做处理和变换这些元素，这时我们需要调用方法来生成结果列表，以便后面接着使用。让我们尝试一些例子：

scala> val reversedList=numbers.reverse

reversedList: List[Int] = List(3, 2, 1)

scala> val numbersLessThan3=numbers.filter{n=>n<3}

numbersLessThan3: List[Int] = List(1, 2)

scala> val oddNumbers=numbers.filterNot{n=>n%2==0}

oddNumbers: List[Int] = List(1, 3)

scala> val highterNumbers=numbers.map{n=>n+10}

highterNumbers: List[Int] = List(11, 12, 13)

scala>

变换“map”非常有用，它对列表的每个元素应用闭包，结果是一个同样大小的、包含了每个变换后元素的列表。

我们在这里还想介绍最后的一个方法，就是“foldLeft”方法，它把状态从一个元素传播到另一个元素。比如说，要算出一个列表里所有元素的和，你需要累加，并在切换元素的时候保存中间的计数：

scala> val sumOfNumbers=numbers.foldLeft(0) {( total,element)=>

     | total+element

| }

sumOfNumbers: Int = 6

scala>

作为第一个变量传递给 foldLeft 的值0是初始值（也就是说在把函数用到第一个列表元素的时候 total=0）。

(total,element) 代表了一个 Tuple2，在 Scala 里这是一个二元组（就像要表示三维空间坐标，经常要用到 Tuple3(x,y,z) 等等）。

在合计时，Scala 编程接口实际上提供了一个“sum”方法，这样上一条语句就可以写成：

scala> val sumOfNumbers=numbers.sum

sumOfNumbers: Int = 6

scala>

还有许多其他的类似的集合变换方法，可以参照 scaladoc API。你也可以把这些方法组合起来（例如：numbers.reverse.filter……），让代码更加简洁，不过这样会影响可读性。

最后，{ n => n + 10 } 还可以简单地写成 (_ + 10)，也就是说如果输入参数只是用于你调用的方法，则不需要声明它；在我们的例子里，“n”被称为匿名变量，因为你可以把它用任何形式来代替，比如说“x”或者“number”，而下划线则表示一处需要用你的列表的每个元素来填补的空白。（与“_”的功能类似，Groovy保留了关键字“it”，而Python则使用的是“self”）。

scala> val hightNumbers=numbers.map(_+10)

hightNumbers: List[Int] = List(11, 12, 13)

scala>

在介绍了对整数的基本处理后，我们可以迈入下一个阶段，看看复杂对象集合的变换，例如，使用我们上面所定义的Employee 类：

scala> val allEmployees=List(luke, anna, guest, yoda, thomas)

allEmployees: List[Employee] = List(Employee(Luke,30,LucasArt), Employee(Anna,30

,DevCode), Employee(guest,30,DevCode), Employee(Yoda,800,LucasArt), Employee(Tho

mas,41,DevCode))

scala>

包含上面五个元素的列表，我们可以应用匿名方法，用一个条件来过滤，符合条件的员工——比如属于 DevCode 的雇员：

scala>  val devCodeEmployees=allEmployees.filter {_.company=="DevCode"}

devCodeEmployees: List[Employee] = List(Employee(Anna,30,DevCode), Employee(gues

t,30,DevCode), Employee(Thomas,41,DevCode))

scala> val oldEmployees=allEmployees.filter(_.age>100).map(_.name)

oldEmployees: List[String] = List(Yoda)

scala>

假设我们手头的 allEmployees 集合是我们使用SQL查询获得的结果集，查询语句可能类似于“SELECT * FROM employees WHERE company = ‘DevCode’ ”。现在我们可以把 List[Employee] 变换到以 company 名称作为键、属于该公司的所有员工的列表作为值的 Map 类型，这样就可以把雇员按 company 来排序：

scala> val sortedEmployees=allEmployees.groupBy(_.company)

sortedEmployees: scala.collection.immutable.Map[String,List[Employee]] = Map(Dev

Code -> List(Employee(Anna,30,DevCode), Employee(guest,30,DevCode), Employee(Tho

mas,41,DevCode)), LucasArt -> List(Employee(Luke,30,LucasArt), Employee(Yoda,800

,LucasArt)))

scala>

每一个列表已经作为一个值存入了（键——值）哈希表，为了示范如何进一步处理这些列表，可以设想我们需要计算每个公司的雇员平均年龄。

这具体意味着我们必须要计算每个列表的每个雇员的的“age”字段的和，然后除以该列表中雇员的数量。让我们先计算一下 DevCode：

scala> devCodeEmployees

res3: List[Employee] = List(Employee(Anna,30,DevCode), Employee(guest,30,DevCod

), Employee(Thomas,41,DevCode))

scala> val devCodeAges=devCodeEmployees.map(_.age)

devCodeAges: List[Int] = List(30, 30, 41)

scala> val devCodeAverageAge=devCodeAges.sum / devCodeAges.size

devCodeAverageAge: Int = 33

scala>

回到我们的 Map (key:String ->value:List[Employee])，下面是个更加一般性的例子。我们现在可以归并并计算每个公司的平均年龄，要做的只是写几行代码：

scala> val averageAgeByCompany = sortedEmployees.map{ case(key,value)=>

     | value(0).copy(name="average",age=(value.map(_.age).sum)/value.size)}

averageAgeByCompany: scala.collection.immutable.Iterable[Employee] = List(Employ

ee(average,33,DevCode), Employee(average,415,LucasArt))

scala>

这里的“case(key,value)”说明了Scala提供的模式匹配机制是多么强大。请参考Scala的文档来获取更多的信息。

到这里我们的任务就完成了。我们实现的是一个简单的Map-Reduce算法。由于每个公司雇员的归并是完全独立于其他公司，这个算法非常直观地实现了并行计算。

在后面的附录里给出了此算法的等价的实现，分为Java版本和Scala版本。

参考资料

The typesafe stack.
Scala 官网

附录

Map Reduce.Java

public class Employee {

    final String name;

    final Integer age;

    final String company;

    public Employee(String name, Integer age, String company) {

        this.name = name == null ? "guest" : name;

        this.age = age == null ? 30 : age;

        this.company = company == null ? "DevCode" : company;

    public String getName() {

        return name;

    public int getAge() {

        return age;

    public String getCompany() {

        return company;

    @Override

    public String toString() {

        return "Employee [name=" + name + ", age=" + age + ",

               company="

               + company + "]";

class Builder {

    String name, company;

    Integer age;

    Builder(String name) {

        this.name = name;

    Employee build() {

        return new Employee(name, age, company);

    Builder age(Integer age) {

        this.age = age;

        return this;

    Builder company(String company) {

        this.company = company;

        return this;

import java.util.ArrayList;

import java.util.Collection;

import java.util.List;

import com.google.common.base.Function;

import com.google.common.collect.ImmutableListMultimap;

import com.google.common.collect.ImmutableSet;

import com.google.common.collect.Multimaps;

public class MapReduce {

    public static final void main(String[] args) {

        Employee guest = new Builder("Guest").build();

        Employee anna = new Builder("Anna").build();

        Employee thomas = new Builder("Thomas").age(41).build();

        Employee luke = new

            Builder("Luke").company("LucasArt").build();

        Employee yoda = new

            Builder("Yoda").age(800).company("LucasArt").build();

        Collection employees = new ArrayList();

        employees.add(guest);

        employees.add(anna);

        employees.add(thomas);

        employees.add(luke);

        employees.add(yoda);

        ImmutableListMultimap

            personsGroupByCompany = Multimaps.index(employees, new Function() {

                public String apply(Employee person) {

                   return person.getCompany();

});

        ImmutableSet companyNamesFromMap =

            personsGroupByCompany.keySet();

        List averageAgeByCompany = new

            ArrayList();

        for(String company: companyNamesFromMap) {

             List employeesForThisCompany =

                personsGroupByCompany.get(company);

             int sum = 0;

             for(Employee employee: employeesForThisCompany) {

                 sum+= employee.getAge();

             averageAgeByCompany.add(new

                Employee("average",sum/employeesForThisCompany.size(),company));

     System.out.println("Result: "+averageAgeByCompany);

MapReduce.scala：

case class Employee(name: String = "guest", age: Int = 30, company: String = "DevCode")

    object MapReduce {

        def main(args: Array[String]): Unit = {

        val guest = Employee()

        val anna = Employee("Anna")

        val thomas = Employee("Thomas", 41)

        val luke = Employee("Luke", company = "LucasArt")

        val yoda = luke.copy("Yoda", age = 800)

        val allEmployees = List(luke, anna, guest, yoda, thomas)

        val sortedEmployees = allEmployees.groupBy(_.company)

        val averageAgeByCompany = sortedEmployees.map { case (key, value) =>

            value(0).copy(name = "average", age = (value.map(_.age).sum) / value.size)

        println("Result: "+averageAgeByCompany)

关于作者

Thomas Alexandre是DevCode的高级咨询顾问，专注于Java和Scala软件开发。他热爱技术，热衷于分享知识，永远在寻求方法、采用新的开源软件和标准来实现更加有效的编程。在十四年的Java开发经验之外，过去几年他集中精力在新的编程语言和Web框架上，例如Groovy/Grails和Scala/Lift。Thomas从法国里尔大学获得了计算机科学博士学位，在卡耐基梅隆大学度过了两年的博士后研究生涯，研究方向是安全和电子商务。

你可能感兴趣的:(Scala,mapReduce)

浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
svg图片兼容性和用法优缺点独行侠_ef93
svg图片的使用方法第一次来认认真真的研究了下svg图片，之前只是在网上见过，但都是一晃而过也没当回事，最近网站改版看到同事有用到svg格式的图片，想想自己干了几年的重构也没用过，这些细节的知识是应该好好研究研究了。暂时还没研究得完全透切，先记下目前为止所看到的吧不然又给忘了。svg可缩放矢量图形（ScalableVectorGraphics），顾名思义就是任意改变其大小也不会变形，是基于可扩展标
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
车载以太网之SOME/IP IT_码农车载以太网车载以太网 SOME/IP
整体介绍SOME/IP(全称为：Scalableservice-OrientedMiddlewarEoverIP)，是运行在车载以太网协议栈基础之上的中间件，或者也可以称为应用层软件。发展历程AUTOSAR4.0-完成宝马SOME/IP消息的初步集成；AUTOSAR4.1-支持SOME/IP-SD及其发布/订阅功能；AUTOSAR4.2-添加transformer用于序列化以及其他相关优化；AUT
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
Scala学习之旅－对Option友好的flatMap 喝冰咖啡 scala 学习
聊点什么OptionflatMapvs.OptionOption的作用在Java/Scala中,Optional/Option(本文还是以scala代码为例)是用来表示某个对象存在或者不存在，也就是说,Option是某个类型T的Wrapper,如果T!=null,Option(T).isDefined==true如果T==null,Option(T).isEmpty==true有了Option这层
ArcGIS地图切片原理与算法数智侠 GIS
ArcGIS地图切图系列之（一）切片原理解析点击打开链接ArcGIS地图切图系列之（二）JAVA实现点击打开链接ArcGIS地图切图系列之（三）MapReduce实现点击打开链接
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
区块链的可伸缩性以及面临的挑战 Mindfulness code 区块链开发区块链
1.可伸缩性在过去的几年中，可伸缩性（Scalability,也称为可扩展性)问题一直是激烈辩论、严格研究和媒体关注的焦点。这是一个至关重要的问题，因为它可能意味着区块链不适于广泛应用，而仅限于联盟许可的私有网络。在经过对该领域的大量研究之后，人们提出了许多解决方案，下面将详细介绍这些解决方案。从理论上讲，解决可伸缩性问题的一般方法通常围绕协议级别的强化。例如，通常提到的比特比可伸缩性解决方案是增
Scala教程之:静态类型 flydean程序那些事
Scala是静态类型的，它拥有一个强大的类型系统，静态地强制以安全、一致的方式使用抽象，我们通过下面几个特征来一一说明：泛类型型变类型上界类型下界内部类抽象类型复合类型自类型隐式参数隐式转换多态方法类型推断通过这些特性，为安全可重用的编程抽象以及类型安全的扩展提供了强大的基础。泛类型和java一样，Scala也有泛型的概念，在scala里面泛型是使用方括号[]来接受类型参数的。通常使用字母A来作为
Pytorch深度学习- Tensorboard的使用以及图像变换transform的使用（小土堆） Mr chenxizhi 深度学习人工智能 python
Tensorboard中的SummaryWriter使用导入数据包fromtorch.utils.tensorboardimportSummaryWriter构造函数方法#那么生成的数据文件都存在于logs文件夹下writer=SummaryWriter("logs")add_scalar代码示例'''tag:数据标题global_step:x轴数据scalar_value:y轴数据'''#运行结
动手学深度学习（pytorch土堆）-02TensorBoard的使用 #include<菜鸡> 深度学习深度学习 pytorch 人工智能
1.可视化代码使用了torch.utils.tensorboard将数据记录到TensorBoard以便可视化。具体来说，它将标量数据记录到目录logs中，使用的是SummaryWriter类。代码分解如下：SummaryWriter("logs")：初始化一个TensorBoard的写入器，日志会保存到"logs"目录。writer.add_scalar("y=x",i,i)：在循环的每一次迭代
【OpenCV】官方文档学习，库的命名冲突处理办法【声明命名空间】深耕AI opencv 学习人工智能
原文：SomeofthecurrentorfutureOpenCVexternalnamesmayconflictwithSTLorotherlibraries.Inthiscase,useexplicitnamespacespecifierstoresolvethenameconflicts:Mata(100,100,CV_32F);randu(a,Scalar::all(1),Scalar::
数据中台建设方案-基于大数据平台(下) FRDATA1550333 大数据数据库架构数据库开发数据库
数据中台建设方案-基于大数据平台(下)1数据中台建设方案1.1总体建设方案1.2大数据集成平台1.3大数据计算平台1.3.1数据计算层建设计算层技术含量最高，最为活跃，发展也最为迅速。计算层主要实现各类数据的加工、处理和计算，为上层应用提供良好和充分的数据支持。大数据基础平台技术能力的高低，主要依赖于该层组件的发展。本建设方案满足甲方对于数据计算层建设的基本要求：利用了MapReduce、Spar
MIT6.824 课程-MapReduce 余为民同志 6.824 mapreduce 分布式 6.824
MapReduce：在大型集群上简化数据处理概要MapReduce是一种编程模型，它是一种用于处理和生成大型数据集的实现。用户通过指定一个用来处理键值对(Key/Value)的map函数来生成一个中间键值对集合。然后，再指定一个reduce函数，它用来合并所有的具有相同中间key的中间value。现实生活中有许多任务可以通过该模型进行表达，具体案例会在论文中展现出来。以这种函数式风格编写的程序能够
【鼠鼠学AI代码合集#5】线性代数鼠鼠龙年发大财鼠鼠学AI系列代码合集人工智能线性代数机器学习
在前面的例子中，我们已经讨论了标量的概念，并展示了如何使用代码对标量进行基本的算术运算。接下来，我将进一步说明该过程，并解释每一步的实现。标量（Scalar）的基本操作标量是只有一个元素的数值。它可以是整数、浮点数等。通过下面的Python代码，我们可以很容易地进行标量的加法、乘法、除法和指数运算。代码实现：importtorch#定义两个标量x=torch.tensor(3.0)#标量x，值为3
Hadoop之mapreduce -- WrodCount案例以及各种概念 lzhlizihang hadoop mapreduce 大数据
文章目录一、MapReduce的优缺点二、MapReduce案例--WordCount1、导包2、Mapper方法3、Partitioner方法（自定义分区器）4、reducer方法5、driver（main方法）6、Writable（手机流量统计案例的实体类）三、关于片和块1、什么是片，什么是块？2、mapreduce启动多少个MapTask任务？四、MapReduce的原理五、Shuffle过
Yarn介绍 - 大数据框架 why do not 大数据 hadoop
YARN的概述YARN是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序YARN是Hadoop2.x版本中的一个新特性。它的出现其实是为了解决第一代MapReduce编程框架的不足，提高集群环境下的资源利用率，这些资源包括内存，磁盘，网络，IO等。Hadoop2.X版本中重新设计的这个YARN集群
浅析大数据Hadoop之YARN架构 haotian1685 python 数据清洗人工智能大数据大数据学习深度学习大数据大数据学习 YARN hadoop
1.YARN本质上是资源管理系统。YARN提供了资源管理和资源调度等机制1.1原HadoopMapReduce框架对于业界的大数据存储及分布式处理系统来说，Hadoop是耳熟能详的卓越开源分布式文件存储及处理框架，对于Hadoop框架的介绍在此不再累述，读者可参考Hadoop官方简介。使用和学习过老Hadoop框架（0.20.0及之前版本）的同仁应该很熟悉如下的原MapReduce框架图：1.2H
【Pytorch】cumsum的实现逻辑栏杆拍遍看吴钩 pytorch pytorch 人工智能 python
本文只记录cumsum的实现逻辑的CUDA部分，也即底层调用了CUDA的什么实现算子。voidlaunch_cumsum_cuda_kernel(constTensorBase&result,constTensorBase&self,int64_tdim){AT_DISPATCH_ALL_TYPES_AND_COMPLEX_AND2(ScalarType::Half,ScalarType::BFl
Hive的优势与使用场景傲雪凌霜，松柏长青后端大数据 hive hadoop 数据仓库
Hive的优势Hive作为一个构建在Hadoop上的数据仓库工具，具有许多优势，特别是在处理大规模数据分析任务时。以下是Hive的主要优势：1.与Hadoop生态系统的紧密集成Hive构建在Hadoop分布式文件系统(HDFS)之上，能够处理海量数据并进行分布式计算。它利用Hadoop的MapReduce或Spark来执行查询，具备高度扩展性，适合大数据处理。2.支持SQL-like查询语言(Hi
CloudCompare操作（某一指定要素按照PointSourceID分类）喵喵不爱吃鱼工具使用
CloudCompare操作（指定强度值点云按照PointSourceID分类）以实标线为例：强度值31、首先将点云按照Intensity显示Properties->Active:IntensityCurrent:Blue->Green…2、截取实标线菜单栏：Edit->Scalarfields->FilterByValue:3-43、截取的实标线点云按照PointSourceID显示，再使用Po
【MySQL】深圳大学数据库实验二看未来捏深大数据库数据库 mysql
目录一、实验目的二、实验要求三、实验设备四、建议的实验步骤4.1EXERCISES5GROUPBY&HAVINGGROUPBY的用法HAVING的用法综合示例小结4.2EXERCISES6SUBQUERIES.1.标量子查询（ScalarSubquery）2.行子查询（RowSubquery）3.表子查询（TableSubquery）4.相关子查询（CorrelatedSubquery）5.非相关
2024年大数据高频面试题(下篇）猿与禅 Java架构师面试大数据面试 scala 即席查询分桶调度系统数据倾斜
文章目录Scala数据类型函数式编程闭包函数柯里化面向对象样例类对象与伴生对象特质(trait)模式匹配隐式转换即席查询KylinKylin特点Kylin工作原理核心算法Kylin总结Kylin的优点什么场景用KylinKylin的缺点Impala什么是ImpalaImpala为什么快FrontendBackendImpala总结：Presto什么是PrestoPresto的执行过程Presto总
PyFlink自定义函数吉小雨 pyflink flink
在PyFlink（ApacheFlink的PythonAPI）中，自定义函数分为三种主要类型：ScalarFunction（标量函数）、TableFunction（表函数）和AggregateFunction（聚合函数）。这些自定义函数可以在Flink的SQL和TableAPI中使用，用于扩展PyFlink的内置功能，处理自定义的计算逻辑。1.安装PyFlink在开始之前，确保你的环境中已安装了P
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多