身为风帆，要顺其自然

Scala快速学习

文章目录

1、Scala六大特性
2、Scala的安装使用
3、Scala基础

1）、数据类型
2）、变量和常量的声明
3）、类和对象
4）、if else
5）、for，while，do...while

4、Scala函数

1）、普通函数
2）、递归函数
3）、包含参数默认值的函数
4）、可变参数个数的函数
5）、匿名函数
6）、嵌套函数
7）、偏应用函数
8）、高阶函数
9）、柯里化函数

5、Scala字符串
6、Scala集合

1）、数组
2）、list
3）、set
4）、map
5）、元组

7、Scala trait特性
8、Scala 模式匹配
9、Scala 样例类
10、Scala Actor
11、Scala 隐式转换
12、Scala Demo --Word Count

1、Scala六大特性

java和scala可以无缝混编（都是基于JVM）
类型推测（不必指定类型，自动推测类型）
支持并发和分布式（Actor）
特质：trait（集结了java中抽象类和接口的产物）
模式匹配（match case ：类似于java中的switch case）
高阶函数（参数时函数或者返回值是参数）

2、Scala的安装使用

    本教程介绍在Windows下安装Scala2.10版本。安装包可以去官网下载。Scala官网。也可以直接下载我传到网盘上的压缩包。安装包如下：
    链接：https://pan.baidu.com/s/1cDstlitWRXpUfDW48UzzmA 提取码：es15
    下载完成之后，解压在电脑合适位置（记住该位置）。然后配置环境变量（和java配置环境变量一样）
    新建一个系统变量SCALA_HOME,值是Scala安装包的位置。

    编辑Path环境变量，添加;%SCALA_HOME%\bin;%SCALA_HOME%\jre\bin

    此时scala安装完毕，使用win+r输入cmd打开命令行，然后输入scala -version可以看到安装的scala的版本号。测试成功。

    下面分享一个Scala工具：Eclipse Scala版本。

3、Scala基础

1）、数据类型

         Byte 8bite的有符号数字，范围在-128 – 127
         Short 16bite的有符号数字，范围值在-32868 – 32767
         Int 32bite的有符号数字，范围在-21亿 – 21亿
         Long 64bite的有符号数字，范围在负的2的16次方 – 2的16次方
         Float 32bite 单精度浮点数
         Double 64bite 双精度浮点数
         Char 16bite Unicode字符
         String 字符串
         Boolean 布尔类型
         Unit 表示无值，和其他语言的void相同
         Null 空值或者空引用
         Nothing 所有其他类型的子类型，表示没有值
         Any 所有类型的超类，任何实例都属于Any类型。类似于java的Object
         AnyRef所有引用类型的超类
         AnyVal所有值类型的超类
         Nil长度为0的List

2）、变量和常量的声明

        定义变量或者常量的时候，可以写上返回类型，也可以不写，如下：
        变量：var age:Int = 20或者var age2 = 18
        常量：val age:Int = 20或者val age2 = 18(常量不可以再次赋值）

3）、类和对象

创建类：

   class Person{
       val name = "zhangsan"
       val age = 18
       def sayName() = {
           "my name is "+ name
       }
   }

创建对象：

  object Lesson_Class {
     def main(args: Array[String]): Unit = {
        val person = new Person()
        println(person.age);
        println(person.sayName())
     }
  }

        注意：建议类名首字母大写，方法首字母小写，类和方法命名建议符合驼峰命名法。
                scala 中的object是单例对象，相当于java中的工具类，可以看成是定义静态的方法的类。object不可以传参数。另：Trait不可以传参数
                scala中的class类默认可以传参数，默认的传参数就是默认的构造函数。
                重写构造函数的时候，必须要调用默认的构造函数。
                class 类属性自带getter ，setter方法。
                使用object时，不用new,使用class时要new ,并且new的时候，class中除了方法不执行，其他都执行。
                如果在同一个文件中，object对象和class类的名称相同，则这个对象就是这个类的伴生对象，这个类就是这个对象的伴生类。可以互相访问私有变量。

4）、if else

Scala中的if else与java中的用法基本一样。样例代码如下：

    val age =18 
    if (age < 18 ){
    	println("no allow")
    }else if (18<=age&&age<=20){
    	println("allow with other")
    }else{
    	println("allow self")
    }

5）、for，while，do…while

讲解Scala的循环之前，先讲解Scala的一个特性：until和to（主要区别是：until前闭后开，to前闭后闭）

   println(1 until 10 )       //不包含最后一个数，打印 1,2,3,4,5,6,7,8,9
   println(1 until (10 ,3 ))  //步长为3，从1开始打印，打印1,4,7
   println(1 to 10 )          //打印 1, 2, 3, 4, 5, 6, 7, 8, 9, 10
   println(1 to (10 ,2))      //步长为2，从1开始打印 ，1,3,5,7,9

在逻辑上，Scala中的循环跟java中的循环一样，只是使用的方式有些区别，下面分别做介绍。
for循环

    //例子： 打印九九乘法表；相当于java中的双层for循环
    for(i <- 1 until 10 ;j <- 1 until 10){
      if(i>=j){
    	  print(i +" * " + j + " = "+ i*j+"	") 
      }
      if(i==j ){
          println()
      }
    }

与java中不一样的是，for里面可以加判断，如下：

   for(i<- 1 to 10 ;if (i%2) == 0 ;if (i == 4) ){
       println(i)
   }

while与dowhile跟java中判断逻辑一样，下面贴个简单的while例子：

    var index = 0 
    while(index < 100 ){
    	println("第"+index+"次while 循环")
        index += 1 
    }

        注意点：scala中不能使用count++，count—只能使用count = count+1 ，count += 1
        for循环用yield 关键字返回一个集合val list = for(i <- 1 to 10 ; if(i > 5 )) yield i
        for循环中可以加条件判断，分号隔开

4、Scala函数

1）、普通函数

函数格式：

   def 函数名(变量名:变量类型，...)：返回值类型 = {
	   函数体
   }

简单函数样例：

   def fun (a: Int , b: Int ) : Unit = {
      println(a+b)
   }

下面是Scala函数的一些规则和注意点：

        1. 函数定义语法用def来定义
        2. 可以定义传入的参数，要指定传入参数的类型
        3. 方法可以写返回值的类型也可以不写，会自动推断，有时候不能省略，必须写，比如在递归函数中或者函数的返回值是函数类型的时候。
        4. scala中函数有返回值时，可以写return，也可以不写return，会把函数中最后一行当做结果返回。当写return时，必须要写函数的返回值。
        5. 如果返回值可以一行搞定，可以将{}省略不写。（def fun1 (a : Int , b : Int)= a+b）
        6. 传递给方法的参数可以在方法中使用，并且scala规定方法的传过来的参数为val的，不是var的。
        7. 如果去掉方法体前面的等号，那么这个方法返回类型必定是Unit的。这种说法无论方法体里面什么逻辑都成立，scala可以把任意类型转换为Unit.假设，里面的逻辑最后返回了一个string，那么这个返回值会被转换成Unit，并且值会被丢弃。

2）、递归函数

递归函数就是循环调用自己，下面给出一个求阶乘的代码：

   def fun2(num :Int) :Int= {
      if(num ==1)
        num
      else 
        num * fun2(num-1)
   }

3）、包含参数默认值的函数

默认值的函数中，如果传入的参数个数与函数定义相同，则传入的数值会覆盖默认值。
如果不想覆盖默认值，传入的参数个数小于定义的函数的参数，则需要指定参数名称。

   def fun3(a :Int = 10,b:Int) = {
        println(a+b)
   }
   fun3(b=2)

4）、可变参数个数的函数

多个参数用逗号分开。

   def fun4(elements :Int*)={
       var sum = 0;
       for(elem <- elements){
          sum += elem
       }
       sum
   }
   println(fun4(1,2,3,4))

5）、匿名函数

匿名函数分为有参匿名函数、无参匿名函数、有返回值的匿名函数。（可以将匿名参数的返回给一个val声明的值，匿名函数不能显式的声明返回值）

    //有参数匿名函数
    val value1 = (a : Int) => {
      println(a)
    }
    value1(1)
    
    //无参数匿名函数
    val value2 = ()=>{
      println("我爱Angelababy")
    }
    value2()
    
    //有返回值的匿名函数
    val value3 = (a:Int,b:Int) =>{
      a+b
    }
    println(value3(4,4))

6）、嵌套函数

    def fun5(num:Int)={
       def fun6(a:Int,b:Int):Int={
          if(a == 1){
             b
          }else{
             fun6(a-1,a*b)
          }
       }
       fun6(num,1)
    }
    println(fun5(5))

7）、偏应用函数

偏应用函数是一种表达式，不需要提供函数需要的所有参数，只需要提供部分，或不提供所需参数。

    def log(date :Date, s :String)= {
       println("date is "+ date +",log is "+ s)
    }
    
    val date = new Date()
    //想要调用log，以上变化的是第二个参数，可以用偏应用函数处理
    val logWithDate = log(date,_:String)
    logWithDate("log11")
    logWithDate("log22")
    logWithDate("log33")

8）、高阶函数

函数的参数是函数，或者函数的返回类型是函数，或者函数的参数和函数的返回类型都是函数的函数。

    //函数的参数是函数
    def hightFun(f : (Int,Int) =>Int, a:Int ) : Int = {
       f(a,100)
    }
    def f(v1 :Int,v2: Int):Int  = {
       v1+v2
    }
    
    println(hightFun(f, 1))
    
    //函数的返回是函数
    //1，2,3,4相加
    def hightFun2(a : Int,b:Int) : (Int,Int)=>Int = {
       def f2 (v1: Int,v2:Int) :Int = {
          v1+v2+a+b
       }
       f2
    }
    println(hightFun2(1,2)(3,4))
    
    //函数的参数是函数，函数的返回是函数
    def hightFun3(f : (Int ,Int) => Int) : (Int,Int) => Int = {
       f
    } 
    println(hightFun3(f)(100,200))
    println(hightFun3((a,b) =>{a+b})(200,200))
    //以上这句话还可以写成这样
    //如果函数的参数在方法体中只使用了一次 那么可以写成_表示
    println(hightFun3(_+_)(200,200))

9）、柯里化函数

可以理解为高阶函数的简化

    def fun7(a :Int,b:Int)(c:Int,d:Int) = {
       a+b+c+d
    }
    println(fun7(1,2)(3,4))

5、Scala字符串

Scala中字符串String仍是不可变量。StringBuild为可变字符串。具体操作与java类似。下面是我老师整理的String方法集：String方法合集

6、Scala集合

1）、数组

创建数组：

    //创建类型为Int 长度为3的数组
    val arr1 = new Array[Int](3)
    //创建String 类型的数组，直接赋值
    val arr2 = Array[String]("s100","s200","s300")
    //赋值
    arr1(0) = 100
    arr1(1) = 200
    arr1(2) = 300

遍历数组：

    for(i <- arr1){
        println(i)
    }
    arr1.foreach(i => {
        println(i)
    })

创建二维数组：

   val secArray = new Array[Array[String]](5)
   for(index <- 0 until secArray.length) secArray(index) = new Array[String](3)

下面继续贴上我老师整理的数组方法

2）、list

list是不可变的，对list进行添加删除或者取值等操作均会返回一个新的list。

   val list = List(1,3,5,9)
   println(list.contains(9))
   val dropList = list.drop(2)
   dropList.foreach { println }
   val reList = list.reverse
   reList.foreach { x => print(x + "\t") }

flatmap ：压扁扁平,先map再flat

  val logList = List("hello bj","hello sh")
  val flatMapList = logList.flatMap { _.split(" ") }
  flatMapList.foreach(println)
  //上面是不可变的list，下面是可变的listBuffer
  var listBuffer = new ListBuffer[String]
  listBuffer.+=:("zhao")
  listBuffer.+=("liu")
  listBuffer.foreach { println }

下面继续贴上我老师整理的list方法

3）、set

set是一个非重复的集合，若有重复数据，则会自动去重。

   val set = Set(1,3,5,8,1,6,5,8)
   set.foreach { x => print(x + "\t") }

下面继续贴上我老师整理的set方法

4）、map

map是K-V键值对集合。

   //创建map
   val map = Map(
       "1" -> "bj" ,
       2 -> "sh",
       3 -> "gz"
    )
    
    //map遍历
    for(x <- map){
       println("====key:"+x._1+",value:"+x._2)
    }
    
    //遍历key
    var keys = map.keys
    //获取key的迭代器
    var keyIterator = keys.iterator
    while(keyIterator.hasNext){
       val key = keyIterator.next()
       println(key + "\t" + map.get(key).get)
    }

下面继续贴上我老师整理的map方法

5）、元组

与列表一样，与列表不同的是元组可以包含不同类型的元素。元组的值是通过将单个的值包含在圆括号中构成的。创建过程可加new关键词，也可不加。

    //创建二元组，下面两句话效果相同
    val t2 = new Tuple2(1,"hello")
    val tt2 = (1,"hello")
    
    //创建三元组，下面两句话效果相同
    val t3 = Tuple3(2,"bj","come")
    val tt3 = (2,"bj","come")
    
    //创建tt3的迭代器
    val tupleIte = tt3.productIterator
    while(tupleIte.hasNext) print(tupleIte.next + "\t")
    
    //反转，只针对二元组
    val swap = tt2.swap
    
    //toString
    println(tt3.toString())

7、Scala trait特性

Scala Trait(特征)相当于java中抽象类和接口的集合体，不只是具备接口的特征，还可以定义属性和方法的实现。一般情况下Scala的类可以继承多个Trait，从结果来看就是实现了多重继承。Trait(特征) 定义的方式与类类似，但它使用的关键字是 trait。
继承的多个trait中如果有同名的方法和属性，必须要在类中使用“override”重新定义。并且trait中不可以传参数。

//定义一个trait
trait Read {
  val readType = "Read"
  val gender = "m"
  def read(name:String){
	println(name+" is reading")
  }
}

//定义第二个trait
trait Listen {
  val listenType = "Listen"
  val gender = "m"
  def listen(name:String){
	println(name + " is listenning")
  }
}

//定义了一个类继承上面两个trait
class Person() extends Read with Listen{
  override val gender = "f"
}

object test {
  def main(args: Array[String]): Unit = {
    val person = new Person()
    person.read("zhangsan")
    person.listen("lisi")
    println(person.listenType)
    println(person.readType)
    println(person.gender)
    
  }
}

8、Scala 模式匹配

模式匹配类似于java的switch case。Scala的模式匹配不仅可以匹配值还可以匹配类型、从上到下顺序匹配，如果匹配到则不再往下匹配、都匹配不上时，会匹配到case _ ,相当于default、match 的最外面的”{ }”可以去掉看成一个语句。

   def match_test(m:Any) = {
       m match {
         case 1 => println("nihao")
         case m:Int => println("Int")
         case _ => println("default")
       }
    }

9、Scala 样例类

        使用了case关键字的类定义就是样例类(case classes)，样例类是种特殊的类。实现了类构造参数的getter方法（构造参数默认被声明为val），当构造参数是声明为var类型的，它将帮你实现setter和getter方法。
        样例类默认帮你实现了toString,equals，copy和hashCode等方法。
        样例类可以new, 也可以不用new。

case class Person1(name:String,age:Int)

object Lesson_CaseClass {
   def main(args: Array[String]): Unit = {
      val p = new Person1("zhangsan",10)
  }
}

10、Scala Actor

        Actor Model是用来编写并行计算或分布式系统的高层次抽象（类似java中的Thread）让程序员不必为多线程模式下共享锁而烦恼,每个Actors有自己的世界观，当需要和其他Actors交互时，通过发送事件和消息，发送是异步的，非堵塞的(fire-andforget)，发送消息后不必等另外Actors回复，也不必暂停，每个Actors有自己的消息队列，进来的消息按先来后到排列，这就有很好的并发策略和可伸缩性，可以建立性能很好的事件驱动系统。
        Actor的特征：
                ActorModel是消息传递模型,基本特征就是消息传递
                消息发送是异步的，非阻塞的
                消息一旦发送成功，不能修改
                Actor之间传递时，自己去检查消息，而不是一直等待，是异步非阻塞的

object Scala07 {
  def main(args: Array[String]): Unit = {
    val actor = new MyActor
    actor.start()
    actor ! "hello bj"
  }
}

class MyActor extends Actor{
  def act() = {
    while(true){
      receive{
        case s: String => println(s)
        case _ =>println("default")
      }
    }
  }
}

11、Scala 隐式转换

隐式转换，在编写程序的时候可以尽量少的去编写代码，让编译器去尝试在编译期间自动推导出这些信息来，这种特性可以极大的减少代码量，提高代码质量。

        特征：
                隐式转换必须满足无歧义规则
                在同一个作用域禁止声明两个类型一致的变量，防止在搜索的时候会犹豫不决
                声明隐式参数的类型最好是自定义的数据类型，不要使用Int,String这些常用类型，防止碰巧冲突

   def sayName(implicit name:String) = {
       println("say love to " + name)
   }
    
   implicit val name = "fanbingbing"
   sayName

12、Scala Demo --Word Count

package com.hpe.spark.demo

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
/**
 * 单词统计并排序
 */
object WCSpark {
  def main(args: Array[String]): Unit = {
    //创建配置对象
    val conf = new SparkConf
    //设置App的名称   有啥用？ 方便在监控页面找到  MR-》Yarn 8088
    conf.setAppName("WordCountSpark")
    //设置Spark的运行模式  local本地运行  用于测试环境
    conf.setMaster("local")
    
    //创建Spark上下文 他是通往集群的唯一通道
    val sc = new SparkContext(conf)
    
    /**
     * 处理数据   在SparkCore中一切得计算都是基于RDD
     * R（Resilient）D（Distributed ）D（Dataset）
     * RDD 弹性分布式数据集
     */
    val lineRDD = sc.textFile("d:/wc.txt")
    //基于lineRDD中的数据 进行分词
    val wordRDD = lineRDD.flatMap { _.split(" ") }
    //每一个单词计数为1  pairRDD  K:word V:1
    val pairRDD = wordRDD.map { (_,1) }
    //相同的单词进行分组，对组内的数据进行累加
    val resultRDD = pairRDD.reduceByKey((v1,v2) => v1 + v2)
    //用户可以使用sortBy这个方法，来指定根据哪一个字段来排序
    resultRDD
      .sortBy(x => x._2,false)
      .foreach(println)
    //释放资源
    sc.stop()
    
  }
}

注：使用Spark函数需要导包：Spark包

你可能感兴趣的:(Spark,Scala,Hadoop生态圈)

PySpark安装及WordCount实现（基于Ubuntu） uui1885478445 ubuntu linux 运维
在Ubuntu上安装PySpark并实现WordCount，需要以下步骤：安装PySpark：安装Java：PySpark需要Java运行环境。你可以使用以下命令安装OpenJDK：sudoaptupdatesudoaptinstalldefault-jredefault-jdk安装Scala：PySpark还需要Scala，可以使用以下命令安装：sudoaptinstallscala安装Pyth
大数据手册(Spark)--Spark安装配置 WilenWu 数据分析(Data Analysis)大数据 spark 分布式
本文默认在zsh终端安装配置，若使用bash终端，环境变量的配置文件相应变化。若安装包下载缓慢，可复制链接到迅雷下载，亲测极速～准备工作Spark的安装过程较为简单，在已安装好Hadoop的前提下，经过简单配置即可使用。假设已经安装好了hadoop（伪分布式）和hive，环境变量如下JAVA_HOME=/usr/opt/jdkHADOOP_HOME=/usr/local/hadoopHIVE_HO
国内外AI搜索产品盘点 Suee2020 人工智能
序号AISearch产品名简介网站开发者1Perplexity强大的对话式AI搜索引擎https://www.perplexity.aiPerplexity2GensparkAIAgent搜索引擎https://www.genspark.aiMainFunc（景鲲、朱凯华）3Kimi.ai智能助手https://kimi.moonshot.cn/月之暗面（杨植麟）4秘塔AI搜索AI搜索引擎http
Scala语言的硬件驱动花韵婷包罗万象 golang 开发语言后端
使用Scala语言进行硬件驱动开发引言随着计算机技术的快速发展，硬件设备的交互和控制在现代应用中显得尤为重要。大多数硬件驱动程序都用C或C++编写，但随着Scala语言的流行及其在数据处理和并发编程中的优势，越来越多的开发者开始探讨利用Scala进行硬件驱动开发的可能性。本文将深入探讨Scala语言在硬件驱动开发中的应用、优势、以及一些实际案例。什么是硬件驱动硬件驱动（DeviceDriver）是
HIVE开窗函数 Cciccd sql hive
ETL,SQL面试高频考点——HIVE开窗函数（基础篇）目录标题ETL,SQL面试高频考点——HIVE开窗函数（基础篇）一，窗口函数介绍二，开窗函数三，分析函数分类1，排序分析函数：实列解析对比总结2.聚合分析函数3.用spark自定义HIVE用户自定义函数后续更新中~一，窗口函数介绍窗口函数，也叫OLAP函数（OnlineAnallyticalProcessing,联机分析处理），可以对数据库数
Hive MR & Spark & Yarn参数优化总结大数据侠客 hive相关问题汇总及解决 hive spark mr yarn 参数优化
一、hivemr参数调优：sethive.optimize.ppd=true;--开启谓词下推。--动态分区参数sethive.exec.mode.local.auto=true;sethive.exec.dynamic.partition.mode=nonstrict;--默认是strict，表示至少有一个静态分区，nonstri
Spark 中创建 DataFrame 的2种方式对比闯闯桑 spark 大数据分布式 scala
spark.createDataFrame(data).toDF("name","age")和spark.createDataFrame(spark.sparkContext.parallelize(data),schema)创建df的方式有什么区别？在Spark中，创建DataFrame的方式有多种，其中两种常见的方式是：spark.createDataFrame(data).toDF("nam
python手写kmeans算法菜鸟懿机器学习聚类算法 python
kmean聚类是最基础和常见的算法，工程上使用比较常见，spark,sklearn都有实现，本文手写实现kmeans#!/usr/bin/pythonimportsysimportrandomimportmathdefcreate_rand_points(max_x,max_y,count):"""Createcountpoints(0-x),(0-y)."""points=[]foriinran
数据分析大数据面试题大杂烩01 爱学习的菜鸟罢了大数据 flink 大数据面试 hive hadoop kafka
互联网:通过埋点实时计算用户浏览频次用优惠券等措施吸引用户,通过历史信息用非智能学习的title方式构造用户画像(抖音,京东)电信,银行统计营收和针对用户的个人画像:处理大量非实时数据政府:健康码,扫码之后确诊,找出与确诊对象有关联的人订单订单表(除商品以外所有信息),商品详情表,通过搜集用户title进行定制化推荐点击流数据通过埋点进行用户点击行为分析FLINK一般用来做实时SPARK一般用来做
doris：SQL 方言兼容向阳1218 大数据 doris
提示从2.1版本开始，Doris可以支持多种SQL方言，如Presto、Trino、Hive、PostgreSQL、Spark、Clickhouse等等。通过这个功能，用户可以直接使用对应的SQL方言查询Doris中的数据，方便用户将原先的业务平滑的迁移到Doris中。警告该功能目前是实验性功能，您在使用过程中如遇到任何问题，欢迎通过邮件组、GitHubIssue等方式进行反馈。部署服务下载最新版
25年大数据开发省赛样题第一套，离线数据处理答案 Tometor 大数据 spark scala
省赛样题一，数据抽取模块这一模块的作用是从mysql抽取数据到ods层进行指标计算，在题目中要求进行全量抽取，并新增etl-date字段进行分区，日期为比赛前一天importorg.apache.spark.sql.SparkSessionimportjava.util.PropertiesobjectTask1{defmain(args:Array[String]):Unit={valspark
Java_实例变量和局部变量及this关键字详解 Matrix70 Java java 开发语言
最近得看看Java,想学一学Flink实时的东西了，当然Scala语法也有这样的规定，简单看一下这两个吧，都比较容易忽视实例变量和局部变量实例变量和局部变量是常见的两种变量类型，区别作用域：实例变量：实例变量属于类的实例，可以在整个类中被访问和使用。每个类的实例（对象）都有一份自己的实例变量副本。局部变量：局部变量只在声明它的方法或代码块中可见，超出该范围就无法访问。生存周期：实例变量：实例变量的
sparkML入门，通俗解释机器学习的框架和算法 Tometor spark-ml 机器学习算法回归数据挖掘人工智能 scala
一、机器学习的整体框架（类比烹饪）假设你要做一道菜，机器学习的过程可以类比为：步骤-->烹饪类比-->机器学习对应1.确定目标|想做什么菜（红烧肉/沙拉）|明确任务(分类/回归/聚类)2.准备食材|买菜、洗菜、切菜|数据收集与预处理3.设计食谱|决定烹饪步骤和调料|选择算法和模型设计4.试做并尝味道|调整火候和调味|模型训练与调参5.最终成品|端上桌的菜|模型部署与应用二、机器学习的核心流程1.数
大数据面试之路 (三) mysql 愿与狸花过一生大数据面试职场和发展
技术选型通常也是被问道的问题，一方面考察候选人对技术掌握程度，另一方面考察对项目的理解，以及项目总结能力。介绍项目是从数据链路介绍，是一个很好来的方式，会让人觉得思路清晰，项目理解透彻。将SparkSQL加工后的数据存入MySQL通常基于以下几个关键原因：1.数据应用场景适配OLTP与OLAP分工：SparkSQL擅长处理大数据量的OLAP（分析型）任务，而MySQL作为OLTP（事务型）数据库，
如何使用 SparkLLM 进行自然语言处理 shuoac python
在当代自然语言处理领域，拥有强大的跨域知识和语言理解能力的模型至关重要。iFLYTEK开发的SparkLLM便是这样一个大规模认知模型。通过学习大量文本、代码和图像，SparkLLM能够理解和执行基于自然对话的任务。在本文中，我们将深入探讨如何配置和使用SparkLLM来处理自然语言任务。技术背景介绍大规模语言模型（LLM）近年来在各个领域中获得了广泛的应用，它们在处理自然语言任务时表现出色。iF
RDD 行动算子阿强77 RDD Spark
在ApacheSpark中，RDD（弹性分布式数据集）是核心数据结构之一。行动算子会触发实际的计算并返回结果或执行某些操作。以下是Scala中常见的RDD行动算子：1.collect()将RDD中的所有数据收集到驱动程序中，并返回一个数组。注意：如果数据集很大，可能会导致内存不足。valdata:Array[T]=rdd.collect()2.count()返回RDD中元素的总数。valcount
PyTorch 中的混合精度训练方法，从 autocast 到 GradScalar Syntax_CD PyTorch 必知必会 pytorch 人工智能 python
PyTorch的混合精度训练主要由两个方法实现：amp.autocast和amp.GradScalar。在这两个工具的帮助下，可以实现以torch.float16的混合精度训练。当然，这两个方法都是模块化并且通常都会一起调用，但并不一定总是需要一起使用。参考：AutomaticMixedPrecisionpackage-torch.ampAutomaticMixedPrecisionexample
讲一下Spark的shuffle过程冰火同学 Spark spark 大数据分布式
首先Spark的shuffle是Spark分布式集群计算的核心。Spark的shuffle可以从shuffle的阶段划分，shuffle数据存储，shuffle的数据拉取三个方面进行讲解。首先shuffle的阶段分为shuffle的shufflewrite阶段和shuffleread阶段。shufflewrite的触发条件就是上游的Stage任务shuffleMapTask完成计算后，会哪找下游S
Spark常见面试题目（1）冰火同学 Spark spark 面试大数据
Spark有哪几种部署的方式，谈谈方式都有哪些特点第一种是local本地部署,通常就是一台机器用于测试。第二种是standalone部署模式，就是一个master节点，控制几个work节点，其实一台机器的standalone模式就是它自己即是master,又是work。第三种是yarn模式，就是吧spark交给yarn进行资源调度管理。第四种就是messon模式，这种在国内很少见到。Spark主备
Spark数据倾斜的问题冰火同学 Spark spark 大数据分布式
Spark数据倾斜业务背景Spark数据倾斜表现Spark的数据倾斜，包括SparkStreaming和SparkSQL，表现主要有下面几种：1、Excutorlost，OOM，Shuffle过程出错2、DriverOOM3、单个Excutor执行器一直在运行，整体任务卡在某个阶段不能结束4、正常运行的任务突然失败数据倾斜产生的原因以Spark使用场景为例，我们再做数据计算的时候会涉及类似coun
PySpark实现导出两个包含多个Parquet数据文件的S3目录里的对应值的差异值分析 weixin_30777913 python spark 数据分析云计算
编写PySpark代码实现从一个包含多个Parquet数据文件的AmazonS3目录的dataframe数据里取两个维度字段，一个度量字段的数据，根据这两个维度字段的数据分组统计，计算度量字段的数据的分组总计值，得到一个包含两个维度字段和度量字段的分组总计值字段的dataframe，再从另一个包含多个Parquet数据文件的S3目录的dataframe数据里取两个维度字段，一个度量字段的数据组成一
Hadoop、Spark和 Hive 的详细关系夜行容忍 hadoop spark hive
Hadoop、Spark和Hive的详细关系1.ApacheHadoopHadoop是一个开源框架，用于分布式存储和处理大规模数据集。核心组件：HDFS(HadoopDistributedFileSystem)：分布式文件系统，提供高吞吐量的数据访问。YARN(YetAnotherResourceNegotiator)：集群资源管理和作业调度系统。MapReduce：基于YARN的并行处理框架，用
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系雨中徜徉的思绪漫溢大数据 hadoop hive
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系在大数据领域中，Hadoop、Hive和Spark是三个常用的开源技术，它们在大数据处理和分析方面发挥着重要作用。虽然它们都是为了处理大规模数据集而设计的，但它们在功能和使用方式上存在一些区别。本文将详细介绍Hadoop、Hive和Spark的区别和关系，并提供相应的源代码示例。Hadoop：Hadoop是一个用于分布式存储和处理大规
大数据面试之路 (一) 数据倾斜愿与狸花过一生大数据面试职场和发展
记录大数据面试历程数据倾斜大数据岗位，数据倾斜面试必问的一个问题。一、数据倾斜的表现与原因表现某个或某几个Task执行时间过长，其他Task快速完成。Spark/MapReduce作业卡在某个阶段（如reduce阶段），日志显示少数Task处理大量数据。资源利用率不均衡（如CPU、内存集中在某些节点）。常见场景Key分布不均：如某些Key对应的数据量极大（如用户ID为空的记录、热点事件）。数据分区
scala针对复杂数据源导入与分隔符乱码处理 Tometor scala javascript 后端 java 数据结构
复杂的数据源，和奇怪的数据格式是生产中经常遇到的难题，本文将探讨如何解析分隔符混乱的数据，和如何导入各种数据源文件一、非标准分隔符处理当数据源的分隔符混乱或不统一时（如,、|、\t混合使用），可采用以下方法：1.1动态检测分隔符//示例：自动检测前100行的常用分隔符valsampleLines=spark.read.text("data.csv").limit(100).collect()val
Spark-TTS：基于大模型的文本语音合成工具 CITY_OF_MO_GY 魅力语音语音识别深度学习人工智能
GitHub：https://github.com/SparkAudio/Spark-TTSSpark-TTS是一个先进的文本到语音系统，它利用大型语言模型（LLM）的强大功能进行高度准确和自然的语音合成；旨在高效、灵活、强大地用于研究和生产用途。一、介绍SparkTTS完全基于Qwen2.5构建，无需额外的生成模型，它不依赖于单独的模型来生成声学特征，而是直接从LLM预测的代码中重建音频。这种方
WHALE: TOWARDS GENERALIZABLE AND SCALABLE WORLD Models for Embodied Decision-making 翻译 Doc2X 经典论文翻译人工智能
Doc2X|PDF到Markdown一步搞定只需几秒，Doc2X即可将PDF转换为Markdown，支持批量处理和深度翻译功能。Doc2X|One-StepPDFtoMarkdownConversionInjustseconds,Doc2XconvertsPDFstoMarkdown,withsupportforbatchprocessingandadvancedtranslationfeatur
数据湖架构与实时数仓实践：Hudi、Iceberg、Kafka + Flink + Spark 晴天彩虹雨架构 kafka flink 数据仓库
1.引言：数据湖与数据仓库的融合趋势在大数据时代，传统的数据仓库（DataWarehouse,DW）因其强一致性和高效查询能力，一直是企业数据分析的核心。然而，随着数据量和数据类型的爆炸式增长，传统数据仓库的存储成本和数据管理难度逐渐增加。为了解决这些问题，数据湖（DataLake）概念应运而生。数据湖能够存储原始数据，支持半结构化和非结构化数据，提供更灵活的计算框架，但其缺乏事务管理和数据一致性
大数据实战：Spark + Hive 逐笔计算用户盈亏 WuJiWeb3 区块链链上数据分析从0到1搭建区块链大数据平台 spark hive 大数据 web3 区块链 hadoop
简介本文将通过使用Spark+Hive实现逐笔计算区块链上用户交易数据的盈亏需求。由于我们是进行离线计算，所以我们的数据源是Hive表数据，Sink表也是Hive表，即Spark读取Hive表数据进行批计算之后写回到Hive表并供后续使用。通过本文你将会学到：如何使用SparkSQLAPI读取Hive数据源如何通过读取配置文件进行传参执行SQL如何将SparkSQL转换为JavaRDD进行处理如何
分布式计算入门（PySpark处理NASA服务器日志）闲人编程 Python数据分析实战精要服务器运维统计分析日志 NASA服务器分布式计算 PySpark
目录分布式计算入门（PySpark处理NASA服务器日志）1.引言2.分布式计算概述2.1分布式计算的基本概念2.2ApacheSpark与PySpark3.NASA服务器日志数据集介绍3.1数据背景3.2数据格式与挑战4.PySpark基础与分布式日志处理4.1PySpark基本架构4.2日志数据加载与解析4.3数据清洗与内存优化4.4GPU加速与SparkRAPIDS5.实验环境与依赖库6.数
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite