chixushuchu

Spark 2.0 DataSet 各种操作 action操作基本操作 typed untyped

1、Action操作

employee数据表

{"name": "Leo", "age": 25, "depId": 1, "gender": "male", "salary": 20000}
{"name": "Marry", "age": 30, "depId": 2, "gender": "female", "salary": 25000}
{"name": "Jack", "age": 35, "depId": 1, "gender": "male", "salary": 15000}
{"name": "Tom", "age": 42, "depId": 3, "gender": "male", "salary": 18000}
{"name": "Kattie", "age": 21, "depId": 3, "gender": "female", "salary": 21000}
{"name": "Jen", "age": 30, "depId": 2, "gender": "female", "salary": 28000}
{"name": "Jen", "age": 19, "depId": 2, "gender": "female", "salary": 8000}

执行代码

import org.apache.spark.sql.SparkSession

/**
 * action操作详解
 * 
 * collect、count、first、foreach、reduce、show、take
 * 
 */
object ActionOperation {
  
  def main(args: Array[String]) {
    val spark = SparkSession
        .builder()
        .appName("ActionOperation") 
        .master("local") 
        .config("spark.sql.warehouse.dir", "C:\\Users\\Administrator\\Desktop\\spark-warehouse")
        .getOrCreate()
    
    import spark.implicits._
    
    val employee = spark.read.json("C:\\Users\\Administrator\\Desktop\\employee.json")
    
    // collect：将分布式存储在集群上的分布式数据集（比如dataset），中的所有数据都获取到driver端来
    employee.collect().foreach { println(_) }  
    // count：对dataset中的记录数进行统计个数的操作
    println(employee.count())
    // first：获取数据集中的第一条数据
    println(employee.first())  
    // foreach：遍历数据集中的每一条数据，对数据进行操作，这个跟collect不同，collect是将数据获取到driver端进行操作
    // foreach是将计算操作推到集群上去分布式执行
    // foreach(println(_))这种，真正在集群中执行的时候，是没用的，因为输出的结果是在分布式的集群中的，我们是看不到的
    employee.foreach { println(_) }  
    // reduce：对数据集中的所有数据进行归约的操作，多条变成一条
    // 用reduce来实现数据集的个数的统计
    println(employee.map(employee => 1).reduce(_ + _))
    // show，默认将dataset数据打印前20条
    employee.show()
    // take，从数据集中获取指定条数
    employee.take(3).foreach { println(_) } 
  }
  
}

2、基础操作

持久化
创建临时视图 主要是为了可以直接对数据执行sql语句
获取执行计划 获取spark sql的执行计划
查看schema
写数据到外部存储
dataset与dataframe相互转换 as toDF

package com.scala.spark

import org.apache.spark.sql.SparkSession

object BasicOperation {
    case class Employee(name:String,age:Long,depId:Long,gender:String,salary:Long)
    def main(args: Array[String]): Unit = {
        val spark = SparkSession.builder().appName("action").master("local").getOrCreate()
        import spark.implicits._
        val employee=spark.read.json("employee")
        //第一步 cache()避免重复计算
      /*  employee.cache()
        println(employee.count())
        println(employee.count())*/

        //创建临时视图，主要是为了，可以直接对数据执行sql语句
        employee.createOrReplaceTempView("temp")
        spark.sql("select  * from temp where age>25").show()
        //获取sql执行计划
        //dataframe/dataset，比如执行了一个sql语句获取的dataframe，实际上内部包含一个logical plan，逻辑执行计划
        //设计执行的时候，首先会通过底层的catalyst optimizer，生成物理执行计划，比如说会做一些优化，比如push filter
        //还会通过whole-stage code generation技术去自动化生成代码，提升执行性能
        spark.sql("select  * from temp where age>25").explain()
        employee.printSchema()

        val employDataSet = employee.as[Employee]
        employDataSet.show()
        employDataSet.printSchema()
        val frame = employDataSet.toDF()
        frame.show()
        frame.printSchema()

    }
}

3、typed操作类似rdd 有稍微区别

repartition 操作 coalesce操作

coalesce和repartition操作都是重定义分区区别coalesce只能减少分区数量而且可以选择不发生shuffle
repartiton，可以增加分区，也可以减少分区，必须会发生shuffle，相当于是进行了一次重分区操作

package com.scala.spark.typedOperation


import org.apache.spark.sql.SparkSession

object TypedOperation {
    case class Employee(name:String,age:Long,depId:Long,gender:String,salary:Long)
    def main(args: Array[String]): Unit = {
        val spark = SparkSession.builder().appName("action").master("local").getOrCreate()
        import spark.implicits._
        val employee=spark.read.json("employee")
        val DataSet = employee.as[Employee]
        println(DataSet.rdd.partitions.size)
        //coalesce和repartition操作  都是重定义分区  区别coalesce只能减少分区数量  而且可以选择不发生shuffle
        // repartiton，可以增加分区，也可以减少分区，必须会发生shuffle，相当于是进行了一次重分区操作

        val repartitionDataSet = DataSet.repartition(10)

        //看下分区
        println(repartitionDataSet.rdd.partitions.size)

        val coalescePartion = repartitionDataSet.coalesce(5)
        println(coalescePartion.rdd.partitions.size)
        DataSet.show()


    }

}

distinct 和dropDuplicates操作

distinct去重，是根据每条数据，进行完整内容比对之后有重复的去掉
dropDuplicates 根据每一条数据，可以按照指定的字段进行去重多个条件也可以

   /* val distinctDataSet = DataSet.distinct()
        distinctDataSet.show()
        val singleDrop=DataSet.dropDuplicates(Seq("name"))
        singleDrop.show()
        val dropDataSet = DataSet.dropDuplicates("name","age")
        dropDataSet.show()*/

except filter intersect

except：获取在当前dataset中有，但是在另外一个dataset中没有的元素
filter：根据我们自己的逻辑，如果返回true，那么就保留该元素，否则就过滤掉该元素
intersect：获取两个数据集的交集

 val exceptDS = DataSet.except(DataSet2)
        exceptDS.show()
        val filterDS = DataSet.filter(employee=>employee.age>30)
        filterDS.show()
        val intersectDS = DataSet.intersect(DataSet2)
        intersectDS.show()

map flatmap mapPartitions

map：将数据集中的每条数据都做一个映射，返回一条新数据
flatMap：数据集中的每条数据都可以返回多条数据
mapPartitions：一次性对一个partition中的数据进行处理

 /*   DataSet.map{my=>(my.name,my.age+1000)}.show()
       departMentDS.flatMap{department=>Seq(Department(department.id+1,department.name+"来自于1"),Department(department.id+2,department.name+"来自于2"))}.show()
        DataSet.mapPartitions{
            allValues =>{
                val returnValue=scala.collection.mutable.ArrayBuffer[(String,Long)]()
                while(allValues.hasNext){
                    val every = allValues.next()
                    returnValue+=((every.name,every.salary+8888))
                }
                returnValue.iterator
            }
        }.show()
*/

flatmap

joinwith

 //将两个数据集 连到一起
        DataSet.joinWith(department,$"depId"===$"id").foreach(println(_))

sort

  DataSet.sort($"age".desc).show()

randomSplit sample

randomSplit 按照比例将dataset切割为几个
sample按照指定比例抽取数据

//randomSplit 按照权重 将dataset切割为几个dataset
        val randomSplitDS = DataSet.randomSplit(Array(2,3,5))
        randomSplitDS.foreach(ds=>ds.show())
        //sample 按照指定比例，随机抽取数据
        DataSet.sample(false,0.3).show()

package com.scala.spark.typedOperation


import org.apache.spark.sql.SparkSession

object TypedOperation {
    case class Employee(name:String,age:Long,depId:Long,gender:String,salary:Long)
    case class Department(id: Long, name: String)
    def main(args: Array[String]): Unit = {
        val spark = SparkSession.builder().appName("action").master("local").getOrCreate()
        import spark.implicits._
        val employee=spark.read.json("employee")
        val employee2=spark.read.json("employee2")
        val department=spark.read.json("department")
        val departMentDS = department.as[Department]
        val DataSet = employee.as[Employee]
        val DataSet2=employee2.as[Employee]
      /*  println(DataSet.rdd.partitions.size)
        //coalesce和repartition操作  都是重定义分区  区别coalesce只能减少分区数量  而且可以选择不发生shuffle
        // repartiton，可以增加分区，也可以减少分区，必须会发生shuffle，相当于是进行了一次重分区操作

        val repartitionDataSet = DataSet.repartition(10)

        //看下分区
        println(repartitionDataSet.rdd.partitions.size)

        val coalescePartion = repartitionDataSet.coalesce(5)
        println(coalescePartion.rdd.partitions.size)
        DataSet.show()*/


        //去重
        // 都是用来进行去重的，区别在哪儿呢？
        // distinct，是根据每一条数据，进行完整内容的比对和去重
        // dropDuplicates，可以根据指定的字段进行去重


       /* val distinctDataSet = DataSet.distinct()
        distinctDataSet.show()
        val singleDrop=DataSet.dropDuplicates(Seq("name"))
        singleDrop.show()
        val dropDataSet = DataSet.dropDuplicates("name","age")
        dropDataSet.show()*/

        // except：获取在当前dataset中有，但是在另外一个dataset中没有的元素
        // filter：根据我们自己的逻辑，如果返回true，那么就保留该元素，否则就过滤掉该元素
        // intersect：获取两个数据集的交集

       /* val exceptDS = DataSet.except(DataSet2)
        exceptDS.show()
        val filterDS = DataSet.filter(employee=>employee.age>30)
        filterDS.show()
        val intersectDS = DataSet.intersect(DataSet2)
        intersectDS.show()*/

        // map：将数据集中的每条数据都做一个映射，返回一条新数据
        // flatMap：数据集中的每条数据都可以返回多条数据
        // mapPartitions：一次性对一个partition中的数据进行处理
    /*   DataSet.map{my=>(my.name,my.age+1000)}.show()
       departMentDS.flatMap{department=>Seq(Department(department.id+1,department.name+"来自于1"),Department(department.id+2,department.name+"来自于2"))}.show()
        DataSet.mapPartitions{
            allValues =>{
                val returnValue=scala.collection.mutable.ArrayBuffer[(String,Long)]()
                while(allValues.hasNext){
                    val every = allValues.next()
                    returnValue+=((every.name,every.salary+8888))
                }
                returnValue.iterator
            }
        }.show()
*/
/*
        DataSet.join(departMentDS,$"depId"===$"id").foreach(println(_))
        //将两个数据集 连到一起
        DataSet.joinWith(department,$"depId"===$"id").foreach(println(_))
        DataSet.show()*/
        //sort 排序
       // DataSet.sort($"age".desc).show()

        //randomSplit 按照权重 将dataset切割为几个dataset
        val randomSplitDS = DataSet.randomSplit(Array(2,3,5))
        randomSplitDS.foreach(ds=>ds.show())
        //sample 按照指定比例，随机抽取数据
        DataSet.sample(false,0.3).show()


    }

}

Untyped操作

select where groupBy agg col join
导入
import spark.implicits._
import org.apache.spark.sql.functions._

package com.scala.spark.untypedOperation

import org.apache.spark.sql.SparkSession

object UntypedOperation {
    def main(args: Array[String]): Unit = {
        val spark = SparkSession.builder().appName("untyped").master("local").getOrCreate()
        import spark.implicits._
        import org.apache.spark.sql.functions._
        val employee=spark.read.json("employee")
        val department=spark.read.json("department")

        employee.where($"age">35)
            .join(department,$"depId"===$"id")
            .groupBy(department("name"),employee("gender"))
            .agg(avg((employee("salary"))))
            .show()
        employee.select("name","age").where($"age">29).show()
    }

}

你可能感兴趣的:(实战,spark)

pnpm下载element-plus，卡住不动，如何解决？？ bug菌¹ 全栈Bug调优(实战版)element-plus pnpm
本文收录于《全栈Bug调优(实战版)》专栏，主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！全文目录：问题描述解决方案解决方法文末福利，等你来拿！✨️WhoamI?问题描述pnpm下载element-plus包卡在这个环节一直不动了：具体如下图所示，如何解决？
《用DOTS解决实际需求》集锦 unity
去年作者发布了一篇《DOTS-ECS系列课程》，深受同学们的好评！前期课程是基于0.51版本录制的，DOTS升级至1.0版本后，同学们纷纷希望能使用DOTS1.0版本录制实战课程。今年作者带着DOTS1.0版本的实战课程回来啦！！！教程可以让会用Unity的同学循序渐进地速成DOTS技术。思路是先消除使用门槛后，再有梯度挖掘DOTS底层实现，学习过程非常平滑，并精细准备了进度条字幕，想看哪里点哪里
【分布式日志篇】从工具选型到实战部署：全面解析日志采集与管理路径网罗开发人工智能实战 java集 spring boot 人工智能分布式
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
【Flink 实战系列】Flink CDC 实时同步 Mysql 全量加增量数据到 Hudi JasonLee实时计算 Flink 实战系列 hbase spark 大数据
【Flink实战系列】FlinkCDC实时同步Mysql全量加增量数据到Hudi前言FlinkCDC是基于Flink开发的变化数据获取组件（Changedatacapture），简单的说就是来捕获变更的数据，ApacheHudi是一个数据湖平台，又支持对数据做增删改查操作，所以FlinkCDC可以很好的和Hudi结合起来，打造实时数仓，实时湖仓一体的架构，下面就来演示一下同步的过程。环境组件版本F
深入解析 GZIP 压缩传输：优化网络性能的利器码农阿豪@新空间代码工作室好“物”分享网络
个人名片作者简介：java领域优质创作者个人主页：码农阿豪工作室：新空间代码工作室（提供各种软件服务）个人邮箱：[[email protected]]个人微信：15279484656个人导航网站：www.forff.top座右铭：总有人要赢。为什么不能是我呢？专栏导航：码农阿豪系列专栏导航面试专栏：收集了java相关高频面试题，面试实战总结️Spring5系列专栏：整理了Spring5重要知识点与
y98.第六章微服务、服务网格及Envoy实战 -- 集群管理(九) Raymond运维云原生-微服务治理企业实战 (已完结)microservices envoy 运维云计算云原生
8.集群管理8.0本节话题集群管理器与服务发现机制主动健康状态检测与异常点探测负载均衡策略分布式负载均衡负载均衡算法：加权轮询、加权最少连接、环哈希、磁悬浮和随机等；区域感知路由全局负载均衡位置优先级位置权重均衡器子集熔断和连接池8.1集群管理器（ClusterManager）Envoy支持同时配置任意数量的上游集群，并基于ClusterManager管理它们；ClusterManager负责为集
张岚老师--上海沪师经纪--刘建琅尚师资-刘建销售管理人力职场和发展
张岚老师（LilianZhang）拥有上海财经大学MBA学位。1994-2009年期间，她曾先后供职于通用电气中国（GE）、飞利浦中国和国内上市公司，任总经理、业务总监等高层管理工作。她带领数百人的团队，在管理、市场和销售等领域具有丰富的实战经验和心得。她亲身经历了国内外企业的不同文化和运作模式，扎实的管理理论、丰富的企业实战、十几年的兼职内训师和专职讲师经验，为她的授课沉淀了深厚的基础。张老师在
MySQL实战之数据管理云计算老王 mysql 数据库
MySQL实战之数据管理文章目录MySQL实战之数据管理前言一、数据库的管理1.1新建数据库二、数据表管理1.1选择数据库库三、数据管理3.1插入行数据3.2查询数据前言本文主要介绍MySQL中数据的增删改查。一、数据库的管理1.1新建数据库##新建数据库createdatabaserundb;##如果当前库已存在会报错，为避免报错添加子句【ifnotexists】避免报错createdataba
【PostgreSQL实战1】基于openEuler部署PostgreSQL 云计算老王 postgresql 数据库
【PostgreSQL实战1】基于openEuler部署PostgreSQL目录【PostgreSQL实战1】基于openEuler部署PostgreSQL前言一、PostgreSQL是什么？二、环境准备2.1操作系统2.2内存2.3CPU2.4关闭selinux2.5关闭防火墙三、部署安装3.1创建用户名3.2创建目录3.3安装依赖3.4安装包下载3.5编译安装3.6配置环境变量3.7初始化3.
基于数据可视化+SpringBoot+Vue的医院综合管理平台设计和实现(源码+论文+部署讲解等) java李杨勇 Java精品毕设实战案例 Java毕业设计实战案例信息可视化 spring boot vue.js 医院综合管理平台 Java毕业设计
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
使用 Nocalhost 开发 Rainbond 上的微服务应用 u012804784 android 微服务 microservices 架构计算机
优质资源分享学习路线指引（点击解锁）知识定位人群定位Python实战微信订餐小程序进阶级本课程是pythonflask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。Python量化交易实战入门级手把手带你打造一个易扩展、更安全、效率更高的量化交易系统本文将介绍如何使用Nocalhost快速开发Rainbond上的微服务应用的开发流程以及实践操作步骤。Nocalhost可
Dapr 远程调试之 Nocalhost 虚幻私塾 python 计算机
优质资源分享学习路线指引（点击解锁）知识定位人群定位Python实战微信订餐小程序进阶级本课程是pythonflask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。Python量化交易实战入门级手把手带你打造一个易扩展、更安全、效率更高的量化交易系统虽然Visualstudio、Visualstudiocode都支持debug甚至远程debug，Dapr搭配Bridge
基于Kinetica的实时数据库AI应用实战 dagGAIYD 人工智能数据库大数据 python
在现代数据密集型应用中，实时数据库的选择对于处理分析和生成式AI任务至关重要。Kinetica作为一个实时数据库，专为时间序列和空间数据的分析而设计，其强大的功能可以极大地简化数据获取和分析流程。在这篇文章中，我们将深入探索如何通过Kinetica的ChatModel、VectorStore、DocumentLoader及Retriever来实现这些功能。技术背景介绍Kinetica是一款实时数据
使用SolarChat实现中英韩翻译的实战指南 azzxcvhj python
在这篇文章中，我们将探索如何利用SolarChat这一强大的聊天模型来实现中英韩翻译功能。SolarChat是一个方便的语言模型接口，能够帮助我们将自然语言处理任务集成到项目中。本文将详细介绍这个模型的核心原理，并通过示例代码展示如何使用它进行翻译。技术背景介绍随着人工智能的发展，语言模型在各种自然语言处理任务中扮演了重要角色。特别是在翻译、对话生成等领域，先进的语言模型如SolarChat为我们
TiDB架构特性 #TiDB TiDB
文章目录TiDB整体架构TiDBServerPDServerTiKVServerTiSparkTiDBOperatorTiDB核心特性水平扩展高可用TiDB存储和计算能力存储能力-TiKV-LSM计算能力-TiDBServer总结TiDB整体架构 TiDB集群主要包括三个核心组件：TiDBServer，PDServer和TiKVServer。此外，还有用于解决用户复杂OLAP需求的TiSpark
Verilog呼吸灯项目实战指南酸甜草莓二侠
本文还有配套的精品资源，点击获取简介：本项目“breathLED.zip”详细介绍了利用Verilog硬件描述语言实现呼吸灯效果的完整流程。从Verilog基础到C语言仿真，再到实际的Verilog仿真、工程建立和硬件烧录，详细讲述了在FPGA设计中的每个关键步骤。涵盖了时钟信号定义、计数器和比较器的设计、Testbench编写、编译综合、布局布线以及最终的硬件烧录与调试。本项目不仅提供了实践指南
第19篇：python高级编程进阶：使用Flask进行Web开发猿享天开 python从入门到精通 python 开发语言
第19篇：python高级编程进阶：使用Flask进行Web开发内容简介在第18篇文章中，我们介绍了Web开发的基础知识，并使用Flask框架构建了一个简单的Web应用。本篇文章将深入探讨Flask的高级功能，涵盖模板引擎（Jinja2）、表单处理、数据库集成以及用户认证等主题。通过系统的讲解和实战案例，您将掌握构建功能更为丰富和复杂的Web应用所需的技能。目录Flask的深入使用Flask扩展蓝
第18篇：python高级编程进阶：Web开发基础详解猿享天开 python从入门到精通 python 开发语言
第18篇：Web开发基础内容简介本篇文章将为您介绍Web开发基础的核心概念和实用技能。您将了解Web开发的基本概念和流程，掌握HTTP协议的基础知识，学习如何使用Flask框架构建简单的Web应用，并深入理解路由与视图函数的工作原理。通过丰富的代码示例和实战案例，您将能够快速入门Web开发，搭建自己的第一个Web应用。目录Web开发概述什么是Web开发前端与后端开发Web开发的技术栈HTTP协议基
大数据学习（七）Python3操作livy（使用pylivy模块）猪笨是念来过倒大数据大数据 python
Livy是一个用于与Spark交互的开源REST接口。pylivy是Livy的Python客户端，可以在Spark集群上轻松实现远程代码执行。安装$pipinstall-Ulivy请注意，pylivy需要Python3.6或更高版本。用法所述LivySession类的主界面提供由pylivy：from
LangServe：快速部署和运行LangChain的实用指南 AWsggdrg langchain python
LangServe：快速部署和运行LangChain的实用指南在AI应用开发领域，LangServe为开发者提供了便利的方式，将LangChain的运行单元和链路部署为RESTAPI。本文将通过技术解析和实战示例，带您深入了解LangServe的强大功能和应用场景。1.技术背景介绍LangServe是一个基于Python的库，整合了FastAPI和Pydantic技术，用于将LangChain的运
第17篇：python进阶：详解数据分析与处理猿享天开 python从入门到精通 python 开发语言
第17篇：数据分析与处理内容简介本篇文章将深入探讨数据分析与处理在Python中的应用。您将学习如何使用pandas库进行数据清洗与分析，掌握matplotlib和seaborn库进行数据可视化，以及处理大型数据集的技巧。通过丰富的代码示例和实战案例，您将能够高效地进行数据处理、分析和可视化，为数据驱动的决策提供有力支持。目录数据分析与处理概述什么是数据分析与处理数据分析的流程使用pandas进行
VLAN间路由配置实战 wespten 网络协议栈网络设备 5G 物联网网络工具开发网络
一、VLAN间路由1、VLAN隔离技术1.传统网络类型传统网络有三种类型：LAN–LocalAreaNetwork局域网；MAN–城域网；WAN–WideAreaNetwork广域网-internet；2.VLAN技术随着网络中计算机的数量越来越多，传统的以太网络开始面临广播泛滥以及安全性无法保障等各种问题。VLAN(VirtualLocalAreaNetwork)即虚拟局域网，是将一个物理的局域
【包邮送书】你好！Python Mindtechnist 粉丝福利 python 网络开发语言机器学习
欢迎关注博主Mindtechnist或加入【智能科技社区】一起学习和分享Linux、C、C++、Python、Matlab，机器人运动控制、多机器人协作，智能优化算法，滤波估计、多传感器信息融合，机器学习，人工智能等相关领域的知识和技术。关注公粽号《机器和智能》回复关键词“python项目实战”即可获取美哆商城视频资源！博主介绍：CSDN博客专家，CSDN优质创作者，CSDN实力新星，CSDN内容
自学成才之路，DeepSeek R1 论文解读智识世界Intelligence 神经网络深度学习自然语言处理课程设计学习方法
DeepSeekR1的论文看完后，后劲很大。虽然我推荐所有人都去阅读一下，但我估计实际去读的人应该很少。今天把论文里的三个亮点，用通俗易懂地方式写出来，希望能让更多人了解这篇论文有多么重要。亮点一：告别“刷题班”，纯“实战”也能练出推理大神！我们平时学习，是不是经常要“刷题”？做大量的练习题，才能巩固知识，提高解题能力。以前训练AI模型，也差不多是这个套路，要先给AI“喂”大量的“习题”（监督数据
通过Ftrace实现高效、精确的内核调试与分析深度Linux 性能优化 linux LInux内核性能分析调试工具
虽然之前一直听说过ftrace，但从来没将它用在实战中，在一次客户排查问题中，遇到了比较奇怪的现象，一位精通内核的朋友建议使用ftrace来定位一下。虽然那一次并没有使用ftrace，但也让我觉得，后面我们势必要提供ftrace相关的工具帮助我们在线上定位问题，所以自己也决定重新学习使用下ftrace，当然也决定写一系列的相关出来，这里就先简单介绍下ftrace。一、Ftrace简介1.1Ftra
P1 Pytorch入门实战——Pytorch实现mnist手写数字识别今天补充能量了吗 pytorch 人工智能 python 深度学习机器学习
本文為365天深度學習訓練營中的學習紀錄博客原作者：K同学啊|接輔導、項目定制一、MNIST手写数字数据集介绍MNIST手写数字数据集来源于是美国国家标准与技术研究所，是著名的公开数据集之一。数据集中的数字图片是由250个不同职业的人纯手写绘制包含了70000张图片，其中60000张为训练数据，10000为测试数据，70000张图片均是28*28。如果我们把每一张图片中的像素转换为向量，则得到长度
PyTorch深度学习实战（43）——手写文本识别盼小辉丶深度学习 pytorch 人工智能
PyTorch深度学习实战（43）——手写文本识别0.前言1.手写文本识别1.1基本概念1.2输入和输出格式1.3CTC损失值2.模型与数据集分析2.1数据集分析2.2模型分析3.实现手写文本识别模型小结系列链接0.前言手写文本识别，也称为手写文本的光学字符识别(OpticalCharacterRecognition,OCR)，是计算机视觉和自然语言处理中的一项具有挑战性的任务。与印刷文本不同，手
python实战（十五）——中文手写体数字图像CNN分类 CM莫问 python实战深度学习 python cnn 人工智能深度学习算法图像分类手写体识别
一、任务背景本次python实战，我们使用来自Kaggle的数据集《ChineseMNIST》进行CNN分类建模，不同于经典的MNIST数据集，我们这次使用的数据集是汉字手写体数字。除了常规的汉字“零”到“九”之外还多了“十”、“百”、“千”、“万”、“亿”，共15种汉字数字。二、python建模1、数据读取首先，读取jpg数据文件，可以看到总共有15000张图像数据。importpandasas
Go 项目实战：如何优雅的处理日志 vespeng Golang golang gin
在Go项目开发中，日志处理是一项至关重要的任务。它不仅有助于我们在开发过程中调试代码，还能在生产环境中帮助我们快速定位问题。本文将详细介绍如何在Go项目中优雅地处理日志，包括日志的级别、格式、输出以及如何使用第三方日志库等方面。一、日志级别的重要性日志级别是控制日志输出的重要手段。通过设置不同的日志级别，我们可以灵活地控制日志的详细程度。在Go语言中，常见的日志级别有DEBUG、INFO、WARN
【数据挖掘实战】房价预测机器学习司猫白数据挖掘人工智能 python 机器学习
本次对kaggle中的入门级数据集，房价回归数据集进行数据挖掘，预测房屋价格。本人主页：机器学习司猫白机器学习专栏：机器学习实战PyTorch入门专栏：PyTorch入门深度学习实战：深度学习ok，话不多说，我们进入正题吧概述本次竞赛有79个解释变量（几乎）描述了爱荷华州艾姆斯住宅的各个方面，需要预测每套住宅的最终价格。数据集描述本次数据集已经上传，大家可以自行下载尝试文件说明train.csv-
knob UI插件使用换个号韩国红果果 JavaScript jsonp knob
图形是用canvas绘制的 js代码 var paras = { max:800, min:100, skin:'tron',//button type thickness:.3,//button width width:'200',//define canvas width.,canvas height displayInput:'tr
Android+Jquery Mobile学习系列(5)-SQLite数据库白糖_ JQuery Mobile
目录导航 SQLite是轻量级的、嵌入式的、关系型数据库，目前已经在iPhone、Android等手机系统中使用,SQLite可移植性好，很容易使用，很小，高效而且可靠。因为Android已经集成了SQLite，所以开发人员无需引入任何JAR包，而且Android也针对SQLite封装了专属的API，调用起来非常快捷方便。我也是第一次接触S
impala-2.1.2-CDH5.3.2 dayutianfei impala
最近在整理impala编译的东西，简单记录几个要点：根据官网的信息（https://github.com/cloudera/Impala/wiki/How-to-build-Impala）： 1. 首次编译impala，推荐使用命令： ${IMPALA_HOME}/buildall.sh -skiptests -build_shared_libs -format 2.仅编译BE ${I
求二进制数中1的个数周凡杨 java 算法二进制
解法一：对于一个正整数如果是偶数，该数的二进制数的最后一位是 0 ，反之若是奇数，则该数的二进制数的最后一位是 1 。因此，可以考虑利用位移、判断奇偶来实现。 public int bitCount(int x){ int count = 0; while(x!=0){ if(x%2!=0){ /
spring中hibernate及事务配置 g21121 Hibernate
hibernate的sessionFactory配置：  <bean id="sessionFactory" class="org.springframework.orm.hibernate3.LocalSessionFactoryBean"> <
log4j.properties 使用 510888780 log4j
log4j.properties 使用一.参数意义说明输出级别的种类 ERROR、WARN、INFO、DEBUG ERROR 为严重错误主要是程序的错误 WARN 为一般警告，比如session丢失 INFO 为一般要显示的信息，比如登录登出 DEBUG 为程序的调试信息配置日志信息输出目的地 log4j.appender.appenderName = fully.qua
Spring mvc-jfreeChart柱图（2）布衣凌宇 jfreechart
上一篇中生成的图是静态的，这篇将按条件进行搜索，并统计成图表，左面为统计图，右面显示搜索出的结果。第一步：导包第二步；配置web.xml(上一篇有代码) 建BarRenderer类用于柱子颜色 import java.awt.Color; import java.awt.Paint; import org.jfree.chart.renderer.category.BarR
我的spring学习笔记14-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。 PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java
maven 之 cobertura 简单使用 antlove maven test unit cobertura report
1. 创建一个maven项目 2. 创建com.CoberturaStart.java package com; public class CoberturaStart { public void helloEveryone(){ System.out.println("=================================================
程序的执行顺序百合不是茶 JAVA执行顺序
刚在看java核心技术时发现对java的执行顺序不是很明白了,百度一下也没有找到适合自己的资料,所以就简单的回顾一下吧代码如下; 经典的程序执行面试题 //关于程序执行的顺序 //例如： //定义一个基类 public class A(){ public A(
设置session失效的几种方法 bijian1013 web.xml session失效监听器
在系统登录后，都会设置一个当前session失效的时间，以确保在用户长时间不与服务器交互，自动退出登录，销毁session。具体设置很简单，方法有三种：（1）在主页面或者公共页面中加入：session.setMaxInactiveInterval(900);参数900单位是秒，即在没有活动15分钟后，session将失效。这里要注意这个session设置的时间是根据服务器来计算的，而不是客户端。所
java jvm常用命令工具 bijian1013 java jvm
一.概述程序运行中经常会遇到各种问题，定位问题时通常需要综合各种信息，如系统日志、堆dump文件、线程dump文件、GC日志等。通过虚拟机监控和诊断工具可以帮忙我们快速获取、分析需要的数据，进而提高问题解决速度。本文将介绍虚拟机常用监控和问题诊断命令工具的使用方法，主要包含以下工具: &nbs
【Spring框架一】Spring常用注解之Autowired和Resource注解 bit1129 Spring常用注解
Spring自从2.0引入注解的方式取代XML配置的方式来做IOC之后，对Spring一些常用注解的含义行为一直处于比较模糊的状态，写几篇总结下Spring常用的注解。本篇包含的注解有如下几个： Autowired Resource Component Service Controller Transactional 根据它们的功能、目的，可以分为三组，Autow
mysql 操作遇到safe update mode问题 bitray update
我并不知道出现这个问题的实际原理,只是通过其他朋友的博客,文章得知的一个解决方案,目前先记录一个解决方法,未来要是真了解以后,还会继续补全. 在mysql5中有一个safe update mode,这个模式让sql操作更加安全,据说要求有where条件,防止全表更新操作.如果必须要进行全表操作,我们可以执行 SET
nginx_perl试用 ronin47 nginx_perl试用
因为空闲时间比较多，所以在CPAN上乱翻，看到了nginx_perl这个项目(原名Nginx::Engine)，现在托管在github.com上。地址见：https://github.com/zzzcpan/nginx-perl 这个模块的目的，是在nginx内置官方perl模块的基础上，实现一系列异步非阻塞的api。用connector/writer/reader完成类似proxy的功能（这里
java-63-在字符串中删除特定的字符 bylijinnan java
public class DeleteSpecificChars { /** * Q 63 在字符串中删除特定的字符 * 输入两个字符串，从第一字符串中删除第二个字符串中所有的字符。 * 例如，输入”They are students.”和”aeiou”，则删除之后的第一个字符串变成”Thy r stdnts.” */ public static voi
EffectiveJava--创建和销毁对象 ccii 创建和销毁对象
本章内容： 1. 考虑用静态工厂方法代替构造器 2. 遇到多个构造器参数时要考虑用构建器（Builder模式） 3. 用私有构造器或者枚举类型强化Singleton属性 4. 通过私有构造器强化不可实例化的能力 5. 避免创建不必要的对象 6. 消除过期的对象引用 7. 避免使用终结方法 1. 考虑用静态工厂方法代替构造器类可以通过
[宇宙时代]四边形理论与光速飞行 comsci
从四边形理论来推论为什么光子飞船必须获得星光信号才能够进行光速飞行？一组星体组成星座向空间辐射一组由复杂星光信号组成的辐射频带，按照四边形-频率假说一组频率就代表一个时空的入口那么这种由星光信号组成的辐射频带就代表由这些星体所控制的时空通道，该时空通道在三维空间的投影是一
ubuntu server下python脚本迁移数据 cywhoyi python Kettle pymysql cx_Oracle ubuntu server
因为是在Ubuntu下，所以安装python、pip、pymysql等都极其方便，sudo apt-get install pymysql，但是在安装cx_Oracle（连接oracle的模块）出现许多问题，查阅相关资料，发现这边文章能够帮我解决，希望大家少走点弯路。http://www.tbdazhe.com/archives/602 1.安装python 2.安装pip、pymysql
Ajax正确但是请求不到值解决方案 dashuaifu Ajax async
Ajax正确但是请求不到值解决方案解决方案：1 . async: false , 2. 设置延时执行js里的ajax或者延时后台java方法！！！！！！！例如： $.ajax({ &
windows安装配置php+memcached dcj3sjt126com PHP Install memcache
Windows下Memcached的安装配置方法 1、将第一个包解压放某个盘下面，比如在c:\memcached。 2、在终端（也即cmd命令界面）下输入 'c:\memcached\memcached.exe -d install' 安装。 3、再输入： 'c:\memcached\memcached.exe -d start' 启动。（需要注意的: 以后memcached将作为windo
iOS开发学习路径的一些建议 dcj3sjt126com ios
iOS论坛里有朋友要求回答帖子，帖子的标题是：想学IOS开发高阶一点的东西，从何开始，然后我吧啦吧啦回答写了很多。既然敲了那么多字，我就把我写的回复也贴到博客里来分享，希望能对大家有帮助。欢迎大家也到帖子里讨论和分享，地址：http://bbs.csdn.net/topics/390920759 下面是我回复的内容：结合自己情况聊下iOS学习建议，
Javascript闭包概念 fanfanlovey JavaScript 闭包
1.参考资料 http://www.jb51.net/article/24101.htm http://blog.csdn.net/yn49782026/article/details/8549462 2.内容概述要理解闭包，首先需要理解变量作用域问题内部函数可以饮用外面全局变量 var n=999; 　　functio
yum安装mysql5.6 haisheng mysql
1、安装http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm 2、yum install mysql 3、yum install mysql-server 4、vi /etc/my.cnf 添加character_set_server=utf8
po/bo/vo/dao/pojo的详介 IT_zhlp80 java BO VO DAO POJO po
JAVA几种对象的解释 PO:persistant object持久对象,可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作. VO:value object值对象。通常用于业务层之间的数据传递，和PO一样也是仅仅包含数据而已。但应是抽象出的业务对象,可
java设计模式 kerryg java 设计模式
设计模式的分类：一、设计模式总体分为三大类： 1、创建型模式（5种）：工厂方法模式，抽象工厂模式，单例模式，建造者模式，原型模式。 2、结构型模式（7种）：适配器模式，装饰器模式，代理模式，外观模式，桥接模式，组合模式，享元模式。 3、行为型模式（11种）：策略模式，模版方法模式，观察者模式，迭代子模式，责任链模式，命令模式，备忘录模式，状态模式，访问者
[1]CXF3.1整合Spring开发webservice——helloworld篇木头.java spring webservice CXF
Spring 版本3.2.10 CXF 版本3.1.1 项目采用MAVEN组织依赖jar 我这里是有parent的pom，为了简洁明了，我直接把所有的依赖都列一起了，所以都没version，反正上面已经写了版本 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht
Google 工程师亲授：菜鸟开发者一定要投资的十大目标 qindongliang1922 工作感悟人生
身为软件开发者，有什么是一定得投资的？ Google 软件工程师 Emanuel Saringan 整理了十项他认为必要的投资，第一项就是身体健康，英文与数学也都是必备能力吗？来看看他怎么说。（以下文字以作者第一人称撰写））你的健康无疑地，软件开发者是世界上最久坐不动的职业之一。每天连坐八到十六小时，休息时间只有一点点，绝对会让你的鲔鱼肚肆无忌惮的生长。肥胖容易扩大罹患其他疾病的风险，
linux打开最大文件数量1,048,576 tianzhihehe c linux
File descriptors are represented by the C int type. Not using a special type is often considered odd, but is, historically, the Unix way. Each Linux process has a maximum number of files th
java语言中PO、VO、DAO、BO、POJO几种对象的解释衞酆夼 java VO BO POJO po
PO:persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作。 BO:business object业务对象封装业务逻辑的java对象

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他