lbyyy

Spark入门基础教程

from: http://www.linuxidc.com/Linux/2016-03/129506.htm

背景

　　目前按照大数据处理类型来分大致可以分为：批量数据处理、交互式数据查询、实时数据流处理，这三种数据处理方式对应的业务场景也都不一样；
　　关注大数据处理的应该都知道Hadoop，而Hadoop的核心为HDFS与MapReduce，HDFS分布式文件系统在Hadop中是用来存储数据的；MapReduce为Hadoop处理数据的核心，接触过函数式编程的都知道函数式语言中也存在着Map、Reduce函数其实这两者的思想是一致的；也正是因为Hadoop数据处理核心为MapReduce奠定了它注定不是适用场景广泛的大数据框架；
　　可以这么说Hadoop适用于Map、Reduce存在的任何场景，具体场景比如：WordCount、排序、PageRank、用户行为分析、数据统计等，而这些场景都算是批量数据处理，而Hadoop并不适用于交互式数据查询、实时数据流处理；
　　这时候就出现了各种数据处理模型下的专用框架如：Storm、Impala、GraphLab等；
　　1、Storm：针对实时数据流处理的分布式框架；
　　2、Impala：适用于交互式大数据查询的分布式框架；
　　3、GraphLab：基于图模型的机器学习框架；

　　　　　　　　　　　　1、MapReduce简单模型
　　
　　这时候如果一个团队或一个公司中同时都有设计到大数据批量处理、交互式查询、实时数据流处理这三个场景；这时候就会有一些问题：
　　1、学习成本很高，每个框架都是不同的实现语言、不同的团队开发的；
　　2、各个场景组合起来代价必然会很大；
　　3、各个框架中共享的中间数据共享与移动成本高；
　　

Spark

　　就在这时候UC Berkeley AMP推出了全新的大数据处理框架：Spark提供了全面、统一适用与不同场景的大数据处理需求（批量数据处理、交互式数据查询、实时数据流处理、机器学习）；Spark不仅性能远胜于Hadoop而却还兼容Hadoop生态系统，Spark可以运行在Hadoop HDFS之上提供争强功能，可以说Spark替代了Hadoop MapReduce，但Spark依然兼容Hadoop中的YARN与Apache Mesos组件，现有Hadoop用户可以很容易就迁移到Spark；
　　Spark提出了RDD（Resilient Distributed Datasets）这么一个全新的概念，RDD弹性分布式数据集是并行、容错的分布式数据结构；RDD可以持久化到硬盘或内存当中，为一个分区的数据集，分区的多少决定了并行计算的粒度；并且提供了一系列的操作RDD中的数据：
　　1、创建操作（Creation Operation）：RDD由SparkContext通过内存数据或外部文件系统创建；
　　2、转换操作（Transformation Operation）：将RDD通过转换操作变为另一个RDD，Spark提供了map、flatMap、filter等一系列的转换操作；
　　3、控制操作（Control Operation）：将RDD持久化到内存或硬盘当中，如cache将filterRDD缓存到内存；
　　4、行动操作：（Action Operation）：Spark采用了惰性计算，对于任何行动操作都会产生Spark Job运行产生最终结果；提供了join、groupBy、count等操作，Spark中存在两种操作产生的结果为Scala集合或者标量与RDD保存到文件或数据库；

　　　　　　　　　　　　　1、Spark结构图

　　Spark RDD：Spark RDD提供了一系列的操作接口，为不变的数据存储结构并存储与内存中使用DAG进行任务规划使更好的处理MapReduce类似的批处理；
　　Shark/Spark SQL：分布式SQL引擎，兼容Hive性能远比Hive高很多；
　　Spark Streaming：将数据流分解为一系列批处理作业使用Spark调度框架更好的支持数据流操作，支持的数据输入源有：Kafka、Flume等；
　　GraphX：兼容Pregel、GraphLab接口为基于Spark的图计算框架；
　　MLlib：为Spark的机器学习算法库，支持常用的算法有：分类算法、推荐算法、聚类算法等等；

　　性能卓越、支持多种大数据处理模型、支持多种编程语言接口：Java、Scala、Python，许多大公司如IBM等大力支持推广Spark的发展；

Spark运行模式与Standalone模式部署

前面简单的介绍了Spark的一些概念还有Spark生态圈的一些情况，这里主要是介绍Spark运行模式与Spark Standalone模式的部署；

Spark运行模式

　　在Spark中存在着多种运行模式，可使用本地模式运行、可使用伪分布式模式运行、使用分布式模式也存在多种模式如：Spark Mesos模式、Spark YARN模式；

Spark Mesos模式：官方推荐模式，通用集群管理，有两种调度模式：粗粒度模式（Coarse-grained Mode）与细粒度模式（Fine-grained Mode）；
Spark YARN模式：Hadoop YARN资源管理模式；
Standalone模式： 简单模式或称独立模式，可以单独部署到一个集群中，无依赖任何其他资源管理系统。不使用其他调度工具时会存在单点故障，使用Zookeeper等可以解决；
Local模式：本地模式，可以启动本地一个线程来运行job，可以启动N个线程或者使用系统所有核运行job；

Standalone模式部署实践

　　Standalone模式需要将Spark复制到集群中的每个节点，然后分别启动每个节点即可；Spark Standalone模式的集群由Master与Worker节点组成，程序通过与Master节点交互申请资源，Worker节点启动Executor运行；
　　这里使用了两节点部署Spark集群：192.168.2.131、192.168.2.133，下面简称为：133与131节点；其中133节点既是Master节点同时又是Worker节点，131节点为Worker节点；

节点结构图

部署步骤：
　　一、首先在133节点上下载Java、Scala与Spark并解压到/usr/local目录下，这里使用的Spark是带有Hadoop的版本；

　　下载解压到local

　　二、配置Java、Scala与Spark环境变量，这里把环境变量配置到/etc/profile文件中，请忽略Hadoop环境变量；

　　环境变量配置

　　三、测试Java、Scala是否配置成功，在终端输入：java -version与scala -version

　　四、配置Spark环境变量，进入Spark目录下的conf目录把slaves.template重命名为slaves，接着把spark-env.sh.template重命名为：spark-env.sh；

　　　　重命名
　　　　修改spark-env.sh文件，添加环境变量；

　　　　spark-env修改
　　五、在133节点使用scp把下载好的Java、Scala、Spark发送到131节点，并在131节点上重复以上所有步骤；
　　六、在两个节点都完成以上所有步骤后开始启动Spark，133节点既是Master又是Worker；
　　　　1、首先在133启动Spark，进入Spark目录的sbin目录执行./start-all.sh：

　　　　Master启动
　　　　使用jps命令发现存在Master与Worker进程，说明Spark已启动成功；

　　　　2、启动131节点的Spark，进入Spark目录的sbin目录执行：./start-slave.sh spark://192.168.2.133:7077
　　　　start-slave.sh后面的地址为Master节点的通信地址，指定当前slave节点连接到的Master；

　　　　slave启动：
　　　　使用jps命令，存在Worker进程则说明当前的Spark Worker节点启动成功；
　　七、 Spark Web页面
　　　　可以通过http://192.168.2.133:8080/ 地址查看到当前Spark集群的信息，这地址为Master节点的地址；

SparkWeb：

参考资料：
http://spark.apache.org/docs/latest/spark-standalone.html

Spark中最核心的概念为RDD（Resilient Distributed DataSets）中文为：弹性分布式数据集，RDD为对分布式内存对象的抽象它表示一个被分区不可变且能并行操作的数据集；RDD为可序列化的、可缓存到内存对RDD进行操作过后还可以存到内存中，下次操作直接把内存中RDD作为输入，避免了Hadoop MapReduce的大IO操作；

RDD生成

　　Spark所要处理的任何数据都是存储在RDD之中，目前两种方式可以生成一个RDD：
　　1、从RDD进行转换操作
　　2、使用外部存储系统创建，如：HDFS；

RDD操作

　　RDD支持两种操作：
　　　　转换（transformation operation）
　　　　转换操作将一个RDD经过操作后返回一个全新的RDD，转换操是lazy（惰性）的这期间不会产生任何数据的计算；
　　　　转换函数有：distinct、filter、map、flatMap、union、groupByKey等；
　　　　行动（action operation）
　　　　每一个行动操作都会触发Spark Job进行计算并返回最终的结果，行动操作有这么几类：返回标量，count返回元素的个数；返回Scala集合，task(n)返回0到n-1组成的集合；写入外部存储，saveAsHadoopFile(path)存储到HDFS；
　　　　行动函数有：count、top、task、saveAsHadoopFile等；
　　RDD为不可变的数据集，可以使用转换操作“修改”一个RDD，但这操作过后返回的是一个全新的RDD 原本RDD并没有改变；

　　　　　　　　　　RDD状态转换图

Lineage

　　Spark RDD只支持粗粒度的操作，对一个RDD的操作都会被作用于该RDD的所有数据；为了保证RDD的高可用性RDD通过使用Lineage（血统）记录了RDD演变流程（从其他RDD到当前RDD所做的操作）当RDD分区数据丢失时可以通过Lineage的信息重新计算与恢复分区数据，或进行RDD的重建；
　　RDD的依赖关系（dependencies）：
　　由于对RDD的操作都是粗粒度的一个转换操作过后都会产生一个新的RDD，RDD之间会形成一个前后依赖关系；Spark中存在两种依赖：窄依赖（Narrow Dependencies）、宽依赖（Wide Dependencies）；
　　窄依赖（Narrow Dependencies）：一个父RDD的分区只能被一个子RDD的一个分区使用；
　　宽依赖（Wide Dependencies）：多个子RDD的分区依赖于一个父RDD的同一个分区；
　　窄依赖的节点（RDD）关系如果流水一般，所以当节点失败后只需重新计算父节点的分区即可，宽依赖需要重新计算父节点的多个分区代价是非常昂贵的；

　　　　　　　　　　窄依赖Narrow

　　　　　　　　　　宽依赖Wide

参考资料：
http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf
http://spark.apache.org/docs/latest/programming-guide.html

编译打包

　　Spark支持Maven与SBT两种编译工具，这里使用了Maven进行编译打包；
　　在执行make-distribution脚本时它会检查本地是否已经存在Maven还有当前Spark所依赖的Scala版本，如果不存在它会自动帮你下载到build目录中并解压使用；Maven源最好配置成OSChina的中央库，这下载依赖包比较快；
　　耐心等待，我编译过多次所以没有下载依赖包，大概半个小时左右编译完成；注意：如果使用的是Java 1.8需要给JVM配置堆与非堆内存，如：export MAVEN_OPTS="-Xmx1.5g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"；

　　进入Spark根目录下，执行：

./make-distribution.sh --tgz

 --tgz 参数是指编译后生成tgz包 
 - PHadoop 支持Hadoop
 -Pyarn :支持yarn
 -Phive :支持hive
 --with-tachyon:支持tachyon内存文件系统
 -name:与--tgz一起用时，name代替Hadoop版本号

 ./make-distribution.sh --tgz --name 2.6.0 -Pyarn -Phadoop-2.6 -Phive

　　开始编译检查本地环境，如不存在合适的Scala与Maven就在后台下载；

编译中：

编译完成并打包生成tgz：

编译完成后把生成的文件拷贝到当前Spark的dist目录中并且打包生成spark-1.5.3-SNAPSHOT-bin-2.2.0.tgz文件；

Spark——共享变量

Spark执行不少操作时都依赖于闭包函数的调用，此时如果闭包函数使用到了外部变量驱动程序在使用行动操作时传递到集群中各worker节点任务时就会进行一系列操作：
　　1、驱动程序使将闭包中使用变量封装成对象，驱动程序序列化对象，传给worker节点任务；
　　2、worker节点任务接收到对象，执行闭包函数；
由于使用外部变量势必会通过网络、序列化、反序列化，如外部变量过大或过多使用外部变量将会影响Spark程序的性能；
　　Spark提供了两种类型的共享变量（Shared Variables）：广播变量（Broadcast Variables）、累加器（Accumulators ）；
　　
广播变量（Broadcast Variables）
　　Spark提供的广播变量可以解决闭包函数引用外部大变量引起的性能问题；广播变量将只读变量缓存在每个worker节点中，Spark使用了高效广播算法分发变量从而提高通信性能；如直接在闭包函数中使用外部变量该变量会缓存在每个任务（jobTask）中如果多个任务同时使用了一个大变量势必会影响到程序性能；
　　广播变量：每个worker节点中缓存一个副本，通过高效广播算法提高传输效率，广播变量是只读的；
　　Spark Scala Api与Java Api默认使用了Jdk自带序列化库，通过使用第三方或使用自定义的序列化库还可以进一步提高广播变量的性能；

广播变量使用示例：

val sc = SparkContext("");
val eigenValue = sc.bradcast(loadEigenValue())
val eigen = computer.map{x => 
    val temp = eigenValue.value
    ...
    ...
}

　　　　　　左节点不使用广播变量，右使用广播变量
累加器（Accumulators）
　　累加器可以使得worker节点中指定的值聚合到驱动程序中，如统计Spark程序执行过程中的事件总数等；

val sc = new SparkContext(...)
val file = sc.textFile("xxx.txt")
val eventCount = sc.accumulator(0,"EventAccumulator")  //累加器初始值为0

val formatEvent = file.flatMap(line => {
     if(line.contains("error")){
         eventCount +=1
     }
    })
formatEvent.saveAsTextFile("eventData.txt")
println("error event count : " + eventCount);

　　在使用累加器（Accumulators）时需要注意，只有在行动操作中才会触发累加器，也就是说上述代码中由于flatMap()为转换操作因为Spark惰性特征所以只用当saveAsTextFile() 执行时累加器才会被触发；累加器只有在驱动程序中才可访问，worker节点中的任务不可访问累加器中的值；
　　Spark原生支持了数字类型的的累加器如：Int、Double、Long、Float等；此外Spark还支持自定义累加器用户可以通过继承AccumulableParam特征来实现自定义的累加器此外Spark还提供了accumulableCollection()累加集合用于；创建累加器时可以使用名字也可以不是用名字，当使用了名字时在Spark UI中可看到当中程序中定义的累加器，广播变量存储级别为MEMORY_AND_DISK；

Spark作业调度阶段分析

Spark作为分布式的大数据处理框架必然或涉及到大量的作业调度，如果能够理解Spark中的调度对我们编写或优化Spark程序都是有很大帮助的；
　　在Spark中存在转换操作（Transformation Operation）与 行动操作(Action Operation)两种；而转换操作只是会从一个RDD中生成另一个RDD且是lazy的，Spark中只有行动操作（Action Operation）才会触发作业的提交，从而引发作业调度；在一个计算任务中可能会多次调用转换操作这些操作生成的RDD可能存在着依赖关系，而由于转换都是lazy所以当行动操作（Action Operation ）触发时才会有真正的RDD生成，这一系列的RDD中就存在着依赖关系形成一个DAG（Directed Acyclc Graph），在Spark中DAGScheuler是基于DAG的顶层调度模块；

RDD Action作业提交流程

　　这里根据Spark源码跟踪触发Action操作时触发的Job提交流程，Count()是RDD中的一个Action操作所以调用Count时会触发Job提交；
　　在RDD源码count()调用SparkContext的runJob，在runJob方法中根据partitions(分区)大小创建Arrays存放返回结果；

RDD.scala

/** * Return the number of elements in the RDD. */
def count(): Long = sc.runJob(this, Utils.getIteratorSize _).sum

SparkContext.scala

def runJob[T, U: ClassTag](
  rdd: RDD[T],
  func: (TaskContext, Iterator[T]) => U,
  partitions: Seq[Int],
  resultHandler: (Int, U) => Unit): Unit = {

  val callSite = getCallSite
  val cleanedFunc = clean(func) logInfo("Starting job: " + callSite.shortForm)
  if (conf.getBoolean("spark.logLineage", false)) {
    logInfo("RDD's recursive dependencies:\n" + rdd.toDebugString)
  }
  dagScheduler.runJob(rdd, cleanedFunc, partitions, callSite, resultHandler, localProperties.get)
}

　　在SparkContext中将调用DAGScheduler的runJob方法提交作业，DAGScheduler主要任务是计算作业与任务依赖关系，处理调用逻辑；DAGScheduler提供了submitJob与runJob方法用于提交作业，runJob方法会一直等待作业完成，submitJob则返回JobWaiter对象可以用于判断作业执行结果；
　　在runJob方法中将调用submitJob，在submitJob中把提交操作放入到事件循环队列（DAGSchedulerEventProcessLoop）中；

def submitJob[T, U](
 rdd: RDD[T],
 func: (TaskContext, Iterator[T]) => U,
 partitions: Seq[Int],
 callSite: CallSite,
 resultHandler: (Int, U) => Unit,
 properties: Properties): JobWaiter[U] = {
      ......  
      eventProcessLoop.post(JobSubmitted(
      jobId, rdd, func2, partitions.toArray, callSite, waiter,
      SerializationUtils.clone(properties)))
      ......
  }

　　在事件循环队列中将调用eventprocessLoop的onReceive方法；

Stage拆分

　　提交作业时DAGScheduler会从RDD依赖链尾部开始，遍历整个依赖链划分调度阶段；划分阶段以ShuffleDependency为依据，当没有ShuffleDependency时整个Job 只会有一个Stage；在事件循环队列中将会调用DAGScheduler的handleJobSubmitted方法，此方法会拆分Stage、提交Stage；

 private[scheduler] def handleJobSubmitted(jobId: Int,
  finalRDD: RDD[_],
  func: (TaskContext, Iterator[_]) => _,
  partitions: Array[Int],
  callSite: CallSite,
  listener: JobListener,
  properties: Properties) {
var finalStage: ResultStage = null
......
  finalStage = newResultStage(finalRDD, func, partitions, jobId, callSite) ...... val job = new ActiveJob(jobId, finalStage, callSite, listener, properties)
......
val jobSubmissionTime = clock.getTimeMillis()
jobIdToActiveJob(jobId) = job
activeJobs += job
finalStage.setActiveJob(job)
val stageIds = jobIdToStageIds(jobId).toArray
val stageInfos = stageIds.flatMap(id => stageIdToStage.get(id).map(_.latestInfo))
listenerBus.post(
  SparkListenerJobStart(job.jobId, jobSubmissionTime, stageInfos, properties))
submitStage(finalStage)

submitWaitingStages()
}

调度阶段提交

　　在提交Stage时会先调用getMissingParentStages获取父阶段Stage，迭代该阶段所依赖的父调度阶段如果存在则先提交该父阶段的Stage 当不存在父Stage或父Stage执行完成时会对当前Stage进行提交；

 private def submitStage(stage: Stage) {
  val jobId = activeJobForStage(stage)
  if (jobId.isDefined) {
    if (!waitingStages(stage) && !runningStages(stage) && !failedStages(stage)) {
      val missing = getMissingParentStages(stage).sortBy(_.id)
      if (missing.isEmpty) {
        submitMissingTasks(stage, jobId.get)
      } else {
        for (parent <- missing) {
          submitStage(parent)
        }
        waitingStages += stage
      }
    }
  }
  ......
}

参考资料：
http://spark.apache.org/docs/latest/

Scala 的详细介绍：请点这里
Scala 的下载地址：请点这里

Prompt 精通之路（一）- AI 时代的新语言：到底什么是 Prompt？为什么它如此重要？程序员阿超的博客 Prompt 精通之路：从零基础到 AI 高效玩家人工智能 prompt Prompt新手指南提示词入门 AI指令 ChatGPT deepseek
AI时代的新语言：到底什么是Prompt？为什么它如此重要？标签：#Prompt新手指南#提示词入门#AI指令#人工智能#ChatGPTPrompt精通之路：系列文章导航第一篇：AI时代的新语言：到底什么是Prompt？为什么它如此重要？第二篇：告别废话！掌握这4个黄金法则，让你的Prompt精准有效第三篇：像专业人士一样思考：Zero-Shot,Few-Shot和思维链（CoT）技巧详解第四篇：
【React】入门概述 - 虚拟DOM与原生DOM - JSX语法 - React基本使用 YK菌前端框架React react
文章目录1.React入门概述1.1介绍1.2原生JavaScript的缺点【补充】浏览器重绘重排【补充】模块化与组件化1.3React的特点1.4.React高效的原因2.HelloReact2.1相关库介绍【补充】babel.js的作用2.2使用JSX创建虚拟DOM2.3渲染虚拟DOM(元素)2.4页面显示3.创建虚拟DOM的两种方式3.1纯JS方式(一般不用)3.2JSX方式4.虚拟DOM与
NPM入门指南：轻松管理你的Node.js项目
npminitnpminit初始化npminit是一个命令行工具，用于创建一个新的package.json文件，该文件是Node.js项目的配置文件。当你在命令行中执行这个命令时，会启动一个向导流程，引导用户输入关于项目的各种信息，如项目名称、版本、描述、作者、入口文件、许可证类型等。执行流程大致如下：启动命令：在项目根目录下打开终端，输入npminit并回车。交互式问答：接下来，npm会提示你输
NVIDIA Isaac GR00T N1.5 人形机器人强化学习入门教程（五）强化学习与机器人控制仿真机器人与具身智能人工智能机器人深度学习神经网络强化学习模仿学习具身智能
系列文章目录目录系列文章目录前言一、更深入的理解1.1实体化动作头微调1.1.1实体标签1.1.2工作原理1.1.3支持的实现1.2高级调优参数1.2.1模型组件1.2.1.1视觉编码器（tune_visual）1.2.1.2语言模型（tune_llm）1.2.1.3投影器（tune_projector）1.2.1.4扩散模型（tune_diffusion_model）1.2.2理解数据转换1.2
图论基础算法入门笔记
图论基础与建图图的定义图是由若干给定的顶点及连接两顶点的边所构成的图形，顶点用于代表事物，连接两顶点的边用于表示两个事物间的特定关系。建图的概念建图是指找到合适的方法将图表示出来。图的存储方法直接存边存储方式：直接使用一个数组，将边的起点与终点信息存储。代码实现：#includeusingnamespacestd;structEdge{intu,v;//边的起点和终点};intn,m;//n为顶点
C# WPF入门学习主线篇（二十三）—— 控件模板（ControlTemplate）和数据模板（DataTemplate） Ice bear433 C#WPF 学习 c#wpf 学习
C#WPF入门学习主线篇（二十三）——控件模板（ControlTemplate）和数据模板（DataTemplate）在WPF开发中，控件模板（ControlTemplate）和数据模板（DataTemplate）是非常重要的概念。它们允许开发者自定义控件的外观和展示数据的方式。通过使用这些模板，开发者可以创建更具视觉吸引力和用户友好的界面。本篇博客将详细介绍控件模板和数据模板的定义和应用，并通过
全面掌握 tkinter：Python GUI 编程的入门与实战指南萧鼎 python基础到进阶教程 python 开发语言 tkinter
在自动化、工具开发、数据可视化等领域，图形用户界面（GUI）往往是提升用户体验的重要方式。作为Python官方内置的GUI库，tkinter以其轻量、跨平台、易于学习的特性成为初学者和轻量级应用开发者首选。本文将以深入浅出的方式，系统讲解tkinter的用法与进阶技巧，内容涵盖控件布局、事件绑定、窗口管理、自定义样式与完整项目实战，帮助你用Python快速开发实用GUI工具。一、什么是tkinte
FFmpeg 超级详细安装与配置教程（Windows 系统） Stuomasi_xiaoxin 人工智能 ffmpeg ai python 深度学习
FFmpeg是一款功能强大的开源多媒体处理工具集，能够进行音视频的编码、解码、转码、混流、推流、滤镜、格式转换等多种操作。本教程将详细介绍如何在Windows系统上安装和配置FFmpeg，并提供一些常用的使用示例，助你从入门到基本掌握。目录什么是FFmpeg？Windows系统下安装FFmpeg️步骤1:下载FFmpeg步骤2:解压文件步骤3:配置环境变量步骤4:验证安装FFmpeg基本使用入门1
通过 CLI 和引入的方式使用 React：基础入门山川湖海 React react.js
使用React有两种使用方式，主要有以下几个原因:灵活性和适应性:引入的方式可以让开发者在现有的HTML页面中快速引入React,无需设置完整的项目环境。这适合小型或原型项目。CLI方式则更适合用于构建大型复杂的React应用程序,因为它提供了更完整的项目结构和构建工具支持。学习曲线:引入的方式相对简单,更容易上手。这对于React初学者来说是个不错的起点。CLI方式需要一些额外的工具和配置,但提
Oreacle（SQL语言基础）
关键词：SQL入门、SQL分类、SQL*Plus、SELECT语句、DML语句、事务控制✅摘要SQL（StructuredQueryLanguage）是关系型数据库的核心操作语言，广泛应用于Oracle、MySQL、PostgreSQL、SQLServer等主流数据库系统中。本文将从SQL的基本分类讲起，详细介绍SELECT查询、DML数据操作语句，并结合SQL工具使用和事务控制机制，每个知识点都
Python入门Day1 Zonda要好好学习 Python python 开发语言
Python介绍Python的发展历程为什么叫PythonPython本来是蟒蛇的意思，用来象征写代码的程序员。因为相对于Java、C++等程序，Python非常简单，所以写Python也的程序员也象征“玩蛇”的程序员。Python的由来Python的历史也相对比较悠久，可以追溯到1990年，有数十年的发展历程，随着今年人工智能和数据挖掘的发展，Python飞速发展。ABC语言是一种语言和编程环境
Python网络爬虫与数据处理工具大全：从入门到精通俞凯润
Python网络爬虫与数据处理工具大全：从入门到精通awesome-web-scrapingListoflibraries,toolsandAPIsforwebscrapinganddataprocessing.项目地址:https://gitcode.com/gh_mirrors/aw/awesome-web-scraping本文基于知名Python网络爬虫资源库lorien/awesome-w
【Python入门】极速爬取：用Python Autoscraper库简化网络数据抓取
️极速爬取：用PythonAutoscraper库简化网络数据抓取你是否梦想过能够以闪电般的速度从网上抓取数据，而无需深入了解复杂的爬虫技术？️是否想要一个简单易用的工具，让你快速上手网络爬虫，而不必担心代码的繁琐？如果你的答案是肯定的，那么这篇文章将是你的加速器。让我们一起探索Python的Autoscraper库，学习如何用它来简化网络数据抓取的过程。引言在信息爆炸的时代，能够快速从互联网上抓
第G1周：生成对抗网络（GAN）入门
本文为365天深度学习训练营原作者：K同学啊基础任务：1.了解什么是生成对抗网络2.生成对抗网络结构是怎么样的3.学习本文代码，并跑通代码进阶任务：调用训练好的模型生成新图像一、理论基础生成对抗网络（GenerativeAdversarialNetworks,GAN）是近年来深度学习领域的一个热点方向。GAN并不指代某一个具体的神经网络，而是指一类基于博弈思想而设计的神经网络。GAN由两个分别被称
如何学习才能更好地理解人工智能工程技术专业和其他信息技术专业的关联性？人工智能教学实践 python编程实践人工智能学习人工智能
要深入理解人工智能工程技术专业与其他信息技术专业的关联性，需要跳出单一专业的学习框架，通过“理论筑基-实践串联-跨学科整合”的路径构建系统性认知。以下是分阶段、可落地的学习方法：一、建立“专业关联”的理论认知框架绘制知识关联图谱操作方法：用XMind或Notion绘制思维导图，以AI为中心，辐射关联专业的核心技术节点。例如：AI（机器学习）├─数据支撑：大数据技术（Hadoop/Spark）+数据
最全面的MySQL数据库讲解，带你基础入门mysql mysql
数据库软件里面用的比较多的就MySQL了，对于企业还是个人开发者，或者是学生，都是很好的选择，下面为大家带来MySQL的学习教程，让大家快速入门MySQL数据库，学会安装配置MySQL，掌握MySQL基本知识，并轻松使用MySQL数据库。什么是数据库？数据库通常是一个或一组文件，保存了一些符合特定规格的数据，数据库对应的英语单词是DataBase，简称DB，数据库软件称为数据库管理系统（DBMS）
数据结构（Java）--位运算老虎0627 数据结构数据结构 java 开发语言
前言本文为本小白学习数据结构的笔记，将以算法题为导向，向大家更清晰的介绍数据结构相关知识（算法题都出自B站马士兵教育——左老师的课程，讲的很好，对于想入门刷题的人很有帮助）为什么要使用为位运算位运算直接对整数的二进制位进行操作，因为在计算机中数据都是以二进制存储的，因此它在许多场景下能够提供比传统算术和逻辑运算更高效、更简洁的解决方案。常见的几种位运算1.位与&十进制转二进制两个都为1则为1，否则
《python 数据分析从入门到精通》读书笔记｜了解数据分析｜数据分析基础知识
《python数据分析从入门到精通》读书笔记第一章：了解数据分析1.1什么是数据分析数据分析是利用数学、统计学理论与实践相结合的科学统计分析方法，对Excel数据、数据库中的数据、收集的大量数据、网页抓取的数据进行分析，从中提取有价值的信息并形成结论进行展示的过程。数据分析实际上是通过数据的规律来解决业务问题，以帮助实际工作中的管理者做出判断和决策。数据分析包括以下几个主要内容：（1）现状分析：分
【Python爬虫(65)】突破壁垒，深入挖掘：Python爬取行业报告网站全攻略奔跑吧邓邓子 Python爬虫 python 爬虫开发语言行业报告
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言二、攻克访问权限与加密机制2.1分析网站访问权限2.2应对
Python 快速入门 NoABug python 开发语言 Python
Python快速入门Python是一种简单易学、功能强大的编程语言。它拥有清晰的语法和丰富的标准库，使得开发者可以快速构建各种类型的应用程序。在本文中，我们将介绍Python的基础知识和一些常见的编程概念，并提供相应的源代码示例。安装Python首先，您需要安装Python解释器。您可以从官方网站https://www.python.org/downloads/↗下载适合您操作系统的Python版
Serverless 架构入门与实战：AWS Lambda、Azure Functions、Cloudflare Workers 对比 moppol serverless aws 云原生
一、引言：Serverless是未来，但你真的了解它吗？随着云计算的发展，“Serverless（无服务器）”这个词越来越多地出现在技术讨论中。很多人以为它是“不需要服务器”，其实不然——它意味着你不再需要关心底层服务器的配置、维护、扩容等繁琐操作。Serverless让开发者只需专注于代码本身，而将基础设施交给云服务商来管理。本文将带你从零开始了解Serverless的核心概念，并深入对比三大主
Python—快速入门 H.ZWei Python python 开发语言
文章目录简介变量声明控制语句条件控制语句循环语句集合ListDictSetTuple函数定义全局变量和局部变量类模块异常处理生成器简介Python作为一门解释型语言，在运行时逐行解释执行代码，无需编译成二进制文件，这一点和JavaScript类似。它属于弱类型语言，变量类型无需提前声明，赋予了代码极高的灵活性。正因这些特性，Python门槛较低，新手很容易上手。变量声明没有关键字修饰变量名，如下：
Ajax 入门凌冰_ JS ajax 前端 javascript
一、Ajax概念Ajax（AsynchronousJavaScriptandXML）是一种在不刷新整个页面的情况下，与服务器进行异步通信并更新部分网页的技术。尽管名称中包含“XML”，但现代Ajax更多使用JSON作为数据格式。二、核心概念异步通信：无需刷新整个页面，可在后台与服务器交换数据。核心技术：XMLHttpRequest（XHR）：原生JavaScriptAPI（旧版）FetchAPI：
3、PHP基础语法入门指南职场老油条170 PHP编程实战：从入门到精通 PHP 基础语法入门指南
PHP基础语法入门指南1.引言PHP作为一种广泛使用的开源服务器端脚本语言，因其简单易学和强大的功能，成为了许多开发者构建动态网站的首选。无论你是编程新手还是有一定经验的开发者，掌握PHP基础语法都是至关重要的一步。本文将带你了解PHP的基本语法，帮助你快速上手，为后续的学习和实践打下坚实的基础。2.PHP脚本的基本结构PHP脚本可以嵌入到HTML中，使得网页可以根据用户的输入或服务器的状态动态生
Python 操作 Redis 全指南：从入门到实战贾修行 python python redis bootstrap
Redis作为一款高性能的内存数据库，在缓存、会话存储、实时分析等场景中应用广泛。本文将详细介绍如何在Python中操作Redis，涵盖环境搭建、基础数据类型操作、高级功能及最佳实践，适合Redis初学者和Python开发者参考。一、环境准备1.安装Redis服务器Windows：从Redis官方仓库下载安装包，或使用WSL2安装Linux版本Linux：通过包管理器安装sudoaptinstal
diy nas配置推荐2020_从入门到高端！2020年11月组装电脑主机配置推荐+装机行情陈马登Morden diy nas配置推荐2020
目前显卡市场依然一卡难求的行情，直到11月份都没有得到缓解，反而显得越来越紧缺，从千元级到高端显卡全面紧张，包括英伟达新一代RTX30系列稀缺，从发布RTX3080开始，基本没有几个人原价到手，到手的价格基本都是溢价比较高的，现阶段一块显卡溢价达到大概近两千元，不过旗舰级RTX3090很快打破了这个局面，货源与价格几乎回归正常，这可能是因为价格真的贵需求量小的问题，但实际也没比RTX3090性能高
如何短时间内学会软件测试，从事软件测试工作？
计算机专业背景学习软件测试并找到工作是一条相对清晰的路径，以下是系统化的学习规划和求职建议：一、明确学习方向（选对赛道）软件测试分为多个方向，建议根据兴趣和市场需求选择：功能测试：适合入门，掌握测试基础理论和流程（薪资6-10k）。自动化测试：需求量大，需掌握Python/Java、Selenium/Appium等工具（薪资10-15k）。性能测试：技术门槛较高，需学习JMeter、LoadRun
网安系列【1】：黑客思维、技术与案例解析缘友一世网络安全网络安全 web安全安全架构安全
文章目录黑客世界入门指南：思维、技术与案例解析一黑客思维：从木桶原理开始理解安全二、黑客的多元身份：破坏者与创造者三、从案例学习：手机操控电脑的技术解析技术原理攻击步骤分解防御措施黑客能力等级体系四、黑客技术学习路径1.基础知识储备2.安全工具入门3.合法练习环境五、道德与法律：黑客的底线六、黑客思维的日常应用结语黑客世界入门指南：思维、技术与案例解析一黑客思维：从木桶原理开始理解安全想象一个由多
【求余的妙用：从奇偶判断到编程魔法】￥-oriented 算法开发语言经验分享
在数学的浩瀚星空中，求余运算如同一颗低调却闪耀的星辰，它看似简单，实则蕴含着无尽的能量，在编程与算法的世界里有着广泛而奇妙的用途。其中，判断奇偶数便是求余运算最基础且直观的应用。判断奇偶数：入门级的智慧判断一个数是奇数还是偶数，是我们在学习数学和编程初期常常会遇到的简单问题。传统的方法或许是通过不断除以2看是否能整除，但求余运算为我们提供了一个更为简洁高效的解决方案。当我们对一个整数进行求余运算，
PYTHON从入门到实践11-控制台实现商品管理系统
**********************************************************************输入序号代表你要做的操作：1.查询所有商品2.增加商品3.修改商品4.删除商品5.退出系统2请输入增加商品信息：XXXXXX(示例：香蕉5元)鸡蛋1元恭喜，添加新商品成功*********************************************
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&