Spark on yarn

Spark-Core(二) - LogApp日志数据的解析&&Spark的运行架构

一、Spark-Core基础篇回顾

二、Spark如何进行大数据的逻辑处理

2.1、入门代码遇到的一个简单错误
2.2、求得买个域名下的流量之和
2.3、每个省份访问次数的TopN（生产上边界值的处理）

三、Spark的运行架构（重要指数五颗星）

3.1 总结
3.2 Cluster Mode Overview

一、Spark-Core基础篇回顾

1、为什么选择Spark？

Fast：10倍于disk磁盘、100倍于memory内存
Easy code：编码容易、交互式的命令行interactive shell
Unified Stack：不管是批处理、流处理、机器学习、图计算都okay
Deployment：local、standalone、yarn、k8s
Multi Language：支持多语言的：Java、Scala、Python、R

2、RDD的两种创建方式：
textFile：local（本地）、只要是兼容hdfs的都可以
Parallelize：仅适用于本地测试

3、Transformation：
特点：Lazy延迟执行，写一堆代码并不会马上执行

4、Action算子
return a value to Driver（返回结果到Driver）

典型的Action算子：

collect、reduce、count、take

二、Spark进行大数据的逻辑处理-日志解析App的开发

2.1、开发Spark代码遇到的典型错误

IDEA下的一个常见错误： A master URL must be set in your configuration；有人不经会问，我在sparkConf中不是已经设置了AppName和Master么；

查看SparkContext的源码：
def this() = this(new SparkConf()) //在未传入参数时，它会new一个SparkConf，使得我们原先定义的sparkConf失效：

1、点击val sc = new SparkContext()中的SparkContext中去：
  /**
   * Create a SparkContext that loads settings from system properties (for instance, when
   * launching with ./bin/spark-submit).
   */
  def this() = this(new SparkConf())

2、再点击这个SparkConf中去：
  /** Create a SparkConf that loads defaults from system properties and the classpath */
  def this() = this(true)

//此处又创建了一个SparkConf使得我们的原先new出来sparkConf不生效了：所以需要把sparkConf传值传进去。

3、如下代码就会出现报错：
import org.apache.spark.{SparkConf,SparkContext}

object TestApp {
  def main(args: Array[String]): Unit = {
      val sparkConf = new SparkConf().setAppName("TestApp").setMaster("local[2]")
      val sc = new SparkContext()

    sc.parallelize(List(1,2,3,4,5,6,7,8)).foreach(println)
      sc.stop()
  }
}

4、在3的基础上把SparkConf传值传进去即可：
val sparkConf = new SparkConf().setAppName("TestApp").setMaster("yarn")
val sc = new SparkContext(sparkConf)

2.2、求每个域名下的流量之和

数据来源：自行准备的日志
主要字段：traffic（流量位于第20个字段）、domain（域名位于第11个字段）
需求分析：按照域名进行分组，然后组内求流量之和
求和：主要使用reduceByKey算子

第一次编码：

import org.apache.spark.{SparkConf,SparkContext}

object LogApp {
    def main(args: Array[String]): Unit = {
      val sparkConf = new SparkConf().setAppName("LogApp").setMaster("local[2]")
      val sc = new SparkContext(sparkConf)

      val lines = sc.textFile("file:///d:/baidu.log")

      val result  = lines.map( x => {
        val splits = x.split("\t")
        val domain = splits(10)
        val traffic = splits(19)
        (domain,traffic)
      }).reduceByKey(_+_).take(10).foreach(println)

      sc.stop()
    }

第二次编码：

对于打进来的日志：不要默认它就是正确的，虽然说日志中的每个字段的含义及分隔符是什么都是实现定义好的，但是我们不能保证前段采集的日志或者nginx打的日志就是正确的？
对于这些有问题的脏数据，我们应该怎么处理？

改代码：以增强代码的健壮性

从打进来的字符长度进行判断，是不是分隔符分割完后就是72个字符长度，是的话就没问题了：

import org.apache.spark.{SparkConf,SparkContext}

object LogApp {
    def main(args: Array[String]): Unit = {
      val sparkConf = new SparkConf().setAppName("LogApp").setMaster("local[2]")
      val sc = new SparkContext(sparkConf)

      val lines = sc.textFile("file:///d:/baidu.log")

      val result  = lines.map( x => {
        val splits = x.split("\t")
        if (splits.length == 72) {
          val domain = splits(10)
          val traffic = splits(19).toLong
          (domain, traffic)
        } else {
          ("null",0L)
        }
      }).reduceByKey(_+_).take(10).foreach(println)

      sc.stop()
    }

}

第三次修改：

万一打进来的这两个字段不是string类型和long类型，是别的类型，那这段代码是不是就会报错了：所以需要try catch一下：

import org.apache.spark.{SparkConf,SparkContext}

object LogApp {
    def main(args: Array[String]): Unit = {
      val sparkConf = new SparkConf().setAppName("LogApp").setMaster("local[2]")
      val sc = new SparkContext(sparkConf)

     var lines = sc.textFile("file:///d:/baidu.log")

      val result = lines.map( x => {
        val splits = x.split("\t")
        var traffic = 0L

        if (splits.length == 72){
          val domain = splits(10)
          
          try{
           traffic = splits(19).toLong
          } catch {
            case e:Exception => 0L
          }
          (domain,traffic)
        } else
          {
            ("null",0L)
          }
      }).reduceByKey(_+_).take(10).foreach(println)

      sc.stop()
    }

}

catch中不写case e:Exception =>0L，这个traffic还是0；此时的代码才显的稍稍有些健壮性可言。

2.3、求每个省份下访问次数的TopN

数据准备：

1、如下这样的一份数据，第一列数据可能是单独的ip或者ip:port，第二列是访问用户，第三列可有可无用来测试：
121.228.247.192:3306	john
121.28.247.191	sail
121.228.247.192	john
121.28.247.191:80	sail
121.228.247.192	john
121.28.247.191:954	sail
121.228.247.192	john
121.28.247.191	sail
121.28.247.191	ron	白领

2.3.1、引入纯真库解析

引入纯真IP库进行解析，参考博客：https://blog.csdn.net/adayan_2015/article/details/88580988

1、进入如下的github网址下载项目：

https://github.com/wzhe06/ipdatabase

2、项目下载到本地，进入cmd控制台对这个项目进行编译打jar包，需要进入到ipdatabase这个目录下面；

mvn clean package -DskipTests=true

3、cmd下执行命令，将这个jar包上传到本地maven仓库上去：

mvn install:install-file -Dfile:C:\Users\Administrator\Desktop\ipdatabase-master\ipdatabase-master\target\ipdatabase-1.0-SNAPSHOT.jar	\
-DgroupId=com.ggstar \
-DartifactId=ipdatabase \
-Dversion=1.0 \
-Dpackaging=jar

去到maven的仓库目录下就能看见这个包已经被打了进去，下次可以直接使用，命令解析：
-Dfile	后面跟着的是打包编译后jar包位置所在的全路径
-DgroupId	后面跟着的是包的名称
-DartifactId 项目的名称
-Dversion	版本名字

4、此时在Spark项目中引入依赖：

<dependency>
      <groupId>com.ggstar</groupId>
      <artifactId>ipdatabase</artifactId>
      <version>1.0</version>
    </dependency>

    <dependency>
      <groupId>org.apache.poi</groupId>
      <artifactId>poi-ooxml</artifactId>
      <version>3.14</version>
    </dependency>

5、需要新建一个resources目录，把源代码中国的两个文件"ipDatabase.csv"和"ipRegion.xlsx"复制到resources目录下；并且在project structure中把这个目录设置为资源文件（file --> Project Structure --> Modules）：

2.3.2、编写测试代码

1、使用别人写好的工具测试一个基础的可以解析出省份：

import com.ggstar.util.ip.IpHelper

object ParseIpApp {
    def main(args: Array[String]):Unit = {
      println(getCity("112.80.63.242"))
  }
    def getCity(ip:String) = {
      IpHelper.findRegionByIp(ip)
    }

}

2、用来判断字符长度是否等于2，等于2进行读取解析，字符长度大于2的默认是脏数据，不进行读取；

import com.ggstar.util.ip.IpHelper
import org.apache.spark.{SparkConf,SparkContext}

object ParseIpApp {
    def main(args: Array[String]):Unit = {

      val sparkConf = new SparkConf().setAppName("ParseIpTest").setMaster("local[2]")
      val sc = new SparkContext(sparkConf)

      val lines = sc.textFile("file:///D:/iptest.log")

      val result = lines.map( x => {
        val splits = x.split("\t")

        if (splits.length == 2) {
        val ip = splits(0)
        val province = IpHelper.findRegionByIp(ip)
        (province, 1)
      } else {
        ("null",1)
      }
      }).reduceByKey(_+_).take(5).foreach(println)

      sc.stop()
  }

}

//输出结果：
(鏈煡,3)
(null,1)
(江苏省,3)
(河北省,2)

3、在2的基础上进行修改，因为输入的第一个字段可能是ip也有可能是ip:port的形式，所以还需要对第一个字段进行解析：

package com.ruozedata.bigdata.SparkCore02

import com.ggstar.util.ip.IpHelper
import org.apache.spark.{SparkConf,SparkContext}

object ParseIpApp {
    def main(args: Array[String]):Unit = {

      val sparkConf = new SparkConf().setAppName("ParseIpTest").setMaster("local[2]")
      val sc = new SparkContext(sparkConf)
		
		//读取文件
      val lines = sc.textFile("file:///D:/iptest.log")
		
		
      val result = lines.map( x => {
      //tab键进行分割
        val splits = x.split("\t")
        var ip = ""
		
		//对长度做判断，对于长度不等于2的默认是脏数据，不进行操作
        if (splits.length == 2) {
        //文件中第一个字段是ip字段，但是采集过来的数据有些是纯IP，有些是ip:port
        val args0 = splits(0)
        //对第一列使用:进行分割
          val serverport = args0.split(":")
		//判断serverport拆分后的字符长度是几个，如果是长度为2，则取前面的ip部分；长度不为2，ip就等于它本身；
          if (serverport.length == 2){
            ip = serverport(0)
          } else {
            ip = args0
          }
		
		//定义省份，使用ipdatabase库中的findRegionByIp方法
        val province = IpHelper.findRegionByIp(ip)
        (province, 1)
        //这边的(province,1)解析出省份赋上1个1，做reduceByKey操作；下面的else对应的是总长度，总长度不为2的数据，key字段赋值"null"，value字段赋值1
      } else {
        ("null",1)
      }
      }).reduceByKey(_+_).take(5).foreach(println)

      sc.stop()
  }


}

//运行出的结果：
(null,1)
(江苏省,4)
(河北省,4)

如何进行降序排序：
.reduceByKey(_+_).sortBy(_._2,false).take(10).foreach(println)

//sortBy源码的定义：
  /**
   * Return this RDD sorted by the given key function.
   */
  def sortBy[K](
      f: (T) => K,
      ascending: Boolean = true,
      numPartitions: Int = this.partitions.length)
      (implicit ord: Ordering[K], ctag: ClassTag[K]): RDD[T] = withScope {
    this.keyBy[K](f)
        .sortByKey(ascending, numPartitions)
        .values
  }

如上代码的作用：
1、需求的拆分，架构怎么设计合理，这些代码写出来一点意义都没有
2、仅仅了解到Spark是如何处理业务场景的；
3、掌握生产上边界值的处理 -->能够使得代码的健壮性有保障

三、Spark的运行架构（重要指数五颗星）

官网地址：http://spark.apache.org/docs/latest/cluster-overview.html

Spark Application：a driver program + executors on the cluster
Application jar：

IDEA --> Maven Project --> Lifecycle --> package --> Run Maven Build；这个生成出来可以在服务器上跑的包就叫Application jar

Driver Program：

The process running the main() function of the application and create the SparkContext
这是一个进程运行比如LogApp中的main方法，并且创建了一个SparkContext

Cluster Manager：集群管理器

An external service for acquiring resources on the cluster(eg: standalone manager，Mesos，YARN)
代码都是一样的，通过cluster manager这个服务去申请资源跑在不同的平台上

Deploy mode：部署模式
用来区分Driver跑在什么地方；
–deploy-mode DEPLOY_MODE Whether to launch the driver program locally (“client”) or
on one of the worker machines inside the cluster (“cluster”)
(Default: client).

client：driver run local
cluster：driver run cluster

Worker node：any node that can run application node in the cluster.
运行executor进程的，对于yarn来说就是在NodeManager上运行一个Container
Executor：
a process launched for an application on a worker node,(一个应用程序的进程)
that runs tasks and keeps data in memory or a disk storage across them（把数据放在内存或磁盘上面存储，每一个executor可以跑多个tasks）
Each application has its own executors ：每一个应用程序有他自己的executors
如下图所示：NodeManager上跑container，Application和App虽然是跑在一个NodeManager上的，上面三个和下面三个是相互独立的。
Task：A Unit of work that will be sent to one executor
每一个executor中运行多个task
Job：
只要spark遇到一个action就是一个job
stage
Stage： Each job gets divided into smaller sets of tasks called stages that depend on each other (similar to the map and reduce stages in MapReduce); you will see this term used in Driver’s logs

图片解析：
一个application应用程序跑在yarn上的3个executor上；另外一个application跑在另外3个executor上，虽然2个application的executor是运行在相同的NodeManager上，但是它们是独立的，不起冲突。

Components

Spark应用程序是一组独立的进程在集群上的：有一个Driver和多个executor，通过SparkContext对象在你的主程序中，也叫作Driver Program

为了让你的作业能够运行到集群上，SparkContext需要通过Cluster Manager去到集群上申请资源，CM去申请资源，此时就会启动Executor在集群上运行；executor是一=一堆进程去运行我们的计算和存储我们的数据；Driver Program会发送你的应用程序代码到executor上去；最终SparkContext会发送task去到executor上去。

关于这个架构有一些需要注意的东西

1、每一个应用程序都有多个独立的进程

不管是从调度层面还是资源隔离层面，都是okay的；但是这并不意味着数据能够跨Spark应用程序共享，因为每一个Spark应用程序都有独立的多个executor；除非把多个共享的应用程序写到外部存储中去 --> 引申出了新的框架alluxio框架（分布式内存的存储框架）

2、Spark不关心底层的集群管理：
Spark is agnotic to the underlying cluster manager（底层的集群管理）
如何理解：代码都是一样的，可以跑在不同的地方，只是一个参数设置的问题：setMaster；一旦Spark拿到执行进程，进程之间就会进行通信；Spark运行在集群上相对容易，它也能运行在Mesos、Yarn上。

3、Driver和executor网路一定要通：

driver program必须要监听和接收一些连接从它的executors，网络一定要通

4、Driver调度作业要尽可能的靠近NodeManager

Driver是在集群上调度作业的，driver应该尽可能的运行在相近的工作节点，尽可能让他们运行在相同区域的本地网络.
如果你想要发送一些请求到远端集群，最好使用RPC的方式发送

总结：

1、每一个应用程序都有其独立的进程
2、Spark不关心底层的集群管理
3、Driver 和executor的网络一定要通
4、driver调度作业要尽可能靠近NodeManager

西滢筱趣味测试：近期桃花会出现在哪里？西滢筱
趣味测试，仅供娱乐参考用哟~请默念这个问题，随机截图，下拉看答案哟~权杖骑士近期如果想要桃花的话，更需要自己主动去积极参加社交活动，或者对心意的TA，多主动聊聊天增加些接触的机会，会增加桃花运势也许会有不错的发展哒~隐士近期的桃花更容易是通过学习或者参加培训等方式认识的，比如同学、或者一起参加补习班或培训班的伙伴们，职业培训的同学，或者在图书馆等适合学习的场所认识到的~星币国王近期的桃花更容易是通
我为什么允许学生带零食梦在燃烧_06ae
高年级的学生一般不会带零食到教室，偶尔有捎带的，也是自己偷偷摸摸吃，哪敢与老师分享？但是在我所教的二年级学生的书包里，零食几乎是另一类“文具”。在这里我要声明一下，学校是不允许学生带零食进校园的，但是我在带他们一年级时，考虑学生到校早早饭可能吃不好，半晌就会感到饥饿这个问题。于是我就允许我班的孩子带食品到学校，在大课间的时候补充一下能量。不过，我对孩子们进行了如下的食品安全教育：1.不吃垃圾食品和
每周复盘 2019年 2.4.---2.10 简书时间煮雨
感悟:再难也要坚持，慢慢找思路，写着写着就顺了！学习:1.死磕！终于完成第二次作业上交，难度四个字一一吭吭哧哧！2.听有书共读《行为设计学一一零成本改变》。3.手勤，眼要勤。及时记录稍纵即逝的灵感，抓住它，更文2篇。不管好坏，在写得过程中锻炼自己。工作:过年待班两天，也没有发生年前担心的那么多事。所以说，焦虑和恐惧只是因为自己的内心还不够强大。休闲与放松:图片发自App1.观影两场:《飞驰人生》和
【项目实战】在 Python 中，可以通过 `subprocess` 模块调用系统的压缩程序（如 7-Zip 或系统自带的zip命令）来实现文件或文件夹的压缩。本本本添哥 011 -Python python 7-zip 开发语言
在Python中，可以通过subprocess模块调用系统的压缩程序（如7-Zip或系统自带的zip命令）来实现文件或文件夹的压缩。通过subprocess调用系统压缩工具（如7-Zip）是最灵活的方式，支持多线程、密码保护和多种压缩格式。需注意路径配置和参数的正确性，并通过异常处理提升代码健壮性。对于轻量需求，可优先考虑zipfile或py7zr等库。以下是详细的实现方法和注意事项：1.使用7-
RAG实战指南 Day 21：检索前处理与查询重写技术在未来等你 RAG实战指南 RAG 检索增强生成查询优化信息检索 NLP 大语言模型应用
【RAG实战指南Day21】检索前处理与查询重写技术开篇欢迎来到"RAG实战指南"系列的第21天！今天我们将深入探讨RAG系统中检索前处理与查询重写技术的核心原理和实现方法。在构建高质量RAG系统时，原始用户查询往往不够精确或完整，直接用于检索可能导致效果不佳。查询预处理和重写技术能够显著提升检索质量，是构建生产级RAG系统的关键环节。通过本篇文章，您将掌握：查询预处理的核心技术和方法查询扩展和重
2023-06-15 胡喜平
上午四节课，完成太空一日和带上她的眼。闹了个笑话，我说2003年10月16日，应该铭记，当时你们是不是也守在电视机前呢？他们说：老师，我们还没出生呢。哎呀，原来首飞已经二十年啦。下午批完两个班的基础卷。今天没有读书，听徐飞老师点评了我的阅读设计。
Eureka 为大数据领域服务治理带来的新思路大数据洞察大数据AI应用大数据与AI人工智能 eureka 大数据云原生 ai
Eureka为大数据领域服务治理带来的新思路关键词：Eureka，大数据，服务治理，分布式系统，微服务摘要：本文深入探讨了Eureka为大数据领域服务治理带来的新思路。首先介绍了大数据领域服务治理的背景和现状，阐述了Eureka的核心概念与工作原理。接着详细分析了Eureka核心算法原理，结合Python代码进行说明，并给出相关数学模型和公式。通过项目实战案例，展示了Eureka在大数据服务治理中
Python爬虫技术：高效采集开放数据的5种方法大数据洞察 python 爬虫 wpf ai
Python爬虫技术：高效采集开放数据的5种方法关键词：Python爬虫、开放数据采集、请求库、异步爬虫、分布式爬虫、动态网页解析、API直连摘要：本文围绕“如何用Python高效采集开放数据”展开，系统讲解5种主流爬虫方法（基础请求库、异步请求、动态网页渲染、分布式爬虫、API直连）的原理、适用场景与实战技巧。通过生活类比、代码示例和真实案例，帮助读者快速掌握不同场景下的爬虫策略，同时强调数据合
易效能一阶 G188期的90天践行正式开始任旻
G188期是我参加第二次复训的班级，第一次参加的是G151，2017年的三八节在成都开启了真正的易效能系统的学习和践行。第一次复训是G169重庆班，这次也是重庆班，与前两次有很多不同的地方:1.强大的教练团队支持，有每年读书300本的教练带班，有全球工具使用最牛的教练，有易效能系统的学习部部长带教练团队的教练等等。全班来了二三十位教练。2.课程内容的升级，两天全是满满干活，get到不少的新知识，在
全面指南：如何监控Kafka Topic的生产者客户端码农阿豪@新空间包罗万象 kafka 分布式
个人名片作者简介：java领域优质创作者个人主页：码农阿豪工作室：新空间代码工作室（提供各种软件服务)个人邮箱：[[email protected]]个人微信：15279484656个人导航网站：www.forff.top座右铭：总有人要赢。为什么不能是我呢？专栏导航：码农阿豪系列专栏导航面试专栏：收集了java相关高频面试题，面试实战总结️Spring5系列专栏：整理了Spring5重要知识点与
新能源汽车大数据画像：从零到一实现K-means用户分群新能源汽车研发＆测试入门指南学习笔记新星杯+王者杯汽车大数据 kmeans
基于大数据分析的新能源汽车画像研究全攻略：从原理到实战前言在"软件定义汽车"的时代浪潮下，新能源汽车正经历着从交通工具向智能移动终端的进化。本文将带你深入探索如何通过大数据技术构建精准的用户与产品画像，揭秘车企数字化转型的核心技术。全文涵盖完整的技术链路和实战案例，助你快速掌握这一前沿领域。关键词：新能源汽车；用户画像挖掘；大数据分析；K-means聚类目录一、大数据分析技术基石二、新能源汽车画像
OpenAI模型可解释性工具：理解AI的黑箱 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能百度 ai
OpenAI模型可解释性工具：理解AI的黑箱关键词：OpenAI模型、可解释性工具、AI黑箱、模型理解、人工智能摘要：本文旨在深入探讨OpenAI模型可解释性工具，帮助大家理解AI这个“黑箱”。首先介绍了研究的背景、目的和预期读者，接着解释了核心概念，包括OpenAI模型、可解释性工具等，阐述了它们之间的关系。通过核心算法原理、数学模型和公式的讲解，让大家明白其内在机制。还给出了项目实战案例，包括
写作不能变现，还要坚持下去吗？随风的种子
我看过身边有太多人，以为写作能轻松月入过万，便报了写作培训班，一头扎进了写作大军。可是，他们写了一段时间后，发现根本不是那么一回事儿，要想通过写作变现实在太难，于是很多人便匆匆放弃了。“二八定律”在写作这个领域同样适用，即20%的人赚取80%的利润，尤其在数字化如火如荼的当下，两极分化的趋势更加明显，人们往往只关注一些大号的文章。可是，总会有少数人，他们在知道写作变现的真相后，依旧愿意在写作之路上
网络爬虫进阶 rooney2024 爬虫
目录一、进阶爬虫的核心挑战二、关键技术与最佳实践三、实战案例：爬取动态电商价格（伪代码示例）四、持续学习路径结语一、进阶爬虫的核心挑战动态渲染页面(JavaScript/AJAX)问题：数据由JavaScript动态加载生成，初始HTML中不存在。解决方案：浏览器自动化工具：Selenium,Playwright,Puppeteer。模拟真实浏览器行为，等待JS执行并渲染出完整DOM后再解析。无头
网络爬虫再深入——对抗指纹检测、分布式架构与智能解析实战 rooney2024 爬虫
目录一、深入反爬：浏览器指纹检测与对抗（配图1）1.高级指纹检测原理2.对抗方案与实战二、分布式爬虫架构深度设计（配图2）1.容错与弹性设计2.智能限流算法三、智能解析：LLM与计算机视觉的融合（配图3）1.LLM解析非结构化文本2.视觉辅助定位元素四、法律与伦理：爬虫工程师的自我修养1.关键法律边界2.道德实践框架五、未来战场：Web3.0时代的爬虫技术演进1.去中心化网络挑战2.AI驱动的自适
孩子对不起！生活已然太重，我再也抱你不动猫San
创作；猫三2018-07-1501上个月，我到医院陪住院的外公。同病房的，是一个50多岁的叔叔，突发性脑溢血。他的女儿每天六七点下了班，就匆匆忙忙赶过来，给爸爸喂饭、喂药、擦身。外公问她，你爸爸还这么年轻，怎么搞得这么严重？女孩摇摇头：“我爸喝酒太多，把人彻底喝垮了。”我问：“叔叔怎么会喝那么多酒？”她无奈地笑笑，说：“应酬呗，挡不住，我爸是做经销商的，一招待那些客户，想不喝都没办法，看见大单子就
uvx.exe 跨环境 Python 工具执行器的原理与实战指南
在Windows安装uv时，系统会同时生成一个可执行文件uvx.exe。它并不是新的打包管理器，而是uvtoolrun命令的便捷别名：调用uvx.exe就能在瞬间解析依赖、构建隔离虚拟环境并执行来自Python生态的任意命令行工具，完成过程无需事先创建venv，也不会污染当前项目。官方文档把这种体验类比为npx或pipx的一次性执行，但uvx速度更快、磁盘开销更小，更能契合CI/CD流水线、临时脚
《度五行》生活报报甲午122：心里有火+脑子有货+执行有力等于梦想照进现实的生活自由美好 YangduSam2021
221008壬寅庚戌甲午，20221008，周六，兴大上海六班2572天，西交大2013上海班3272天，后TA15392天，度生活682天，《度.生活五行》:天干金生水，金克木，水生木。地支寅午戌三合火局。真正意义的进入第四季！每一年的第四季度的第一个工作日，头部两侧太阳穴部位会莫名开始隐隐作痛，眼皮会不由自主的跳动，第四季度后半部就会发展出眼睛干涩与耳鸣阵痛等症状。随着工作资历越老、职位越高症
加入007我失去了什么践侠客
2018年7月8日，L1组编号8号，日精进第101天（文/胡鼎峰）我们124班虽然是刚刚才组队成功，但是我们并没有像很多班级一样让大家自愿参与交作业，而是很快地就组建好了班级的值月团队，并且非常好地让大家完成了第一次作业雨，做到了零未交。反观母班74班，可以说情况不太好，又有好几位战友提出要出局，甚至里面有之前当过志愿者的战友。我很想跟他们再沟通一次，但是却不知从何说起。昨天，有人在群里发起了加入
【新疆棉】鼎典书画娜娜老师
鼎典书画|新疆棉一【班级】绘声绘色班二【代课老师】娜娜老师三【年龄阶段】一二年级四【课程主题】《新疆棉》五【完成课时】《一节课》六【课程准备】卡纸，画笔，棉花等材料七【课程重、难点】重点:棉花的造型，树枝交叉的遮挡难点:构图和棉花多少的掌握八［课程步骤］1.引导：通过谜语去导入，引导孩子来猜这个花的名称，询问孩子是否见过？引出我们的主题-棉花。2.过程：带领孩子去了解棉花的生长习性，棉花的大小特点
Python自动化神器：Pyautogui库实战指南码界奇点 Python python 自动化开发语言 python3.11 ui
欢迎莅临我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。持续学习，不断总结，共同进步，为了踏实，做好当下事儿~非常期待和您一起在这个小小的网络世界里共同探索、学习和成长。✨✨欢迎订阅本专栏✨✨TheStart点点关注，收藏不迷路文章目录1.PyAutoGUI简介1.1什么是PyAutoGUI？1.2安装
【学术会议投稿】Vue.js组件开发实战：从零构建高效可复用组件小周不想卷艾思科蓝学术会议投稿 vue.js
【IEEE出版|会后3-4个月EI检索】第三届云计算、大数据应用与软件工程国际学术会议(CBASE2024）_艾思科蓝_学术一站式服务平台更多学术会议请看：https://ais.cn/u/nuyAF3目录引言一、Vue.js组件开发基础二、构建高效可复用组件三、Vue.js组件的高级特性四、Vue.js的优点与缺点Vue.js的优点Vue.js的缺点引言在现代前端开发中，Vue.js凭借其简洁的
Java并发必知必会：核心概念深度梳理与实战要点（二）码不停蹄的玄黓 java spring boot spring cloud spring jvm
1.Java中的synchronized关键字深度解析synchronized是Java并发编程中最核心的同步机制，通过内置锁实现线程安全。它在解决数据竞争、内存可见性和操作原子性问题上是不可或缺的。以下从七个维度全面剖析：1.1底层实现原理：监视器锁（Monitor）1.1.1对象头关联每个Java对象内置一个Monitor监视器锁（存储于对象头的MarkWord中）//使用jol-core查看
儿童英语学习随笔随风猪
下笔写这篇文章时，儿子已经入学英孚英语班一周年，一年前，自己在各个英语教育机构之间，带着孩子多方试课，现如今，回想起来有点过度关注了，其实就是一个学习第二种语言的培训机构，非要区分好坏，可能就像选择普通话和方言一样，哪个血统更纯正而已，选择英孚，选择的就是它的英文外教，当时的想法是，中国人说汉语总比歪果仁说汉语强吧，反过来也是一样的道理。从初开始的各种担忧，到孩子慢慢的感兴趣，我始终坚信要想干好任
React Native Android全栈开发：如何构建企业级应用 AI天才研究院 AI人工智能与大数据 react native android react.js ai
ReactNativeAndroid全栈开发：如何构建企业级应用关键词：ReactNative、Android集成、企业级应用、跨平台开发、性能优化摘要：本文从企业级应用开发的实际需求出发，结合ReactNative（以下简称RN）与Android的技术特性，系统讲解如何从0到1构建高可用、易维护的跨平台移动应用。内容涵盖核心概念解析、Android端集成技巧、企业级架构设计、性能优化实战及未来趋
2019-01-26复盘亦大日尧
期待已久的DISC社群组织的“职业生涯发展专家”赵昂老师新开发的版权课《洞见生涯》职场游戏引导师授权认证课，今天终于开班了。这也是我第一次参加包班课，为了这次包班，我推进了加入DISC社群的进程。很早就知道这个社群，也一直都关注着，心里想着，加入这个社群是迟早的事。但一直都没有想会这么快，本来以为最起码还得等个半年左右吧，因为最近参加各种培训班也很多，支出也很大，想缓冲一下的，但是为了把握住第0期
Pinia 实战指南：Vue 3 状态管理的高效之道做人不能太高调 vue.js 前端 javascript
1.给我来个系统学习Pinia的大纲学习Pinia作为Vue.js的状态管理库，可以按照以下大纲来系统地进行学习：1.Pinia入门Pinia简介什么是Pinia？Pinia是Vue3的官方状态管理库，是对Vuex的继承和改进。它通过提供更简洁和灵活的API，使得在Vue应用中管理全局状态变得更加容易。Pinia是专为Vue3设计的，基于CompositionAPI，允许开发者以更加模块化和简洁的
2023-06-08六月第四次复盘暖暖de严严
中原焦点团队第33期中级班学员坚持分享第475天总约练136次来访者95观察员37咨询师4复盘日期：2023年6月8日复盘次数：6月第四次场景1：昨晚上回家，公公做饭，我就打扫一下卫生。听到先生在跟别人通电话，说吃完饭之后约了打球。我一听心里就不舒服了事件对话1：我：***，你是不是觉得家里对你来说没有什么吸引力，所以你宁愿出去打球，玩，也不愿意在家啊？先生：没有啊我：那你为什么喜欢出去呢？先生：
她家暴德普，巨富马斯克含泪被甩！这个美国版“马蓉”有剧毒！不靠谱的球
今天要给大家介绍一位剧毒美人，拥有核弹级的杀伤力。男人一旦被她迷住，必定被杀个片甲不留。有人说她是美国版“马蓉”，本尊不用发话，各大时尚媒体就会叉起腰来打架，马蓉和她比，门都找不着。但之所以要捎带上马蓉，因为她也有一场遮天蔽日的离婚大战，不仅让天神级的老公跌下神坛，还让自己的阶层做天梯跃升，从18线女配摇身变成大女主。老公是金炮灰，自己裹着这层金粉，转身位列神班。这女人叫AmberHeard，19
贯彻新发展理念，主动担当作为姜娇
1月11日至1月14日，省部级主要领导干部学习贯彻党的十九届五中全会精神专题研讨班在中央党校举行。习近平总书记在开班式上发表重要讲话，深入分析了我国进入新发展阶段的理论依据、历史依据、现实依据，精辟阐述了深入贯彻新发展理念的新要求，深刻阐明了加快构建新发展格局的主攻方向，在全面建设社会主义现代化国家开启之年的关键节点，为“关键少数”上了关键一课。着眼两个大局，明确历史方位，锚定坐标再认识。习近平总
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它

Spark-Core(二) - LogApp日志数据的解析&&Spark的运行架构

一、Spark-Core基础篇回顾

二、Spark进行大数据的逻辑处理-日志解析App的开发

2.1、开发Spark代码遇到的典型错误

2.2、求每个域名下的流量之和

第一次编码：

第二次编码：

第三次修改：

2.3、求每个省份下访问次数的TopN

2.3.1、引入纯真库解析

引入纯真IP库进行解析，参考博客：https://blog.csdn.net/adayan_2015/article/details/88580988

2.3.2、编写测试代码

三、Spark的运行架构（重要指数五颗星）

Components

关于这个架构有一些需要注意的东西

总结：

你可能感兴趣的:(Spark-Core实战班)