治愈爱吃肉

Spark工作总结（干货篇）

Spark学习总结

文章目录

Spark学习总结
- 什么是大数据
- Spark介绍及特点
- Spark架构及重要角色
- Spark程序启动流程
- 基础篇
- - `Dataset`和`DataFrame`
  - 广播变量
  - 累加器
- 算子篇
- - 转化算子，行动算子，持久化算子的区别
  - 非shuffle类算子
  - shuffle类算子
  - - `sortby`和`sortbykey`
    - `groupByKey`和`reduceByKey`
- 扩展篇
- - 广播变量特性是不能修改
  - 分组取`topN` 的最优方案
  - 当发现申请Executor个数与实际不符时
  - Spark Streaming实现精准一次性消费
  - Spark Streaming与Kafka对应关系
  - Spark Lens使用
  - SparkSql解决小文件问题
  - Receiver和Direct模式区别
  - Transent使用小结

什么是大数据

大数据（big data），IT行业术语，是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

总而言之就是原先一台电脑无法处理的文件(因为数据量太大了)，这时候我多加几台机器，原先一台电脑的算力无法计算数据，现在我加几台机器同时计算这份数据，是不是就能把这份数据给处理了，换个白话文，假如4G内存无法算清8G数据，这时候我用两台4G内存的计算机是不是就可以算完8g数据(mapreduce)，再或者我有16G的数据，物理磁盘只有4G 这时候我是不是可以用4台计算机平摊存储这16G的数据(hdfs)，每个机器的4g内存计算 4g 物理数据，我是不是可以让这台机器先算2G数据再算2G数据，但是我又想人为的控制可能不太友好，所有我用了yarn，让YARN对我的数据计算进行合理分配资源

Spark介绍及特点

Spark是一种主要基于内存的计算的并行计算框架，提到Spark我们不得不想到另外的计算框架:MapReduce，Spark的出现解决了MapReduce很多痛点(不知道为啥所有组件都喜欢和MapReduce对比)

MapReduce

只能做离线计算
编程API不够灵活，只能在map方法和reduce自己实现逻辑
复杂计算逻辑，一个MR无法完成，需要多个MR按先后顺序串联
Shuffle时数据落本地磁盘
多个MR就要频繁Shuffle，频繁读写HDFS，效率低

Spark

比MapReduce快几倍甚至100倍
高度封装的Api，支持多种编程语言(java, scala, python)
- 读取Hdfs
- 读取关系型数据库
- 读取Hbase
- 读取Es和Mongodb等
运行灵活，拥有多种运行模式
- StandAlone模式：自带的集群模式
- Yarn：通用调度框架
- Local模式：方便开发调试
既可以做离线计算，也可以做实时计算
抽象的数据集(RDD、DataSet、DataFrame、DStream)
Shuffle时数据落本地磁盘，执行checkpoint时会将本地磁盘数据上传至hdfs目录
丰富的算子为计算做保障 cache和checkpoint保证安全

Spark架构及重要角色

Applicatition（应用程序）: 指用户编写的SPARK应用程序，包含驱动程序(Dirver) 和之后会分布在多个节点上运行的Executor代码
Dirver（驱动程序）: 运行Application 中的main 函数，并通过new sparkContext()代码，为Spark程序生成运行环境，主要通过Master 进行资源的申请，任务的分配和监控等，当Executor运行完毕后，Driver负责将SparkContext关闭，通常用SparkContext代表Driver
Master（总控进程）:Spark Standalone运行模式下的主节点，负责管理和分配集群资源来启动Spark Application
Worker（工作节点）: 集群中任何可以运行Application代码的节点，standalone 模式下为slaves 配置的节点名称
Executor(执行进程) Application运行在Worker节点上的一个进程，该进程负责运行Task，并负责将数据存在内存或者磁盘上。
partition(分区数)：
- 假如读取hdfs文件，按照split切割 128mb为一个初始task数
- 在map阶段partition数目保持不变
- 在Reduce阶段，RDD的聚合会触发shuffle操作，聚合后的RDD的partition数目和具体操作有关，RDD在计算的时候，每个分区都会起一个task，所以，rdd的分区数目决定了总的task数目 ，可以看出如下task个数(partition)为12个。
Task(计算任务): Spark程序切分的最小单位，负责执行Executor分配的任务，内部运行RDD任务集，每个分区执行一个task任务
- task被执行的并行度=Executors数目(num-executors) * 每个Executor核数(executor-cores)
- 此时有100个分区，那么计算的时候就会生成100个task，你的executor为10个，每个executor核数为2，那么一次可处理的task为20，计算这个RDD就需要5轮次

Spark程序启动流程

object WordCount {
  def main(args: Array[String]): Unit = {

    //创建SparkContext
    val conf = new SparkConf().setAppName("WordCount")
    //SparkContext是用来创建最原始的RDD的
    val sc: SparkContext = new SparkContext(conf)
    //创建RDD(Lazy)
    val lines: RDD[String] = sc.textFile(args(0))
    lines.partitions
    //Transformation 开始(Lazy)
    //切分压平
    val words: RDD[String] = lines.flatMap(_.split(" "))
    //将单词和一组合
    val wordAndOne: RDD[(String, Int)] = words.map((_, 1))
    //分组聚合
    val reduced: RDD[(String, Int)] = wordAndOne.reduceByKey(_ + _)
    //排序
    val sorted: RDD[(String, Int)] = reduced.sortBy(_._2, false)
    //Transformation 结束
    //Action算子，会触发任务执行
    //将数据保存到HDFS
    sorted.saveAsTextFile(args(1))
    //释放资源
    sc.stop()
  }
}

# 执行任务
spark-sbumint xxx.jar xxx.WordCount
等同于
/opt/module/jdk1.8.0_144 -cp \
/opt/module/spark-2.1.1-bin-hadoop2.7/conf/:/opt/module/spark-2.1.1-bin-hadoop2.7/jars/*:/opt/module/hadoop-2.7.2/etc/hadoop/ \
-Xmx1g -XX:MaxPermSize=256m \
org.apache.spark.deploy.SparkSubmit \

1.在启动Spark时，spark会先帮我们把Spark的Master，Worker启动起来，Worker向Master上报当前信息(计算机ip及名称，核数，物理磁盘大小，内存大小等信息)，由Master收集为一张表，同时Master与Worker搭建心跳桥梁，由Worker上报心跳状况至Master，Master通过各自的RpcEnvPoint进行通信，Worker会启动Executor进程执行task任务，通过application生成执行计划，划分state，通过state与state的依赖关系，划分分区任务，分区个数为task任务个数，当Worker与Master 失败达到一定次数时汇报Worker节点宕机
    
2.在Spark-submit提交程序命令时，假设当前为client（客户端提交模式），会在本地启动Driver进程，通过SparkConf收集spark资源配置信息，通过ConcurrentHashMap进行收集

3.当执行到SparkContext时，会向Master发送注册Application的信息，此时Driver才算是与Master进行连接成功，运行接下来的程序时，Dirver会将RDD数据集提交至Master，由Master分配Worker去执行任务

4.通过ReadTextFile从本地读取文件，此时partition就是默认设置的partition数量，在默认partition的算法中，默认初始RDD的最小partition的大小只能为1或2
   （sc.defaultMinPartitions=min(sc.defaultParallelism,2)）

5.因为我没设置分区数，所以默认分区数为cpu核数，但是与2取最小分区数量，所以为2

6.flatMap,map底层都没有runJob提交命令，所以不会触发shuflle，因此words,wordAndOne 的分区数量都为2 

7. 但是当遇到reduceByKey(_ + _) 算子是，因为底层触发了 shuffle算子(new ShuffleRDD())，所以数据会被重写洗牌，同时写入本地磁盘(生成index和data文件)，分区数量进行改变，会变成了defaultParallelism(cpu)核数的分区大小 >2 
    
8. 因为sortby也会触发存在subJob方法，所以SortBy也会触发Shuffle触发，所以此时分区大小 与defaultParallelim个数一致

基础篇

`Dataset`和`DataFrame`

DataSet对比DataFrame，多了类型指定，方法更加健壮，丰富，可以同时使用RDD算子方法和DataSet Sql方法，而DataSet只能使用SparkSql单一操作，通过引入import spark.implicits._依赖调用.DF可直接使用，DataFrame = DataSet[Row]

广播变量

通常是为了实现mapside join，可以将Driver端的数据广播到属于该application的Executor，然后通过Driver广播变量返回的引用，获取实现广播到Executor的数据

累加器

累加器相当于分布式中统筹变量，分布式累加，在Driver端定义初始化，在Executor端累加

算子篇

转化算子，行动算子，持久化算子的区别

转换算子：转换算子不触发提交作业，完成作业中间处理过程，懒加载算子，需要行动算子操作的时候才会触发运算
行动算子：这类算子会触发SparkContext提交job作业，行动算子和转换算子，再源码中多了一个runJob() 方法调用
持久化算子
- cache: 将经过某个算子计算后的结果全部装载进入内存，加快后续重复使用效率
- persist：可指定存储级别，默认是物理存储，可以选择内存或者物理存储级别
- checkpoint: 转化算子，遇到行动算子后，会单独开启一个新的job做checkpoint，这时候会切断血缘关系

非shuffle类算子

map和mappartition

map是针对RDD中的每一个元素进行操作
mapPartition是对RDD的每一个分区的迭代器进行操作，返回的是迭代器，迭代器存的是地址信息

理解思路，假设读取spark读取hdfs文件，按照split切割，原有200mb的文件，按照128mb切割为一个分区，所以此时的分区数为2，假设要对每行数据的后缀加上.index后缀，使用map，会对每行数据进行操作，效率十分缓慢，有多少个元素就会执行多少次，而使用mappartition操作时，是分区级别操作，减少大量开关操作，且在一个并行度中操作所有元素，有多少个分区就会执行多少次，此次操作为2次，独立在每个分区上运行，所以mappartition效率会比map高很多，但是mappartition并不代表一定，假如一个partition有很多数据的话，一次函数处理可能会导致oom，普通的map一般会导致oom

MapPartitionsDemo.scala

shuffle类算子

`sortby`和`sortbykey`

sortby底层参考的是sortbykey，对数据进行keyby，之后进行排序

`groupByKey`和`reduceByKey`

groupbykey和reducebykey在代码中的表现就是是否开启了预聚合模式

cache和persist

cache的底层是调用persist(磁盘)的Memsist(内存)级别

扩展篇

广播变量特性是不能修改

广播变量一但广播出去就不能改变，为了以后可以定期的改变要关联的数据，可以定义一个object[单例对象] (全局变量)，在函数内使用，并且加一个定时器，然后定期更新数据，不使用广播变量解决问题

广播遍历并不是存储再Driver，而是在每个executor中都存储一份，广播遍历块(broadcast-black) 每个Executor最高只能存储40Mb的数据，在查询广播时，会先从本地的broadcast-black中先进行查询，当自己本地没有时，会向其他Executor进行请求查询，消耗网络资源

分组取`topN` 的最优方案

先分组，toList然后在内存中排序，每个组中的数据比较大，可能会产生内存溢出

自定义分区器，然后在分区内排序，可以使用TreeSet, 算子 top 的源码就是如此

使用方法：

it.foreach(t => {
    //将数据添加到treeset中
    sorter += t
    // 删除树形结构的 最后一个数据
    if (sorter.size > topN) {
        sorter -= sorter.last
    }
})

为什么使用TreeSet而不推荐使用ArrayList

在时间复杂度中，顺序结构和链表结构的时间复杂度不同，顺序表的时间复杂度为 O(n^2) 而二叉数属于链表结构他的时间复杂度为log2^n 所以推荐使用TreeSet

当发现申请Executor个数与实际不符时

1.检查是否开启spark executor的动态感知策略，spark是默认开启动态感知策略，这个时候是需要关闭的，例如我生成申请 20个executor，但是实际只产生了 11个Executor，这个时候就是出现了开启动态策略的故障

Spark Streaming实现精准一次性消费

写入关系型数据库：在Driver端获取偏移量，然后将计算好的结果和偏移量，使用支持事务的数据库，在同一事务中将偏移量和计算结果更新到数据库中

写入非关系型数据库中，将偏移量和计算好的结果同时写入到Hbase或ES的同一行中

Spark Streaming与Kafka对应关系

Spark的分区数和Kafka的分区数需要一致，才能达到两个组件的最大吞吐量，过多的消费者只会造成资源浪费，同时过少的消费者会消耗资源，原先一个spark task只消费一个分区数据，现在一个spark task消费两个分区数据

Spark Lens使用

介绍:

我们平时写Spark Job的时候最长苦恼的应该就是如果和调节memoery,vcore这些参数，资源申请少了会造成job的失败，多了就会造成资源的浪费。所以Sparklens就是这么一个让你更加了解你的job运行情况，从而有效的进行Spark 优化的工具。

问题产生原因：

--packages qubole:Sparklens:0.3.1-s_2.11 
--conf spark.extraListeners=com.qubole.Sparklens.QuboleJobListener

原在线调用sparklens方法，该方法一执行就会从网上拉取sparklens包进行解析执行，但是http://dl.bintray.com/spark-packages/maven/ 不知怎么，网站出现问题无法下载sparklens包，–packages命令我们就没有办法使用，所以我们更改为以下方法

1.准备工作下载`spark lens.jar`包
https://mvnrepository.com/artifact/qubole/sparklens/0.3.2-s_2.11

2.将下载好的 0.3.2-s_2.11.jar 放入lib下，添加如下参数(此路径随意)

--jars ./lib/sparklens-0.3.2-s_2.11.jar  
--conf spark.extraListeners=com.qubole.sparklens.QuboleJobListener
--conf spark.sparklens.data.dir=/tmp/spark/sparklens # 默认保存hdfs上
--conf spark.sparklens.report.email=<email>   # 可以将运行结果发送至邮件中

样例：
${SPARK_HOME}/bin/spark-submit \
--master yarn   \
--deploy-mode client  \
--class com.meat.main.ApplogODS2DWD   \
--driver-memory 512M    \
--executor-memory 512M    \
--executor-cores 1    \
--queue default    \
--num-executors 3  \
--jars ./lib/sparklens-0.3.2-s_2.11.jar  \     
--conf spark.extraListeners=com.qubole.sparklens.QuboleJobListener \
/root/project/bigdata-dw-spark-offline/bigdata-dw-spark-offline.jar yarn  ${dt}

在程序运行结束时会出现sparklens分析结果

3.如果没有及时保存sparklens分析结果，在·spark.sparklens.data.dir· 下可找到刚分析的json离线文件
找到spark-submit单独执行
./bin/spark-submit --jars ./lib/sparklens-0.3.2-s_2.11.jar   --class com.qubole.sparklens.app.ReporterApp qubole-dummy-arg <filename.json.path> 即可再次得到分析结果

SparkSql解决小文件问题

将Hive风格的Coalesce and Repartition Hint 应用到Spark SQL需要注意这种方式对Spark的版本有要求，建议在Spark2.4.X及以上版本使用，示例：

INSERT ... SELECT /*+ COALESCE(numPartitions) */ ...
INSERT ... SELECT /*+ REPARTITION(numPartitions) */ ...

Receiver和Direct模式区别

receiver 可以简称为高级API,receiver模式是借助外界的东西，比如zookeeper来维护消费者偏移量，并且是master节点接收到消息后，首先发送给从节点做zookeeper备份，然后再发送到driver端去执行

direct模式是kafka自己去维护偏移量的，kafka充当储存数据的乙方，sparkStreaming是主动去kafka中拿数据的，不需要一个task一直被占用接收数据，基于direct模式的offset是存储再内存中的

kafka的偏移量是单独存在一个_consumer_offsets主题内的

Transent使用小结

一旦变量被transient修饰，变量就将不再是对象持久化的一部分，该变量内容在序列化后无法获得访问
transient关键字只能修饰变量，而不能修饰方法和类，注意，本地变量是不能被transient关键字修饰的，变量如果是用户自定义类变量，则该类需要实现Serializable接口
被transient关键字修饰的变量不能再被序列化，一个静态变量不管是否被transient修饰，均不能被序列化

你可能感兴趣的:(大数据,spark,大数据,分布式)

分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
RocketMQ 之死信队列 firepation RocketMQ rocketmq
在分布式消息系统中，消息的可靠传递和处理至关重要。然而，由于各种原因（如消息处理失败、消费超时等），一些消息可能无法被正常消费。这些无法被消费的消息如果不加以处理，会影响系统的稳定性和数据一致性。为了解决这一问题，RocketMQ提供了死信队列（DeadLetterQueue，DLQ）机制。本文将深入探讨RocketMQ的死信队列，包括其实现原理、应用场景以及使用示例。什么是死信队列？死信队列是一
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
ZooKeeper架构及应用场景详解走过冬季学习笔记 zookeeper 架构分布式
ZooKeeper是一个开源的分布式协调服务，由Apache软件基金会维护。它旨在为分布式应用提供高性能、高可用、强一致性的基础服务，解决分布式系统中常见的协调难题（如配置管理、命名服务、分布式锁、服务发现、领导者选举等）。核心软件架构ZooKeeper的架构设计围绕其核心目标（协调）而优化，主要包含以下关键组件：集群模式(Ensemble):ZooKeeper通常部署为集群（称为ensemble
zookeeper etcd区别 sun007700 zookeeper etcd 分布式
ZooKeeper与etcd的核心区别体现在设计理念、数据模型、一致性协议及适用场景等方面。‌ZooKeeper基于ZAB协议实现分布式协调，采用树形数据结构和临时节点特性，适合传统分布式系统；而etcd基于Raft协议，以高性能键值对存储为核心，专为云原生场景优化，是Kubernetes等容器编排系统的默认存储组件。‌‌1‌‌2‌架构与设计目标差异‌‌ZooKeeper‌。‌设计定位‌:专注于分
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
分布式选举算法＜一＞ Bully算法
分布式选举算法详解：Bully算法引言在分布式系统中，节点故障是不可避免的。当主节点（Leader）发生故障时，系统需要快速选举出新的主节点来保证服务的连续性。Bully算法是一种经典的分布式选举算法，以其简单高效的特点被广泛应用于各种分布式系统中。什么是Bully算法？Bully算法是一种基于优先级的分布式选举算法。每个节点都有一个唯一的ID，ID值越大的节点优先级越高。当主节点故障时，优先级最
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
Python爬虫实战：基于最新技术的定时签到系统开发全解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言人工智能自动化知识图谱
摘要本文详细介绍了如何使用Python开发一个功能完善的定时签到爬虫系统。文章从爬虫基础知识讲起，逐步深入到高级技巧，包括异步请求处理、浏览器自动化、验证码破解、分布式架构等最新技术。我们将通过一个完整的定时签到项目案例，展示如何构建一个稳定、高效且具有良好扩展性的爬虫系统。文中提供了大量可运行的代码示例，涵盖requests、aiohttp、selenium、playwright等多种技术方案，
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
web3中的ipfs 财神爷首席大弟子 web3 去中心化区块链
什么是web3：是基于区块链技术的分布式网络，主要目标是建立一个去中心化与信任化的互联网去中心化以及是信任化区块链：将所有的交易记录和什么护具存储在分布式网络中，每一个node都有完整的数据副本任何一个node修改都需要得到其他节点的认可，确保数据的真实性和和可信度web3有一些关键技术和标准，例如以太坊，IPFS，ENS，ERC标准等以太坊：以太币是一个开源的有智能合约功能的公共区块链平台，通过
使用ceph-ansible部署分布式存储Ceph-octopus版本降世神童云计算技术专栏分布式 ceph ansible
使用ceph-ansible部署分布式存储Ceph-octopus版本1.Ceph基础概念及部署方式1.1.Ceph基本概念1.2.Ceph部署方式2.系统初始化配置3.Ceph集群部署3.1.Ansible安装与配置3.2.ceph-ansible安装与配置3.2.1.下载ceph-ansible3.2.2.安装ceph-ansible依赖3.2.3.修改ceph配置文件3.3.开始部署ceph
2024年运维最新分布式存储ceph osd 常用操作_ceph查看osd对应硬盘(1)，2024年最新Linux运维编程基础教程 2401_83944328 程序员运维分布式 ceph
最全的Linux教程，Linux从入门到精通======================linux从入门到精通(第2版)Linux系统移植Linux驱动开发入门与实战LINUX系统移植第2版Linux开源网络全栈详解从DPDK到OpenFlow第一份《Linux从入门到精通》466页====================内容简介====本书是获得了很多读者好评的Linux经典畅销书**《Linu
【赵渝强老师】基于PostgreSQL的分布式数据库：Citus
由于PostgreSQL具有强大的功能和良好的可扩展性，因此基于PostgreSQL很容易就可以实现分布式架构。Citus便是具体的一种实现方式。它以扩展的插件形式与PostgreSQL进行集成，且独立于PostgreSQL内核，部署也比较简单。Citus是现在非常流行的基于PostgreSQL的分布式解决方案。一、Citus基础下面是百度百科中对分布式数据库的定义：分布式数据库系统通常使用较小的
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
使用HarmonyOS 5和CodeGenie辅助工具开发鸿蒙运动健康类应用的项目总结哼唧唧_ CodeGenie 运动健康 Harmony OS5 harmonyos 华为
一、项目背景与目标随着鸿蒙生态在穿戴设备、智能家居领域的快速扩展，我团队基于HarmonyOS5操作系统，开发了一款面向运动健康场景的智能应用——“Harmony健康伴侣”。项目采用华为官方推出的智能编程助手CodeGenie进行辅助开发，旨在验证CodeGenie在提升鸿蒙应用开发效率与质量方面的实际效果。二、核心功能实现该应用深度融合HarmonyOS分布式能力，支持跨设备无缝协同，主要功能包
万物智联时代启航：鸿蒙OS重塑全场景开发新生态黑巧克力可减脂鸿蒙开发鸿蒙系统
目录HarmonyOS简介：分布式操作系统，开启万物智联新时代HarmonyOS发展历程：从破局到引领核心特性：分布式技术三支柱应用场景：全场景覆盖的鸿蒙生态什么选择鸿蒙开发？技术红利与市场蓝海结语：拥抱鸿蒙，赢在万物智联起点HarmonyOS简介：分布式操作系统，开启万物智联新时代什么是鸿蒙？HarmonyOS（鸿蒙操作系统）是华为自主研发的面向全场景的分布式操作系统，其核心使命是打破设备孤岛，
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
redis锁java实现 brave_zhao redis java 数据库
以下是几种常见的Redis分布式锁的Java实现方式：1.基于SETNX命令的实现SETNX命令（对应Java中的setIfAbsent方法）是实现Redis分布式锁的基础。以下是实现代码：importredis.clients.jedis.Jedis;publicclassRedisLock{privateJedisjedis;publicRedisLock(Jedisjedis){this.j
服务实现99.99%高可用的核心措施
在分布式系统中，高可用性（HA）是衡量服务可靠性的核心指标。99.99%的可用性意味着系统每年的停机时间不超过约52.6分钟，这对金融交易、电信服务等关键业务至关重要。一、冗余设计与故障转移原理：通过冗余部署消除单点故障，确保部分节点故障时服务仍可用。故障转移机制自动将流量切换至健康节点，缩短服务中断时间。Java服务实现：集群部署：使用SpringCloudAlibaba或Dubbo构建微服务集
分布式事务解决方案总结：本地消息异步确认、可靠消息最终一致性、最大努力通知码到三十五面试攻关分布式 spring cloud spring boot
❃博主首页：「码到三十五」，同名公众号:「码到三十五」☠博主专栏：♝博主的话：搬的每块砖，皆为峰峦之基；公众号搜索「码到三十五」关注这个爱发技术干货的coder，一起筑基分布式系统中事务是一个重要挑战，先从从实现原理、技术细节、适用场景三个维度，对三种主流分布式事务解决方案进行简单总结。一、本地消息异步确认方案实现原理该方案通过「本地事务+消息表」机制实现最终一致性，核心思想是将业务操作与消息发送
SkyWalking实现微服务链路追踪的埋点方案 MenzilBiz 服务器运维微服务 skywalking
SkyWalking实现微服务链路追踪的埋点方案一、SkyWalking简介SkyWalking是一款开源的APM(应用性能监控)系统，特别为微服务、云原生架构和容器化(Docker/Kubernetes)应用而设计。它主要功能包括分布式追踪、服务网格遥测分析、指标聚合和可视化等。SkyWalking支持多种语言（Java、Go、Python等）和协议（HTTP、gRPC等），能够提供端到端的调用
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu