莽撞少年

spark

day01_SparkBase

今日内容:

1-spark的基本介绍(了解)
- 1.1: spark的基本概念
- 1.2: spark的发展历程
- 1.3: spark的特点
2- spark的环境搭建 (参考安装文档搭建成功)
- 2.1: local本地模式安装操作
- 2.2: pySpark环境安装操作
- 2.3: standalone集群模式搭建操作
- 2.4: standalone HA 高可用集群模式搭建操作
3- 如何使用Python语句完成 spark的入门案例 (作业)

1. spark的基本介绍

1.1 spark的基本介绍

MapReduce 分布式的计算框架:

    适用于处理批量化的数据操作, 优势在于可以处理海量的数据, 同时对内存消耗是比较低, 弊端: MR运行的效率是非常低

思考: 为什么 MR运行的效率非常低呢? 
    MR是一个IO密集型框架, 数据在整个MR中需要不断的从磁盘到内存, 从内存到磁盘 .... 从而导致执行效率是比较低, 更加将整个计算操作,  放置在磁盘上进行运行的

第二个弊端: MR在进行迭代计算的时候, 需要构建多个MR 进行串联处理, 导致迭代计算的不方便
    比如执行HIVE SQL:  
        select *  from score where sid = (select sid from stu where  name = '张三');
        思考: 如果运行在HIVE上, HIVE需要翻译为几个MR来运行呢?  2个MR
            第一个MR先执行 (select sid from stu where  name = '张三') 将张三的 sid获取出来
            第二个MR: 在执行外部的SQL, 根据第一个MR的结果进行过滤相关的数据
        
        这种需要多个MR进行配合计算处理的操作, 称为迭代计算操作
        
    迭代计算: 将第一个执行结果交给第二个, 第二个执行完之后, 交给第三个, 直到将最终结果计算完成

正因为有了之前MR的问题存在, 整个市场迫切的需要一款新的计算框架, 能够更加高效的执行计算任务, 而这就是spark的来源...

spark就是一款大规模数据的统一分析引擎, 基于内存计算, 整个spark核心数据结构: RDD(弹性分布式数据集)

spark在早期是由加州大学伯克莱分校的一些博士的发布一篇论文诞生的, 后期将其贡献给apache , 目前已经是apache的顶级项目

spark框架中各个节点的通信采用模块为: netty框架

spark是使用scala语言编写的

spark核心: 弹性分布式数据集(RDD), 借鉴了MR的分布式并行计算的思想, 但是解决了MR存在的一些问题, 会将中间的结果存储在内存中(如果存储不下, 也可以存储在磁盘中), 从而提升运行的效率, 同时spark对数据集提供了丰富的处理API(算子)

为什么说spark的运行效率比MR快呢? 
    1) 数据结构不同: 对于spark 核心数据结构RDD(基于内存的弹性的数据集)
        理论为一个大的数据容器, 容器中数据是可以都存储在内存中, 直接对容器中数据执行相关API, 完成对数据在内存中处理统计操作, 这样一种基于内存的计算 要比MR这种基于磁盘的计算效率高的多(官方: 快100倍)
    
    2) 运行方式: 
        spark基于多线程的运行方案.  一个进程中运行多个线程的, 由每一个线程完成具体的操作
        MR基于进程的运行方案, 一个计算程序, 会启动多个Task进程来计算的
        
        说明: 进程启动效率要远远低于在一个进程中启动线程的效率

1.2 spark的发展史

spark的发展是非常不错的, 包括在后续生产环境中, 大部分的时候都是基于spark干活

当使用spark进行操作的时候, 采用的语言主要是两种: scala(母语) 和 Python

目前使用python操作spark的人群是越来越多的, Python提供一个操作spark的库: pyspark

1.3 spark的特点

四大特点:

1- 运行速度快

    原因一: 中间结果是可以保存在内存中, 采用DAG(有向无环图)方式运行, 官方宣称 在内存中运行要比MR快100倍, 如果基于磁盘运行, 比MR快10倍
    原因二:  spark是基于线程运行, 而MR是基于进程的运行, 线程启动和销毁要比进程更快

2- 易用性好

    原因一: spark支持多种操作语言进行处理: 包括 Python sql scala  java go ....
    原因二: spark提供了更加高阶的API, 并且 这些API都是见名之意, 不同语言的API都是类型的
        比如: reduceByKey, groupBykey ...

3- 通用型强

    spark组成部分由很多:
        spark core :  spark核心库  (次重要)
            包含RDD的API, 任务调度, 内存的管理API等等...
        spark SQL :  用于操作结构化数据的工具库 , 可以使用SQL的方式操作数据集  (最常用)
        spark streaming:  spark用于流式处理(实时处理)一个库
            目前使用率在不断的下降, 新的项目都是采用flink进行流式 实时统计计算
        spark MLlib:  支持机器学习库 (特定人群) , 包括: 分类 回归, 聚类....
        spark graphX:  支持图计算(特定人群), 比如 路程规划计算

4-随处运行

    原因一: spark程序可以运行在更多的资源调度平台 (spark集群, yarn, 云上调度环境)
    原因二:  spark可以和其他的软件进行集成, 降低程序员代码难度, 比如可以和hive集成

2. spark环境安装

2.1 local模式搭建

本质: 启动一个java的进程(JVM进程), 在进程中启动多个线程进行运行执行

好处: 方便测试, 校验代码是否OK, 用于测试环境

弊端: 单个节点, 无法处理大规模数据

类似于 pandas, 因为pandas就是单机运行

采用提供三个虚拟机:

ip地址:
    node1:  192.168.88.161
    node2:  192.168.88.162
    node3:  192.168.88.162
网关地址:
    192.168.88.2
子网掩码:
    255.255.255.0

当获取到三个虚拟机后, 首先将其解压到一个没有中文, 没有空格目录下 (磁盘空间充足 >100GB)

第一步: 将虚拟机挂载到VMware上
第二步: 修改网络编辑器(如果新零售的环境就是88网段, 那么这里只是校验, 应该都是都是一致的)
第三步: 启动虚拟机: 选择我已移动此虚拟机
第四步: 配置windows的hosts文件: (需要将之前的有冲突的名字的删除)

192.168.88.161 node1 node1.itcast.cn
192.168.88.162 node2 node2.itcast.cn
192.168.88.163 node3 node3.itcast.cn

第五步: 就可以使用CRT 连接虚拟机正常使用了

注意事项:
	提供虚拟机, 所有的环境都是配置好的, 大家可以直接将虚拟机恢复到对应快照下即可使用对应环境了, 如果想自己安装, 可以恢复到对应快照的上一个快照 即可自己尝试安装了
	
	快照的恢复一定是三个节点一起恢复到同一个快照

2.1.1 local搭建

步骤一: 上传spark的安装包到node1的 /export/software
步骤二: 对包进行解压到/export/server下, 并构建软连接
步骤三: 启动spark客户端即可

./spark-shell  [ --master local[N] ]

说明:
	默认不加 --master 表示local[*]  当前节点有几个核, 启动几个线程
	N: 启动线程的数量
		默认为 *

说明:

1) 客户端一旦启动后, spark提供一个客户端的任务监控界面:  node1:4040
2) 启动spark客户端后, 提供 两个spark核心对象:
	spark context对象:   spark的上下文对象(核心对象)  (别名: sc)
		此对象主要在spark core中使用
	spark session对象: spark的会话对象  (别名: spark)
		此对象主要是在spark SQL中使用

3) 启动后, 可以在窗口中通过编写scala代码 构建spark的程序了....

目前并没有学习过scala的语言, 此界面也是无法使用的, 后续更多通过使用Python操作spark, 那么这个时候就需要构建pySpark的环境了

2.2 PySpark环境搭建

说明:

	需要在虚拟机中安装pySpark的包, 但是呢发现在虚拟机中提供的Python环境是 2.7.5 环境 ,而使用Python环境为3.8环境, 导致无法使用此环境
	需要先安装Python环境, 然后才能安装pySpark

首先, 安装anaconda的环境:

参考部署文档将其安装完成

注意:
	安装完成后, 自动进入anaconda的base环境中, 当然也可以设置自动离开此环境
	安装完成后, 需要设置一下国内的镜像, 保证后续在安装各种Python库的效率更高

接着, 安装pySpark的库:

方式一: 本地环境直接安装操作 (测试,或者全局环境都是统一的)

方式二: 构建一个虚拟环境(沙箱环境), 然后安装pySpark库 (一般是生产环境中)

为什么在生产环境中使用沙箱环境? 
	原因:
		1) 在公司中, 一般各个项目采用Python的版本可能略有不同, 由于python各个版本之间存在不兼容情况, 公司为了解决这种问题, 一般可以通过构建沙箱环境, 独立出不同的python环境
		2) 在进行独立测试的时候, 需要使用沙箱环境来测试, 避免影响本地环境配置内容

最后: 通过pySpark访问spark本地模式

cd /export/server/spark/bin
./pyspark [--master local[N]]


进入后, 其实就可以编写python代码了

注意事项:

	不管在沙箱环境中操作spark, 还是在本地环境中操作spark 都是可以的,但是发现在两个环境中对应python版本是不一样的
	主要原因: 在构建虚拟环境的时候, 设置python版本的时候, 没有指定小版本, 导致anaconda自动选择了新的python版本来使用

扩展说明: anaconda操作

如何创建虚拟环境:
	格式 :
		conda create -n 虚拟环境名字 python=版本信息
		
	例如: conda create -n pyspark_env python=3.8

如何进入指定的虚拟环境:
	conda activate 虚拟环境名字
	或者
	source activate 虚拟环境名字

如何退出当前的虚拟环境:
	conda deactivate  [虚拟环境名字]

向spark提供一个sparkpython程序, 计算圆周率:

cd /export/server/spark/bin

./spark-submit \
--master local[*] \
/export/server/spark/examples/src/main/python/pi.py  \
10


属性说明:
	./spark-submit: 此脚本用于提交spark任务使用 类似于 yarn jar 操作
	--master : 将程序提交到那个位置(可选: local(默认) , spark://xxx (提交spark集群) , yarn

2.3 spark集群模式搭建_Standalone

2.3.1: spark集群架构

主节点作用:      
	1) 管理众多的从节点      
	2) 管理整个集群的资源      
	3) 负责接收任务      
	4) 负责资源和任务的分配

从节点作用:
	1) 从节点负责和主节点进行通信, 报告自己资源情况     
	2) 管理自己的资源信息     
	3) 负责接收主节点分配的任务, 进行任务的具体执行

2.3.2 spark集群构建(非高可用)

意味着, 主节点只需要一台即可 + 多个从节点 + 可选的历史任务服务节点

整个安装操作, 大家可以参考部署文档即可

如何启动spark集群:

1) 必须先启动hadoop集群:	
	在node1的任何位置下, 执行start-all.sh

2) 启动spark的集群: node1
	统一启动: 主节点和从节点
		cd /export/server/spark/sbin
		./start-all.sh
	统一关闭:
		./stop-all.sh
	
	单独启动主节点:
		cd /export/server/spark/sbin
		./start-master.sh
	单独停止主节点:	
		cd /export/server/spark/sbin
		./stop-master.sh
	
	单独启动从节点:
		一次性启动所有的从节点: node1执行可以将三个从节点都启动
			./start-slaves.sh
		一次性关闭所有的从节点:	
			./stop-slaves.sh
		单独启动某一个从节点:  需要启动哪一个, 就到对应节点下启动即可
			./start-slave.sh
		单独停止某一个从节点:
			./stop-slave.sh

如何访问:
	node1:8080   访问spark集群

如何进入spark集群的客户端呢?

spark-shell操作

cd /export/server/spark/bin/
./spark-shell  --master  spark://node1:7077

pyspark客户端:

cd /export/server/spark/bin/
./pyspark --master spark://node1:7077

如何向集群提交spark任务:

cd /export/server/spark/bin

./spark-submit \
--master spark://node1:7077 \
/export/server/spark/examples/src/main/python/pi.py  \
10

测试案例: 通过 pyspark完成 WordCount入门案例

需求:

第一步: 先在node1的 /root目录下创建words.txt文件
内容如下:
hello hadoop hive hadoop hello
hive hadoop world hive hive
hive hadoop sqoop sqoop

第二步: 将 words.txt上传到 hdfs的目录中:
hdfs dfs -put words.txt /

需求 : 统计在这个words.txt文件中, 各个单词出现了多少次?

编写代码: 初体验

第一步: 读取HDFS上文件数据:
res1 = sc.textFile("hdfs://node1:8020/words.txt")
第二步: 对数据执行切割操作: 形成一个列表, 列表中每一个元素就是一个个单词
res2 = res1.flatMap(lambda line : line.split(" "))
第三步: 对每一个单词进行转换为: (单词,1)
res3 = res2.map(lambda word : (word,1))

第四步: 对单词进行分组操作, 将相同的单词放置在同一个组内, 进行统计操作
res4 = res3.reduceByKey(lambda agg,curr : agg + curr )  
第五步: 查看统计的结果
res4.collect()

得到结果内容:
	[('hadoop', 4), ('hive', 5), ('world', 1), ('sqoop', 2), ('hello', 2)] 

注意:
	整个操作, 大家可以分步骤通过 collect收集数据, 看到每一步的执行结果

升级一下: 将上述代码写成一行: 链式编程

sc.textFile("hdfs://node1:8020/words.txt").flatMap(lambda line : line.split(" ")).map(lambda word : (word,1)).reduceByKey(lambda agg,curr : agg + curr ).collect()

2.4 spark的Standalone HA搭建

spark集群的高可用

	所谓的高可用, 指的就是让spark集群中 主节点高可用 ,目前spark的standalone模式下, 主节点只有一台, 存在单点故障的问题
	
解决方案:
	当主节点变成多台, 其中一台为active(激活)节点, 另外主节点为standby状态(备份节点)
	一般来说:  备份方案
		一主一备 或者 一主两备

思考: 当有了多个主节点后, 到底有谁来担任激活的master节点呢?

1) 当Master启动后, 建立与zookeeper的会话连接, 在zookeeper上创建一个 /master的临时节点, 那个节点将这个临时节点创建成功了, 谁就是active的master了

2) 其他的Master发现已经有节点创建了 /master的临时节点 , 其他节点就为standby节点即可, 同时这些节点对  /master的临时节点进行监听

3) 一旦 发现 /master的临时节点 被删除了, 说明Master已经宕机了, 其他备份节点立即去抢着创建这个 master临时节点, 谁抢上 谁就是active节点了

注意:
     除了通过监听来检测后, 也可以使用定时检测这个Master节点是否存在, 当然这种定时检测的时效性比较差, 会存在延迟

如何配置高可用的模式呢? 参考部署文档即可

连接说明:

pyspark学习rdd处理数据方法——学习记录亭午学习
python黑马程序员"""文件，按JSON字符串存储1.城市按销售额排名2.全部城市有哪些商品类别在售卖3.上海市有哪些商品类别在售卖"""frompysparkimportSparkConf,SparkContextimportosimportjsonos.environ['PYSPARK_PYTHON']=r"D:\anaconda\envs\py10\python.exe"#创建Spark
第十八章：模板的多态力量_《C++ Templates》notes 郭涤生 c/c++c++开发语言笔记
模板的多态力量一、动态多态vs静态多态二、奇异递归模板模式（CRTP）三、策略模式（编译期策略选择）关键要点总结第一部分：多选题(10题)第二部分：设计题(5题)答案与详解多选题答案：设计题参考答案1.编译期策略选择器2.类型安全访问者模式3.概念约束数学库4.编译期工厂模式5.静态多态容器测试说明一、动态多态vs静态多态核心概念：动态多态：基于虚函数和继承体系，函数调用在运行时决定（通过虚函数表
10.PE导出表蓝屏达人 PE文件结构 windows
一：定位导出表PIMAGE_NT_HEADERS->OptionalHeader->DataDirectory[0]typedefstruct_IMAGE_DATA_DIRECTORY{DWORDVirtualAddress;//导出表的RVADWORDSize;//导出表大小（没用）}IMAGE_DATA_DIRECTORY,*PIMAGE_DATA_DIRECTORY;该结构的VirtualA
【Python Qt 基本概念】深入探讨 PySide6 与 PyQt6：选择、共存与最佳实践泡沫o0 Qt应用开发 -探索Qt的魅力与实践 Python 基础教程 mfc c++qt 开发语言 python 嵌入式 linux
目录标题第一章:Python绑定的Qt库——PySide6与PyQt6的比较1.1PySide6与PyQt6的基本介绍1.1.1PySide6：Qt官方推荐的Python绑定1.1.2PyQt6：成熟的第三方Python绑定1.1.3主要差异：许可证1.2两者的相似性与差异性1.2.1功能和性能差异1.2.2API差异与兼容性1.3总结：选择的自由与责任第二章:在VSCode中使用PySide6与
机器学习knnlearn1 XW-ABAP 机器学习机器学习人工智能
importmatplotlib.pyplotaspltimportnumpyasnpimportoperator#定义一个函数用于创建数据集defcreateDataSet():#定义特征矩阵，每个元素是一个二维坐标点，代表不同策略数据点的坐标group=np.array([[20,3],[15,5],[18,1],[5,17],[2,15],[3,20]])#定义每个数据点对应的标签，用于区分
docker gitlab 无法访问及502错误破解中小学～软硬件Ai（植入数学与物理） java技术
1、dockergitlab创建dockerrun-d--namegitlab\--restartalways\-p8443:443\-p83:80\-p8822:22\-v/gitlab/config:/etc/gitlab\-v/gitlab/logs:/var/log/gitlab\-vgitlab/data:/var/opt/gitlab\gitlab/gitlab-ce:13.3.7-c
.net 4.0环境异步方法实现，异步委托和回调异常处理蔚蓝星空-大强异步多线程 c#asp.net
.net4.0环境异步方法实现，异步委托和回调异常处理无返回值的异步方法通过委托实现staticvoidMain(string[]args){//异步执行写入数据任务，不阻塞主线程任务SetDataAsync(1);Console.WriteLine("主线程后续任务...");Console.ReadKey();}publicstaticvoidSetDataAsync(intnum){//这里
RK3588开发笔记-DDR4降频实战与系统稳定性优化 flypig哗啦啦 RK3588 DDR
目录前言一、DDR变频原理与工具准备1.1DDR变频机制1.2工具链配置二、DDR降频操作步骤2.1找到RK3588DDR默认bin文件2.2修改DDRbin文件频率三、进阶优化与调试3.1温控策略调整3.2电源设计优化四、常见问题与解决方案总结前言RK3588作为瑞芯微旗舰级SoC，其DDR4/LPDDR4X内存接口最高支持2112MHz频率，但在实际开发中，高频可能导致系统不稳定或功耗过高。例
Python 中的 Iterable、Iterator 与生成器 CavenWang python python 开发语言
Python中的Iterable、Iterator与生成器Iterable（可迭代对象）Iterator（迭代器）生成器（Generator）Iterable、Iterator与生成器的关系实际应用生成器的高级用法（send()）总结在Python中，Iterable、Iterator和生成器是三个密切相关的概念，它们都与迭代操作有关，但各自扮演不同的角色。本文将深入探讨它们的定义、区别以及实际应
软考中级软件设计师考点知识点笔记总结 day06 莫问alicia 软考中级软件设计师笔记数据结构算法
文章目录6、树和二叉树6.1、树的基本概念6.2、二叉树的基本概念6.3、二叉树的遍历6.4、查找二叉树（二叉排序树）BST6.5、构造霍夫曼树+6.6、线索二叉树6.7、平衡二叉树7、图7.1、存储结构-邻接矩阵7.2、存储结构-邻接表7.3、图的遍历7.4、拓扑排序7.5、最小生成树普利姆算法7.6、克鲁斯卡尔算法6、树和二叉树6.1、树的基本概念结点的度：一个结点的度是指该结点拥有的子树数量
HTML+CSS案例展示(CSS3D效果旋转相册) hacalili html css 前端 css3
参考来源：黑马程序员pink老师前端入门教程，零基础必看的h5(html5)+css3+移动端前端视频教程_哔哩哔哩_bilibili效果展示：总结：transform：translate(x,y)rotate(180deg)scale()...顺序对最后的效果有影响，需要根据需求安排位移和其他属性的顺序；实现暂停动画效果：animation-play-state:paused;经常和鼠标经过等其
炫酷的HTML5粒子动画特效实现详解木木黄木木 html5 前端 html
炫酷的HTML5粒子动画特效实现详解这里写目录标题炫酷的HTML5粒子动画特效实现详解项目介绍技术栈项目架构1.HTML结构2.样式设计核心实现1.粒子类设计2.动画效果实现星空效果烟花效果雨滴效果3.鼠标交互性能优化效果展示总结项目介绍本文将详细介绍如何使用HTML5Canvas技术实现一个炫酷的粒子动画特效系统。该系统包含三种不同的动画效果：星空、烟花和雨滴，并支持鼠标交互功能，能够为网页增添
Matlab绘制台风路径--数据来源：中国气象局热带气旋资料中心 e决 matlab
%读取台风数据fid=fopen('CH2009BST.txt','r');data=textscan(fid,'%s','Delimiter','\n');fclose(fid);data=data{1};%提取台风Morakot数据typhoon_data=[];is_dora=false;fori=1:length(data)line=data{i};%检查是否是Morakot台风的起始行i
conda篇----在已有conda环境的基础上升级python包心惠天意 conda python jvm
conda篇----在已有conda环境的基础上升级python包原先的python版本第一步：condaupdate--all(py11)[xxx@aivrs01xxx]$condaupdate--allCollectingpackagemetadata(current_repodata.json):doneSolvingenvironment:done==>WARNING:Anewervers
systemctl restart 和 systemctl reload 和 systemctl daemon-reload 对比笔记250322 kfepiza #Linux CentOS Ubuntu 等 #控制台命令行 Shell脚本 sh cmd 等笔记 bash
systemctlrestart和systemctlreload和systemctldaemon-reload对比以下是systemctlrestart、systemctlreload和systemctldaemon-reload的对比总结：命令作用对象行为适用场景对服务的影响systemctlrestart服务名具体服务强制停止服务，再重新启动。配置或代码有重大变更，或服务出现异常需完全重启。服
【Linux 下的 bash 无法正常解析, Windows 的 CRLF 换行符问题导致的】待磨的钝刨 linux bash windows
文章目录报错原因：解决办法：方法一：用`dos2unix`修复方法二：手动转换换行符方法三：VSCode或其他编辑器手动改总结这个错误很常见，原因是你的wait_for_gpu.sh脚本文件格式不对，具体来说是Windows的CRLF换行符问题导致的，Linux下的bash无法正常解析。hadoop@hadoop:~/anaconda3$bashwait_for_gpu.sh:invalidopt
COMP 315: Cloud Computing for E-Commerce W_X_99515681 开发语言
Assignment1:JavascriptCOMP315:CloudComputingforE-CommerceFebruary20251IntroductionAcommontaskwhenbackendprogrammingisdatacleaning,whichistheprocessoftakinganinitialdatasetthatmaycontainerroneousorinco
Spring Data JPA 的分页魔法：Pageable vs PageRequest，谁才是真正的“分页王”？✨ 小丁学Java Spring Data JPA 数据库
SpringDataJPA的分页魔法：PageablevsPageRequest，谁才是真正的“分页王”？嘿，各位技术探险家！今天我们要解锁SpringDataJPA的分页秘籍，聊聊Pageable和PageRequest这对“分页双人组”的爱恨情仇！从它们的关系到使用场景，再到一个让我抓狂的参数陷阱，这篇博客带你从迷雾走向光明，还有流程图助阵，快跟我一起跳进这个技术冒险吧！第一幕：分页的“魔法钥
前端请求全面解析：AJAX、Axios 与 Fetch 的使用详解与代码示例 jiajia651304 前端 ajax javascript
前端请求全面解析：AJAX、Axios与Fetch的使用详解与代码示例前端请求全面解析：AJAX、Axios与Fetch的使用详解与代码示例1.AJAX——传统的异步请求1.1基本用法示例1.2AJAX特点2.FetchAPI——现代化请求方案2.1基本用法示例2.2Fetch特点3.Axios——第三方HTTP请求库3.1安装Axios3.2基本用法示例3.3Axios特点4.总结前端请求全面解
数据湖Iceberg、Hudi和Paimon比较_数据湖框架对比(1) 2301_79098963 程序员知识图谱人工智能
4.Schema变更支持对比项ApacheIcebergApacheHudiApachePaimonSchemaEvolutionALLback-compatibleback-compatibleSelf-definedschemaobjectYESNO(spark-schema)NO（我理解，不准确）SchemaEvolution：指schema变更的支持情况，我的理解是hudi仅支持添加可选列
Python 爬虫实战：从知乎盐选专栏，爬取优质内容付费数据西攻城狮北 python 爬虫开发语言实战案例知乎
目录一、前言二、准备篇2.1确定目标2.2工具与库2.3法律与道德声明三、实战篇3.1分析知乎盐选专栏页面3.2模拟登录3.3获取文章列表3.4爬取更多文章数据3.5数据存储四、分析篇4.1数据清洗4.2热门文章分析4.3收藏数分析4.4评论数分析五、总结与展望六、注意事项一、前言知乎盐选专栏作为知乎平台上的优质内容付费板块，汇聚了众多创作者的高质量文章。了解这些文章的付费数据，如点赞数、收藏数、
应用程序编程接口API的类型与结构恶霸不委屈 API 程序人生
应用程序编程接口，ApplicationProgrammingInterface是一组定义不同软件组件如何相互交互的规则和协议。它为不同的软件应用程序提供了一种接口，使得它们能够相互通信和交互，而无需了解其内部实现细节。目录API的主要类型API的组成部分API的作用和优势使用API的例子如何使用API总结API的主要类型WebAPI：这是最常见的一种API类型，通常用于通过网络与远程服务器进行通
【Docker系列四】Docker 网络 Kwan的解忧杂货铺@新空间代码工作室 s4 Docker系列 docker 网络容器
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
Milvus学习整理 louisliao_1981 milvus 学习
Milvus学习整理一、度量类型(metric_type)二、向量字段和适用场景介绍三、索引字段介绍（一）、概述总结（二）、详细说明四、简单代码示例（一）、建立集合和索引示例（二）、搜索示例（三）、参考文档五、数据搜索(一)、基础搜索参数说明(二)、范围搜索1.概述总结2.详细说明(三)、全文搜索(BM25)1.概述2.使用全文搜索步骤(四)、其他搜索一、度量类型(metric_type)相似度量
C++ 地图 + 配对组合！3 分钟吃透 map 和 pair 的黄金搭档 Reese_Cool STL 数据结构与算法 c++算法开发语言 stl
文章目录pair一、基本概念二、pair的声明与初始化三、成员访问与修改四、常用操作1.比较运算2.交换值3.tie函数（解包pair）五、pair的应用场景六、pair与结构体/类的对比七、pair与tuple的对比八、代码示例1.返回多个值2.存储键值对九、总结map一、基本概念二、map的声明与初始化三、常用操作四、map的应用场景五、注意事项在C++编程里，map和pair是标准库中十分实
Unity编辑器扩展快速回顾托塔1 Unity知识快速回顾 unity 编辑器游戏引擎
知识点来源：总结人间自有韬哥在，唐老狮，豆包目录1.自定义菜单栏拓展1.1.Editor文件夹用途1.2.添加自定义页签1.3.Component菜单加脚本1.4.Inspector脚本右键菜单1.5.快捷键设置2.自定义窗口扩展2.1.创建窗口类2.2显示窗口2.3.窗口事件回调函数2.4.窗口中常用的生命周期函数2.5.编辑器窗口类中的常用成员3.EditorGUI3.1.EditorWind
HarmonyOS Next 应用性能优化实战 SameX-4869 harmonyos 性能优化华为
本文旨在深入探讨华为鸿蒙HarmonyOSNext系统（截止目前API12）中应用性能优化的技术细节，基于实际开发实践进行总结。主要作为技术分享与交流载体，难免错漏，欢迎各位同仁提出宝贵意见和问题，以便共同进步。本文为原创内容，任何形式的转载必须注明出处及原作者。一、性能评估指标与工具（一）关键性能评估指标CPU使用率CPU使用率是衡量应用在运行过程中对CPU资源占用情况的重要指标。一个高效的Ha
SpringBoot集成Flink-CDC，实现对数据库数据的监听 rkmhr_sef 面试学习路线阿里巴巴 spring boot flink 数据库
一、什么是CDC？CDC是ChangeDataCapture（变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入、更新以及删除等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。二、Flink-CDC是什么？CDCConnectorsforApacheFlink是一组用于ApacheFlink的源连接器，使用变更数据捕获(CDC)从
HarmonyOS Next 企业级移动办公应用构建 SameX-4869 harmonyos 华为
本文旨在深入探讨华为鸿蒙HarmonyOSNext系统（截止目前API12）在企业级移动办公应用构建中的应用，基于实际开发实践进行总结。主要作为技术分享与交流载体，难免错漏，欢迎各位同仁提出宝贵意见和问题，以便共同进步。本文为原创内容，任何形式的转载必须注明出处及原作者。第一章：应用场景与架构规划一、常见应用场景及要求任务管理在企业办公中，任务管理是核心场景之一。员工需要能够创建任务，详细描述任务
11.网络编程的基础知识就很对网络 linux
11.网络编程的基础知识**1.OSI模型与TCP/IP模型****2.IP地址分类****3.Socket编程****4.TCP三次握手与四次挥手****5.常用网络测试工具****6.练习与作业****7.总结**1.OSI模型与TCP/IP模型OSI模型（开放系统互联模型）：7层结构：应用层：为网络用户提供各种服务（如HTTP、FTP）。表示层：数据加密解密、压缩解压缩。会话层：管理进程会话
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu