cai-4

实训笔记8.24

8.24笔记
- 一、Sqoop数据迁移工具
- - 1.1 Sqoop的基本概念
  - 1.2 Sqoop的基本操作
  - - 1.2.1 命令语法
    - 1.2.2 list-databases
    - 1.2.3 list-tables
    - 1.2.3 eval
    - 1.2.4 import
    - 1.2.5 export
    - 1.2.6 导入
- 二、Flume日志采集工具
- - 2.1 数据采集的问题
  - 2.2 数据采集一般使用的技术
  - 2.3 扩展：通过爬虫技术采集第三方网站数据
  - - 2.3.1 爬虫目前主要有两种类型的爬虫
  - 2.4 Flume日志采集工具概述
  - - 2.4.1 Flume的组成架构
    - 2.4.2 Flume的采集数据的工作流程
    - 2.4.3 Flume安装部署:三部曲

8.24笔记

一、Sqoop数据迁移工具

1.1 Sqoop的基本概念

Sqoop数据迁移工具主要作用就是实现将数据在RDBMS（MySQL、SQL Server、Oracle）和Hadoop平台（HDFS、Hive、HBase）之间进行来回的迁移。

Sqoop中，将RDBMS的数据迁移到Hadoop平台我们称为数据导入import，将Hadoop平台的数据迁移到RDBMS中称之为数据导出export。

Sqoop在进行数据的导入和导出时，会使用sqoop提供的命令来进行操作，但是sqoop底层会把命令转换称为MapRecude程序在YARN上运行（sqoop的运行需要Hadoop平台环境，Sqoop也是基于Hadoop平台的软件）

【注意】和sqoop技术一样的还有一个技术叫做DataX，DataX是阿里云提供的一个数据迁移工具，除了可以实现和sqoop一样的功能，同时还提供了一些sqoop无法完成一些数据迁移操作。Datax底层不是基于MapReduce

1.2 Sqoop的基本操作

1.2.1 命令语法

sqoop command params

command：help 、eval、import、export、list-databases、list-tables、version

1.2.2 list-databases

查看RDBMS中有哪些数据库的 sqoop list-databases 参数

参数	说明
–driver	JDBC的驱动类
–connect	JDBCUrl
–username	数据库的用户名
–password	数据库的密码

1.2.3 list-tables

查询某一个RDBMS数据库下有哪些数据表的 sqoop list-tables 参数

参数	说明
–driver	JDBC的驱动类
–connect	JDBCUrl
–username	数据库的用户名
–password	数据库的密码

1.2.3 eval

通过sqoop连接RDBMS执行SQL语句 sqoop eval 参数

参数	说明
–driver	JDBC的驱动类
–connect	JDBCUrl
–username	数据库的用户名
–password	数据库的密码
–query \|-e	sql语句即可

1.2.4 import

实现数据导入的，将RDBMS的数据导入到HDFS、Hive、HBase中

导入数据到HDFS

参数	说明
–driver	JDBC的驱动类
–connect	JDBCUrl
–username	数据库的用户名
–password	数据库的密码
–table	指定导入RDBMS中哪个数据表的数据
–columns	可以不写,RDBMS数据表的列名的列表，将数据表的指定列导入，如果不写，代表导入table指定的数据表的所有列的数据
–where ‘条件’	可以不写，根据筛选条件导入RDBMS的–table指定数据表的指定数据，如果不加，那么默认代表导入–table指定的数据表的所有数据
–query ‘dql语句’	根据查询语句的结果导入指定的数据，–query不能和–table、–columns、–where一起使用，如果–query的DQL语句中出现了where子语句，必须在where子语句中添加一个 `and $CONDITIONS`
–target-dir	导入到HDFS上的目录路径
–delete-target-dir	导入数据到HDFS上时，路径如果提前存在会报错，命令代表删除存在的–target-dir目录
–as-textfile\|–as-sequencefile…	导入数据在HDFS上存储的文件格式
–num-mappers \| -m	导入程序在底层转换称为多个map task任务执行
–fields-terminated-by	指定将数据导入到HDFS的文件中时，列和列的分隔符，默认一种特殊字符
–lines-terminated-by	指定将数据导入到HDFS的文件中时，行和行的分隔符，默认就是换行符
–null-string	如果导入的MySQL数据表的某一个字符串类型的列的值为null，那么我们在HDFS的文件中使用什么字符替换null值
–null-non-string	如果导入的MySQL数据表的某一个非字符串类型的列的值为null，那么我们在HDFS的文件中使用什么字符替换null值

导入数据到Hive

先把数据导入到HDFS
再把导入到HDFS上的数据装载到Hive数据表中

参数列表

参数	说明
–driver	JDBC的驱动类
–connect	JDBCUrl
–username	数据库的用户名
–password	数据库的密码
–table	指定导入RDBMS中哪个数据表的数据
–columns	可以不写,RDBMS数据表的列名的列表，将数据表的指定列导入，如果不写，代表导入 --table指定的数据表的所有列的数据
–where ‘条件’	可以不写，根据筛选条件导入RDBMS的–table指定数据表的指定数据，如果不加，那么默认代表导入–table指定的数据表的所有数据
–query ‘dql语句’	根据查询语句的结果导入指定的数据，–query不能和–table、–columns、–where一起使用，如果–query的DQL语句中出现了where子语句，必须在where子语句中添加一个 `and $CONDITIONS`
–hive-import	执行Hive的导入操作
–hive-database	指定导入到Hive的哪个数据库
–hive-table	指定导入到Hive的哪个数据表，数据表可以不用提前存在
–create-hive-table	如果指定的hive数据表不存在，通过该选项自动创建表，但是如果Hive数据表存在的，那么该参数不需要添加
–num-mappers \| -m	导入程序在底层转换称为多个map task任务执行
–fields-terminated-by	指定将数据导入到HDFS的文件中时，列和列的分隔符，默认一种特殊字符，同时自动创建Hive数据表时，表的列的分隔符
–lines-terminated-by	指定将数据导入到HDFS的文件中时，行和行的分隔符，默认就是换行符一般是不使用这个参数的，就算我们设置了也不生效，除非我们加上一些特殊参数
–null-string	如果导入的MySQL数据表的某一个字符串类型的列的值为null，那么我们在HDFS的文件中使用什么字符替换null值
–null-non-string	如果导入的MySQL数据表的某一个非字符串类型的列的值为null，那么我们在HDFS的文件中使用什么字符替换null值

注意事项
1. 将RDBMS的数据导入到Hive时，因为先把数据导入到HDFS，再把数据load装载到Hive中，因此我们要求导入到HDFS上的文件中列的分隔符必须和Hive数据表的列的分隔符保持一致，如果不一致数据无法导入成功。
2. 如果Hive数据表不存在，那么再导入的时候可以指定---create-hive-table创建数据表，创建的数据表的列的分隔符和–fields-terminated-by设置的HDFS上文件的列的分隔符保持一致的

全量导入和增量导入

把RDBMS的数据导入到HDFS或者Hive都是有两种方式：全量导入、增量导入全量导入指的是将RDBMS表的所有数据导入到HDFS或者Hive 增量导入指的是只将新增的RDBMS表的所有数据导入到HDFS或者Hive中默认情况下，HDFS导入数据时会覆盖原有的数据，hive导入数据时，会把数据重复性的在表中添加一份。

必须考虑全量导入和增量导入问题。只学习Hive的
1. Hive的全量导入
  
  --hive-overwrite参数，将RDBMS表中的所有数据（–table 如果加了–query --columns，就不是全量的问题）添加到Hive对应的数据表，而且覆盖添加。
  
  一般使用在第一次将RDBMS的数据导入到Hive中，如果第一次导入不需要–hive-overwrite选项如果不是第一次导入，还想全量导入，那么必须加–hive-overwrite选项
2. Hive的增量导入
  
  sqoop的增量导入有两种方式：append lastmodified,其中Hive的增量导入只支持append方式，HDFS增量导入支持lastmodified方式
  
  append增量导入需要指定RDBMS中一个可以自增或者是数字依次变大的一个列，同时还需要指定上一次导入的时候值的大小
  
  --check-column RDBMS对应的列
  
  --incremental append
  
  --last-value num
【导入数据时间字段的问题】

数据导入之后，RDBMS中的时间和Hive中时间不一致，主要由于时区的问题导致的，RDBMS使用的时区和导入数据时指定的时区参数不是同一个时区导致的问题。

只需要保证RDBMS的时区和导入参数设置的时区serverTimezone保持一致即可。

RDBMS的时区：select @@global.time_zone

默认情况下，只要我们在中国，没有改过数据库和系统的时区，数据库和系统时区默认是+0800，因此serverTimezone=Asia/Shanghai

1.2.5 export

将Hadoop平台的数据导出到RDBMS中，导出比导入简单。导出数据时，因为Hive、HBase存储的数据都在HDFS上，因此导出只需要学习如何将HDFS上的数据导出到RDBMS即可。

【导出的注意事项】：RDBMS中的数据表必须提前存在，如果不存在，会报错

导出参数

类型	参数	说明
导出时和RDBMS相关的参数	–driver	JDBC的驱动类
	–connect	JDBCUrl
	–username	数据库的用户名
	–password	数据库的密码
	–table	指定导入RDBMS中哪个数据表的数据
	–columns	代表的rdbms的列名，列名必须和文件中列的顺序保持一致，防止数据串列
导出HDFS的参数	–export-dir	导出的HDFS哪个目录下的文件数据
	–num-mappers \| -m	将导出命令翻译称为n个map task任务
	–input-fields-terminated-by	很重要，指定HDFS上文件中列和列的分隔符的
	–input-lines-terminated-by	指定HDFS上文件行和行的分割符行的分隔符\n
	–update-mode	取值allowinsert和updateonly，导出数据的两种模式 allowinsert 更新已经导出的数据，同时追加新的数据对mysql数据库目前不支持的 updateonly 只更新以前导出的数据，新的数据不会导出
	–update-key	–update-mode如果想实现它的功能，必须和–update-key结合使用，而且–update-day最好指定一个RDBMS的主键字段，否则update-mode的效果会出现混乱

【注意】如果没有指定update-mode 那么默认是追加的形式导出（会出数据重复）

如果我们想要导出数据到MySQL，而且还不想让数据重复，可以先使用sqoop eval 操作执行清空目标表数据的命令，清空成功以后再导出数据。

1.2.6 导入

导入一般是我们需要对RDBMS的数据进行大数据处理分析时，我们把RDBMS的数据通过import导入到HDFS或者Hive,导出之后我们处理完成，得到结果数据表，然后把结果数据表通过export导出到RDBMS中，用于后期的数据可视化展示。

二、Flume日志采集工具

2.1 数据采集的问题

数据采集一般指的是将数据采集到大数据环境下进行持久化、海量化的保存，目的主要是为了我们后期的大数据处理（数据统计分析、数据挖掘等等）沉底数据基础。

不同的来源的数据我们一般有不同的数据采集方式

数据来源于我们的RDBMS关系型数据库：Sqoop数据迁移工具实现数据的采集
数据来源于我们系统运行产生的日志文件：日志文件记录的数据量特别庞大，但是日志文件不属于大数据存储系统中东西，因此日志文件记录不了海量的数据，日志文件都会有一个定期清理规则。采集日志文件数据到大数据环境中。一般采集日志文件数据到大数据环境使用的就是Flume技术
数据来源于其他网站：开发一个电影网站，电影网站应该具备哪些功能，哪些类型的电影能受用户的欢迎。分析竞品数据，这种情况竟品数据都是人家别人家网站的数据，但是我们需要分析，但是人家不给你数据，通过爬虫获取数据（一不留神就犯法）。
数据来源于各种传感器设备：不需要我们管
第三方提供、购买的第三方数据、开源数据集平台提供的（阿里云的天池数据集、kaggle数据集平台、飞浆数据集平台、各个地区的政府公开数据集平台）

2.2 数据采集一般使用的技术

sqoop技术：采集RDBMS的数据到大数据环境中

Flume技术：采集系统/网站产生的日志文件数据、端口数据等等到大数据环境中

爬虫技术：采集第三方的数据，爬虫一般是把采集的数据放到一个文件或者RDBMS数据库当中

2.3 扩展：通过爬虫技术采集第三方网站数据

爬虫技术就是通过读取网页/网站的界面结构，获取网页中嵌套的数据

2.3.1 爬虫目前主要有两种类型的爬虫

通过代码进行爬虫 python写的
1. 优点：在于可以定制化爬虫内容
2. 缺点：
  1. 编写代码，代码是非常复杂
  2. 很多网站做了反爬虫校验，可能写了代码也无法爬取数据
通过可视化爬虫工具爬虫
1. 优点：不需要写一行代码，只需要点点点就可以定制化数据爬虫，反爬虫问题不用担心
2. 缺点：
  1. 无法随心所欲爬取数据
  2. 可能会收费
3. 八爪鱼爬虫工具、集搜客爬虫工具…

2.4 Flume日志采集工具概述

Flume也是Apache开源的顶尖项目，专门用来采集海量的日志数据到指定的目的地。

Flume采集数据采用一种流式架构思想，只要数据源有数据，就可以源源不断的采集数据源的数据到目的地

2.4.1 Flume的组成架构

Flume之所以可以实现采集不同数据源（不仅仅只包含日志文件数据）到指定的目的地，源于Flume的设计机构。

Agent：一个Flume采集数据的进程，一个Flume软件可以启动多个Flume采集进程Agent
Source：Flume的一个数据源组件，是Flume专门用来连接数据源的组件，一个Flume采集进程Agent中，Source组件可以有一个也可以有多个
Channel：Flume中一个类似于缓存池的组件，缓存池的主要作用就是用来临时保存source数据源采集的数据，目的地需要数据，从缓冲池中获取，防止数据源数据产生过快，而目的地消费数据过慢，导致程序崩溃的问题。一个Agent中，可以存在多个Channel组件
Sink：Flume中一个目的地（下沉地）组件，是Flume专门用来连接目的地的组件，一个Flume进程中，sink组件也可以有多个，但是一个sink只能从一个channel中获取数据。不能一个sink从不同channel拉取数据
event：Flume中数据传输单位。Flume采集数据源的数据时，会把数据源的数据封装为一个个的event。

脚本文件xxx.conf：需要用户自己编写的，Flume采集数据时，数据源和目的地有很多种，因此如果我们采集数据时，我们必须自定义一个脚本文件，在脚本文件中需要定义采集的数据源的类型、channel管道的类型、sink的目的地的类型、以及source channel sink三者之间的关系。脚本文件定义成功之后，我们才能去根据脚本文件启动Flume采集进程Agent

【注意】一个source只能连接一个数据源，一个sink只能连接一个目的地

2.4.2 Flume的采集数据的工作流程

首先我们先编写xx.conf脚本文件定义我们的采集的数据源、目的地、管道的类型，定义成功之后我们根据脚本启动Flume采集进程Agent。一旦当Flume采集进程启动成功，source就会去监听数据源的数据，一旦当数据源有数据产生，那么source组件会把数据源的数据封装为一个个的event，然后source把event数据单位传输到channel管道中缓存，然后sink组件会从channel中拉取指定个数的event，将event中数据发送给sink连接的目的地。

2.4.3 Flume安装部署:三部曲

上传解压
配置环境变量
修改配置文件
1. conf/flume-env.sh
2. bin/flume-ng flume运行需要Java环境，文件中需要指定Flume运行需要的内存容量

C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
入门html这篇文章就够了 ξ流ぁ星ぷ132 html 前端
HTML笔记文章目录HTML笔记html介绍什么是htmlhtml的作用HTML标签介绍常用标签标签and标签and标签u标签del删除线br标签用于换行pre标签，预处理标签span标签div标签sub标签andsup标签hr标签h1,h2...h6标签：HTML5中的语义标签：特殊字符img标签a标签第一种用法：超链接第二种用法：锚点video标签表格标签：form标签input标签selec
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
vue3面试题(个人笔记) 武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js java 学习
vue3比vue2有什么优势？性能更好，打包体积更小，更好的ts支持，更好的代码组织，更好的逻辑抽离，更多的新功能。描述Vue3生命周期CompositionAPI的生命周期：onMounted()onUpdated()onUnmounted()onBeforeMount()onBeforeUpdate()onBeforeUnmount()onErrorCaptured()onRenderTrac
Python学习笔记5|条件语句和循环语句 iamecho9 Python从0到1学习笔记 python 学习笔记
一、条件语句条件语句用于根据不同的条件执行不同的代码块。1、if语句基本语法：if布尔型语句1:代码块#语句1为True时执行的代码示例：age=int(input("请输入你的年龄:"))ifage>=18:print("你已成年")2、if-else语句如果if条件不成立，则执行else代码块：if布尔型语句1:代码块#语句1为True时执行的代码else:代码块#语句1为False时执行的代
swagger【个人笔记】撰卢笔记 java
文章目录swagger导入mave坐标在配置类(WebMvcConfiguration)中加入knife4j相关配置设置静态资源映射，主要是让拦截器放行swagger常用注解@Api(tags="\[描述这个类的作用]")@ApiModel(description="\[描述这个类的作用]")@ApiModelProPerty("描述这个类的作用")@ApiOperation("\[描述方法的作用
【个人笔记】负载均衡撰卢笔记负载均衡运维
文章目录nginx反向代理的好处负载均衡负载均很的配置方式均衡负载的方式nginx反向代理的好处提高访问速度进行负载均衡保证后端服务安全负载均衡负载均衡，就是把大量的请求按照我们指定的方式均衡的分配给集群中的每台服务器负载均很的配置方式upstreamwebservers{server192.168.100.128:8080server192.168.100.129:8080}server{lis
在 Obsidian 中本地使用 DeepSeek — 无需互联网！知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek
简介您是否想在Obsidian内免费使用类似于ChatGPT的本地LLM？如果是，那么本指南适合您！我将引导您完成在Obsidian中安装和使用DeepSeek-R1模型的确切步骤，这样您就可以在笔记中拥有一个由AI驱动的第二大脑。推荐文章《24GBGPU中的DeepSeekR1：UnslothAI针对671B参数模型进行动态量化》权重1，DeepSeek类《在RaspberryPi上运行语音识别
5G标准学习笔记14 - CSI--RS概述刘孬孬沉迷学习 5G 学习笔记信息与通信
5G标准学习笔记14-CSI–RS概述大家好~，这里是刘孬孬，今天带着大家一起学习一下5GNR中一个非常非常重要的参考信号------------------CSI-RS信号，CSI-RS不是持续发送，UE只能在网络明确配置了CSI-RS的情况下才能使用其进行信道测量。前言对于CSI-RS，肯定还离不开前面所说的CSI（channelstateinformation），前面也讲过CSI对于MIMO
5G标准学习笔记06-基于AI/ML波束管理刘孬孬沉迷学习 5G 学习笔记
5G标准学习笔记06-基于AI/ML波束管理前言前面对于孬孬学习了波束管理的概述，下面要进一步来看一下传统波束管理和现在3GPP中推动的AL/ML波束管理之前的区别联系。一、传统波束管理方法流程传统BM流程主要包括以下步骤：波束扫描（BeamSweeping）：gNB通过顺序发送多个窄波束（SSB或CSI-RS），覆盖整个服务区域，UE测量每个波束的信号质量（如L1-RSRP或L1-SINR）。波
5G标准学习笔记03- CSI 反馈增强概述刘孬孬沉迷学习 5G 笔记学习
5G标准学习笔记03-CSI反馈增强概述大家好，最近在研究AI/ML3gpp标准NR空口的有关内容，后面可能会给大家介绍一下对应的有关内容AI/ML在3GPP标准中的研究进展在AI/ML在NR空口的应用中，对应标准主要聚焦了3个case进行讨论研究分别是：CSI反馈增强；波束管理；定位精度增强；这三个内容可能比较涉及RAN1/2的具体内容，后面会基于这个进行一定的介绍。今天主要是主要介绍CSI反馈
运维笔记＜4＞ xxl-job打通 GeminiJM 运维 java xxl-job
新的一天，来点新的运维业务，今天是xxl-job的打通其实在非集群中，xxl-job的使用相对是比较简单的，相信很多人都有使用的经验这次我们的业务场景是在k8s集群中，用xxl-job来做定时调度加上第一次倒腾，也是遇到了不少问题，在这里做一些记录1.xxl-job的集群安装首先是xxl-job的集群安装先贴上xxl-jobsql初始化文件的地址：xxl-job/doc/db/tables_xxl
两台pc如何高速度传输大文件费城之鹰其他两台电脑高速传输文件局域网不适用U盘传输资料网线直连两台电脑传资料
今天笔记本跑一个大一点的项目，8G的内存直接100%，i5的CPU直接75%并且在超频工作了，原本1.6Ghz的频率直接飙到了3.8Ghz，由于项目性质原因，采用的是公司配的笔记本，但是年初采购的联想E480，还在三包时间段内，公司不允许拆机增加内存，只能换一台新的台式机，听起来挺爽，有新设备，但是办公区域不准使用U盘这一类的存储设备，这就蛋疼了，大半年了项目代码，资料全在这个不够用的笔记本里，问
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图宁儿数据安全 #机器学习学习笔记 matplotlib
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图一、绘制混淆矩阵热图代码解析1.1、导入必要的库importmatplotlib.pyplotaspltfromsklearn.metricsimportconfusion_matriximportseabornassnsmatplotlib.pyplot：Python中最常用的绘图库，用于创建各种图表confusion_matr
玩转Docker | 使用Docker部署NotepadMX笔记应用程序心随_风动玩转Docker docker 笔记 eureka
玩转Docker|使用Docker部署NotepadMX笔记应用程序前言一、NotepadMX介绍工具简介主要特点二、系统要求环境要求环境检查Docker版本检查检查操作系统版本三、部署NotepadMX服务下载NotepadMX镜像编辑部署文件创建容器检查容器状态检查服务端口安全设置四、访问NotepadMX服务访问NotepadMX首页设置访问验证编辑笔记总结前言在如今快节奏的工作与学习中，一
【前端】异步任务风控验证与轮询机制技术方案（通用笔记版）
一、背景场景在某类生成任务中，例如用户点击“执行任务”按钮后触发一个较耗时的后端操作（如生成报告、渲染图像、转码视频等），由于其调用了模型、渲染服务或需要较长处理时间，为了防止接口被频繁恶意调用，系统需要加入风控验证机制。此外，因任务处理为异步，前端无法立即获得最终结果，因此需通过轮询方式定期查询任务状态，等待任务完成后展示结果。二、整体流程说明1.用户点击“执行任务”按钮：前端调用风控接口/ap
数据分析案例-电脑笔记本价格数据可视化分析3 艾派森数据分析信息可视化 python 数据分析数据挖掘电脑
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍3.技术工具
LLaMA 学习笔记 AI算法网奇深度学习基础人工智能深度学习
目录LLaMA模型结构：模型微调手册：推理示例：指定位置加载模型测试ok：模型下载：llama-stack下载modelscope下载LLaMA优化技术RMSNormSwiGLU激活函数旋转位置编码（RoPE）LLaMA模型结构：llama3结构详解-CSDN博客模型微调手册：大模型微调LLaMA详细指南（准备环境、数据、配置微调参数+微调过程）_llama微调-CSDN博客显存占用：FP16/B
BOOT_KEY按键（学习笔记）小高Baby@ 学习笔记
先来让我们了解一下GPIO是什么吧，它在单片机中也有很重要的作用，接下来我们来看看吧。esp32C3是QFN32封装（一种集成电路（IC）封装类型），GPIO引脚一共有22个，从GPIO-0到GPIO-21。从理论上来说，所有的IO引脚都可以复用为任何外设功能，但有些引脚用作连接芯片内部FLASH或者外部FLASH功能时，官方不建议用作其它用途。esp32c3的GPIO，可以用作输入、输出，可以配
多线程在Java项目中的使用案例(笔记) 车车不吃香菇 java基础 java
多线程在Java项目中的使用案例(笔记)实现runnable接口@OverridepublicBooleanaddMeetingExpertIds(MeetAddExpertDtomeetAddExpertDto,LonguserId){//会议关联到专家//如果需要发给专家newThread(newRunnable(){@Overridepublicvoidrun(){try{if(meetAd
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
Kotlin学习笔记 qq_26907861
1.Val和Varval:用于声明不可变量,不可变是指引用不可变;var:用于声明可变的变量;packagehello//可选的包头funmain(args:Array){//包级可见的函数，接受一个字符串数组作为参数vala="不可变的变量"//不可变的变量varn=2//可变println(a)println(n)}2.fun函数Kotlin中的函数可以这样声明:fun函数名(参数列表):返回
扔物线--Kotlin协程训练营2期-2
笔记仅做自己学习用，方便自己复习知识。若正好可以帮助到Viewer，万分欣喜~若博客侵权，扔物线大大不允许放上面，麻烦告知本文是扔物线Kotlin第二期协程训练营的第二篇文章没看过第一篇文章的可以先看第一篇：https://blog.csdn.net/bluerheaven/article/details/106969835目录一、Retrofit对协程的支持二、Retrofit和RxJava的结
20250707-3-Kubernetes 核心概念-有了Docker，为什么还用K8s_笔记 Andy杨 CKA-专栏 kubernetes docker 笔记
一、Kubernetes核心概念1.有了Docker，为什么还用Kubernetes1）企业需求独立性问题：Docker容器本质上是独立存在的，多个容器跨主机提供服务时缺乏统一管理机制负载均衡需求：为提高业务并发和高可用，企业会使用多台服务器部署多个容器实例，但Docker本身不具备负载均衡能力管理复杂度：随着Docker主机和容器数量增加，面临部署、升级、监控等统一管理难题运维效率：单机升
20250707-4-Kubernetes 集群部署、配置和验证-K8s基本资源概念初_笔记
一、kubeconfig配置文件文件作用:kubectl使用kubeconfig认证文件连接K8s集群生成方式:使用kubectlconfig指令生成核心字段:clusters:定义集群信息，包括证书和服务端地址contexts:定义上下文，关联集群和用户users:定义客户端认证信息current-context:指定当前使用的上下文二、Kubernetes弃用Docker1.弃用背景原因:
麒麟系统离线安装docker
随着CentOS全面停服，国产操作系统会慢慢代替centos系统，在后续的项目中，项目部署的环境都必将是国产操作系统，本文就国产操作系统下如何离线安装docker,做下笔记分享一、材料准备1、国产操作系统麒麟10，arm64v82、dokcer部署包（版本：docker-18.09.tgz）3、部署docker脚本（docker.service），已经启动命令脚本（install.sh）二、编写d
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi

实训笔记8.24