あㅉ

数据清洗黑马程序员第五章数据的清洗与检验——阅读笔记

5.1 数据去重

数据去重又称重复数据的删除，通常指的是找出数据文件集合中重复的数据并将其删除，只保存唯一的数据单元，从而消除冗余数据。通常情况下，数据去重方法分为两种，分别是完全去重和不完全去重。

5.1.1 完全去重

完全去重指的是消除完全重复的数据，这里提到的完全重复数据指的是数据表记录字段值完全一样的数据。

1.打开Kettle工具，创建转换

通过使用Kettle工具，创建一个转换repeat_transform，并添加“CSV文件输入”控件、“唯一行（哈希值）”控件以及Hop跳连接线，具体如图1所示：

图1 创建转换repeat_transform

2.配置CSV文件输入控件

双击“CSV文件输入”控件，进入“CSV文件输入”配置界面，单击“浏览”按钮，选择要进行完全去重处理的CSV文件merge.csv；再单击“获取字段”按钮，单击“预览”按钮，查看CSV文件merge.csv的数据是否加载到CSV文件输入流中，具体如图2所示：

图2 Kettle检索CSV文件和预览数据

3.配置”唯一行（哈希值）”控件

双击“唯一行（哈希值）”控件，进入“唯一行（哈希值）”配置界面，在“用来比较的字段”处，添加要去重的字段，这里可以单击“获取”按钮，获取要去重的字段，如图3所示：

图3 添加需要去重的字段

4.运行转换repeat_transform

单击转换工作区顶部的按钮，运行创建的repeat_transform转换，如图4所示：

图4 运行转换repeat_transform

5.查看merge.csv是否消除完全重复的数据

选中“唯一行（哈希值）”控件，单击执行结果窗口的“Preview data”选项卡，查看是否消除CSV文件merge.csv中完全重复的数据，具体如图5所示：

图5 查看是否消除CSV文件merge.csv中完全重复的数据

5.1.2 不完全去重

1.打开Kettle工具，创建转换

通过使用Kettle工具，创建一个转换repeat_transform，并添加“CSV文件输入”控件、“唯一行（哈希值）”控件以及Hop跳连接线，具体如图6所示：

图6 创建转换repeat_transform

2. 配置文本文件输入控件

双击“文本文件输入”控件，进入“文本文件输入”配置界面，单击“浏览”按钮，选择要去重的文件people.txt；单击“增加”按钮，将要去重的文件people.txt添加到转换part_repeat_transform中，几天如图7，图8所示：

图7 选择要去重的文件people.txt

图8 添加people.txt至转换part_repeat_transform中

单击“内容”选项卡；清除分隔符处的默认分隔符“；”，并单击“Insert TAB”按钮，在分隔符处插入一个制表符；取消勾选“头部”复选框，如图9所示：

图9 “内容”选项卡配置

单击“字段”选项卡；根据文件people.txt的内容添加对应的字段名称，并指定数据类型，单击“预览记录”按钮，查看文件people.txt的数据是否成功抽取到文本文件输入流中，如图10所示：

图10 “字段”选项卡的配置和预览数据

3.配置唯一行（哈希值）控件

双击“唯一行（哈希值）”控件，进入“唯一行（哈希值）”配置界面，在“用来比较的字段”处，添加要比较去重的字段，即Name、UserLevel、Phone字段，如图11所示：

图11 添加要比较去重的字段

4.运行转换part_repeat_transform

单击转换工作区顶部的按钮，运行创建的part_repeat_transform转换，如图12所示：

图12 运行转换part_repeat_transform

5.查看文件people.txt是否消除不完全重复的数据

选中“唯一行（哈希值）”控件，单击执行结果窗口的“Preview data”选项卡，查看是否消除文件people.txt中不完全重复的数据，如图13所示：

图13 查看是否消除文件people.txt中不完全重复的数据

5.2 缺失值处理

缺失值是指数据集中某个或某些属性的值是不完整的，产生的原因主要有人为原因和机械原因两种，其中机械原因是由于机器故障造成数据未能收集或存储失败，人为原因是由主观失误或有意隐瞒造成的数据缺失。

5.2.1 缺失值清洗策略

制定合理的缺失值数据处理策略，不仅可以提升缺失值数据处理的效率，还可以使处理后数据的可靠性得到保证，提高最终分析结果的准确性。缺失值的处理方法很多，这里建议大家在清洗缺失值时，首先计算数据源字段缺失值比例，之后根据数据缺失率和重要性，指定不同的策略。

根据缺失值的范围制定对应的策略，通常情况下采用的策略如表1所示。

表1 根据缺失值的范围制定对应的策略

缺失值的范围	对应的策略
重要性高、缺失率高的数据	(1) 尝试从其它渠道获取数据进行补全； (2) 通过对其它字段的数据进行分析、计算等方式获取合理值进行补全； (3) 去除字段但要在结果中进行标注；
重要性高、缺失率低的数据	(1) 通过对字段自身的数据进行分析、计算等方式获取合理值进行补全； (2) 通过自身的经验与业务知识对缺失值数据进行人为补全；
重要性低、缺失率高的数据	直接去除该字段
重要性低、缺失率低的数据	可以不去处理或者进行简单的填充

5.2.2 去除缺失值

数据缺失分为两种：一种是行记录的缺失，这种情况又称数据记录丢失；另一种是数据列值的缺失，即由于各种原因导致的数据记录中某些列的值空缺。去除缺失值数据通常分为两种情况：一种是删除存在遗漏信息属性值的对象的列，另一种是删除存在遗漏信息属性值对象的记录，从而得到一个完备的信息表。

1.打开Kettle工具，创建转换

通过使用Kettle工具，创建一个转换delete_missing_value，并添加“文本文件输入”控件、“字段选择”控件、“过滤记录”控件、“Excel输出”控件、“空操作（什么也不做）”控件以及Hop跳连接线，如图14所示：

图14 创建转换delete_missing_value

2.配置文本文件输入控件

双击“文本文件输入”控件，进入“文本文件输入”配置界面，单击“浏览”按钮，选择要去除缺失值的文件revenue.txt；单击“增加”按钮，将要去除缺失值的文件revenue.txt添加到“文本文件输入”控件中，如图15、图16所示：

图15 选择要去除缺失值的文件revenue.txt

图16 添加文件revenue.txt至“文本文件输入”

单击“内容”选项卡；在清除分隔符处的默认分隔符“；”，单击“Insert TAB”按钮，在分隔符处插入一个制表符；取消勾选“头部”复选框，如图17所示：

图17 “内容”选项卡配置

单击“字段”选项卡；根据文件revenue.txt的内容添加对应的字段名称，并指定数据类型；单击“预览记录”按钮，查看文件revenue.txt中的数据是否成功抽取到文本文件输入流中，具体如图18所示：

图18 添加字段和预览记录

3.配置字段选择控件

双击“字段选择”控件，进入“选择/改名值”界面，在“选择和修改”选项卡的“字段”处手动添加文本文件输入控件输出的所有数据字段，也可以单击“获取选择的字段”按钮，Kettle工具自动检索并添加文本文件输入控件输出的所有数据字段；在“移除”选项卡处添加要移除的字段名称，这里移除的是Sex字段，具体如图18、图20所示：

图19 添加字段

图20 添加要移除的字段名称

4.配置过滤记录控件

双击“过滤记录”控件，进入“过滤记录”界面，在“条件”处设置过滤的条件，过滤掉有缺失值的数据字段（这里是过滤Name、Pay和Area字段中的缺失值）；单击左边“”框，弹出字段对话框，选择要过滤的字段Name，如图21所示；单击 “=”框，弹出函数对话框，选择过滤条件（这里选择IS NULL）如图22所示：

图21 “字段对”话框

图22 “函数”对话框

字段Name的过滤设置如图23所示；

图23 字段Name的过滤设置

单击符号“+”增加过滤条件，如图24所示；单击“AND”，弹出操作符对话框，选择操作符（这里选择的是OR），如图25所示：

图24 增加过滤条件图25 选择操作符

单击“增加条件”图中的“null = [ ]”，添加过滤字段，如图26所示；单击左边“”框，弹出字段对话框，选择要过滤的字段Pay，如图27所示；单击“=”框，弹出函数对话框，选择过滤条件（这里选择IS NULL），如图28所示。字段Pay的过滤设置，如图29所示：

图26 添加过滤字段

图27 选择要过滤的字段Pay

图28 函数对话框

图29 字段Pay的过滤设置

单击“字段Pay的过滤设置”图中的符号“+”增加过滤条件；单击“AND”，弹出操作符对话框，选择操作符（这里选择OR），如图30所示；单击“增加条件”图中的“null = [ ]”，添加过滤字段；单击左边“”框，弹出字段对话框，选择要过滤的字段Area，如图31所示；单击“=”框，弹出函数对话框，选择过滤条件（这里选择IS NULL），如图32所示；字段Area的过滤设置，具体如图33所示，连续单击两次【确定】按钮，查看整体设置的过滤条件，如图34所示：

图30 选择操作符

图31 选择要过滤的字段Area

图32 选择过滤条件

图33 字段Area的过滤设置

图34 设置的过滤条件

在“发送true数据给步骤：”处的下拉框中选择“空操作”，将包含缺失值的行数据放在空操作控件中；在“发送false数据给步骤：”处的下拉框中选择“Excel输出”，将没有缺失值的行数据输出到Excel文件中，如图35所示：

图35 发送true/false数据给相关步骤的配置

5.配置Excel输出控件

双击“Excel输出”控件，进入“Excel输出”配置界面，单击“浏览”按钮，选择要输出的文件路径，如图36所示：

图36 选择要输出的文件路径

6.运行转换delete_missing_value

单击转换工作区顶部的按钮，运行创建的delete_missing_value转换，如图37所示：

图37 运行转换delete_missing_value

7.查看文件file.xls

查看“Excel输出”控件输出的文件file.xls是否还含有缺失值数据，文件file.xls的内容如图38所示：

图38 查看文件file.xls

5.2.3 填充缺失值

数据挖掘中，面对的通常都是大型的数据库，它的属性有几十个甚至几百个，因为其中某个属性值的缺失而放弃大量其他的属性值，这种删除是对信息的极大浪费，所以产生了插补缺失值的思想与方法。常用的填充缺失值方法有均值填充、热卡填充、回归填充和多重填充。

1.打开Kettle工具，创建转换

通过使用Kettle工具，创建一个转换fill_missing_value，并添加“文本文件输入”控件、“过滤记录”控件、“空操作（什么也不做）”控件、“替换NULL值”控件、“合并记录”控件、“字段选择”控件以及Hop跳连接线，如图39所示：

图39 创建转换fill_missing_value

2.配置文本文件输入控件

双击“文本文件输入”控件，进入“文本文件输入”配置界面，单击“浏览”按钮，选择要去除缺失值的文件people_survey.txt，如图40所示；单击“增加”按钮，将要去除缺失值的文件people_survey.txt添加到“文本文件输入”控件中，如图41所示：

图40 选择要填充缺失值的文件people_survey.txt

图41 添加people_survey.txt至“文本文件输入”控件中

单击“内容”选项卡；在清除分隔符处的默认分隔符“；”，单击“Insert TAB”按钮，在分隔符处插入一个制表符；取消勾选“头部”复选框，若不取消，在进行数据抽取操作时会排除文件第一行的数据，如图42所示：

图42 单击“内容”选项卡配置

单击“字段”选项卡；根据文件people_survey.txt文件的内容添加对应的字段名称，并指定数据类型，如图43所示：

图43 添加字段

单击“预览记录”按钮，查看文件people_survey.txt的数据是否成功抽取到文本文件输入流中，如图44所示：

图44 预览数据

3.配置过滤记录控件

双击“过滤记录”控件，进入“过滤记录”配置界面，在“条件”处设置过滤的条件，由于从“预览数据”图中可以看出字段userid为000016用户的hours_per_week（即每周工作时间字段）存在缺失值，而它的workclass字段值为Private，因此我们可以将过滤字段设置为workclass、过滤值设置为Private作为过滤条件，如图45所示：

图45 设置过滤条件

在“发送true数据给步骤：”下拉框中选择“空操作”，将workclass字段值为Private的数据放在“空操作”控件中；在“发送false数据给步骤：”下拉框中选择“空操作（什么也不做）2”，将workclass字段值不为Private的数据放在“空操作（什么也不做）2”控件中，如图46所示：

图46 配置发送true/false数据给相关步骤

4.配置替换NULL值控件

双击“替换NULL值”控件，进入“替换NULL值”配置界面，勾选“选择字段”处的复选框，并在“字段”框添加字段为hours_per_week，值替换为44（44是字段为hours_per_week中所有值相加求的均值，这里指用44替换字段hours_per_week中的NULL值），如图47所示：

图47 配置“替换NULL值”控件

5.配置合并记录控件

双击“合并记录”控件，进入“合并行（比较）”配置界面，在”旧数据源：”下拉框选择“替换NULL值”，“新数据源：”下拉框选择“空操作（什么也不做）2”；在“匹配的关键字：”部分，添加关键字段，即userid，如图48所示：

图48 配置“合并记录”控件

6.配置配置替换NULL2值控件

双击“替换NULL值2”控件，进入“替换NULL值”配置界面，勾选“选择字段”处的复选框，并在“字段”框添加字段为workclass，值替换为Private（这里用Private替换字段workclass中的NULL值），如图49所示：

图49 配置“配置替换NULL2“”值控件

7.配置字段选择控件

双击“字段选择”控件，进入“选择/改名值”配置界面，在“移除”选项卡处添加要移除的字段名称，这里移除的是字段flagfield，如图50所示：

图50 添加要移除的字段

8.运行转换fill_missing_value

单击转换工作区顶部的按钮，运行创建的fill_missing_value转换，如图51所示：

图51 运行转换fill_missing_value

9.查看文件people_survey.txt中的缺失值是否已填充

单击图39中的“字段选择”控件，再单击执行结果窗口的“Preview data”选项卡，查看是否填充了文件people_survey.txt中的缺失值，如图52所示：

图52 查看是否填充了文件people_survey.txt中的缺失值

MySQL算法篇（一）先睡算法
Hash算法，也称为哈希算法或散列算法，是一种将任意长度的输入（如文本、图片等）通过某种规则转换成固定长度的输出的算法。这个输出通常被称为哈希值、哈希码或哈希摘要。以下是一些关于哈希算法的关键点：不可逆性：理论上，从哈希值不能逆向推导出原始输入数据。确定性：对于同一个输入，无论何时何地使用相同的哈希算法，都会得到相同的哈希值。快速计算：哈希算法通常设计得非常高效，可以快速计算出哈希值。抗冲突性：不
Mysql数据库分表实现微笑的曙光（StevenLi）数据库 mysql 分表性能优化 merge
本次主要采用MERGE分表法、对表进行水平拆分；第一步：创建数据库DROPTABLEIFEXISTSstudents;CREATETABLEstudents(idbigint(20)NOTNULLAUTO_INCREMENT,namevarchar(20)DEFAULTNULL,numvarchar(20)DEFAULTNULL,PRIMARYKEY(id))ENGINE=MyISAMAUTO_I
智慧社区2.0 陈陈爱java java
项目亮点1.技术架构层面✅多数据源整合（MySQL+Redis+HDFS+OSS）核心亮点：不仅仅是单一数据库，而是根据数据特性使用MySQL（结构化数据）+Redis（缓存）+HDFS（大数据存储）+OSS（对象存储），提高了系统的数据存储效率和查询速度。面试时可以强调：Redis作为缓存，加速社区热点数据访问，减少MySQL压力。HDFS存储海量日志和AI任务数据，支持后续分析。OSS解决图片
centos7 docker 安装mysql8 A 小小飞船 docker mysql centos docker 服务器
centos7docker安装mysql8要在CentOS7上使用Docker安装MySQL8，请按照以下步骤操作：安装Docker（如果尚未安装）：sudoyuminstall-yyum-utilssudoyum-config-manager--add-repohttps://download.docker.com/linux/centos/docker-ce.reposudoyuminstal
MySQL与达梦数据库空间查询差异详解：根据经纬度坐标查询范围 CarlowZJ 数据库 mysql 达梦数据库
在地理信息系统中，经常需要根据地理位置数据进行查询。MySQL和达梦数据库（DM）都提供了空间函数来支持这类查询，但两者在处理空间函数时存在一些差异。本文将详细解释两个数据库中根据经纬度坐标查询范围的SQL语句，并说明这些差异。一、MySQL数据库查询语句解释sql复制SELECT*FROMbase_channelsWHEREIS_SELECT='1'ANDST_Contains(ST_GeomF
JVM、MySQL常见面试题(尽力局) 多敲代码防脱发 jvm mysql 数据库
JVM篇一.谈一谈JDK、JRE、JVM分别是什么，有什么联系？1.JDK是Java工具包，里面包含了JRE、Javac编译器等。2.JRE是java运行环境，里面包含了JVM、JavaSE标准库类等。3.JVM是Java虚拟机，运行编译后的.class的文件，调用系统API运行。JDK=JRE+Javac编译器JRE=JVM+JavaSE标准库二.JVM运行时数据区由哪几部分构成，分别有什么作用
蓝易云 - MySQL查询语句大全蓝易云 mysql 数据库 javascript 后端 okhttp 开发语言架构
以下是一些常用的MySQL查询语句示例：基本查询：查询所有记录：SELECT*FROMtable_name;查询特定列：SELECTcolumn1,column2FROMtable_name;带条件查询：SELECT*FROMtable_nameWHEREcondition;去重查询：SELECTDISTINCTcolumnFROMtable_name;排序和限制：排序：SELECT*FROMta
【宇宙回响】从Canvas到MySQL：飞机大战的全栈交响曲【附演示视频与源码】果冻kk 小游戏开发 mysql 音视频数据库前端 html5 java spring boot
这是星际大战系列的第三篇送福利文章，感谢一路以来支持和关注这个项目的每一位朋友！文章力求严谨，但难免有疏漏之处，欢迎各位朋友指出，让我们一起在交流中进步。项目代码、文档和相关资源都可以免费获取，希望能帮助到更多对游戏开发感兴趣的朋友。如果您有任何想法、建议或疑问，都欢迎在评论区留言或通过私信与我交流。您的每一个反馈都是项目进步的动力！文章目录【福利分享】星际大战飞机大战升级版-前后端完整版本前言演
深入理解MySQL索引：原理、数据结构与优化策略大骨熬汤 mysql 数据结构数据库
深入理解MySQL索引：原理、数据结构与优化策略MySQL是当今最流行的开源关系型数据库管理系统之一，其强大的性能与灵活的可扩展性使得它广泛应用于各种规模的应用程序中。在数据库的日常操作中，索引起着至关重要的作用，能够极大地提高查询效率。然而，索引的设计与使用并不总是那么直观，尤其是在面对复杂查询、海量数据和频繁更新时，如何有效地设计和优化索引成为一项重要的挑战。本文将深入探讨MySQL索引的底层
基于oracle linux的 DBI/DBD 标准化安装文档(一) linux
一、安装DBIDBI(DatabaseInterface)是perl连接数据库的接口。其是perl连接数据库的最优方法，他支持包括Orcale,Sybase,mysql,db2等绝大多数的数据库，下面将简要介绍其安装方法。1.1解压tar-zxvfDBI-1.616_901.tar.gz1.2安装依赖yuminstallperl-ExtUtils-CBuilderperl-ExtUtils-Mak
〖Python 数据库开发实战 - MySQL篇⑰〗- 聚合函数的使用哈哥撩编程 #⑤ -数据库开发实战篇 Python全栈白宝书 python 数据库开发 mysql 聚合函数
订阅Python全栈白宝书-零基础入门篇可报销！白嫖入口-请点击我。推荐他人订阅，可获取扣除平台费用后的35%收益，文末名片加V！说明：该文属于Python全栈白宝书专栏，免费阶段订阅数量4300+，购买任意白宝书体系化专栏可加入TFS-CLUB私域社区。福利：加入社区的小伙伴们，除了可以获取博主所有付费专栏的阅读权限之外，还有机会加入星荐官共赢计划，详情请戳我。作者：不渴望力量的哈士奇(哈哥)，
mysql 聚合函数求乘积_mysql-聚合函数数据-黄大大 mysql 聚合函数求乘积
mysql中聚合函数其实只有5个，1.COUNT()函数：用来统计记录的条数；2.SUM()函数:是求和函数；3.AVG()函数:是求平均值的函数;4.MAX()函数是求最大值的函数5.MIN()函数是求最小值的函数具体的实列：/*SQLyog企业版-MySQLGUIv8.14MySQL-5.1.49-community***************************************
MySQL--group by--聚合函数--内置函数--0415 22 Gosolo！ MySQL sql 数据库
目录1.聚合函数1.1count1.2sum1.3avg1.4max和min2.groupby2.1groupby的条件筛选——having2.2总结3.日期函数4.字符串函数concatreplacesubstring以首字母大写，其余字母小写的方式显示员工的姓名5.数学函数formatrand()6.其他函数user()md5ifnull1.聚合函数函数说明count([DISTINCT]参数
MySQL 聚合函数 Davina_yu SQL专栏 sql mysql 数据库
MySQL提供了一系列聚合函数，用于对一组值执行计算，并返回单个值。以及更复杂的聚合函数示例，包括多层分组、嵌套聚合、窗口函数以及结合子查询等高级用法1.COUNT()COUNT()函数用于返回匹配指定条件的行数。语法：COUNT(column_name)COUNT(*)示例：假设我们有一个orders表，包含以下列：order_id,customer_id,order_date,amount
【MySQL基础-9】深入理解MySQL中的聚合函数 AllenBright #MySQL mysql 数据库
在数据库操作中，聚合函数是一类非常重要的函数，它们用于对一组值执行计算并返回单个值。MySQL提供了多种聚合函数，如COUNT、SUM、AVG、MIN和MAX等。这些函数在数据分析和报表生成中扮演着关键角色。本文将深入探讨这些聚合函数的使用方法、注意事项以及一些高级技巧。1.聚合函数概述聚合函数主要用于对一组值进行计算，并返回一个单一的值。常见的聚合函数包括：COUNT()：计算行数。SUM()：
MySQL 与 Elasticsearch 联合查询墨瑾轩一起学学数据库【一】mysql elasticsearch adb
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣嘿，小伙伴们！今天我们要来聊聊MySQL与Elasticsearch如何携手合作，共同完成高效的联合查询和数据检索任务。MySQL是一款非常流行的数据库管理系统，而Elasticsearch则是一款基于Lucene的搜索引擎，擅长全文搜索和实时数据分析。两者结
MySQL 基本查询语句一个在阴影中的菜鸟 MySQL mysql 数据库 sql
1.SQL分类1.DDL（DataDefinitionLanguages、数据定义语言），这些语句定义了不同的数据库、表、视图、索引等数据库对象，还可以用来创建、删除、修改数据库和数据表的结构。主要的语句关键字包括CREATE、DROP、ALTER等。2.DML（DataManipulationLanguage、数据操作语言），用于添加、删除、更新和查询数据库记录，并检查数据完整性。主要的语句关键
MySQL进阶：深入索引 - 函数和表达式索引墨夶微信小程序 mysql 数据库
MySQL进阶：深入索引-函数和表达式索引❓引言：为什么需要了解函数和表达式索引❓在数据库管理和优化过程中，索引的管理是一项重要任务。传统的基于列值的索引虽然能够提高查询性能，但在某些场景下可能无法满足需求。MySQL8.0引入了函数和表达式索引，这些索引允许我们在索引中使用函数或表达式的结果，从而在查询中更有效地过滤和检索数据。本文将深入探讨函数和表达式索引的概念、工作原理、应用场景以及优化技巧
MySQL -- 数据类型 4647的码农历程 MySQL mysql oracle 数据库
1、数据库的基础数据类型TINYINTINTBIGINTFLOATDECIMALCHARVARCHARTEXTBLOBDATEDATETIMETIMESTAMPSETENUM2、不同数据类型区别以及作用1、数值类型1.1整数类型1.1.1TINYINT这里我们以TINYINT这个类型为例，解释一下在mysql中整数类型的一些存储规则首先我们需要知道的是，数据库可以存储各种各样的数据，为了更好地管理
MySQL -- 基本函数 4647的码农历程 MySQL mysql 数据库 oracle
本文主要介绍一些基本的数据库函数1、日期函数下面是一些常用时间函数的相关信息：函数名称描述current_date()当前日期current_time()当前时间current_timestamp()当前时间戳date(datetime)返回datetime参数的日期部分date_add(date,intervald_value_type)在date中添加日期或时间interval后的数值，单位可
如何通过 Apache SeaTunnel 实现 MySQL 到 OceanBase的数据迁移同步 SeaTunnel apache mysql oceanbase
本文来源于OceanBase数据库官方博客，目前ApacheSeaTunnel2.3.9已支持本文提到的所有功能，故原文2.3.7已全部修改为2.3.9准备传输工具本方案采用ApacheSeaTunnel（简称SeaTunnel）进行MySQL到OceanBase的数据迁移和同步，出于对方案轻量性的考量，我们采用其内置的Zeta引擎来实现，包括全量同步、离线增量同步，以及CDC方案。运行环境准备自
【实操回顾】基于Apache SeaTunnel从MySQL同步到PostgreSQL——Demo方舟计划 SeaTunnel apache mysql postgresql
文章作者：马全才奥克斯集团大数据工程师编辑整理：国电南自赵鸿辉白鲸开源曾辉本文详细演示了如何通过ApacheSeaTunnel2.3.9实现**MySQL**到PostgreSQL的全量数据同步。非常感谢马全才老师花费业余时间为大家演示制作的Demo，也欢迎更多朋友贡献自己熟悉的同步场景，详细请参考社区Demo方舟活动：https://mp.weixin.qq.com/s/5gpiZZ0-8a4I
基于oracle linux的 DBI/DBD 标准化安装文档(六) oracle
一、安装DBIDBI(DatabaseInterface)是perl连接数据库的接口。其是perl连接数据库的最优方法，他支持包括Orcale,Sybase,mysql,db2等绝大多数的数据库，下面将简要介绍其安装方法。1.1解压tar-zxvfDBI-1.616_901.tar.gz1.2安装依赖yuminstallperl-ExtUtils-CBuilderperl-ExtUtils-Mak
莫名锁表？ --- mysql的事务隔离级别程序员小软 mysql 数据库 java
前言系统响应超时系统访问数据库特别慢莫名提示锁等待超时数据库锁表事务长时间等锁，直到超时以上问题都可能是事务锁表导致的问题今天测试反馈系统批量处理莫名提示锁等待超时，再次操作查看数据库事务确实存在等锁情况，甚至死锁。刚开始是偶尔出现，后来一直就是死锁，导致其他操作也操作不了。刚开始发现数据库中操作插入的时候会进入锁等待怀疑是这张表中主键自增导致的锁表，于是将表改为指定主键，问题依然存在。后来想起来
MySQL数据库架构设计：分片与分区策略实战墨瑾轩一起学学数据库【一】mysql 数据库架构 adb
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣在数据库的魔法森林中，MySQL就像是一位智慧的老树精，而分片（Sharding）与分区（Partitioning）则是它手中的两把神秘钥匙，能够打开数据高效存储与快速检索的大门。今天，我们就一起踏上一场奇幻之旅，探索如何运用这两把钥匙，打造一个既强大又灵活的
MySQL探秘之旅：总体架构介绍互联网全栈架构 mysql 架构数据库
欢迎关注微信公众号：互联网全栈架构自从《吃透Redis系列》阅读量屡创新高之后，更加坚定了创作技术系列文章的决心，从而让朋友们获得更加体系化的知识。当然，这是一件非常不容易的事情，让每篇文章都能单独成篇且质量上乘，同时，把它们连起来以后又能构成一个体系，着实困难。但不管如何，我觉得这样的方向和做法没有问题，应该会受到大家的欢迎，那就迎难而上。上次做了一个统计，相对来说，大家对于MySQL的文章比较
超详细：数据库的基本架构 m0_74824661 面试学习路线阿里巴巴数据库架构
MySQL基础架构下面这个图是我给出的一个MySQL基础架构图，可以清楚的了解到SQL语句在MySQL的各个模块进行执行过程。然后MySQL可以分为两个部分，一个是server层，另一个是存储引擎。server层Server层涵盖了MySQL的大多数核心服务功能，以及所有的内置函数（如日期、时间、数学和加密函数等）。所有跨存储引擎的功能都在这一层实现，比如存储过程、触发器、视图等。Server层主
MYSQL8.0数据库误删除记录恢复 MYSQL8.0数据库崩溃恢复 MYSQL8.0数据库删除表恢复 caihuayuan5 面试题汇总与解析大数据 spring boot java 后端课程设计
数据类型MYSQL8.0数据大小242MB故障检测主机断电导致数据库崩溃,无法启动.修复结果收到文件后,修正不一致的地方，成功启动MYSQL8.0完成恢复客户验收数据成功。完成恢复。最新数据得以恢复.客户非常满意。友情提醒：重要数据一定要勤备份，遇到数据丢失数据损坏等问题，要第一时间联系专业人士。对于各类主流数据库，我们可以做最底层的数据恢复及数据修复，对于数据库的某些特定故障我们保证数据库100
python+MySQL+HTML实现自习室座位管理系统 IT小本本 python python mysql html
自习室座位管理系统项目介绍自习室座位管理系统是一个基于PythonFlask框架开发的Web应用，旨在提供高效、便捷的自习室座位预约和管理功能。该系统适用于学校图书馆、自习室等场所，帮助管理员有效管理座位资源，同时为学生提供便捷的座位预约服务。功能特点1、用户认证模块用户注册：学生可以注册账号，填写个人信息用户登录：支持学生和管理员登录找回密码：通过邮箱验证重置密码2、座位管理模块座位预约：学生可
基于oracle linux的 DBI/DBD 标准化安装文档(二) 文档
一、安装DBIDBI(DatabaseInterface)是perl连接数据库的接口。其是perl连接数据库的最优方法，他支持包括Orcale,Sybase,mysql,db2等绝大多数的数据库，下面将简要介绍其安装方法。1.1解压tar-zxvfDBI-1.616_901.tar.gz1.2安装依赖yuminstallperl-ExtUtils-CBuilderperl-ExtUtils-Mak
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，

数据清洗 黑马程序员 第五章数据的清洗与检验——阅读笔记

5.1 数据去重

5.1.1 完全去重

5.1.2 不完全去重

5.2 缺失值处理

5.2.1 缺失值清洗策略

5.2.2 去除缺失值

5.2.3 填充缺失值

你可能感兴趣的:(mysql)

数据清洗黑马程序员第五章数据的清洗与检验——阅读笔记