天下第一黑鬼_Big Data

HDFS详解——大数据

一、大数据简介

1、大数据特征

1.Volume :巨大的数据量
2.Variety:数据结构多样化
		1.结构化的数据   -- 又固定格式和有限长度的数据
		2.半结构化的数据  --是一些XML或者HTML的格式的数据
		3.非结构化的数据  --现在非结构化的数据越来越多，就是不定长，无固定格式的数据，例如网页，语音，视频等
3.Velocity: 数据增长速度快
4.Value： 价值密度低

2、数据采集或者同步的方式

常用的数据采集导入框架
 - sqoop ：    用于RDMS与HDFS值键数据导入与导出
 - flume ：    采集日志文件数据，动态采集日志文件、数据流
 			  flume采集到的数据，一份给HDFS ，用于做离线分析；一份给Kafka，实时处理
 - kafka :    主要用于试试的数据流处理
 			  flume与Kafka都有类似消息队列的机制，来缓存大数据环境处理不了的数据

3、数据存储

常用的数据存储框架
		-HDFS   HBase   ES

4、数据清洗

就是对数据进行过滤，得到具有一定格式的数据源

常用框架 ： mepreduce 、  hive  、   spark SQL 、    impala   、  kylin

5、数据展示

即将数据分析后的结果展示出来，也可以理解为数据的可视化、以图或者表具体的形式展示出来

常⽤⼯具：
	metastore、  Javaweb、	hcharts、	echarts

二、Hadoop

数据⼤⼩单位：Byte,KB,MB,GB,TB,PB,EB,ZB,YB,DB,NB

1、Hadoop的组成部分

hadoop2.0以后的四个模块：

 - Hadoop Common:Hadoop模块的通⽤组件
 - Hadoop Distributed File System：分布式⽂件系统
 - Hadoop YARN：作业调度和资源管理框架
 - Hadoop MapReduce：基于YARN的⼤型数据集并⾏计算处理框架
hadoop3.0新扩展的两个模块：

 - Hadoop Ozone:Hadoop的对象存储机制
 - Hadoop Submarine:Hadoop的机器学习引擎

简介：

* Hbase
   是⼀个可扩展的分布式数据库，⽀持⼤型表格的结构化数据存储。 HBase是Apache的Hadoop项⽬的⼦项⽬。
HBase不同于⼀般的关系数据库，它是⼀个适合于⾮结构化数据存储的数据库。另⼀个不同的是HBase基于列的，⽽
不是基于⾏的模式。
* Hive
   数据仓库基础架构，提供数据汇总和临时查询，可以将结构化的数据⽂件映射为⼀张数据库表，并提供简单的sql
查询功能，可以将sql语句转换为MapReduce任务进⾏运⾏。Hive提供的是⼀种结构化数据的机制，定义了类似于传
统关系数据库中的类SQL语⾔：Hive SQL，通过该查询语⾔，数据分析⼈员可以很⽅便地运⾏数据分析
业务。
* Spark
   Hadoop数据的快速和通⽤计算引擎。 Spark提供了⼀个简单⽽富有表现⼒的编程模型，⽀持⼴泛的应⽤程序，包
括ETL，机器学习，流处理和图计算。
* ZooKeeper
   ⼀个⾯向分布式应⽤程序的⾼性能协调服务，是Hadoop和Hbase的重要组件。它是⼀个为分布式应⽤提供⼀致性服
务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。
* Sqoop(数据ETL/同步⼯具）
   Sqoop是SQL-to-Hadoop的缩写，主要⽤于传统数据库和Hadoop之前传输数据。数据的导⼊和导出本质上是
Mapreduce程序，充分利⽤了MR的并⾏化和容错性。
* Flume（⽇志收集⼯具）
   Cloudera开源的⽇志收集系统，具有分布式、⾼可靠、⾼容错、易于定制和扩展的特点。它将数据从产⽣、传
输、处理并最终写⼊⽬标的路径的过程抽象为数据流，在具体的数据流中，数据源⽀持在Flume中定制数据发送⽅，
从⽽⽀持收集各种不同协议数据。同时，Flume数据流提供对⽇志数据进⾏简单处理的能⼒，如过滤、格式转换等。
* Kafka（分布式消息队列）
   Kafka是Linkedin于2010年12⽉份开源的消息系统，它主要⽤于处理活跃的流式数据。这些数据包括⽹站的pv、
⽤户访问了什么内容，搜索了什么内容等。这些数据通常以⽇志的形式记录下来，然后每隔⼀段时间进⾏⼀次统计处
理。
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
* Ambari
   ⽤于供应，管理和监控Apache Hadoop集群的基于Web的⼯具。Ambari⽬前已⽀持⼤多数Hadoop组件，包括
HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。Ambari还提供了⼀个⽤于查
看集群健康状况的仪表板，例如热图以及可视化查看MapReduce，Pig和Hive应⽤程序的功能以及⽤于诊断其性能特
征的功能，以⽅便⽤户使⽤。
* Avro
   数据序列化系统。可以将数据结构或者对象转换成便于存储和传输的格式，其设计⽬标是⽤于⽀持数据密集型应
⽤，适合⼤规模数据的存储与交换。Avro提供了丰富的数据结构类型、快速可压缩的⼆进制数据格式、存储持久性数
据的⽂件集、远程调⽤RPC和简单动态语⾔集成等功能。
* Cassandra
   可扩展的多主数据库，没有单点故障。是⼀套开源分布式NoSQL数据库系统。
* Chukwa
 于管理⼤型分布式系统的数据收集系统（2000+以上的节点, 系统每天产⽣的监控数据量在T级别）。它构建在
Hadoop的HDFS和MapReduce基础之上，继承了Hadoop的可伸缩性和鲁棒性。Chukwa包含⼀个强⼤和灵活的⼯具
集，提供了数据的⽣成、收集、排序、去重、分析和展示等⼀系列功能，是Hadoop使⽤者、集群运营⼈员和管理⼈员
的必备⼯具。
* Mahout
   Apache旗下的⼀个开源项⽬，可扩展的机器学习和数据挖掘库
* Pig
   ⽤于并⾏计算的⾼级数据流语⾔和执⾏框架。它简化了使⽤Hadoop进⾏数据分析的要求，提供了⼀个⾼层次的、⾯
向领域的抽象语⾔：Pig Latin。
* Tez
   ⼀个基于Hadoop YARN的通⽤数据流编程框架，它提供了⼀个强⼤⽽灵活的引擎，可执⾏任意DAG任务来处理批处
理和交互式⽤例的数据Hado™⽣态系统中的Hive™，Pig™和其他框架以及其他商业软件（例如ETL⼯具）正在采⽤
Tez，以替代Hadoop™MapReduce作为底层执⾏引擎。
* Oozie(⼯作流调度器)
   ⼀个可扩展的⼯作体系，集成于Hadoop的堆栈，⽤于协调多个MapReduce作业的执⾏。它能够管理⼀个复杂的系
统，基于外部事件来执⾏，外部事件包括数据的定时和数据的出现。
* Pig(ad-hoc脚本）
   由yahoo!开源，设计动机是提供⼀种基于MapReduce的ad-hoc(计算在query时发⽣)数据分析⼯具,通常⽤于进
⾏离线分析。它定义了⼀种数据流语⾔—Pig Latin，它是MapReduce编程的复杂性的抽象,Pig平台包括运⾏环境和⽤于分析Hadoop数据集的脚本语⾔(Pig Latin)。

2、安装模式《集群搭建》

说明：
HDFS的安装模式有三种：
-1. 本地模式(独⽴模式)
-2. 伪分布式模式
-3. 完全分布式模式(实际⽣产环境使⽤)

2.1本地安装模式

2.1.1 jdk安装

一、rpm -qa | grep jdk      # rpm的卸载
二、 tar -zxvf jdk-8u221-linux-x64.tar.gz -C /usr/local         #解压到本地 /usr/local/路径下 
三、jdk环境变量的配置： vi /etc/profile     编辑配置文件
	export JAVA_HOME=/usr/local/jdk
	export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
 	source /etc/profile       配置完成后使当前窗口生效
四、 java -version             验证jdk环境变量配置是否成功
	 javac

2.1.2Hadoop的目录理解与安装

1、目录理解

--1. bin: hadoop的⼆进制执⾏命令⽂件存储⽬录
--2. sbin: hadoop的执⾏脚本存储⽬录
--3. etc: hadoop的配置⽂件存储⽬录
--4. lib/libexec: hadoop的资源库存储⽬录
--5. share: hadoop的共享资源、开发⼯具和案例存储⽬录
--6. include: hadoop的⼯具脚本存储⽬录

2、Hadoop安装步骤

一、上传并解压hadoop    tar -zxvf hadoop-2.7.6.tar.gz -C /usr/local/
二、 配置hadoop的环境变量 ：vi /etc/profile
	export HADOOP_HOME=/usr/local/hadoop
	export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH	
	source /etc/profile       配置完成后使当前窗口生效
三、 hadoop version 验证是否安装配置成功

3、Hadoop官方示例

1. wordcount
   词频统计，统计一个目录下指定文件或者所有文件中单词出现的频率
   通过如下命令，可以执行这个程序，要注意最后的一个/root/output这个目录为输出目录，需要事先不存在
   hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount /root/input /root/output
   
2. sudoku
   数独案例，可以解数独
   通过如下命令，可以执行这个程序，输入路径中需要提供待解的数独，用？做占位符
   hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar sudoku /root/input/suduku.txt

3. pi
   圆周率的计算，后两个参数数值越大，计算的越精准，消耗的时间和资源会更多
   hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar pi 1000 1000000

2.2安装模式之伪分布式安装

注意：*********************************************************************************************

--1. 确保防⽕墙是关闭的.
--2. NAT模式和静态IP的确定 （192.168.10.101）
--3. 确保/etc/hosts⽂件⾥ ip和hostname的映射关系
--4. 确保免密登陆localhost有效
--5. jdk和hadoop的环境变量配置

systemctl stop firewalld                /*关闭防火墙  */
systemctl disable firewalld.service
systemctl stop NetworkManager
systemctl disable NetworkManager

192.168.10.101 qianfeng01       /*设置ip和hostname的映射关系*/

ssh-keygen-t rsa
ssh-copy-id qianfeng01
ssh qianfeng01             /*用于设置免密登录*/

2.3安装模式之完全分布式安装

注意：

第一步：和安装伪分布式一样，必须保证前面五点要求

3、Hadoop中hdfs块的概念

3.1HDFS的块

块是HDFS系统当中的最⼩存储单位，在hadoop2.0中默认⼤⼩为128MB（hadoop1.x中的块⼤⼩为64M）。

在HDFS上的⽂件会被拆分成多个块，每个块作为独⽴的单元进⾏存储。

多个块存放在不同的DataNode上，整个过程中 HDFS系统会保证⼀个块存储在⼀个数据节点上 。

但值得注意的是 如果某⽂件⼤⼩或者⽂件的最后⼀个块没有到达128M，则不会占据整个块空间 。

问题一：为什么HDFS上块的大小远远大于传统文件？

1.目的是为了最小化寻址开销时间
	机械硬盘的寻址时间一般是5-15ms之间，平均下来就是10ms， 最小寻址开销时间认为占1秒的百分之一是 最优的，块的大小就参考1秒的传输速度，
2.为了节省内存的使用率
	一个块的元数据大小是150个字节。不论块的大小，都会占用20G 左右的内存，因此块越大，集群相对存储的数据就越多，

问题二：HDFS的缺点

1.不适合做低延迟数据访问
	HDFS设计目标是处理大型数据集，高吞吐率。就会以高延迟为代价，因此HDFS不适合处理低延迟请求
2.不适合小文件存取;
	大量的小文件需要消耗大量的寻址时间，违反了HDFS尽可能减少寻址时间的设计目标，内存有限，一个block元数据大内存消耗大约是150字节，存储一亿个block和存储一亿个小文件都会消耗20G内存。因此大文件更节约内存
3.不适合并发写入，文件随即修改
	HDFS上的文件只能 有一个写者，仅仅支持append操作，不支持多用户对同一个文件的写操作，以及再文件人以为位置进行修改。

问题三：HDFS优点

1.高容错性 ：数据子佛能够保存多个副本，副本丢失后会自动恢复
2.适合大数据集： GB,TB甚至是PB级数据，千万规模以上的文件数量，1000以上节点规模
3.数据访问：一次性写入，多次读取；保证数据一致性，安全性
4.构建成本低：可以构建再廉价机器上
5.多种硬件平台中的可移植性
6.高效性：Hadoop能在节点值键动态的移动数据，并保证各个节点的动他平衡，因此处理速度非常快
7.高可靠性：Hadoop的存储和数据处理能力值得人们信赖

4、HDFS体系结构

HDFS 采用master/slaves 这种主从结构模型来管理数据，蛀牙偶分为四大部分组成

client客户端、			Namenode 名称节点  、   datanode 数据节点、  		senondarynamenode

Namenode是⼀个中⼼服务器，负责管理⽂件系统的命名空间。他在在内存中维护命名空间的最新状态，同时对持久性文件进行备份，防止宕机后数据丢失，namenode还负责管理客户端对文件的访问 ，比如权限验证，
Datanode一般是一个节点运行一个datanode进程，真正负责管理客户端的读写请求，在namenode的统一调度下进行数据库块儿的创建，删除和复制操作，数据块实际上都是保存在datanode本地的Linux文件系统中，每个datanode会定期的向namenode发送数据，报告自己的状态（称之为心跳机制）没有按时发送心跳信息的datanode会被namenode标记为宕机，不会再给他分配任何I/o请求

4.1 HDFS之namenode

 namenode进程只有⼀个（HA除外）
- 管理HDFS的命名空间，并以fsimage和edit进⾏持久化保存。
- 在内存中维护数据块的映射信息
- 实施副本冗余策略
- 处理客户端的访问请求

4.2 HDFS之datanode

 存储真正的数据(块进⾏存储)
- 执⾏数据块的读写操作
- ⼼跳机制（3秒）

4.3HDFDS进程之SecondaryNamennode

- 帮助NameNode合并fsimage和edits⽂件 ——检查点机制
- 不能实时同步，不能作为热备份节点

4.4HDFS的client接口

- HDFS 实际上提供了各种语言操作HDFS的接口
- 与Namenode进行交互，获取文件的存储位置
- 与datanode进行交互，写入数据或者读取数据
- 上传时分块进行存储，读取分片进行读取

4.5 edit

日志文件生成操作量达到100万次或时间到了，默认一小时

4.6namenode安全模式查看

# hdfs dfsadmin -safemode get 

/* 管理员可以随时让Namenode进⼊或离开安全模式，这项功能在维护和升级集群时⾮常关键 */
[root@qianfeng01 current]# hdfs dfsadmin -safemode enter
Safe mode is ON
[root@qianfeng01 current]# hdfs dfsadmin -safemode leave
Safe mode is OFF

4.7 DataNode与NameNode通信(⼼跳机制)

1. hdfs是qianfeng01/slave结构，qianfeng01包括namenode和resourcemanager，slave包括datanode
和nodemanager
2. qianfeng01启动时会开启⼀个IPC服务，等待slave连接
3. slave启动后，会主动连接IPC服务，并且每隔3秒链接⼀次，这个时间是可以调整的，设置heartbeat，这个每
隔⼀段时间连接⼀次的机制，称为⼼跳机制。Slave通过⼼跳给qianfeng01汇报⾃⼰信息，qianfeng01通过⼼跳
下达命令。
4. Namenode通过⼼跳得知datanode状态。Resourcemanager通过⼼跳得知nodemanager状态
5. 当qianfeng01⻓时间没有收到slave信息时，就认为slave挂掉了。

/*注意：超⻓时间计算结果：默认为10分钟30秒*/

属性：dfs.namenode.heartbeat.recheck-interval 的默认值为5分钟 #Recheck的时间单位为毫秒
属性：dfs.heartbeat.interval 的默认值时3秒 #heartbeat的时间单位为秒

计算公式:2*recheck+10*heartbeat

4.8 SecondayNamenode的⼯作机制(检查点机制)

SecondaryNamenode，是HDFS集群中的重要组成部分，它可以辅助Namenode进⾏fsimage和editlog的合
并⼯作，减⼩editlog⽂件⼤⼩，以便缩短下次Namenode的重启时间，能尽快退出安全模式。
两个⽂件的合并周期，称之为检查点机制（checkpoint），是可以通过hdfs-default.xml配置⽂件进⾏修
改的

4.9机架感知

第⼀个副本在client所处的节点上。如果客户端在集群外，随机选⼀个。
第⼆个副本与第⼀个副本不相同机架，随机⼀个节点进⾏存储
	/*------------------分版本去说 -----------------*/
	/*  
    	Hadoop    2.8.2 之前的版本     第二块选择同一几家上的不同机架存储
	*/						
第三个副本与第⼆个副本相同机架，不同节点。

4.10HDFS读写流程

1、客户端通过FileSystem向NameNode请求上传文件，NameNode还会检查这个文件是否存在，以及父级目录是否存在
2、NameNode会响应客户端的请求
3、客户端会上传第一个Block块的信息，请求DataNode的位置
4、NameNode返回客户端可以上传到的DataNode的信息，并允许上传
5、客户端通过FsDataOutputStream请求向dataNode建立数据传输的连接
6、DataNode响应客户端的连接请求，建立了客户端与DataNode建立数据传输的连接，数据将以packet为单位进行传输
7、DataNode再收到数据之后，以副本的机制，在不同的Datanode之间进行数据传输
8、直到所有的数据都被上传成功，DataNode会通过心跳机制，会把给NameNode自己的块信息，客户端也会告诉NameNode数据存储完成

1、客户端通过FileSystem向NameNode请求上传文件，NameNode还会检查这个文件是否存在，以及父级目录是否存在
2、NameNode会响应客户端的请求
3、客户端会上传第一个Block块的信息，请求DataNode的位置
4、NameNode返回客户端可以上传到的DataNode的信息，并允许上传
5、客户端通过FsDataOutputStream请求向dataNode建立数据传输的连接
6、DataNode响应客户端的连接请求，建立了客户端与DataNode建立数据传输的连接，数据将以packet为单位进行传输
7、DataNode再收到数据之后，以副本的机制，在不同的Datanode之间进行数据传输
8、直到所有的数据都被上传成功，DataNode会通过心跳机制，会把给NameNode自己的块信息，客户端也会告诉NameNode数据存储完成

Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
Kafka是如何保证数据的安全性、可靠性和分区的喜欢猪猪 kafka 分布式
Kafka作为一个高性能、可扩展的分布式流处理平台，通过多种机制来确保数据的安全性、可靠性和分区的有效管理。以下是关于Kafka如何保证数据安全性、可靠性和分区的详细解析：一、数据安全性SSL/TLS加密：Kafka支持SSL/TLS协议，通过配置SSL证书和密钥来加密数据传输，确保数据在传输过程中不会被窃取或篡改。这一机制有效防止了中间人攻击，保护了数据的安全性。SASL认证：Kafka支持多种
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
Mongodb Error: queryTxt ETIMEOUT xxxx.wwwdz.mongodb.net 佛一脚 error react mongodb 数据库
背景每天都能遇到奇怪的问题，做个记录，以便有缘人能得到帮助！换了一台电脑开发nextjs程序。需要连接mongodb数据，对数据进行增删改查。上一台电脑好好的程序，新电脑死活连不上mongodb数据库。同一套代码，没任何修改，搞得我怀疑人生了，打开浏览器进入mongodb官网毫无问题，也能进入线上系统查看数据，网络应该是没问题。于是我尝试了一下手机热点，这次代码能正常跑起来，连接数据库了！！！是不
入门MySQL——查询语法练习 K_un
前言：前面几篇文章为大家介绍了DML以及DDL语句的使用方法，本篇文章将主要讲述常用的查询语法。其实MySQL官网给出了多个示例数据库供大家实用查询，下面我们以最常用的员工示例数据库为准，详细介绍各自常用的查询语法。1.员工示例数据库导入官方文档员工示例数据库介绍及下载链接：https://dev.mysql.com/doc/employee/en/employees-installation.h
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
ubuntu安装wordpress lissettecarlr
1安装nginx网上安装方式很多，这就就直接用apt-get了apt-getinstallnginx不用启动啥，然后直接在浏览器里面输入IP:80就能看到nginx的主页了。如果修改了一些配置可以使用下列命令重启一下systemctlrestartnginx.service2安装mysql输入安装前也可以更新一下软件源，在安装过程中将会让你输入数据库的密码。sudoapt-getinstallmy
深入浅出 -- 系统架构之负载均衡Nginx的性能优化 xiaoli8748_软件开发系统架构系统架构负载均衡 nginx
一、Nginx性能优化到这里文章的篇幅较长了，最后再来聊一下关于Nginx的性能优化，主要就简单说说收益最高的几个优化项，在这块就不再展开叙述了，毕竟影响性能都有多方面原因导致的，比如网络、服务器硬件、操作系统、后端服务、程序自身、数据库服务等，对于性能调优比较感兴趣的可以参考之前《JVM性能调优》中的调优思想。优化一：打开长连接配置通常Nginx作为代理服务，负责分发客户端的请求，那么建议开启H
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署） java毕设程序源码王哥 php 课程设计 vue.js
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
华为云分布式缓存服务DCS 8月新特性发布华为云PaaS服务小智华为云分布式缓存
分布式缓存服务（DistributedCacheService，简称DCS）是华为云提供的一款兼容Redis的高速内存数据处理引擎，为您提供即开即用、安全可靠、弹性扩容、便捷管理的在线分布式缓存能力，满足用户高并发及数据快速访问的业务诉求。此次为大家带来DCS8月的特性更新内容，一起来看看吧！
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
3.增删改查--连接查询问女何所忆
关系型数据库的一个特点就是，多张表之间存在关系，以致于我们可以连接多张表进行查询操作，所以连接查询会是关系型数据库中最常见的操作。连接查询主要分为三种，交叉连接、内连接和外连接，我们一个个说。1、交叉连接交叉连接其实连接查询的第一个阶段，它简单表现为两张表的笛卡尔积形式，具体例子：如果你没学过数学中的笛卡尔积概念，你可以这样简单的理解这里的交叉连接：两张表的交叉连接就是一个连接合并的过程，T1表中
docker from指令的含义_多个FROM-含义 weixin_39722188 docker from指令的含义
小编典典什么是基本图片？一组文件，加上EXPOSE端口ENTRYPOINT和CMD。您可以添加文件并基于该基础图像构建新图像，Dockerfile并以FROM指令开头：后面提到的图像FROM是新图像的“基础图像”。这是否意味着如果我neo4j/neo4j在FROM指令中声明，则在运行映像时，neo数据库将自动运行并且可在端口7474的容器中使用？仅当您不覆盖CMD和时ENTRYPOINT。但是图像
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST

HDFS详解——大数据

HDFS详解——大数据

一、大数据简介

1、大数据特征

2、数据采集或者同步的方式

3、数据存储

4、数据清洗

5、数据展示

二、Hadoop

1、Hadoop的组成部分

2、安装模式《集群搭建》

2.1本地安装模式

2.1.1 jdk安装

2.1.2Hadoop的目录理解与安装

2.2安装模式之伪分布式安装

2.3安装模式之完全分布式安装

3、Hadoop中hdfs块的概念

3.1HDFS的块

4、HDFS体系结构

4.1 HDFS之namenode

4.2 HDFS之datanode

4.3HDFDS进程之SecondaryNamennode

4.4HDFS的client接口

4.5 edit

4.6namenode安全模式查看

4.7 DataNode与NameNode通信(⼼跳机制)

4.8 SecondayNamenode的⼯作机制(检查点机制)

4.9机架感知

4.10HDFS读写流程

你可能感兴趣的:(分布式,数据库,大数据,hadoop)