Blancness

大数据技术原理与应用（第3版）期末复习

（单选30 判断10 简答10 操作30 编程20）

编程掌握：

HDFS文件操作

MapReduce程序

HBase数据库命令操作

U1

大数据的4v特征

数据量大、处理快、数据类型多、价值密度低

大数据完全颠覆了传统的思维方式：

全样而非抽样、

效率而非精确、

Hadoop相关组件

MapReduce:分布式并行编程模型

HBase:非关系型分布式数据库

YARN:资源管理调度器

Hive:数据仓库

Pig:语言+环境

Sqoop:数据传输

Zookeeper:协同工作系统，提供协调一致服务

Flume:日志系统

Storm:流计算框架

Tez:支持DAG作业的计算框架

Spark:通用并行框架

Kafka:分布式发布订阅消息系统

==批处理计算：MapReduce、Spark==

查询分析计算：Dremel、Hive

流计算：Storm、Flume

Apache最重要的三大分布式计算系统开源项目包括（ABC）

A. Hadoop

B. Storm

C. Spark

U2 Hadoop

Hadoop是开源分布式平台，具有很好的跨平台性

核心是HDFS（Hadoop Distributed File System)和MapReduce

Hadoop的特性：

高可靠性、高效性、高可扩展性、高容错性、成本低、运行在LinuxOS、支持多种编程语言

Hadoop1.0/2.0

两代比较：

1.0：单一NameNode存在单点故障问题

2.0：HDFS HA,提供NameNode热备份机制

HA集群设置两个名称节点，“==活跃==（Active）”和“==待命==（Standby）”,两种名称节点的状态同步

1.0：无法实现资源隔离

2.0：HDFS Federetion 管理多个命名空间

Federation中，设计了多个相互独立的NameNode，相互之间是联盟关系，不需要彼此协调。

Federation中，所有NameNode会共享底层的DataNode存储资源，DataNode向所有NameNode汇报。

Federation并不能解决单点故障问题,需要为每个NameNode部署一个后备NameNode

属于同一个命名空间的块构成一个“块池

1.0：资源管理效率低

2.0：资源管理框架YARN

MapReduce1.0中的资源管理调度功能被单独分离出来形成了YARN，是一个纯粹的资源调度框架

U3 HDFS

廉价兼容的硬件、流数据集、

简单文件模型：'==一次写入、多次读取=='，且仅能写入一次，仅允许追加

跨平台：支持JVM的都可以运行

无法高效存储大量小文件

不支持多用户写入及任意修改文件

不适合低延迟数据访问

一个磁盘块512字节,是文件读写的最小单位

文件以块(Block)为单位进行存储，块通常是磁盘块的整数倍

HDFS默认一个块64MB

不同的文件块可以被分发到不同的节点上

块概念的优点：

支持大规模文件存储

简化系统设计

适合数据备份

主节点(Master Node)也叫NameNode

NameNode作为中心服务器，管理NameSpace及Client文件访问

负责文件和目录的操作，管理DataNode和文件块的映射关系，Client只有访问NameNode才能找到Block位置

从节点(Slave Node)也叫DataNode

DataNode负责数据存取、处理客户端请求

NameNode分配存储位置，Client将数据直接写入DataNode

一个HDFS包括唯一NameNode和若干个DataNode

NameNode ：存储元数据、保存在内存

DataNode：存储文件内容、保存在磁盘

JobTracker：协调数据计算任务

TaskTracker：负责执行由JobTracker指派的任务

SecondaryNameNode：

完成Editlog和FsImage合并操作，减小Editlog文件大小

减少NameNode重启时间

作为NameNode检查点，保存NameNode中对HDFS元数据的备份

一般是单独运行在一台机器上

NameNode

负责管理HDFS的命名空间（Namespace），保存了两个核心的数据结构：FsImage，EditLog

NameNode记录了每个文件中各个块所在的DataNode的位置信息

FsImage用于维护文件树以及所有的文件元数据。由NameNode把文件块的映射信息保存在内存中

FsImage 文件没有记录文件包含哪些块以及每个块存储在哪个数据节点。而是由NameNode把这些映射信息保留在内存中

操作日志文件EditLog中记录了所有文件操作。

DataNode

HDFS的工作节点，负责数据存取

向NameNode定期发送自己所存储的块的列表

数据保存在各自节点的本地Linux文件系统中

客户端

用户操作 HDFS 最常用的方式，HDFS 在部署时都提供了客户端

HDFS 客户端是一个库，暴露了 HDFS 文件系统接口

严格来说，客户端并不算是 HDFS 的一部分

HDFS命名空间

一个HDFS只有一个NameSpace

NameNode和DataNode之间则使用DataNode协议进行交互。

客户端与DataNode的交互通过RPC

唯一的NameNode局限性：

命名空间限制

性能瓶颈

隔离问题

集群可用性

冗余存储：多副本

加快传输速度

容易检查错误

可靠性

数据存放：以机架Rack为基础

HDFS默认一个文件块保存3个副本

数据复制：流水线复制

HDFS 具有较高的容错性:

NameNode出错

DataNode出错

数据出错

HDFS常用命令

三种Shell命令方式：

hadoop fs：适用于任何文件系统

hadoop/hdfs dfs：只适用于HDFS文件系统

#启动
start-dfs.sh
#创建用户目录
–mkdir –p /user/hadoop
#列出根目录中的内容
–ls
#递归列出多层文件夹的内容
-ls -R
#显示目录信息
-ls /sanguo 
#统计/test/kb16/hadoop/下文件大小
-du /test/hadoop/
#输出文件内容
-cat /sanguo/shuguo.txt
#输出文件的末尾1kb的内容
-tail /jinguo/shuguo.txt
#创建一个input目录
–mkdir -p input
#根目录下创建一个名称为input的目录
–mkdir -p /input
# 删除指定文件
-rm /sa/guo.txt
# 递归删除文件夹及其下所有文件
-rm -r /
#将文件输出为文本格式
-text /
#将一个或多个源文件复制到HDFS文件系统中目标位置
-cp
#移动指定源文件到目标文件
-mv
#显示占用存储空间的大小
-du
#moveFromLocal命令支持从本地将文件移动到HDFS中， moveToLocal命令则相反。

代码

向HDFS中上传任意文本文件，如果指定的文件在HDFS中已经存在，由用户指定是追加到原有文件末尾还是覆盖原有的文件

import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.*;
import java.io.*;

public class HDFSApi {
    /**
    * 判断路径是否存在
    */
    public static boolean test(Configuration conf, String path) throws IOException {
        FileSystem fs = FileSystem.get(conf);
        return fs.exists(new Path(path));
    }

    public static void copyFromLocalFile(Configuration conf, String localFilePath, String remoteFilePath) throws IOException {
        FileSystem fs = FileSystem.get(conf);
        Path localPath = new Path(localFilePath);
        Path remotePath = new Path(remoteFilePath);
        /* fs.copyFromLocalFile 第一个参数表示是否删除源文件，第二个参数表示是否覆盖 */
        fs.copyFromLocalFile(false, true, localPath, remotePath);
        fs.close();
    }
    
    public static void appendToFile(Configuration conf, String localFilePath, String remoteFilePath) throws IOException {
        FileSystem fs = FileSystem.get(conf);
        Path remotePath = new Path(remoteFilePath);
        /* 创建一个文件读入流 */
        FileInputStream in = new FileInputStream(localFilePath);
        /* 创建一个文件输出流，输出的内容将追加到文件末尾 */
        FSDataOutputStream out = fs.append(remotePath);
        /* 读写文件内容 */
        byte[] data = new byte[1024];
        int read = -1;
        while ((read = in.read(data)) > 0){
            out.write(data, 0, read);
        }
        out.close();
        in.close();
        fs.close();
    }
    
    /**
    * 主函数
    */
    public static void main(String[] args) {
        Configuration conf = new Configuration();
        conf.set("fs.default.name","hdfs://localhost:9000");
        String localFilePath = "/home/hadoop/text.txt";    // 本地路径
        String remoteFilePath = "/user/hadoop/text.txt";    // HDFS路径

U4 Hbase

HBase是一个稀疏、多维度、排序的映射表，这张表的索引是四维的：

行键(row key)、列族(column family)、**列限定符（定位)、时间戳（版本)

可伸缩分布式数据库，BigTable的开源实现

![[Pasted image 20220616112428.png]]

![[Pasted image 20220616113211.png]]

数据是未经解释的字符串，没有数据类型。

HBase操作则不存在表与表之间的关系

HBase面向列存储，每个列族都由几个文件保存，不同列族的文件是分离的,一个列族中有若干个列

HBase只有一个索引——行键

HBase并不会删除数据旧的版本（匹配HDFS只能追加不能修改）

三个主要的功能组件：

库函数：链接到每个客户端

一个Master主服务器:负责表和Region管理

许多个Region服务器:负责存储和维护分配给自己的Region，处理来自客户端的读写请求

同一个Region不会被分拆到多个Region服务器

每个Region的建议最佳大小1GB-2GB

客户端

客户端使用Hbase的RPC机制与服务器进行通信

客户端在获得Region的存储位置信息后，直接从Region服务器上读取数据

客户端只通过Zookeeper来获得Region位置信息，这种设计方式使得Master负载很小

Zookeeper服务器

多台机器组成集群提供协同服务，帮助选举出一个Master作为集群的总管，且保证有且只有一个Master在运行，避免单点失效问题

Region服务器是HBase最核心的模块

Store是Region的核心

每个Store对应一个列族的存储，包含一个MemStore缓存和若干个StoreFile文件

数量达到一定值，多个StoreFile合并为一个

单个StoreFile过大时一个Region分裂为两个

三层结构->三级寻址

客户端通过三级寻址定位Region

**（简记：ZRM）

Zookeeper文件 -> -ROOT-表 -> .META.表

Hlog：预写式日志

每个Region只维护一个Hlog文件，所有Region对象公用一个Hlog。

HBase常用命令

进入：
hbase shell

create 'a_stu','name','score'
//创建a_stu表，两个列

//put ‘表名’,‘行键’,‘列族名:列名’,‘值’[,时间戳]
put't1','row1','f1:c1','value1',14218

//由id插入math成绩
put 'a_stu','20181228','score:math','95'

scan 'a_stu'//查看表

count 'a_stu'//统计表行数

//查询

get 'a_stu','20181228','name','score'

get't1','r1',{COLUMN=>'c1',TIMERANGE=>[ts1,ts2],VERSION=>4}

//查看表相关信息
describe 't1'

//删除制定元素：表、行、列、时间戳为ts1
delete 't1','r1','c1',ts1

//删除整行
deleteall 'a_stu','20181228'

//删除表数据（表还在）
truncate 'a_stu'

#一次只能put/delete一个column,删除整行用deleteall

disable 'a_stu'//先disable再drop

drop 'a_stu'//删除表

exists 'a_stu'//查看是否存在


//如果列族下没有子列，则只加“:”即可
put'scores','Jim','course:Chinese','90'

put'scores,'Tom','grade:','2'

get 'scores','Jim','course:math'

list//列出 所有的表

//制定分割点
create 't1','f1',{SPLITS=>'10','20'}
//浏览指定数据
scan 't1',{COLUMN=>'c1',TIMERANGE=>[201801,201809]}

//扫描前5条
scan 't1',{LIMIT=>5}

//向表t1中添加列族f1
alter 't1',Name=>'f1'

//删除列族
alter 't1',{NAME=>'f1',METHOD=>'delete'}

NoSQL

（1）灵活的可扩展性

（2）灵活的数据模型

（3）与云计算紧密融合

与关系数据库相比，NoSQL：

缺乏统一的查询语言、统一的理论基础

弱一致性

很难实现数据完整性

支持超大规模数据存储，具有强大的横向扩展能力

四大类型:

键值数据库：

一个哈希表，表中有一个特定的Key 和一个指针指向特定的 Value，Key 可以用来定位 Value，即存储和检索具体的 Value。

列族数据库：一般采用列族数据模型，数据库由多个行构成，每行数据包含多个列族，不同的行可以具有不同数量的列族，属于同一列族的数据会被存放在一起。

文档数据库：以文档作为最小单位，大都假定文档以某种标准化格式封装并对数据进行加密，同时用多种格式进行解码。

图数据库:图作为数据模型来存储数据

CAP理论

C（Consistency）一致性

A（Availability）可用性

指能够快速获取数据，且在确定的时间内返回操作结果。

P（Tolerance of Network Partition）分区容忍性

指当出现网络分区的情况时，分离的系统也能正常运行。

事务ACID 四性:

A（Atomicity）：原子性

指事务对于其数据修改，要么全都执行，要么全都不执行。

C（Consistency）：一致性

指事务在完成时，必须使所有的数据都保持一致状态。

I（Isolation）：隔离性

指并发事务所做的修改必须与其他并发事务所做的修改分离开。

D（Durability）：持久性

指事务完成之后，它对于系统的影响是永久性的。

BASE：

基本可用 Basiclly Available,

软状态 Soft-state,

最终一致性 Eventual consistency

MapReduce

分而治之、计算向数据靠拢

分布式并行编程模型MapReduce特点：

![[Pasted image 20220630103124.png]]

MapReduce框架采用了Master/Slave架构，包括一个Master和若干个Slave。

Master上运行JobTracker

Slave上运行TaskTracker

并行计算过程抽象到两个函数：

Map函数

输入为分布式文件系统的文件块，格式是任意的。

Map 函数将输入的元素转换成形式的键值对，键和值的类型也是任意的。一个Map任务可生成具有相同键的多个。

Reduce函数

将输入的一系列具有相同键的键值对以某种方式组合起来，输出处理后的键值对，输出结果合并成一个文件。

Map每一个输入的会输出一批。是计算的中间结果

Reduce输入的中间结果中的List(v 2 )表示是一批属于同一个k 2 的value

输入形式为<k, List(v)>，输出为<k,v1>。

MapReduce体系结构由四个部分组成：

Client:用户程序通过Client提交到JobTracker

JobTracker :负责资源监控和作业调度。

监控所有TaskTracker与Job的健康状况

跟踪任务的执行进度、资源使用量等信息

TaskTracker:

周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给JobTracker，同时接收JobTracker 发送过来的命令并执行相应的操作

使用slot等量划分本节点上的资源量（CPU、内存等）

slot 分为Map slot 和Reduce slot

Task ：分为Map Task 和Reduce Task 两种，均由TaskTracker 启动

MapReduce工作流程

不同的Map任务/Reduce任务之间不会进行通信。

用户不能显式地从一台机器向另一台机器发送消息。

所有的数据交换都是通过MapReduce框架自身实现

MapReduce的处理单位是split

split 是一个逻辑概念，只包含一些元数据信息，它的划分方法完全由用户自己决定。

Hadoop为每个split创建一个Map任务，split 的多少决定了Map任务的数目。理想的分片大小是一个HDFS块。

最优的Reduce任务个数取决于slot的数目

代码

public static void main(String[] args) throws Exception {  
// TODO Auto-generated method stub  
Configuration conf = new Configuration();  
String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();  
if (otherArgs.length != 2) {  
System.err.println("Usage: wordcount  ");  
System.exit(2);  
}  
Job job = Job.getInstance(conf);  
job.setJarByClass(Test.class);  
job.setMapperClass(Map.class);  
job.setReducerClass(Reduce.class);  
job.setOutputKeyClass(Text.class);  
job.setOutputValueClass(IntWritable.class);  
FileInputFormat.addInputPath(job, new Path(otherArgs[0]));  
FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));  
System.exit(job.waitForCompletion(true) ? 0 : 1);  
}

Spark

特点：

运行速度快、容易使用、通用性、运行模式多样

Spark的计算模式也属于MapReduce

Scala是Spark的主要编程语言，但Spark还支持其他语言。

Scala：一种多范式编程语言

运行于Java平台，兼容Java程序。

并发性

RDD：弹性分布式数据集

特点

容错性

中间结果持久化到内存

存放的数据可以是Java对象

RDD操作分为

转换（Transformation）:map groupBy filter

动作（Action）: count

RDD之间的依赖关系

窄依赖：一个父的一个分区对应于一个子的分区或多个父的分区对应于一个子的分区。

宽依赖：一个父的一个分区对应一个子多个分区。

DAG：有向无环图，反映RDD之间的依赖关系

你可能感兴趣的:(big,data,大数据,数据仓库)

Android ViewBinding 使用与封装教程积跬步DEV Android 开发实战大全 android
AndroidViewBinding使用与封装教程：一、ViewBinding是什么？核心功能：为每个XML布局文件自动生成一个绑定类（如ActivityMainBinding），直接暴露所有带ID的视图引用。优点：避免繁琐的findViewById()，类型安全且编译时检查。对比DataBinding：ViewBinding仅处理视图引用，无数据绑定功能。DataBinding支持双向数据绑定，
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
CentOS7环境卸载MySQL5.7 Hadoop_Liang mysql 数据库 mysql
备份重要数据切记，卸载之前先备份mysql重要的数据。备份一个数据库例如：备份名为mydatabase的数据库到backup.sql的文件中mysqldump-uroot-ppassword123mydatabase>backup.sql备份所有数据库mysqldump-uroot-ppassword123--all-databases>all_databases_backup.sql注意：-p后
“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛 fzyz123 Datawhale AI夏令营人工智能 Datawhale 大模型技术 NLP 深度学习 AI夏令营
前言：本次是DatawhaleAI夏令营2025年第一期的内容，赛事是：基于带货视频评论的用户洞察挑战赛（科大讯飞AI大赛）一、赛事背景在直播电商爆发式增长浪潮中，短视频平台积累的海量带货视频及用户评论数据蕴含巨大商业价值。这些数据不仅是消费者体验的直接反馈，更是驱动品牌决策的关键资产。用户洞察的核心在于视频内容与评论数据的联合挖掘：通过智能识别推广商品分析评论中的情感表达与观点聚合精准捕捉消费者
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
老系统改造增加初始化，自动化数据源配置（tomcat+jsp+springmvc）
老系统改造增加初始化，自动化数据源配置一、前言二、改造描述1、环境说明2、实现步骤简要思考三、开始改造1、准备sql初始化文件2、启动时自动读取jdbc文件，创建数据源，如未配置，需要一个默认的临时数据源2.1去掉spingmvc原本配置的固定dataSource，改为动态dataSource2.2代码类，这里是示例，我就不管规范了，放到一起2.2.1DynamicDataSourceConfig
redis中什么是bigkey？会有什么影响？ Vic2334 redis
什么是bigkey？会有什么影响？bigkey是指key对应的value所占的内存空间比较大，例如一个字符串类型的value可以最大存到512MB，一个列表类型的value最多可以存储23-1个元素。如果按照数据结构来细分的话，一般分为字符串类型bigkey和非字符串类型bigkey。字符串类型：体现在单个value值很大，一般认为超过10KB就是bigkey，但这个值和具体的OPS相关。非字符串
如何发现 Redis 中的 BigKey？ sevevty-seven redis bootstrap 数据库
如何发现Redis中的BigKey？Redis因其出色的性能，常被用作缓存、消息队列和会话存储。然而，在Redis的使用过程中，BigKey是一个不容忽视的问题。BigKey指的是存储了大量数据或包含大量成员的键。它们不仅会占用大量内存，还可能导致网络延迟、主从同步延迟，甚至在极端情况下引发Redis服务崩溃。因此，有效地发现和处理BigKey对于维护Redis服务的稳定性和性能至关重要。本文将深
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
TCP和UDP协议区别+应用场景+优缺点+常用协议马拉萨的春天一天一读基础知识点 tcp/ip udp 网络
文章目录1.TCP协议特点应用场景优点缺点运行于TCP协议之上的协议2.UDP协议特点应用场景优点缺点运行于UDP协议之上的协议TCP（TransmissionControlProtocol）和UDP（UserDatagramProtocol）是两种常用的传输层协议，它们在网络通信中扮演不同的角色，各有优缺点。1.TCP协议特点提供面向连接的、可靠的数据传输服务。使用三次握手建立连接，四次挥手断开
将多个小型YOLO数据集合并为一个大型数据集梦实学习室 YOLO python YOLO python 机器学习
一、将多个小型YOLO数据集合并为一个大型数据集importosimportshutilimportargparsedefmerge_data(source_dir,target_dir,images_dir,labels_dir):images_target=os.path.join(target_dir,images_dir)labels_target=os.path.join(target_
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
MySQL数据库访问（C/C++）敲上瘾 MySQL数据库 mysql 数据库 c++c语言数据库开发数据库架构
访问数据库的方式：命令行：使用命令行输入SQL指令直接访问。需记忆命令和SQL语法，对新手不友好。正因如此推荐新手使用该方式访问，能倒逼学习者对SQL语法的记忆，并对MySQL更深入理解。图形化界面访问：使用图形化界面工具，如：DBeaver、DataGrip、Navicat、HeidiSQL（MySQL）、MySQLWorkbench。特点：有语法提示，可以直接对数据手动增删改。编程接口：在编写
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink 2.0 DataStream算子全景 Edingbrugh.南空大数据 flink flink 人工智能
在实时流处理中，ApacheFlink的DataStreamAPI算子是构建流处理pipeline的基础单元。本文基于Flink2.0，聚焦算子的核心概念、分类及高级特性。一、算子核心概念：流处理的"原子操作1.数据流拓扑（StreamTopology）每个Flink应用可抽象为有向无环图（DAG），由源节点（Source）、算子节点（Operator）和汇节点（Sink）构成，算子通过数据流（S
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
Flink DataStream API详解（一） bxlj_jcj Flink flink 大数据
一、引言Flink的DataStreamAPI，在流处理领域大显身手的核心武器。在很多实时数据处理场景中，如电商平台实时分析用户购物行为以实现精准推荐，金融领域实时监控交易数据以防范风险，DataStreamAPI都发挥着关键作用，能够对源源不断的数据流进行高效处理和分析。接下来，就让我们一起深入探索FlinkDataStreamAPI。二、DataStream编程基础搭建在开始使用FlinkDa
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
Flink DataStream API详解（二）
一、引言咱两书接上回，上一篇文章主要介绍了DataStreamAPI一些基本的使用，主要是针对单数据流的场景下，但是在实际的流处理场景中，常常需要对多个数据流进行合并、拆分等操作，以满足复杂的业务需求。Flink的DataStreamAPI提供了一系列强大的多流转换算子，如union、connect和split等，下面我们来详细了解一下它们的功能和用法。二、多流转换2.1union算子union算
docker常见问题解决方法小王聊技术 docker
目录迁移至其他服务器清理Docker占用的磁盘空间常见问题：迁移至其他服务器1.将docker容器导出dockerexport-o保存路径/xxx.tar容器id2.将容器tar远程拷贝到新的服务器(从新的服务器上向老服务器上请求复制)scproot@服务器地址:/data/xxx.tar/root3.将导入的tar包转为镜像dockerimport-cxxx.tarimage_name:tag
vue如何实现Cascader 级联选择器(二级全部选中只展示一级，三级全部选中只展示二级) 小周同学: vue vue.js
select提交重置级联exportdefault{data(){return{ruleForm:{selectLabel:[],idList:[],},citiesList:[],rules:{selectLabel:[{type:'array',required:true,message:'多选不能为空',trigger:'change'}],},props:{multiple:true,va
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
Redis第五讲：详解 Redis 中 BigKey、HotKey 的发现与处理程序员 jet_qi 深入理解数据库 redis 数据库缓存大key 热点key
简介：在Redis的使用过程中，我们经常会遇到BigKey（下文将其称为“大key”）及HotKey（下文将其称为“热key”）。大Key与热Key如果未能及时发现并进行处理，很可能会使服务性能下降、用户体验变差，甚至引发大面积故障。本文详解Redis中BigKey、HotKey的发现与处理。文章目录1、大Key与热Key的定义1.1、什么是大Key1.2、什么是热Key2、大Key与热Key带来
如何发现Redis中的bigkey？代码中の快捷键 redis 数据库缓存
如何发现Redis中的bigkey？我主要用这几个方法：redis-cli--bigkeys(最常用，最省事)：直接在命令行敲这个命令：redis-cli-h你的redis地址-p端口--bigkeys作用：它会自动扫描整个数据库。结果：告诉你每种数据类型（String,Hash,List,Set,ZSet）里最大的那个key是什么，有多大（比如String多大，List有多少元素）。优点：简单、
pandas销售数据分析
pandas销售数据分析数据保存在data目录消费者数据：customers.csv商品数据：products.csv交易数据：transactions.csvcustomers.csv数据结构：字段描述customer_id客户IDgender性别age年龄region地区membership_date会员日期products.csv数据结构：字段描述product_id产品IDcategory
MyBatis-Plus 使用wrapper自定义SQL
MyBatis-Plus使用wrapper自定义SQL，以下是单表查询。官方文档官方的例子：//mapper接口@Select("select*frommysql_data${ew.customSqlSegment}")ListgetAll(@Param(Constants.WRAPPER)Wrapperwrapper);//xmlListgetAll(Wrapperew);SELECT*FROM
Mysql数据库可以使用命令行msyql -u root -p连接，但是Navicat连不上 2501_92753117 数据库 mysql
1.Mysql服务启动1.1输入命令回车输入密码可以正常连接msyql-uroot-p1.1.2Navicat连不上2.解决方案2.1连接mysqlmsyql-uroot-p1.2.2查询所有数据库showdatabases;1.2.3切换到mysql数据库usemysql;1.2.4查询hostSELECThost,userFROMuserWHEREuser='root';1.2.5更新任意ip
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。