白振峰

完整大数据学习路线，看了就会有所收获

大数据

大数据学习路线
- 1.Java基础——主要部分是JavaSE
- - 1.1 Java初级
  - 1.2 Java高级
  - 1.3 其余常见基础......
- 2.Linux基础——主要指的是Linux基本命令操作
- 3.Hadoop生态学习（体系结构、原理、编程）
- - 3.1第一阶段
  - 3.2第二阶段
  - 3.3第三阶段
- 4.Spark生态学习
- - 4.1第一阶段
  - 4.2第二阶段
  - 4.3第三阶段
  - 4.4第四个阶段
- 5.Storm学习——实时计算
- 6.其他学习
- - 6.1 Kafka
  - 6.2 机器学习算法
  - 6.3 大型网站高并发处理
  - 6.4 Lucene基础
  - 6.5 Solr基础
  - 6.6 Federation
- 7.总结
- 8.其他方向
- 9.项目案例

大数据学习路线

大数据的本质：两个

大数据的存储——分布式文件存储

大数据的计算——分布式计算

大数据核心框架：两个

Hadoop——基于Java语言开发

Spark——基于Scala语言开发，Scala语言基于Java语言。Spark支持Java语言，但使用Scala语言更优。

1.Java基础——主要部分是JavaSE

1.1 Java初级

基本语法

类

封装

继承

多态

注：
1.主要指的是JavaSE部分。对于JavaEE(企业级应用，例Tomcat的使用)部分和JavaME(主要应用方向是嵌入式领域，目前大有被Android所替代的趋势)部分，不做掌握要求。JavaEE和JavaME两部分的基础也是JavaSE。
2.Java中没有函数的概念，C/C++中的函数在Java中成为方法，方法中的参数也称为形参，在方法的定义中，是不能使用其他方法作为形参的，但是在方法的调用中，是可以使用方法作为参数的，前提是该方法的返回值必须与形参所定义的值类型一致。

1.2 Java高级

Java多线程基本知识

Java同步关键词详解

java并发包线程池及在开源软件中的应用

Java并发包消息队里及在开源软件中的应用

Java JMS技术

Java动态代理反射

I/O流

泛型

1.3 其余常见基础…

2.Linux基础——主要指的是Linux基本命令操作

Linux的介绍，Linux的安装：VMware Workstation虚拟软件安装过程、CentOS虚拟机安装过程
Linux的常用命令：常用命令的介绍、常用命令的使用和练习：包括文件/目录常见操作、用户管理与权限、免密登陆配置与网络管理。
Linux系统进程管理基本原理及相关管理工具如ps、pkill、top、htop等的使用；
Linux启动流程，运行级别详解，chkconfig详解
VI、VIM编辑器：VI、VIM编辑器的介绍、VI、VIM扥使用和常用快捷键
Linux磁盘管理，lvm逻辑卷，nfs详解
Linux系统文件权限管理：文件权限介绍、文件权限的操作
Linux的RPM软件包管理：RPM包的介绍、RPM安装、卸载等操作
yum命令，yum源搭建
Linux网络：Linux网络的介绍、Linux网络的配置和维护防火墙配置
Shell编程：Shell的介绍、Shell脚本的编写
Linux上常见软件的安装：安装JDK、安装Tomcat、安装mysql,web项目部署
linux高级文本处理命令cut、sed、awklinux
定时任务crontab
其余常见操作…

注：目录，在Linux系统中常称为目录，在Windows系统中常称为文件夹，不同称谓同样的性质。

3.Hadoop生态学习（体系结构、原理、编程）

3.1第一阶段

这一阶段是本节的核心，即HDFS(大数据存储)、MapReduce(大数据计算)、HBse(NoSQL数据库)。

Hadoop是一个对海量数据进行处理的分布式系统架构，可以理解为Hadoop就是一个对大量的数据进行分析的工具，和其他组件搭配使用，来完成对大量数据的收集、存储和计算。

有一个基于Hadoop的数据挖掘库——Mahout。

离线计算系统Hadoop体系基础主要内容：
1、Hadoop快速入门
    hadoop背景介绍
    分布式系统概述
    离线数据分析流程介绍
    集群搭建
    集群使用初步

2、HDFS
    HDFS的概念和特性
    HDFS的shell(命令行客户端)操作
    HDFS的工作机制
    NAMENODE的工作机制
    java的api操作
    案例1：开发shell采集脚本

3、MapReduce基础
    自定义Hadoop的RPC框架
    Mapreduce编程规范及示例编写
    Mapreduce程序运行模式及debug方法
    MapReduce程序运行模式的内在机理
    MapReduce运算框架的主体工作流程
    自定义对象的序列化方法
    MapReduce编程案例

4、MapReduce高级
    Mapreduce排序
    自定义partitioner
    Mapreduce的combiner
    mapreduce工作机制详解

5、MapReduce实战
    maptask并行度机制-文件切片
    maptask并行度设置
    倒排索引
    共同好友
    
Hadoop入门——>HDFS/MapReduce基础——>HDFS/MapReduce高级——>HDFS/MapReduce实战

3.2第二阶段

数据分析引擎——Hive(数据仓库工具，不是数据库工具。数据仓库是逻辑上的概念，底层使用的是数据库。)、Pig(Pig是一个基于Hadoop的大规模数据分析平台，它提供的SQL-LIKE语言叫Pig Latin)

数据采集引擎——Flume(实时日志采集)、Sqoop(数据迁移工具，主要用于在Hive数据库与关系型数据库间进行数据的传递，可将关系型数据库中的数据导入Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。)、DataX(阿里开源)

注：关系型数据库包括，MySQL、Oracle、DB2、Microsoft SQL Server、Microsoft Access、PostgreSQL等。

数据仓库工具Hive基础主要内容：
    1) Hadoop的HA机制
    2) HA集群的安装部署
    3) 集群运维测试之Datanode动态上下线
    4) 集群运维测试之Namenode状态切换管理
    5) 集群运维测试之数据块的balance
    6) HA下HDFS-API变化
    7) hive简介
    8) hive架构
    9) hive安装部署
    10) hvie初使用

Hive高级
    1) HQL-DDL基本语法
    2) HQL-DML基本语法
    3) HIVE的join
    4) HIVE 参数配置
    5) HIVE 自定义函数和Transform
    6) HIVE 执行HQL的实例分析
    7) HIVE最佳实践注意点
    8) HIVE优化策略
    9) HIVE实战案例

分布式日志框架Flume主要内容：
    1) flume简介/介绍-基础知识
    2) flume安装部署与测试
    3) flume部署方式
    4) flume source相关配置及测试
    5) flume sink相关配置及测试
    6) flume selector 相关配置与案例分析
    7) flume Sink Processors相关配置和案例分析
    8) flume Interceptors相关配置和案例分析
    9) flume AVRO Client开发
    10) flume 和kafka 的整合
    11) 案例：采集目录到HDFS
    12) 案例：采集文件到HDFS

数据迁移工具Sqoop主要内容：
    1) 介绍 和 配置Sqoop
    2) Sqoop shell使用
    3) Sqoop-import   a) DBMS-hdfs   b) DBMS-hive   c) DBMS-hbase
    4) Sqoop-export

3.3第三阶段

实现Hadoop的HA(HA是High availability的缩写，即高可用，7*24小时不中断服务)——ZooKeeper(Zookeeper是分布式协调管理服务框架，管理分布式环境中的数据。简要来说，Zookeeper = 文件系统 + 监听通知机制。)

分布式协调管理服务ZooKeeper主要内容：
     1) ZooKeeper简介及应用场景
     2) ZooKeeper集群安装部署
     3) ZooKeeper的数据节点与命令行操作
     4) ZooKeeper的java客户端基本操作及事件监听
     5) ZooKeeper核心机制及数据节点
     6) ZooKeeper应用案例–分布式共享资源锁
     7) ZooKeeper应用案例–服务器上下线动态感知
     8) ZooKeeper的数据一致性原理及leader选举机制

Web管理工具——Hue(Hue是大数据分析交互平台，是大数据web管理器，是运营和开发Hadoop应用的图形化用户界面。其包括三个主要部分:Hue UI，Hue Server，Hue DB。Hue程序被整合到一个类似桌面的环境，以web程序的形式发布，对于单独的用户来说不需要额外的安装。)

工作流引擎——Oozie(Oozie，能够提供对Hadoop的MapReduce和Pig的Jobs任务调度与协调。功能相似的任务调度框架还有Azkaban和Zeus。)

注1：Hadoop-HA严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HA

注2：大数据四大协作框架——Oozie(任务调度框架)、Sqoop(数据转换工具)、Flume(文件收集库框架)、Hue(大数据Web工具)。

4.Spark生态学习

内存计算Spark基础主要内容：
    1) Spark介绍
    2) Spark应用场景
    3) Spark和Hadoop MR、Storm的比较和优势
    4) RDD
    5) Transformation
    6) Action
    7) Spark计算PageRank
    8) Lineage
    9) Spark模型简介
    10) Spark缓存策略和容错处理
    11) 宽依赖与窄依赖
    12) Spark配置讲解
    13) Spark集群搭建
    14) 集群搭建常见问题解决
    15) Spark原理核心组件和常用RDD
    16) 数据本地性
    17) 任务调度
    18) DAGScheduler
    19) TaskScheduler
    20) Spark源码解读
    21) 性能调优
    22) Spark和Hadoop2.x整合：Spark on Yarn原理

4.1第一阶段

Scala编程

1.Scala是一门多范式(Multi-paradigm)的编程语言，类似Java编程语言，设计初衷是实现可伸缩的语言、并要集成面向对象编程和命令式编程、函数式编程的各种特性。

2.Scala是运行在Java虚拟机上的，并兼容现有Java程序。Scala 源代码被编译成Java字节码，所以它可以运行于JVM之上，并可以调用现有的Java类库。

3.可应用于后端开发，表达能力较强，擅长处理数据，长期运行且吞吐量较大的场景。

编程语言Scala主要内容：
    1) scala解释器、变量、常用数据类型等
    2) scala的条件表达式、输入输出、循环等控制结构
    3) scala的函数、默认参数、变长参数等
    4) scala的数组、变长数组、多维数组等
    5) scala的映射、元组等操作
    6) scala的类，包括bean属性、辅助构造器、主构造器等
    7) scala的对象、单例对象、伴生对象、扩展类、apply方法等
    8) scala的包、引入、继承等概念
    9) scala的特质
    10) scala的操作符
    11) scala的高阶函数
    12) scala的集合
    13) scala数据库连接

4.2第二阶段

Spark Core——基于内存的数据计算，替代的是Hadoop中的MapReduce部分。MapReduce是基于外存的计算，其计算速度较慢、时效性较差。

4.3第三阶段

Spark SQL——类似于Oracle的SQL语句

4.4第四个阶段

Spark Streaming——进行实时计算（流式计算），典型流式计算的生活场景是自来水厂。

流式计算Spark Streaming主要内容：
     1) Spark-Streaming简介
     2) Spark-Streaming编程
     3) 实战：StageFulWordCount
     4) Flume结合Spark Streaming
     5) Kafka结合Spark Streaming
     6) 窗口函数
     7) ELK技术栈介绍
     8) ElasticSearch安装和使用
     9) Storm架构分析
     10) Storm编程模型、Tuple源码、并发度分析
     11) Storm WordCount案例及常用Api分析

5.Storm学习——实时计算

Storm是分布式实时大数据处理框架,是流计算中的佼佼者和主流，被业界称为实时版Hadoop。

和Storm相关的NoSQL数据库，Redis——基于内存的数据库。作用类似Spark Streaming。

实时计算Storm主要内容：
    1) Storm的基本概念
    2) Storm的应用场景
    3) Storm和Hadoop的对比 
    4) Storm集群的安装的linux环境准备 
    5) zookeeper集群搭建 
    6) Storm集群搭建
    7) Storm配置文件配置项讲解
    8) 集群搭建常见问题解决
    9) Storm常用组件和编程API：Topology、 Spout、Bolt
    10) Storm分组策略(stream groupings)
    11) 使用Strom开发一个WordCount例子
    12) Storm程序本地模式debug、Storm程序远程debug
    13) Storm事物处理
    14) Storm消息可靠性及容错原理
    15) Storm结合消息队列Kafka：消息队列基本概念(Producer、Consumer、Topic、Broker等)、消息队列Kafka使用场景、Storm结合Kafka编程API
    16) Storm Trident概念
    17) Trident state 原理
    18) Trident开发实例
    19) Storm DRPC(分布式远程调用)介绍
    20) Storm DRPC实战讲解
    21) Storm和Hadoop 2.x的整合：Storm on Yarn

内存数据库Redis主要内容：
    1) redis特点、与其他数据库的比较
    2) 如何安装redis
    3) 如何使用命令行客户端
    4) redis的字符串类型
    5) redis的散列类型
    6) redis的列表类型
    7) redis的集合类型
    8) 如何使用java访问redis【a.python访问redis,scala访问redis】
    9) redis的事务(transaction)
    10) redis的管道(pipeline)
    11) redis持久化(AOF+RDB)
    12) redis优化
    13) redis的主从复制
    14) redis的sentinel高可用
    15) twemproxy,codis实战
    16) redis3.x集群安装配置

6.其他学习

6.1 Kafka

Kafka是一个开源流处理平台——高吞吐量的分布式发布订阅消息系统，由Scala和Java编写。它可处理用户在网站中的所有动作流数据。类似的消息中间件还有RocketMQ。

消息纸中间件Kafka主要内容：
    1) kafka是什么
    2) kafka体系结构
    3) kafka配置详解
    4) kafka的安装
    5) kafka的存储策略
    6) kafka分区特点
    7) kafka的发布与订阅
    8) java编程操作kafka
    9) scala编程操作kafka
    10) flume 和kafka 的整合
    11) Kafka 和storm 的整合

6.2 机器学习算法

1、python及numpy库
    1) 机器学习简介
    2) 机器学习与python
    3) python语言–快速入门
    4) python语言–数据类型详解
    5) python语言–流程控制语句
    6) python语言–函数使用
    7) python语言–模块和包
    8) phthon语言–面向对象
    9) python机器学习算法库–numpy
    10) 机器学习必备数学知识–概率论

2、常用算法实现
    1) knn分类算法–算法原理
    2) knn分类算法–代码实现
    3) knn分类算法–手写字识别案例
    4) lineage回归分类算法–算法原理
    5) lineage回归分类算法–算法实现及demo
    6) 朴素贝叶斯分类算法–算法原理
    7) 朴素贝叶斯分类算法–算法实现
    8) 朴素贝叶斯分类算法–垃圾邮件识别应用案例
    9) kmeans聚类算法–算法原理
    10) kmeans聚类算法–算法实现
    11) kmeans聚类算法–地理位置聚类应用
    12) 决策树分类算法–算法原理
    13) 决策树分类算法–算法实现

6.3 大型网站高并发处理

1) 第四层负载均衡
    a) Lvs负载均衡         i. 负载算法，NAT模式，直接路由模式（DR），隧道模式（TUN）
    b) F5负载均衡器介绍
2) 第七层负载均衡
    a) Nginx     b) Apache
3) Tomcat、JVM优化提高并发量
4) 缓存优化
    a) Java缓存框架       i. Oscache，ehcache
    b) 缓存数据库         i. Redis，Memcached
5) Lvs+nginx+tomcat+redis|memcache构建二层负载均衡千万并发处理
6) Haproxy
7) Fastdfs小文件独立存储管理
8) Redis缓存系统    a) Redis基本使用     b) Redis sentinel高可用     c) Redis好友推荐算法

6.4 Lucene基础

Lucene主要内容：
    1) Lucene介绍
    2) Lucene 倒排索引原理
    3) 建索引 IndexWriter
    4) 搜索 IndexSearcher
    5) Query
    6) Sort和 过滤 （filter）
    7) 索引优化和高亮

6.5 Solr基础

Solr主要内容：
    1) 什么是solr
    2) 为什么工程中要使用solr
    3) Solr的原理
    4) 如何在tomcat中运行solr
    5) 如何利用solr进行索引与搜索
    6) solr的各种查询
    7) solr的Filter
    8) solr的排序
    9) solr的高亮
    10) solr的某个域统计
    11) solr的范围统计
    12) solrcloud集群搭建

6.6 Federation

HDFS Federation即HDFS的联邦，可简单理解为多个HDFS集群聚合到一起，更准确的理解是有多个namenode节点的HDFS集群。

7.总结

常见大数据开源框架：

离线计算：Hadoop MapReduce、Spark

实时(流式)计算：Storm、Spark Streaming、S4、Heron

文件存储：Hadoop HDFS、Tachyon、KFS

NoSQL数据库：HBase(列存储数据库)、Redis(K-V数据库)、MongoDB(文档数据库)、Neo4j(图形数据库)

资源管理：Yarn、Mesos

日志收集：Flume、Scribe、Logstash、Kibana

消息系统：Kafka、StormMQ、ZeroMQ、RabbitMQ

查询分析：Hive、Impala、Pig、Presto、Phoenix、Spark SQL、Drill、Flink、Kylin、Druid

分布式协调服务：ZooKeeper

集群管理与监控：Ambari、Ganglia、Nagios、Cloudera Manager

数据挖掘与机器学习：Mahout、Spark MLlib

数据同步：Sqoop、DataX

任务调度：Oozie
…

8.其他方向

包括：JavaWeb、关系型数据库、前端三剑客(HTML、CSS、JavaScript)

9.项目案例

千里之行，始于足下。

Linq的理解 It_sharp C#Linq 匿名类型
前面的话这篇文章主要是在工具书中linq的基础上，我做了一些归纳。目录什么是Linq方法语法和查询语法查询表达式的结构标准查询运算符什么是Linq?Linq（link）代表语言集成查询（LanguageIntegratedQuery）Linq是.NET框架的扩展，它允许我们以使用SQL查询数据库的方式来查询数据集合。使用Linq，你可以从数据库、程序对象的集合以及XML文档中查询数据。一个例子st
初见SpringCloud ing Camellia0212 重生之我要做开发 spring spring cloud
Consul服务注册与发现服务注册与发现服务注册：微服务在启动时，会将自己的信息（如IP地址、端口、服务名称等）注册到Consul。服务发现：其他微服务可以通过Consul查询到已注册的服务，并通过这些信息进行通信。分布式配置管理Consul可以作为配置中心，管理分布式系统的配置。SpringCloudConsul可以将配置信息存储在Consul中，并在应用启动时或者运行时动态获取和更新这些配置信
HarmonyOS NEXT开发笔记：@Computed装饰器计算属性我很英俊小名男男 OpenHarmony 鸿蒙开发 HarmonyOS harmonyos 华为开发语言前端鸿蒙移动开发鸿蒙系统
鸿蒙开发往期必看：一分钟了解”纯血版！鸿蒙HarmonyOSNext应用开发！“非常详细的”鸿蒙HarmonyOSNext应用开发学习路线！（从零基础入门到精通）
PySpark安装及WordCount实现（基于Ubuntu） uui1885478445 ubuntu linux 运维
在Ubuntu上安装PySpark并实现WordCount，需要以下步骤：安装PySpark：安装Java：PySpark需要Java运行环境。你可以使用以下命令安装OpenJDK：sudoaptupdatesudoaptinstalldefault-jredefault-jdk安装Scala：PySpark还需要Scala，可以使用以下命令安装：sudoaptinstallscala安装Pyth
AI 大模型应用数据中心建设：高性能计算与存储架构 AI智能涌现深度研究 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
AI大模型、数据中心、高性能计算、存储架构、分布式训练、GPU加速、数据管理1.背景介绍近年来，人工智能（AI）技术取得了飞速发展，特别是深度学习模型的突破性进展，催生了一系列基于大规模数据训练的强大AI模型，例如GPT-3、BERT、DALL-E等。这些AI大模型在自然语言处理、计算机视觉、语音识别等领域展现出强大的应用潜力，但也对计算资源和数据存储提出了极高的要求。传统的计算架构难以满足AI大
SQLite？低调不是小众... 架构文摘JGWZ sqlite 数据库学习后端
前几天在一个群里看到一位同学说：“SQLite这么小众的数据库，到底是什么人在用啊？”首先要说的是SQLite可不是小众的数据库，相反，SQLite是世界上装机量最多的数据库，远超MySQL，只不过比较低调而已。低调到我想在官网上找一个好看的用来当插图的图片都找不到，只能截一张官网首页来撑一撑，看起来十分朴素。我最早听说SQLite是刚毕业工作的时候，我们部门做微软内容管理产品的二次开发，其中有一
融合网络实训室初步建设方案设想武汉唯众智创网络融合网络实训室融合网络融合网络实验室网络融合实训室网络融合实验室
一、引言在数字化浪潮席卷全球的当下，网络技术已然成为推动社会发展和经济增长的关键力量。从日常的生活购物到企业的运营管理，从便捷的社交沟通到前沿的科研探索，网络技术无处不在，深刻地改变着人们的生活与工作方式。随着5G、物联网、云计算、大数据等新兴技术的迅猛发展，网络技术领域对于专业人才的需求呈现出爆发式增长。据权威机构预测，未来几年，网络技术相关岗位的人才缺口将持续扩大。这些岗位不仅要求从业者具备扎
mysql迁移docker_docker迁入迁出mysql 困困斐 mysql迁移docker
docker迁出mysql数据库测试环境：docker服务器mysql服务器IP192.168.163.19192.168.163.16操作系统CentOS7.8CentOS7.8docker版本Docker18.09.9/数据库版本MySQL8.0.22MySQL8.0.221.查看docker相关情况[root@docker-test/data/mysql/data]$dockerps启动my
docker容器迁移，以mysql容器为例风萧易去情难还 docker docker mysql 容器
在容器化环境中，容器迁移是确保应用程序在不同环境中平滑部署和运行的关键。本文将详细介绍如何将一个正在运行的MySQL容器从一台机器迁移到另一台机器。特别内网安装数据库等软件时，所需依赖和工具下载困难，可以通过镜像迁移方式完成软件安装。一、准备工作在开始迁移之前，我们需要准备以下几项工作：源机器（A机器）：正在运行的MySQL容器。#拉取mysql镜像dockerpullmysql:8.0.25#创
【2025年春季】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽子凯哥 web安全学习安全 CTF夺旗赛网络安全
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15
云原生：K8s（Kubernetes）高频典型面试题汇总老舅的火箭爱扫地云原生 kubernetes 容器
1.简述etcd及其特点？答：etcd是CoreOS团队发起的开源项目，是一个管理配置信息和服务发现（servicediscovery）的项目，它的目标是构建一个高可用的分布式键值（key-value）数据库，基于Go语言实现。特点：l简单：支持REST风格的HTTP+JSONAPIl安全：支持HTTPS方式的访问l快速：支持并发1k/s的写操作l可靠：支持分布式结构，基于Raft的一致性算法，R
Docker 中 MySQL 迁移策略（单节点） Java咩 docker mysql 容器
目录一、简介二、操作流程2.1进入mysql容器2.2导出MySQL数据2.3.将导出的文件复制到宿主机2.4创建DockerCompose配置2.5启动新的Docker容器2.6导入数据到新的容器2.7验证数据2.8删除旧的容器（删除操作需慎重）三、推荐配置四、写在后面一、简介本人发现自己Docker中Mysql的时区不对，导致每次连接数据库都需要设置时区，所以考虑进行数据库迁移，重新搭建一个正
鸿蒙开发2024【面试题库】讲解，近期需要面试的可千万别错过！鸿蒙系统小能手Mr.Li 鸿蒙开发 harmonyos 面试鸿蒙 OpenHarmony 鸿蒙系统程序员移动开发
1.请简述鸿蒙OS与AndroidOS的主要区别是什么？设备兼容性：鸿蒙OS是一款面向各种设备的分布式操作系统，支持手机、平板电脑、智能手表、智能家居、汽车等多种设备类型，并能在这些设备之间实现无缝切换和共享数据。而Android系统则主要用于移动设备，如手机和平板电脑。系统架构：鸿蒙OS采用分布式技术架构，通过分布式技术实现多设备间的协作和数据共享，更加灵活、安全、高效。而Android则采用单
hive-进阶版-1 数据牧马人 hive hadoop 数据仓库
第6章hive内部表与外部表的区别Hive是一个基于Hadoop的数据仓库工具，用于对大规模数据集进行数据存储、查询和分析。Hive支持内部表（ManagedTable）和外部表（ExternalTable）两种表类型，它们在数据存储、管理方式和生命周期等方面存在显著区别。以下是内部表和外部表的主要区别：1.数据存储位置内部表：数据存储在Hive的默认存储目录下，通常位于HDFS（HadoopDi
HarmonyNext实战：基于ArkTS的分布式任务调度系统开发 harmonyos-next
HarmonyNext实战：基于ArkTS的分布式任务调度系统开发引言在HarmonyNext生态系统中，分布式任务调度是一个核心且复杂的技术领域。随着设备互联的普及，如何在多设备间高效、可靠地分配和执行任务成为开发者面临的重要挑战。本文将深入探讨如何利用ArkTS语言构建一个高性能的分布式任务调度系统，涵盖从架构设计到代码实现的完整过程。分布式任务调度系统概述分布式任务调度系统的核心目标是将任务
HarmonyNext实战：基于ArkTS的高性能区块链应用开发 harmonyos-next
HarmonyNext实战：基于ArkTS的高性能区块链应用开发引言区块链技术以其去中心化、不可篡改和透明性等特点，正在金融、供应链、物联网等领域掀起革命性变革。HarmonyNext作为新一代操作系统，提供了强大的分布式计算和网络通信能力，而ArkTS作为其开发语言，能够帮助开发者高效实现高性能的区块链应用。本文将详细讲解如何在HarmonyNext平台上使用ArkTS开发一个区块链应用。我们将
数据库核心技术面试题深度剖析：主从同步、二级索引与Change Buffer 后端数据库mysql
在数据库相关岗位的面试中，主从同步、二级索引、ChangeBuffer是高频考察点。本文将从面试题角度拆解这三个技术点，覆盖底层原理、性能优化、设计思想，并结合实际场景与高频追问，助你构建系统性回答框架。一、主从同步：高可用架构的灵魂1.基础问题：主从同步的基本流程是什么？答：核心流程：主库将事务写入Binlog（二进制日志）从库的IO线程拉取Binlog到本地RelayLog从库的SQL线程重放
HarmonyNext实战：基于ArkTS的分布式数据同步应用开发 harmonyos-next
HarmonyNext实战：基于ArkTS的分布式数据同步应用开发引言在分布式系统中，数据同步是一个核心问题，尤其是在多设备协同的场景下。HarmonyNext作为新一代操作系统，提供了强大的分布式能力，而ArkTS作为其开发语言，能够帮助开发者高效实现分布式数据同步。本文将详细讲解如何在HarmonyNext平台上使用ArkTS开发一个分布式数据同步应用。我们将从分布式数据同步的基本原理入手，逐
AI大模型学习路线：从入门到精通的完整指南【2025最新】 AI大模型-大飞人工智能学习大模型 LLM AI 程序员大模型学习
引言近年来，以GPT、BERT、LLaMA等为代表的AI大模型彻底改变了人工智能领域的技术格局。它们不仅在自然语言处理（NLP）任务中表现卓越，还在计算机视觉、多模态交互等领域展现出巨大潜力。本文旨在为开发者、研究者和技术爱好者提供一条清晰的学习路径，帮助读者逐步掌握大模型的核心技术并实现实际应用。一、基础阶段：构建知识体系数学与理论基础线性代数：矩阵运算、特征值与奇异值分解是大模型参数优化的基础
嵌入式SDIO 总线面试题及参考答案大模型大数据攻城狮 fpga开发嵌入式面经 SPI USB接口 SD总线 SDIO总线牛客网
目录SDIO总线与SD总线的核心区别是什么？(附框架图）简述SDIO总线物理接口的组成及其功能（CLK、CMD、DAT0-DAT3）。SDIO总线支持的最大数据传输位宽是多少？如何配置？解释SDIO总线中的主从模式架构及通信流程。SDIO卡的功能类型有哪些（如Wi-Fi、蓝牙、GPS）？SDIO总线时钟信号（CLK）的作用及典型频率范围SDIO协议中的OCR寄存器作用是什么？如何通过CMD5获取卡
RabbitMQ 高级特性：从 TTL 到消息分发的全面解析（下） ngioig RabbitMQ ruby 开发语言后端
RabbitMQ高级特性RabbitMQ高级特性解析：RabbitMQ消息可靠性保障（上）-CSDN博客RabbitMQ高级特性：从TTL到消息分发的全面解析（下）-CSDN博客引言RabbitMQ作为一款强大的消息队列中间件，在分布式系统中发挥着至关重要的作用。除了基本的消息收发功能外，它还具备许多高级特性，如TTL、死信队列、延迟队列、事务和消息分发等。本文将详细介绍这些高级特性。1.TTL（
ICC2 高效进阶：set_host_options 命令精解，数字后端设计必备！数字后端物理设计知识库 icc2命令每日精要后端性能优化
在数字后端物理设计的战场中，效率就是生命，而ICC2的set_host_options命令就是助力各位工程师和学子们快速提升效率的神器！今天就带大家深入探索这个命令的奥秘，让复杂的配置变得轻松简单。一、set_host_options的核心价值这个命令专注于多核处理的灵活配置，无论是多线程、分布式处理还是并行任务执行，它都能轻松驾驭。通过精准定义主机资源、核心数以及提交协议等关键参数，工程师们可以
计算机毕业设计springboot教务管理系统 0k1c1源码+系统+程序+lw文档+部署呦呦网络 spring boot java mysql
计算机毕业设计springboot教务管理系统0k1c1源码+系统+程序+lw文档+部署计算机毕业设计springboot教务管理系统0k1c1源码+系统+程序+lw文档+部署本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、JDK1.8数据库：MySQL5
mcp 是一种什么协议，怎么构建mcpserver,怎么实现多智能体的调用 MonkeyKing.sun MCP协议 MCP server
MCP（MessageControlProtocol）是一种用于分布式系统中多智能体通信的协议框架，特别适合于构建多智能体系统。下面我将介绍MCP协议的基本原理以及如何构建MCP服务器和实现多智能体调用。MCP协议概述MCP协议主要用于定义智能体之间如何交换消息、协调任务和共享资源。它通常包含以下核心组件：消息格式定义会话管理路由机制错误处理安全认证构建MCP服务器以下是构建基本MCP服务器的步骤
大模型和数据要素赋能实体零售行业数字化转型建设和实施方案优享智库大模型数据要素数据治理数据仓库主数据零售
大模型和数据要素赋能实体零售行业数字化转型建设和实施方案更多参考公众号：优享智库引言项目背景与意义数字化转型目标与期望实施方案概述零售行业现状及挑战实体零售行业现状数字化转型面临的挑战市场需求与趋势分析大模型与数据要素赋能策略大模型技术及应用场景数据要素采集、整合与治理赋能策略制定与实施路径数字化转型关键技术与解决方案人工智能技术及应用大数据分析与挖掘技术云计算、物联网等技术支持定制化解决方案设计
面试求助：接口测试用例设计主要考虑哪些方面？海姐软件测试 lua 开发语言
一、基础功能验证1.正常场景覆盖关键点：验证接口在合法输入下的正确响应（状态码、数据结构、业务逻辑）。案例：json复制//用户登录接口输入：{"username":"合法用户","password":"正确密码"}预期：200OK+token返回+数据库登录记录更新2.异常场景覆盖关键点：触发错误码（4xx/5xx）的边界条件。测试维度：参数缺失/类型错误（如整型传字符串）非法参数值（如手机号格
SpringBoot实践（三十二）：5分钟搭建springboot单体应用开发框架 A叶子叶 #SpringBoot与微服务 java 开发语言
熟悉语言和开发工具上基础快速使用框架构建应用是个机械工作，5分钟完成开发准备工作，没有冗余动作。目录准备工作开发框架搭建spring初始化常规依赖其他依赖规范化开发目录结构依赖适配代码生成器响应体封装github代码准备工作后端开发需要数据持久化，数据库使用mysql，这也是生产环境大部分的选择，本地开发如果没有mysql可以直接在idea上创建h2数据库，具体创建方式可以参考：使用IDEA创建H
MySQL UPDATE 更新操作详解 wjs2024 开发语言
MySQLUPDATE更新操作详解概述在数据库管理中，UPDATE语句是用于修改表中现有记录的重要工具。本篇文章将详细介绍MySQL中的UPDATE语句，包括其语法、使用场景、注意事项等，旨在帮助数据库管理员和开发者更好地理解和运用这一关键操作。语法结构MySQL的UPDATE语句的基本语法如下：UPDATEtable_nameSETcolumn1=value1,column2=value2,..
建立高质量个人数据库：解锁DeepSeek的关键 CodeJourney. 人工智能算法 python
在人工智能飞速发展的时代，DeepSeek为普通人处理数据、提升工作效率带来了新的可能。然而，很多人在使用过程中存在误区，本文围绕如何正确利用DeepSeek搭建高质量个人数据库展开探讨，强调其对个人成长和发展的重要性，并通过具体实例展示其强大功能。重新理解DeepSeekDeepSeek的普及使普通人能够轻松搭建个人数据库，但不少人在使用时存在错误认知。他们将DeepSeek视为主角，把杂乱无章
postgresql 数据库使用 what_2018 数据库数据库 postgresql oracle
目录索引查看索引创建删除索引修改数据库时区索引查看索引 select*frompg_indexeswheretablename='t_table_data'; 或者select*frompg_statio_all_indexeswhererelname='t_table_data';创建CREATEINDEXix_table_data_timeONt_table_data(id,create_ti
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts

完整大数据学习路线，看了就会有所收获

大数据

大数据学习路线

1.Java基础——主要部分是JavaSE

1.1 Java初级

1.2 Java高级

1.3 其余常见基础…

2.Linux基础——主要指的是Linux基本命令操作

3.Hadoop生态学习（体系结构、原理、编程）

3.1第一阶段

3.2第二阶段

3.3第三阶段

4.Spark生态学习

4.1第一阶段

4.2第二阶段

4.3第三阶段

4.4第四个阶段

5.Storm学习——实时计算

6.其他学习

6.1 Kafka

6.2 机器学习算法

6.3 大型网站高并发处理

6.4 Lucene基础

6.5 Solr基础

6.6 Federation

7.总结

8.其他方向

9.项目案例

你可能感兴趣的:(学习路线,大数据,hadoop,spark,分布式,数据库)