小神龙q

一篇了解大数据架构及Hadoop生态圈

阅读建议，有一定基础的阅读顺序为1,2,3,4节，没有基础的阅读顺序为2,3,4,1节。

第一节集群规划
大数据集群规划（以CDH集群为例），参考链接：

https://www.cloudera.com/documentation/enterprise/latest/topics/cm_ig_host_allocations.html

https://blog.csdn.net/xuefenxi/article/details/81563033

Cloudera（CDH）简介
官方文档https://www.cloudera.com/documentation/enterprise/latest.html

CDH(Clouder’s Distribution Including Apache hadoop)，基于web的用户界面，支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、pig、Hbase、Zookeeper、Sqoop,简化了大数据平台的安装和使用难度。

Cloudera作为一个强大的商业版数据中心管理工具，提供了各种能够快速稳定运行的数据计算框架。

CDH集群可以划分为不同的角色，主要包括以下几种：

管理节点（Master Hosts）:主要用于运行Hadoop的管理进程，比如HDFS的NameNode，YARN的ResourceManager。
工具节点（Utility Hosts）：主要用于运行非管理进程的其他进程，比如Cloudera Manager和Hive Metastore.
边缘节点（Gateway Hosts）:用于集群中启动作业的客户机器，边缘节点的数量取决于工作负载的类型和数量。
工作节点（Worker Hosts）:用户运行DataNode以及其他分布式进程。

集群大小划分：

测试/开发集群（小于10台），小规模集群（10-20台），中小规模集群（20-50台），中等规模集群（50-100台），大型集群（100-200台），超大规模集群（200-500台），巨型规模集群（500台以上）。每台机器的大小通常为32G物理内存，1T磁盘大小。

测试开发集群（逻辑划分）：1台管理节点+1台工具节点/1台边缘节点+N台工作节点。

Master Hosts

Utility Hosts

Gateway Hosts

Worker Hosts

Master Host 1:

NameNode
YARN ResourceManager
JobHistory Server
ZooKeeper
Kudu master
Spark History Server
One host for all Utility and Gateway roles:

Secondary NameNode
Cloudera Manager
Cloudera Manager Management Service
Hive Metastore
HiveServer2
Impala Catalog Server
Impala StateStore
Hue
Oozie
Flume
Gateway configuration
3 - 10 Worker Hosts:

DataNode
NodeManager
Impalad
Kudu tablet server
(可在Cloudera Manager界面查看，端口号：7180)

1台机器上部署管理节点，通常包括的角色：

NN: NameNode (HDFS);

SHS: Spark History Server (Spark);

RM: Resource Manager (YARN);

JHS: JobHistoryServer

ZK: Zookeeper;

KM: kudu Master

ISS: Impala Statestore

1台机器部署工具节点/边缘节点：

工具节点通常包括的角色：

CM: Cloudera Manager

JN: JournalNode

CMS: Cloudera Management service

ICS: Impala Catelog service

NMS: Navigator Metadata

HMS: Hive Metadata

NAS: Navigator Audit Srver

ZK, Fluem, Sqoop, Hue, HttpFS

边缘节点通常包括的角色：

GW: Gateway configuration

Hue, Sqoop, Flume, HiveServer

工作节点通常包括的角色：

Impala Daemon, NodeManager, DataNode, Kudu Tablet Server

第二节 Hadoop生态圈
Hadoop生态体系中，HDFS提供文件存储，YARN提供资源管理，在此基础上，进行各种处理，包括mapreduce、Tez、Sprak、Storm等计算。

图 Hadoop生态体系

hadoop基础：https://blog.csdn.net/chengyuqiang/article/category/6905123/6

第三节 Hadoop三大核心组件
Hadoop集群具体来说包含两个集群：HDFS集群和YARN集群，两者逻辑上分离，但物理上常在一起。

（1）HDFS集群：负责海量数据的存储。

（2）YARN集群：负责海量数据运算时的资源调度。

（3）MapReduce：它其实是一个应用程序开发包。

hadoop三大组件：https://blog.csdn.net/wyfly69/article/details/79950039

(1)HDFS
(1)HDFS(Hadoop Distributed File System)

(Hadoop分布式文件系统，存储是大数据技术的基础)

HDFS简化了文件的一致性模型，通过流式数据访问，提供高吞吐量应用程序的数据访问功能，适合大型数据集的应用程序。它提供了一次写入多次读取的机制，数据以块的形式，同时分布在集群中不同物理机器上。

快速理解：

1）HDFS的文件被分成块进行存储，默认为64M,块是文件存储处理的逻辑单元。

2）HDFS有两类节点，NameNode和DataNode

3）NameNode是管理节点，存储文件元数据。文件与数据块的映射表；数据块与数据节点的映射表。

4）DataNode是HDFS的工作节点，存储数据块。

5）每个数据块3个副本，分布在两个机架内的三个节点。

6）DataNode定期向NameNode发送心跳信息。

7）二级NameNode定期同步元数据映射文件和修改日志，作为备胎。

特点：

1）数据冗余，硬件容错

2）流式的数据访问

3）存储大文件

应用：

1）适合数据批量读写，吞吐量高。不适合交互式应用，低延迟很难满足。

2）适合一次写入多次读取，顺序读写。不支持多用户并发写入相同文件。

常用操作指令：

#初始格式化

hadoop namenode -format

#打印Hdfs当前文件夹

hadoop fs -ls/

#创建并上传文件操作

hadoop fs -mkdir input

hadoop fs -put hadoop_env.sh input /

#查看具体文件

hadoop fs -cat input/hadoop_env.sh

#下载文件

hadoop fs -get input/hadoop_env.sh hadoop_env2.sh

#查看文件系统所有文件

hadoop dfadmin -report

HDFS参考：https://blog.csdn.net/weixin_38625805/article/details/82120573

(2)YARN
（2）YARN(Yet Another Reduce Negotiator,另一种资源协调者)

YARN是一个通用的资源管理平台，可为各类计算框架提供资源的管理和调度。

其核心出发点是为了分离资源管理与作业调度/监控，实现分离的做法是拥有一个全局的资源管理器（ResourceManager，RM），以及每个应用程序对应一个的应用管理器（ApplicationMaster，AM），应用程序由一个作业（Job）或者Job的有向无环图（DAG）组成。

快速理解：

1）YARN可以将多种计算框架(如离线处理MapReduce、在线处理的Storm、迭代式计算框架Spark、流式处理框架S4等) 部署到一个公共集群中，共享集群的资源。并提供如下功能：

资源的统一管理和调度：

集群中所有节点的资源(内存、CPU、磁盘、网络等)抽象为Container（集装箱）。计算框架需要资源进行运算任务时需要向YARN申请Container，YARN按照特定的策略对资源进行调度进行Container的分配。

资源隔离：

YARN使用了轻量级资源隔离机制Cgroups进行资源隔离以避免相互干扰，一旦Container使用的资源量超过事先定义的上限值，就将其杀死。

YARN是对Mapreduce V1重构得到的，有时候也称为MapReduce V2。

YARN可以看成一个云操作系统，由一个ResourceManager和多个NodeManager组成，它负责管理所有NodeManger上多维度资源，并以Container(启动一个Container相当于启动一个进程)方式分配给应用程序启动ApplicationMaster(相当于主进程中运行逻辑) ,或运行ApplicationMaster切分的各Task(相当于子进程中运行逻辑)

YARN链接：https://blog.csdn.net/qq_28001193/article/details/79480786

(3)MapReduce
（3）MapReduce（分布式计算，是大数据应用技术的解决方案）

分而治之，一个大任务分成多个小的任务（map），并行执行后，合并结果（reduce）

快速理解：

1）用于执行MapReduce任务的机器角色有两个：一个是JobTracker；另一个是TaskTracker，JobTracker是用于调度工作的，TaskTracker是用于执行工作的。一个Hadoop集群中只有一台JobTracker。

2）TaskTracker对应HDFS中的DataNode。

3）JobTracker的作用：作业调度，分配任务，监控任务执行进度；监督TaskTracker的状态

4）TaskTracker的作用：执行任务，汇报任务状态。

5）mapreduce的容错机制，重复执行（4次），推测执行。

应用：

1）100G的网络访问日志文件，找出访问次数最多的地址。

2）wordcount.

链接：

1)https://blog.csdn.net/wuya814070935/article/details/78664674

2)https://blog.csdn.net/qq_24908345/article/details/52791944

3)https://www.imooc.com/article/34049

第四节 Hadoop其他组件介绍
(4) Flume(日志收集工具)【水槽】

Flume数据流提供对日志数据进行简单处理的能力，如过滤、格式转换等。同时，Flume还具备能够将日志写往各种数据目标的能力。

创建数据文件

hadoop fs -vi /home/testdata.dat

#创建库

create database test

#创建表

create table test(id int,name string,age string) ROW format DELIMITED FIELDS

TERMINATED BY ‘\t’ stored as TEXTFILE;

#加载数据

load data local inpath ‘/root/data/students.txt’ into table test;

#删除表

drop database if exists test;

#大小写转换

select lower(‘hello world’),upper(‘hello world’)

#去掉前后的空格

trim

#habse 和 hive的区别

1） habse是基于Haddoop实现的数据库，不支持SQL

2） hive是基于hadoop实现的数据仓库，适合海量全量数据，支持类SQL操作。

#数据仓库的特性

数据仓库用称做数据立方体的多维数据结构建模，它是一个从多个数据源收集的信息存储库，存放在一致的模式下，并且通常驻留在单个站点上。

数据仓库是面向主题的、集成的、其数据是随着时间变化而变化的，其数据是不可修改的。

(9) Tez

支持DAG作业的计算框架，对MapReduce的进一步拆分。

(10) OOzie（工作流调度系统）

用来管理hadoop任务，工作流调度：工作流程的编排、调整，安排事件的触发执行。OOzie是一个可扩展的工作体系，集成于Hadoop的堆栈，用于协调多个MapReduce作业的执行。OOzie的工作流是放置在控制依赖DAG(有向无环图 Direct Acyclic Graph)的一组动作(例如，hadoop的Map/Reduce作业，Pig作业等)，其中指定了动作执行的顺序。OOzie使用hPDL(一种XML流程定义语言)来描述这个图。

(11) Hue (Hadoop user Experience)大数据协作框架，web访问。

访问端口：8889

使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据，例如操作HDFS上的数据，运行MapReduce Job,执行Hive的SQL语句，浏览Hbase数据库。

(12) Impala (数据查询系统)

提供SQL语义，能查询存储在Hadoop的HDFS和HBASE的PB级的大数据。Impala没有使用MapReduce进行并行运算，所以Hive适合于长时间的批处理查询分析，而Impala适合于实时交互式SQL查询。

(13) Sentry(事件日志记录和汇集的平台)【哨兵】

Sentry是一个开源的实时错误报告工具，支持Web前后端、移动应用以及游戏。通常我们所说的Sentry是指后端，有Django编写。

(14) Solr(全文搜索服务器,基于lucene)

Sentry是一个独立的企业其搜索应用服务器，它是一个高性能，采用JAVA5开发，它对外提供类似于Web-service的API接口。用户可以通过HTTP请求，向搜索引擎提交一定格式的XML文件，生成索引。

(15) Lucene

它是一套用于全文检索和搜索的开发源代码程序库。Lucene提供了一个简单却强大的应用接口程序,能够做全文索引和搜索，它是最受欢迎的免费Java信息检索程序库。

(16) pig

为大型数据集的处理提供抽象，与MapReduce相比，Pig提供了更丰富的数据结构，一般都是多值和嵌套的数据结构。它提供强大的数据变换，包括在MapReduce中被忽视的连接Join操作。

(17) Ambari

一种基于web的工具，支持hadoop集群的供应、管理和监控。

(18)Storm(实时处理框架)【暴风雨】

类似于Hadoop的实时处理框架，毫秒级。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍，比如网站统计、推荐系统、预警系统、金融系统（高频交易）等等，大数据实时处理解决方法的应用日趋广泛，其中Strom成为流计算技术中的佼佼者。

基本概念：

Storm的主从架构由Nimbus(主结点)、zookeeper(协作框架)、supervisor(从节点)和worker(各个机器)组成。

1）Nimbus的作用：接收客户端代码，拆分成多个task,将task信息存入zookeper;将task分配给supervisor,将映射关系存入zookeeper;故障检测

2）supervisor的作用：从Nimbus目录读取代码，从zk上读取分配的task;启动工作进程worker执行任务；检测运行的工作进度worker.

worker的作用：从zk上去读取分配的task,并计算出task需要给哪些task分布消息；启动一个或多个Executor线程执行任务Task.

4）zookeeper的作用：协调Nimbus与supervisor进行通信；协调supervisor与worker进行通信；保证Nimbus的高可用性。

(19)Kylin【麒麟】

一个开源的分布式分析引擎，为Hadoop等大型分布式数据平台之上的超大规模数据集提供通过标准SQL查询及多维分析(OLAP)的功能，提供亚秒级的交互分析能力。

Tips:ETL(数据仓库技术)

extract,transform,load(抽取)（转换）(加载)

(20) Kibana

它是一个开源的分析和可视化平台，设计用于和ElasticSearch一起工作，你用Kibana来搜索，查看并存在ES索引中的数据进行交互。

常用端口（ES）:5601

常用es查询指令：

通常格式：GET 索引/类型

例如：

精确查找：

GET topic_index/topic_type/_search

{

"query":{

    "term":{

        "id":{

            "value":"$09_1213"

}

    }

}

}

模糊前缀查找：

GET topic_index/topic_type/_search

{

"query":{

    "prefix":{

        "id":{

            "value":"$09"

}

    }

}

}

参考链接：https://blog.csdn.net/u011262847/article/details/78007119

同时附es-java-api:

https://www.elastic.co/guide/en/elasticsearch/client/java-api/current/java-search.html

(21) Kafka(分布式消息队列)

端口号：9092

主要用于处理活跃的流式数据，这些数据包括网站的pv,uv。

它由producer、Broker和consumer三部分组成。

基本概念：

producer: 消息和数据的生产者，向kafka的一个topic发布消息的进程、代码、服务，负责发布消息到Broker.

Broker: Kafka集群包含一个或多个服务器，这种服务被称为Broker.

Consumer: 消息和数据的消费者，订阅消息,向Broker读取消息的客户端。

Topic: kafka消息的类别,每条发布到kafka集群的消息都有一个类别，这个类别称为Topic.

Partition： kafka下数据存储的基本单元,每个Topic包含一个或多个Partition.

Consumer Group: 对于同一个Topic,会广播给不同的Group。每个Consumer属于一个特定的Consumer Group.

Replication Leader: 负责partition上Producer与Consumer的交互。

ReplicaManager: 负责管理当前Broker所有分区和副本的信息。

特点：

1）多分区

2）多副本

3）多订阅者

4）基于zookeeper调度

应用场景：

1）消息队列

2）行为跟踪

3）元数据监控

4）日志收集

5）流处理，时间源

6）持久性日志

手动导入数据到Kafka命令

#创建主题,replication-factor表示该topic需要在不同的broker中保存几份，partions为几个分区

./kafka-topics.sh --create --zookeeper cdh-node04:2111 --replication-factor 3 – partitions 1 --topic test01

#描述主题

./kafka-topic.sh --zookeeper cdh-node04:2111 --describe --topic test01

#生产者发送数据

./kafka-console-producer.sh --broker-list cdh-node04:2111,cdh-node05:3111 --topic test01 +(复制黏贴的数据【固定格式：一般为JSON 】)

#消费者消费数据

./kafaka-console-consumer.sh --zookeeper cdh-node04:2111 --topic test01 (–from-beginning从头开始查看数据)

(22) Azkaban(批量工作流任务调度器)

主要用于在一个工作流内以一个特定的顺序运行一组工作和流程，它的配置是通过简单的key:value键值对的方式，通过配置中的dependencies来设置依赖关系，这个依赖关系是无环的,否则会被视为无效的工作流。相比于OOzie的配置复杂度高，Azkaban有如下有点：

1）通过job配置文件快速建立任务和任务之间的依赖关系。

2）提供功能清晰，简单易用的web UI界面。

3）提供模块化和可插拔的插件机制，原生支持command,java,pig,hadoop。

基于java开发，代码结构清晰，易于二次开发。

(23) Nginx(反向代理服务器)

它是一个高性能的HTTP和反向代理服务器，也是一个IMAP/POP3/SMTP代理服务器。Nginx是一款轻量级的Web服务器/反向代理服务器以及电子邮件代理服务器，并在一个BSD-like协议下发型，其特点是占有内存小，并发能力强。事实上nginx的并发能力确实在同类型的网络服务器中表现较好，中国大陆使用nginx网站的有：百度，京东，腾讯，淘宝，网易。

应用：

Nginx实现负载均衡，链接：https://www.cnblogs.com/JimBo-Wang/p/6556360.html

(24) spark和spark2(大数据处理的计算引擎)

Spark是UC Berkeley AMP lab开发的一个集群计算的框架，类似于Hadoop，但有很多的区别。最大的优化是让计算任务的中间结果可以存储在内存中，不需要每次都写入HDFS，更适用于需要迭代的MapReduce算法场景中，可以获得更好的性能提升。例如一次排序测试中，对100TB数据进行排序，Spark比Hadoop快三倍，并且只需要十分之一的机器。Spark集群目前最大的可以达到8000节点，处理的数据达到PB级别，在互联网企业中应用非常广泛.

链接：https://www.cnblogs.com/smuxiaolei/p/7663744.html

你可能感兴趣的:(大数据导论)

书籍-《控制理论的数学导论（第三版）》机器人数学
书籍：AMathematicalIntroductiontoControlTheory作者：ShlomoEngelberg出版：WorldScientificPublishingCompany编辑：陈萍萍的公主@一点人工一点智能下载：《控制理论的数学导论（第三版）》01书籍介绍本书在数学严谨性和工程应用之间达到了完美的平衡，有助于学生全面理解控制理论的数学和工程层面。本书不仅有效运用了MATLAB
计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
智慧交通是什么，可以帮助我们解决什么问题? Guheyunyi 运维大数据人工智能信息可视化前端
智慧交通是什么？智慧交通（SmartTransportation）是指利用物联网（IoT）、大数据、人工智能（AI）、云计算、5G通信等先进技术，对交通系统进行智能化管理和优化，以提高交通效率、减少拥堵、降低事故率、提升出行体验，并实现交通资源的合理配置和可持续发展。智慧交通的核心是通过数据采集、分析和应用，实现交通系统的智能化、自动化和协同化，从而构建一个高效、安全、绿色、便捷的交通生态系统。智
《基于图神经网络的安卓应用检测系统设计与实现》开题报告大数据蟒行探索者毕业论文/研究报告神经网络 android 人工智能机器学习大数据深度学习 python
个人主页：@大数据蟒行探索者目录一、课题的研究目的和意义1.研究目的2.研究意义二、国内(外)研究现状及分析1.国内研究现状2.国外研究现状3.研究分析三、课题主要研究内容及可行性分析1.研究内容2.可行性分析四、研究方案和技术途径1.研究方案2.技术途径五、外部条件及解决办法1.开发环境2.解决办法六、主要参考文献一、课题的研究目的和意义1.研究目的随着智能手机的普及，安卓操作系统成为全球最为广
大数据和人工智能概念全面解析就犯得上方法
一、大数据和人工智能大数据是伴随着信息数据爆炸式增长和网络计算技术迅速发展而兴起的一个新型概念。根据麦肯锡全球研究所的定义，大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能够帮助各行各业的企业从原本毫无价值的海量数据中挖掘出用户的需求，使数据能够从量变到质变，真正产生价值
一文搞懂大数据神器Spark，真的太牛了！ qq_23519469 大数据 spark 分布式
Spark是什么在如今这个大数据时代，数据量呈爆炸式增长，传统的数据处理方式已经难以满足需求。就拿电商平台来说，每天产生的交易数据、用户浏览数据、评论数据等，数量巨大且种类繁多。假如要对这些数据进行分析，比如分析用户的购买行为，找出最受欢迎的商品，预测未来的销售趋势等，用普通的单机处理方式，可能需要花费很长时间，甚至根本无法完成。这时，Spark就应运而生了。Spark是一个开源的、基于内存计算的
数据湖：Apache Iceberg在腾讯的探索和实践学而知之@ 数据库腾讯大数据 java 编程语言
摘要：今天分享的是ApacheIceberg在腾讯内部的探索和实践。本文结合腾讯大数据技术分享内容和2020全球软件开发大会分享内容进行整理，主要内容包括：1、数据湖技术概述2、ApacheIceberg的简介3、腾讯为什么选择ApacheIceberg4、腾讯看点万亿数据下的业务痛点5、ApacheIceberg在看点实践6、ApacheIceberg读写和删除ApacheIceberg新一代数
AI 时代，学习 Java 应如何入手？琢磨先生David 人工智能 java
一、Java的现状：生态繁荣与AI融合的双重机遇在2025年的技术版图中，Java依然稳坐企业级开发的“头把交椅”。根据行业统计，Java在全球企业级应用中的市场份额仍超过65%，尤其在微服务架构、大数据平台和物联网（IoT）领域占据核心地位。随着云原生技术的普及，Java生态正经历新一轮进化：轻量化框架通过无服务器架构优化，启动速度提升300%，内存占用降低50%，使得Java在容器化部署中更具
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
Java 大视界 -- Java 大数据在智能体育赛事直播数据分析与观众互动优化中的应用（142）青云交大数据新视界 Java 大视界 java 大数据体育赛事直播数据分析观众互动数据采集个性化推荐
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐洪显彦Lawyer
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐TBBKAnalysis关于淘宝“爆款”数据爬取与分析。具体分析见—项目地址:https://gitcode.com/gh_mirrors/tb/TBBKAnalysis在数字化时代的数据洪流中，每一个细微的数据点都蕴含着洞察未来的机遇。今天，我们要探讨的是一个独特且极具启发性的开源项目——TBBKAnalysis。该项目源自知乎上一
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
python爬虫项目范哥来了 python 爬虫开发语言
项目名称：国家自然科学基金大数据知识管理服务门户爬取项目爬取内容：爬取内容：资助项目爬取链接：HTTP://KD.NSFC.GOV.CN/BASEQUERY/SUPPORTQUERY为了完成“国家自然科学基金大数据知识管理服务门户”的资助项目信息爬取任务，我们需要设计一个网络爬虫。考虑到目标网站的具体情况，我们将采用Python语言结合requests库来处理HTTP请求，以及使用Beautifu
Java 大视界 -- 基于 Java 的大数据实时流处理中的窗口操作与时间语义详解（135）青云交大数据新视界 Java 大视界 java 大数据大数据实时流处理窗口操作时间语义滚动窗口滑动窗口
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Lisp语言的云存储俞嫦曦包罗万象 golang 开发语言后端
Lisp语言的云存储：构建智能化数据管理新时代引言随着信息技术的飞速发展，数据的生产和存储呈现出爆炸式增长。云存储作为一种新兴的数据管理方式，逐渐成为各行业必不可少的基础设施。尤其是在大数据、人工智能等领域，对数据的快速访问和高效存储要求尤为迫切。与此同时，Lisp语言作为一种历史悠久且具有强大表达能力的编程语言，通过其特有的特性，可以在云存储的架构设计与实现方面发挥独特的优势。本文将深入探讨Li
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
Flink实践：通过Flink SQL进行SFTP文件的读写操作 kkk1622245 flink sql 大数据
在大数据处理领域，ApacheFlink出类拔萃，它是一个高性能、易扩展、用于处理有界和无界数据流的分布式处理引擎。FlinkSQL是ApacheFlink提供的一种声明式API，允许开发者以SQL的形式，轻松实现复杂的数据流和批处理分析。本文将重点探讨如何通过FlinkSQL来实现对SFTP文件的读写操作，这是在实际应用中经常遇到的一种场景。Flink与SFTP文件的读写在很多实际应用场景中，数
题解 | 牛客周赛 Round 49 DEF Java题解 han_xue_feng java
面试又黄了反正不是什么喜欢的工作[牛泪]面试又黄了反正不是什么喜欢的工作2024秋招数据开发第一波面试题露出#字节##滴滴##大数据##面经##秋招#引流字节阿里巴巴腾讯百度美团美团后端暑期实习体验——实习的一天早上：8点半出门坐地铁，9点下地铁到惠新西街南口地铁站，出地铁站坐班车（这一点还是不错的），9点30深圳阿里实习day1领工牌mac，认工位mentor，配环境看文档，七点就润了。看各个文
Search after解决ES深度分页问题 Elastic开源社区 elasticsearch 大数据 search after 深度分页 ES
文章目录1、search_after的作用和意义2、search_after的工作原理3、search_after的使用方法4、注意事项5、与传统分页的对比6、总结search_after是Elasticsearch中用于实现深度分页的一种机制。相比于传统的from和size分页方式，search_after更适合处理大数据集的分页查询，因为它避免了深度分页带来的性能问题。1、search_aft
第七章Solr：企业级搜索应用 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
第七章Solr：企业级搜索应用1.背景介绍1.1搜索引擎的重要性在当今信息时代,数据量呈指数级增长,海量数据中蕴含着极其宝贵的信息和知识。然而,如何快速、准确地从大数据中检索出所需的信息,一直是企业和组织面临的巨大挑战。传统的数据库查询方式已经无法满足现代搜索需求,因此高效的搜索引擎应运而生。1.2什么是SolrApacheSolr是一个高性能、可扩展、云就绪的企业级搜索平台,由Apache软件基
金融租赁系统的创新发展与市场竞争力提升探讨红点租赁系统开发其他
内容概要随着经济的快速发展，金融租赁系统逐渐成为金融市场中不可或缺的一环。它不仅提供了灵活的资金解决方案，还促进了企业的资本结构优化与资源配置效率。因此，了解该系统的市场背景与发展现状至关重要。在现今环境下，新兴技术如人工智能、大数据和区块链等正加速推动金融租赁的创新。通过这些技术，不仅可以优化业务流程，提升运营效率，还可以增强风险管理能力。例如，利用数据分析可以实时监测租赁资产的风险，从而采取相
分块查找算法 1haooo 算法 java 算法开发语言数据结构
分块的原则前一块的最大数据，小于后一窥啊中所有的数据（块内无序，块间有序）块数数量一般等于数字的个数开根号。比如：16个数字一般分为4块左右。publicclassblockSearch{publicstaticvoidmain(String[]args){int[]arr={16,5,9,12,21,18,32,23,37,26,45,34,50,48,61,52,73,66};//共18个元素
MongoDB数据库使用及常见问题微笑的曙光（StevenLi）数据库数据库 mongodb
MongoDB数据库之所以备受青睐，关键在于其独特的优势满足了现代应用的需求。它采用文档型存储，数据结构灵活，无需事先定义表结构，非常适合处理复杂且多变的数据。MongoDB具备高性能和可扩展性，能够轻松应对大数据量和高并发的访问，通过分片技术实现水平扩展，确保系统稳定运行。同时，它提供了强大的数据一致性和可靠性保障，支持多种复制和故障转移机制，确保数据的高可用性和持久性。此外，MongoDB拥有
智慧社区2.0 陈陈爱java java
项目亮点1.技术架构层面✅多数据源整合（MySQL+Redis+HDFS+OSS）核心亮点：不仅仅是单一数据库，而是根据数据特性使用MySQL（结构化数据）+Redis（缓存）+HDFS（大数据存储）+OSS（对象存储），提高了系统的数据存储效率和查询速度。面试时可以强调：Redis作为缓存，加速社区热点数据访问，减少MySQL压力。HDFS存储海量日志和AI任务数据，支持后续分析。OSS解决图片
Pandas与PySpark混合计算实战：突破单机极限的智能数据处理方案 Eqwaak00 Pandas pandas 学习 python 科技开发语言
引言：大数据时代的混合计算革命当数据规模突破十亿级时，传统单机Pandas面临内存溢出、计算缓慢等瓶颈。PySpark虽能处理PB级数据，但在开发效率和局部计算灵活性上存在不足。本文将揭示如何构建Pandas+PySpark混合计算管道，在保留Pandas便捷性的同时，借助Spark分布式引擎实现百倍性能提升，并通过真实电商用户画像案例演示全流程实现。一、混合架构设计原理1.1技术栈优势分析维度P
【Visual C++】游戏开发笔记三十五站在巨人的肩膀上游戏引擎导论这是什么树
本系列文章由zhmxy555（毛星云）编写，转载请注明出处。文章链接：http://blog.csdn.net/zhmxy555/article/details/8250057作者：毛星云（浅墨）邮箱：happylifemxy@163.com-------------------------------------------------------------------------------
游戏引擎导论方块砖图形学
本系列文章由zhmxy555（毛星云）编写，转载请注明出处。文章链接：http://blog.csdn.net/zhmxy555/article/details/8250057作者：毛星云（浅墨）邮箱：[email protected]一、学完DirectX，我们该干什么？浅墨觉得，历代DirectX龙书的作者FrankLuna在龙书中忽视了非常重要的一方面内容的讲解，那就是就是学完了Dir
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本