C0oOder

Hadoop (一) Hadoop学习

1.Hadoop 简介

1.1 单独的 Hadoop软件

Hadoop是Apache 软件基金会开源的一款开源Java软件，用户编写简单的编程模型实现跨机器对海量数据分布式计算处理的框架

Hadoop的核心组件有

Hadoop HDFS：分布式文件系统大数据存储
Hadoop YARN：集群的资源管理和任务调度框架集群资源分配
Hadoop MapReduce：分布式计算框架大数据计算

1.2 Hadoop 生态

Hadoop 生态，基于 Hadoop 软件的大数据生态

1.3 起源

Dong Cutting 做Apache Lucene 子项目 Nutch (全网搜索引擎) 的问题大量数据的存储和索引；

三篇论文：

The Google file System

MapReduce：Simplified Data Processing on Large Clusters

Bigtable ： A Distributed Storage System for Structred Data

1.4 发展

HDFS：作为大数据分布式文件存储系统，底层核心
YARN：分布式集群管理和任务调度平台，支持各种计算引擎运行
MapReduce 作为大数据生态圈第一代分布式计算框架；现在很少直接使用，但是很多软件的底层都是使用MapReduce 来处理数据

1.5 优点

扩容能力强集群可以扩张到数千节点
成本低：低配置的机器也可以部署
效率高：并发的计算，节点数据是发布存储的
可靠性：数据多重备份，任务失败后查询部署计算

1.6 版本

开源社区版本更新快，稳定性一般

商业公司版本有些服务收费，稳定性兼容性较好，更新慢；

在社区版本中

Hadoop1.0 HDFS MapReduce

Hadoop2.0 HDFS MapReduce YARN

Hadoop3.0 对比2.0 着重于性能优化

2.Hadoop 集群

2.1 集群角色

Hadoop 集群包括两个集群，逻辑上是两个集群，集群之间相互不影响；部署的时候可能是一个物理节点，都是主从架构；MapReduce 是一个计算框架，没有集群概念；

HDFS 集群角色
- 主角色：NameNode
- 从角色：DataNode
- 主角色的辅助角色，这个是辅助主节点一起干活的，不是主节点挂了上位的 SecondaryNameNode
YARN 集群
- 主角色：ResourceManager
- 从角色：NodeManager

2.2 集群安装

略略略了，网上搜搜很多。。

2.3 Hadoop 安装目录结构

bin 基本的管理脚本，sbin目录脚本的基础实现，可以直接使用
etc Hadoop 配置文件所在的目录
include 对外提供的编程库头文件
lib Hadoop 对外提供的编程动态库和静态库，和include 结合使用
libexec shell 配置文件所咋目录，用于配置日志输出，启动参数，jvm的参数等
sbin Hadoop 集群启停脚本
share Hadoop各个模块编译后的jar包所在目录

3.HDFS

Hadoop Distributed File System

3.1 分布式存储系统简介

思考一下什么是文件系统？

存储文件，管理文件，文件权限，查找文件等操作，一般我们的操作系统比如Linux 和Windows都是有自己的文件系统，有目录树的结构；

文件系统一般会维护两种数据

数据这个是数据本来的内容，比如就是图片，文档等
元数据解释性数据，描述数据的数据，比如数据的权限，数据的大小，最后修改时间，数据文件所属用户等描述数据的信息；

大数据运算难点？

大量数据，数据分散，运算数据要来回移动，
数据IO 瓶颈，海量数据高吞吐量难以实现
无法快速部署和弹性扩容

为此出现分布式存储系统

分布式存储：数据存储在多个主机，理论上可以无线扩充机器存储
元数据记录：文件发布在多个节点，元数据记录数据存储节点和位置，便于快速查找
分块存储：单节点的话文件过大，单机存储不了；分块存储后存在多个节点，还有就是操作数据的时候多个快一起操作，增加操作效率
副本机制：单节点的话，文件数据容易损坏；副本机制多节点相互备份，保证数据安全高可用；

3.2 HDFS 简介

HDFS 是一个分布式的文件管理系统；具有分布式文件管理系统的优点；综合管理多个计算机的存储文件，主要是处理大数据存储问题，提高数据容错，并提供统一的接口访问

3.3HDFS 历史

起源：Nutch 全网搜索的文件存储问题~

设计目标：

处理硬件故障，管理成百上千服务器，快速的故障检测和自动恢复是核心目标；
更加注重数据的高吞吐量而不是响应时间
文件一旦写入关闭后就不能修改，主要还是为了高吞吐量
移动计算的代价小于移动数据，程序像数据移动，而不是数据向程序移动
可以平台移植。

3.4 优缺点

优点：大文件场景，数据流式访问，低成本部署机器

缺单：小文件场景，小文件多，都去存储到元数据；低延迟场景；频繁修改数据的场景

3.5 架构

3.5.1主从

主从架构 master /slave
一个HDFS集群是有一个NameNode 和一定数量的DataNode 组成
NameNode 是HDFS 的主节点，DataNode 是从节点

3.5.2分块

HDFS的文件是在物理上是分块的block；默认的大小事128M ；不足128M的就是一块；
块的大小是可以配置的，参数在hdfs-default.xml :dfs.blocksize

3.5.3 副本

所有的文件block都是会有副本,
副本是有参数来控制的的 dfs.replication 控制。默认时3. 就是数据会额外存储两份

3.5.4 元数据管理

文件自身的元数据，名称大小群贤副本数量数据块大小
文件块位置映射信息 ,表示一个文件在物理上存储在那块就是DataNode映射得到文件之间的信息；

3.5.5 namespace

层次型文件组织结构，用户可以创建，修改，重命名这些文件或者文件夹
NameNode 负责维护这些namespace 名称空间，所有的修改都会被NameNode记录
所有的文件都会被提供一个统一的抽象目录树，客户端通过这个路径来访问比如 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sRrqRgTb-1658124268451)(D:\Resource\note\大数据\hadoop\4.png)]

3.5.6 数据块存储

文件的block具体的存储是有DataNode节点来处理的
一个Block 是存储在多个DataNode 上面的

3.5.7 HDFS Shell

## 操作HDFS 文件 已经Deprecated  不推荐
hadoop dfs  ******

##推荐
## 操作本地文件系统（LInux 本地）
hadoop fs -ls file:///
## 操作HDFS 分布式文件系统
hadoop fs -ls hdfs://node1:8020/
## 没有指定协议 读取配置文件中 fs.defaultFS 属性
hadoop fs -ls /
### 查看帮助  和Linux 差不多 
hadoop fs -help

### 常用
## 创建 文件夹
 hadoop fs -mkdir -p /sff/sff/sff
### 遍历根目录及其子文件夹 -R 下级  
 hadoop fs -ls -h -R /

### 上传文件到HDFS  -f 是否覆盖   -p 保留权限和修改时间    localsrc 本地文件   dst hdfs的文件路径
hadoop fs -put [-f] [-p]  <localsrc> <dst>

### 下载文件到本地  -f 是否覆盖   -p 保留权限和修改时间    src hdfs 路径   localdst 文件路径 必须是目录
hadoop fs -put [-f] [-p]  <src> <localdst>

### 复制 hdfs   hdfs路径
hadoop fs -cp [-f]   <src> <dst>

### 移动 hdfs   hdfs路径
hadoop fs -mv <src> <dst>

### 本地文件追加到dst 文件 dst 文件不存在的就创建该文件  localsrc为- 的时候就是标准输入中读取
hadoop fs -appendToFile    <localsrc> <dst>

###查看文件  大文件不要瞎搞！！！！！！！！！！！！！！
hadoop fs -cat /user/hive/warehouse/hivedemo.db/xxxx/xxxxx.txt

3.6 角色解释

官方架构

3.6.1 主角色 NameNode

NameNode 是Hadoop的HDFS 的核心，架构中的主角色
NameNode维护个管理文件系统的元数据，包括目录树结构，文件，块的位置信息，访问权限等信息，不存储实际的数据
内部通过磁盘和内存两种方式来管理元数据
NameNode 是Hadoop集群的单点故障，
NameNode 机器会配置大量内存RAM
NameNode 不会持久化DataNode 的位置信息，这些信息会在启动系统是DataNode 注册过来

3.6.2 从角色 DataNode

DataNode 是Hadoop的HDFS 的从角色
DataNode 的数量决定了HDFS集群的整体数据的存储能力，通过DataNode 配合维护者数据块，该节点的磁盘配置比较大
DataNode 启动的时，会把自己注册到NameNode 并汇报自己负责的块列表
单DataNode 关闭时，不会影响数据的可用性，NameNode 会安排其他的DataNode 管理的块进行副本复制

3.6.2 主角色辅助角色SecondaryNameNode

SecondaryNameNode 是 NameNode 的辅助节点，无法替代NameNode
主要的职责是帮助主角色进行元数据的合并动作。

3.7 HDFS写数据

3.7.1 Pipeline

Pipeline 意为管道，是HDFS 在上传文件写数据过程中采用的一种数据传输方式，客户端把数据写入到一个DataNode1,DataNode1再把数据复制到DataNode2在复制到其他DataNode节点；

充分利用每个机器的宽带资源

3.7.2 Ack

Ack确认信号，接受方给发送方发送一种传输控制类的字符，表示发来的数据已经确认接受到所有数据；用来保证数据传输安全；

3.7.3 BlockPlacementPolicyDefault

副本策略 3 个

第一个副本：有限客户端本地，否则随机

第二个副本：不同于第一个的机架

第三个副本：第二个副本相同的机架不同机器

3.8 读取数据

DistributedFileSystem open() 表示读取文件
RPC调用namenode来确定文件中前几个块的块位置（分批次读取）信息
最近的DataNode 节点获取数据

4.MapReduce

4.1 MapReduce 思想

核心就是先分再合，分而治之
先拆分：复杂的问题先分解成小问题，然后逐步解决；再合并 ：最后把各部分的结果整合成最终结果
Map 就是拆分，把复杂的问题分解成小问题，多节点并行处理，节点之间没有相互依赖
Reduce 合并对Map 阶段数据汇总

编程模型

map: 对一组数据元素进行某种重复式的处理； (k1; v1) → (k2; v2)
reduce: 对Map的中间结果进行某种进一步的结果整理 (k2; [v2]) → (k3; v3)
MapReduce处理的数据类型是**键值对**
隐藏底层细节，比如数据存储，分发，容错，调度等，只需要编写MapReduce程序即可

4.2 分布式计算

区别于集中式计算，单节点的计算能力有限，如果是集中式计算，更加耗时
把任务分配给多节点计算之后，多节点并行计算，提高计算的效率

MapReduce 就是分布式计算框架：可以轻松编写分布式应用程序，容错的方式处理大量硬件集群和大量数据

4.3 MapReduce 优点

易于编程基于MapReduce的二次开发应用程序，实现提供的接口，程序交给计算框架运行；
扩展性好程序可以增加节点来增加计算能力，支持海量数据并行计算
高容错性单节点故障时，集群会把节点的任务转移
海量数据的离线处理 GB、TB和PB级别得数据量

4.3 MapReduce 缺点

实时计算性能差主要离线作业；无法作到秒级或者是亚秒级得数据响应
不能进行流式计算流式计算特点是数据是源源不断得计算，并且数据是动态的；MapReduce主要是针对静态数据集

4.4 MapReduce实例进程

MRAppMaster MapReduce 程序的过程调度及状态协调
MapTask Map阶段的整个数据处理流程
ReduceTask Reduce阶段的整个数据处理流程

一个MapReduce编程模型 **只能有一个个Map阶段和一个Reducee阶段，或者只有Map阶段；**业务复杂的话就是多个MapReduce 串行执行

4.5 Map执行流程

目录下的文件逻辑切片，默认Split size = Block size（128M），每个切片一个MapTask处理
对切片中的数据按照一定的规则读取解析返回对；默认是按行读取数据。 key :起始位置偏移量 value :行数据
Mapper 类的 map 方法处理数据，每读取解析出来的一个，调用一次map方法。
键值对进行分区partition。默认不分区
Map输出数据写入内存缓冲区，达到比例溢出到磁盘上
溢出文件进行最终的merge合并，成为一个文件

4.6 Reduce执行流程

ReduceTask会主动从MapTask复制拉取属于需要自己处理的数据
全部进行合并merge，即把分散的数据合并成一个大的数据，合并排序
排序后调用reduce方法，输出到HDFS文件中

4.7 shuffle概念

而在MapReduce中，指的是将map端的无规则输出按指定的规则转变成具有一定规则的数据，以便reduce端接收处理

Map --> shuffle —> shuffle —>Reduce

Map端Shuffle

Collect key 默认Hash分区后，在对该分区hash计算
Spill 分区到达阈值写入本地磁盘,写入前来一个排序操作
Merge 把所有溢出的临时文件进行一次合并操作，以确保一个MapTask最终只产生一个中间数据文件

Reduce端Shuffle

Copy ReduceTask启动Fetcher线程到已经完成MapTask的节点上复制一份属于自己的数据
Merge ReduceTask远程复制数据的同时，会在后台开启两个线程对内存到本地的数据文件进行合并操作
Sort 对数据进行合并的同时，会进行排序操作，由于MapTask阶段已经对数据进行了局部的排序，ReduceTask只需保证Copy的数据的最终整体有效性即可

shuffle机制弊端

MapReduce的核心
Shuffle比较慢，MapReduce相比较于Spark、Flink计算引擎慢的原因
Shuffle 频繁涉及到数据在内存、磁盘之间的多次交互

5.YARN

5.1 YARN简介

Apache Hadoop YARN （yet Another Resource Negotiator 一种资源协调者）是一种新的Hadoop资源管理器
YARN 是一个通用资源管理系统和调度平台，为上层应用提供统一的资源管理和调度，资源比如CPU ，内存，调度的算法规则
支持各种计算程序，不仅仅是MapReduce 程序，通用性较好

5.2 YARN架构

5.3 YARN角色

ResourceManager ,集群中的主角色，决定系统中所有程序的资源分配的最后仲裁，接受用户提交的作业请求，并通过NodeManager 去分配节点上的资源
NodeManager 一个机器上一个，负责管理本机上的计算资源，接受ResourceManager 的指令，启动Container 容器并向ResourceManager 主角色汇报当前情况
ApplicationMaster 用户提交的每个程序包含一个AM ，应用程序的老大，负责各个阶段的程序资源申请，监督程序执行

5.4 YARN作业提交流程

MapReduce 作业提交 Client–>ResourceManager
资源的申请 MrAppMaster–>ResourceManager
MR作业状态汇报 Container（Map|Reduce Task）–>Container（MrAppMaster）
节点的状态汇报 NodeManager–>ResourceManager

1.客户端向YARN中ResourceManager提交应用程序
2.ResourceManager为应用程序分配一个Container ，并与对应的NodeManager通信，要求在Container 启动 ApplicationMaster
3.ApplicationMaste r启动成功后，和ResourceManager 注册保持通信，用户可以通过ResourceManager 查看程序运行状态
4.ApplicationMaster 为本次程序内部的各个Task任务向ResourceManager 申请资源，并监控它的运行状态;
5.ApplicationMaster 申请到资源后，便与对应的 NodeManager 通信，要求它启动任务
6.NodeManager 为任务设置好运行环境后，将任务启动命令写到一个脚本中，并通过运行该脚本启动任务
7.Task通过协议向ApplicationMaster 汇报自己的状态和进度
8.应用程序运行完成后，ApplicationMaster 向 ResourceManager 注销并关闭自己。

5.5 Resource Scheduler

在YARN中，负责给应用分配资源的就是Scheduler，它是ResourceManager的核心组件之一。

有三种调度策略；如果需要使用其他的调度器，可以在yarn-site.xml中的yarn.resourcemanager.scheduler.class进行配置。

FIFO Scheduler 先进先出调度器、先提交的应用先运行不考虑优先级和范围；适用于负载较低的小规模集群，
- 优：无需配置、先到先得、易于执行；
- 劣：任务的优先级不会变高，因此高优先级的作业需要等待
Capacity Scheduler 容量调度器、是Apache Hadoop3.x默认调度策略；通过为每个组织分配专门的队列，然后再为每个队列分配一定的集群资源
- 优：层次化的队列设计，每个队列都不会占用整个集群的资源。每个队列有严格的访问控制，弹性分配
  er 注销并关闭自己。

5.5 Resource Scheduler

在YARN中，负责给应用分配资源的就是Scheduler，它是ResourceManager的核心组件之一。

有三种调度策略；如果需要使用其他的调度器，可以在yarn-site.xml中的yarn.resourcemanager.scheduler.class进行配置。

FIFO Scheduler 先进先出调度器、先提交的应用先运行不考虑优先级和范围；适用于负载较低的小规模集群，
- 优：无需配置、先到先得、易于执行；
- 劣：任务的优先级不会变高，因此高优先级的作业需要等待
Capacity Scheduler 容量调度器、是Apache Hadoop3.x默认调度策略；通过为每个组织分配专门的队列，然后再为每个队列分配一定的集群资源
- 优：层次化的队列设计，每个队列都不会占用整个集群的资源。每个队列有严格的访问控制，弹性分配
Fair Scheduler 公平调度；提供了YARN应用程序公平地共享大型集群中资源的另一种方式。所有的应用分配公平的资源，公平调度可以在多个队列间工作，允许资源共享和抢占。

养老院管理系统基于SpringBoot的养老院管理系统系统设计与实现（源码+论文+部署讲解等）
博主介绍：✌全网粉丝60W+,csdn特邀作者、Java领域优质创作者、csdn/掘金/哔哩哔哩/知乎/道客/小红书等平台优质作者，计算机毕设实战导师，目前专注于大学生项目实战开发,讲解,毕业答疑辅导，欢迎高校老师/同行前辈交流合作✌技术栈范围：SpringBoot、Vue、SSM、Jsp、HLMT、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习、单片机
大数据处理技术：分布式文件系统HDFS 茜茜西西CeCe hdfs hadoop 大数据 HDFS-JAVA接口文件头歌 Java
目录1实验名称：2实验目的3实验内容4实验原理5实验过程或源代码5.1HDFS的基本操作5.2HDFS-JAVA接口之读取文件5.3HDFS-JAVA接口之上传文件5.4HDFS-JAVA接口之删除文件6实验结果6.1HDFS的基本操作6.2HDFS-JAVA接口之读取文件6.3HDFS-JAVA接口之上传文件6.4HDFS-JAVA接口之删除文件1实验名称：分布式文件系统HDFS2实验目的1.理
Linux教程（4）----[hive数据仓库工具] .房东的猫 Linux教程（完善中~~）linux
Hive基本概念Hive简介什么是HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。为什么使用Hive直接使用hadoop所面临的问题人员学习成本太高
基于用户画像的商品推荐系统 Dush32 机器学习人工智能 python 推荐算法
随着人工智能和大数据技术的进步，产品推荐系统成为了现代广告与电商平台中不可或缺的部分。通过深度挖掘用户的行为数据，能够为广告主提供精准的用户画像，从而更高效地推荐相关产品，提升购买转化率。本项目基于科大讯飞AI营销云大赛的赛题，目的是利用用户画像进行产品推荐，预测用户是否会购买相应商品。我们使用了机器学习的二分类模型，通过分析用户的性别、年龄、常驻地、机型等信息，来判断用户的付费行为。项目目标：本
InfluxDB 数据模型：桶、测量、标签与字段详解（一）计算机毕设定制辅导-无忧 #InfluxDB db
一、引言**在大数据和物联网蓬勃发展的当下，时间序列数据的处理需求呈爆发式增长。InfluxDB作为一款高性能的开源时序数据库，凭借其卓越的特性，在时序数据库领域占据了重要地位，被广泛应用于各种场景。InfluxDB专为时间序列数据设计，拥有高效的存储和查询性能。它采用独特的存储引擎，能够快速写入大量带有时间戳的数据，并支持灵活的查询操作。其核心设计针对时间序列数据的特点进行了优化，包括时间索引、
Kafka 集群架构与高可用方案设计（一）计算机毕设定制辅导-无忧 #Kafka kafka 架构分布式
Kafka集群架构与高可用方案设计的重要性在大数据和分布式系统的广阔领域中，Kafka已然成为了一个中流砥柱般的存在。它最初由LinkedIn开发，后捐赠给Apache软件基金会并成为顶级项目，凭借其卓越的高吞吐量、可扩展性以及持久性，被广泛应用于日志收集、实时数据处理、流计算、数据集成等诸多关键领域。在日志收集场景下，以大型互联网公司为例，每天都会产生海量的日志数据，如用户的访问记录、系统操作日
大数据集成方案对比：Kafka vs Flume vs Sqoop AI天才研究院计算 AI大模型应用入门实战与进阶 Agentic AI 实战大数据 kafka flume ai
大数据集成方案对比：KafkavsFlumevsSqoop关键词：大数据集成、Kafka、Flume、Sqoop、流处理、批量迁移、日志收集摘要：在大数据生态中，数据集成是连接数据源与数据处理平台的关键环节。本文深度对比Kafka、Flume、Sqoop三大主流集成工具，从核心架构、技术原理、适用场景到实战案例展开系统性分析。通过数学模型量化性能差异，结合实际项目经验总结选型策略，帮助开发者根据业
【Hadoop】onekey_install脚本菜萝卜子 Linux hadoop 大数据分布式
hosts[root@kafka01hadoop-script]#cat/etc/hosts127.0.0.1localhostlocalhost.localdomainlocalhost4localhost4.localdomain4::1localhostlocalhost.localdomainlocalhost6localhost6.localdomain6192.168.100.150k
飞算科技：以创新科技引领数字化变革，旗下飞算 JavaAI 成开发利器飞算JavaAI开发助手科技
作为国家级高新技术企业，飞算科技专注于自主创新，在数字科技领域持续深耕，用前沿技术为各行业客户赋能，助力其实现数字化转型升级的飞跃。飞算科技凭借深厚的技术积累，将互联网科技、大数据、人工智能等技术与实际应用紧密融合。公司组建了一支由行业资深专家和技术精英构成的团队，他们在相关领域积累了多年实践经验，深刻理解不同行业客户在数字化进程中面临的痛点与挑战。基于这些洞察，飞算科技推出了一系列具有创新性和实
Java 大视界 -- Java 大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用青云交大数据新视界 Java 大视界 java 大数据机器学习情绪分析智能投资多源数据
Java大视界--Java大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用）引言：正文：一、金融情绪数据的立体化采集与治理1.1多模态数据采集架构1.2数据治理与特征工程二、Java机器学习模型的工程化实践2.1情感分析模型的深度优化2.2强化学习驱动的动态投资策略三、顶级机构实战：Java系统的金融炼金术四、技术前沿：Java与金融科技的未来融合4.1量子机器学习集成4.2联邦学习在合
Java 大视界 -- Java 大数据在影视内容推荐与用户兴趣挖掘中的深度实践（183）青云交大数据新视界 Java 大视界 Java+Python 双剑合璧：AI 大数据实战通关秘籍大数据影视内容推荐用户兴趣挖掘协同过滤基于内容推荐数据可视化个性化推荐系统
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！全网（微信公众号/CSDN/抖音/华为/支付宝/微博）：青云交一、欢迎加入【福利社群】点击快速加入1：青云交技术圈福利社群（NEW)点击快速加入2：2025CS
Java 大视界 -- 基于 Java 的大数据分布式文件系统在科研数据存储与共享中的应用优化（187）青云交大数据新视界 Java 大视界 Java+Python 双剑合璧：AI 大数据实战通关秘籍大数据大数据分布式文件系统科研数据存储科研数据共享应用优化 HDFS 数据分区
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！全网（微信公众号/CSDN/抖音/华为/支付宝/微博）：青云交一、欢迎加入【福利社群】点击快速加入1：青云交技术圈福利社群（NEW)点击快速加入2：CSDN博客
Python医疗大数据实战：基于Scrapy-Redis的医院评价数据分布式爬虫设计与实现 Python爬虫项目 python 开发语言爬虫 selenium scrapy
摘要本文将详细介绍如何使用Python构建一个高效的医院评价数据爬虫系统。我们将从爬虫基础讲起，逐步深入到分布式爬虫架构设计，使用Scrapy框架结合Redis实现分布式爬取，并采用最新的反反爬技术确保数据采集的稳定性。文章包含完整的代码实现、性能优化方案以及数据处理方法，帮助读者掌握医疗大数据采集的核心技术。关键词：Python爬虫、Scrapy-Redis、分布式爬虫、医疗大数据、反反爬技术1
flink-sql读写hive-1.13 第一片心意 flink flink sql hive
1.版本说明本文档内容基于flink-1.13.x，其他版本的整理，请查看本人博客的flink专栏其他文章。1.1.概述ApacheHive已经成为了数据仓库生态系统中的核心。它不仅仅是一个用于大数据分析和ETL场景的SQL引擎，同样也是一个数据管理平台，可用于发现，定义，和演化数据。Flink与Hive的集成包含两个层面。一是利用了Hive的MetaStore作为持久化的Catalog，用户可通
觉察与正念佳佳的宝瓶子
今天因为交电费的事与妈妈沟通。在沟通的过程中，年届八十的母亲一直给我强调着过去怎么怎么。父母家的电费一直是银行代扣的，这样的模式自从可以通过银行代扣便开始了。可见那时候的父母还是蛮新潮的，能接受新事物的。至从有了智能手机，人类便进入了大数据时代。通过微信或支付宝来交电费方便得多。可惜父亲不在了，老母亲是连手机都坚决不用的人。（因为想要掩饰自己的不能、不敢，所以干脆拒绝！不愿意做任何的改变）。今年，
Java大视界：Java大数据在智能医疗电子健康档案数据挖掘与健康服务创新＞ Loving_enjoy 计算机学科论文创新点人工智能深度学习迁移学习经验分享
>本文通过完整代码示例，揭秘如何用Java大数据技术挖掘电子健康档案价值，实现疾病预测、个性化健康管理等创新服务。###一、智能医疗时代的数据金矿电子健康档案（EHR）作为医疗数字化的核心载体，包含海量患者全生命周期健康数据。据统计，全球医疗数据量正以每年**48%的速度增长**，单个三甲医院年数据量可达**PB级**。这些数据蕴藏着疾病规律、治疗效能的宝贵知识，但传统技术难以有效挖掘。**Jav
无人值守人工智能智慧系统数据分析：深度洞察与未来展望呆码科技人工智能数据分析数据挖掘
无人值守人工智能智慧系统数据分析：深度洞察与未来展望随着科技的飞速发展，人工智能（AI）技术已逐渐渗透到社会经济的各个领域，其中无人值守人工智能智慧系统作为AI技术应用的前沿阵地，正引领着一场深刻的行业变革。这类系统通过集成高级算法、大数据分析、物联网（IoT）及云计算等先进技术，实现了对复杂环境的自主监控、智能决策与高效管理，极大地提升了运营效率，降低了人力成本，并开启了数据驱动决策的新纪元。本
浮漂式水质监测设备：智能守护水环境的未来之眼柏峰电子人工智能
浮漂式水质监测设备：智能守护水环境的未来之眼柏峰【BF-FBSZ】随着全球水资源短缺和水污染问题日益严峻，水质监测技术正迎来前所未有的发展机遇。作为这一领域的创新突破，浮漂式水质监测设备凭借其实时性、智能化和网络化优势，正在重塑水资源管理的新格局。本文将深入探讨这一技术的原理、特点、应用场景及未来发展趋势。一、技术原理与系统架构浮漂式水质监测设备是一种集成了现代传感器技术、物联网和大数据分析的智能
基于蜣螂算法优化多头注意力机制的卷积神经网络结合双向长短记忆神经网络实现温度预测DBO-CNN-biLSTM-Multihead-Attention附matlab代码 matlab科研助手神经网络算法 cnn
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。个人主页：Matlab科研工作室个人信条：格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理图像处理路径规划元胞自动机无人机物理应用机器学习内容介绍温度预测在气象学、农业、能源等领域具有重要的应用价值。随着大数据和人工智能技术的快速发
基于Socket来构建无界数据流并通过Flink框架进行处理每天五分钟玩转人工智能 Flink技术实战 flink 大数据 Flink 分布式无界数据
本文重点随着大数据技术的不断发展，实时数据流处理已成为企业应对海量数据、实现快速决策的关键技术。ApacheFlink是一个开源的流处理框架，它能够对无界数据流进行高效的、精确的处理。本文将介绍如何通过Socket构建无界数据流，并利用Flink框架进行无界流处理。基于Socket构建无界数据无界数据指的是源源不断产生的数据，这些数据通常来自各种实时数据源，如用户行为日志、传感器数据等。Socke
sgg大数据全套技术链接[plus] 原来是大华啊~ 资源大数据
写在开头：感谢尚硅谷，尚硅谷万岁，我爱尚硅谷111个技术栈+43个项目，兄弟们，冲！最近小米又又又火了一把，致敬所有造福人民的企业和伟大的企业家，致敬雷军，小米，致敬马云，致敬尚硅谷，致敬所有为人民谋福的英雄人物和企业，再次献上我诚挚的敬意，致敬！尚硅谷大数据全套111个技术1.Java从入门到精通JDK版链接：https://pan.baidu.com/s/1GAc610SYSMmZBuOX4D
疫情下，我的健康码首次变成了黄码唯我一心
3月中旬，老公在广州白云区接了一单生意，要很久才回来，就在那里租了一间房，带我和孩子一起住。房子在七楼，步梯，因孩子小，自己就很少下楼，都是他买菜回来，4月8号，订单完成，返程回了佛山。过了两天突然接到短信通知，白云区要大规模核酸筛查，又过一天收到短信:通过大数据分析，您近期行程涉及疫情防控重点区域，您的健康码将被赋予2次黄码并需开展2次核酸检测，请注意健康码状态，尽快凭码到附近黄码核酸检测点进行
到底应该怎么抓语文成绩山东董纯
上学期期末考试，全区统一采用网上阅卷的形式。在这个大数据时代，在这个极为透明的数据时代，一旦采用这样网络统一阅卷的形式。那丑媳妇就要真的见公婆了。再这样一个要生源没生源。要学习积极性没有学习积极性的氛围里。想取得好的成绩是真的难上加难。尽管已经预料到跟其他兄弟学校有一定的差距。但是没有想到差距如此之大。领导们坐不住了，反复约谈备课组长。理由是其他科目差距不大，甚至有优势。为什么语文学科会有如此大的
告别内存焦虑！用Dask打开Python大数据并行计算的“任意门“ 小张在编程 python 大数据开发语言
引言当你在Jupyter里用Pandas读取20GB的CSV文件，看到内存占用率从10%飙升到90%，最后弹出"MemoryError"时；当你想对亿级数据做分组聚合，却发现单线程计算要等上半小时——这些场景是不是像极了用小推车搬运万吨货物？Python生态中，Dask库就像一台"并行计算推土机"，能把大数据拆分成小块并行处理，让你的普通电脑也能拥有分布式计算的能力。本文将从原理到实战，带你掌握这
python大数据论文_大数据环境下基于python的网络爬虫技术 weixin_39775976 python大数据论文
软件开发大数据环境下基于python的网络爬虫技术作者/谢克武，重庆工商大学派斯学院软件工程学院摘要：随着互联网的发展壮大，网络数据呈爆炸式增长，传统捜索引擎已经不能满足人们对所需求数据的获取的需求，作为搜索引擎的抓取数据的重要组成部分，网络爬虫的作用十分重要，本文首先介绍了在大数据环境下网络爬虫的重要性，接着介绍了网络爬虫的概念，工作原理，工作流程，网页爬行策略，python在编写爬虫领域的优势
Redis性能测试：工具、参数与实战示例 Seal^_^ 数据库专栏 #数据库--Redis redis 数据库 Redis性能测试
Redis性能测试：工具、参数与实战示例1.Redis性能测试概述2.redis-benchmark基础使用2.1基本语法2.2简单示例3.性能测试参数详解4.实战测试示例4.1基础测试4.2指定命令测试4.3带随机key的测试4.4大数据测试4.5管道测试5.性能测试流程图6.测试结果分析与优化建议6.1结果解读6.2优化建议7.高级测试场景7.1持久化影响测试7.2集群测试7.3长时间稳定性测
2025年各细分产业链企业数据(汽车、数字经济、食品、制造业) 经管数据库汽车智能手机数据分析
本数据包含2025年及之前的所有上中下游企业信息，67个细分产业。汽车专区、数字经济专区、数字创意专区、未来产业专区、高端装备专区、新能源专区、食品农业专区、传统制造业专区等71个文件。汽车专区：充电桩制造动力电池汽车材料制造汽车制造汽车制造设备汽车座椅制造驱动电机制造燃料电池汽车制造燃料电池系统制造新能源汽车制造智能驾驶智能视觉数字经济专区：5g边缘计算大数据类服务器光通信集成电路区块链人工智能
C#语法基础总结（超级全面）（二） inwith C#语法基础 c#开发语言
文章目录c#语法基本元素关键字操作符（operator）类型转换标识符（Identifier）语句try语句迭代语句（循环语句）索引器文本（字面值）五大数据类型引用类型：值类型：变量、对象与内存装箱和拆箱类类的实例化类的三大成员（属性、方法、事件）属性（property）方法（函数）方法参数值参数引用参数输出参数数组参数具名参数可选参数扩展方法（this参数）方法的重载构造器（constructo
SQL 常用版本语法概览：标准演进与关键语法分析
一、引言SQL（StructuredQueryLanguage，结构化查询语言）是关系型数据库系统的核心语言，自1986年成为ANSI和ISO标准以来，经历了多次版本演进，不断增强语义表达能力以适应复杂的企业数据需求。随着数据库技术的不断发展，各大数据库厂商（如Oracle、SQLServer、PostgreSQL、MySQL等）在实现标准的基础上扩展了大量方言语法，使得掌握SQL的标准语法版本成
主流数据库语言语法对比两圆相切数据库
以下是五大数据库（MySQL、PostgreSQL、Oracle、SQLServer、SQLite）核心语法对比，涵盖DDL、DML、查询、函数、事务等全场景，包含底层原理差异和实用示例。##一、数据一、类型深度对比分类MySQLPostgreSQLOracleSQLServerSQLite整数TINYINT,INT,BIGINTSMALLINT,INT,BIGINTNUMBER(10)TIN
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p

Hadoop (一) Hadoop学习

Hadoop (一) Hadoop学习

1.Hadoop 简介

1.1 单独的 Hadoop软件

1.2 Hadoop 生态

1.3 起源

1.4 发展

1.5 优点

1.6 版本

2.Hadoop 集群

2.1 集群角色

2.2 集群安装

2.3 Hadoop 安装目录结构

3.HDFS

3.1 分布式存储系统简介

3.2 HDFS 简介

3.3HDFS 历史

3.4 优缺点

3.5 架构

3.5.1主从

3.5.2分块

3.5.3 副本

3.5.4 元数据管理

3.5.5 namespace

3.5.6 数据块存储

3.5.7 HDFS Shell

3.6 角色解释

3.6.1 主角色 NameNode

3.6.2 从角色 DataNode

3.6.2 主角色辅助角色SecondaryNameNode

3.7 HDFS写数据

3.7.1 Pipeline

3.7.2 Ack

3.8 读取数据

4.MapReduce

4.1 MapReduce 思想

4.2 分布式计算

4.3 MapReduce 优点

4.3 MapReduce 缺点

4.4 MapReduce实例进程

4.5 Map执行流程

4.6 Reduce执行流程

4.7 shuffle概念

5.YARN

5.1 YARN简介

5.2 YARN架构

5.3 YARN角色

5.4 YARN作业提交流程

5.5 Resource Scheduler

5.5 Resource Scheduler

你可能感兴趣的:(大数据之路,hadoop,mapreduce,大数据)