软泡芙

【大数据】Hadoop

文章目录

- 概述
- Hadoop组成
- HDFS
- MapReduce
- - 写MapReduce程序（Hadoop streaming）
- YARN
- - Hadoop 启动
- 工作方式
- - Hadoop的主从工作方式
  - Hadoop的守护进程
- 运行模式
- - 本地运行模式
  - 伪分布式运行模式
  - 完全分布式运行模式
- Hadoop高可用的解决方案
- - ZooKeeper quorum
  - ZKFC
- 环境搭建
- - 虚拟机环境准备
  - 安装 jdk
  - 安装 Hadoop
- FIFO 调度器
- 容量调度器（Capacity Scheduler）
- 公平调度器（Fair Scheduler）
- 分布式缓存
- - 分布式缓存优点
  - 分布式缓存的使用
  - 分布式缓存的大小
- 命令
- - 常规选项
- 从本地模式到分布式集群计算
- 来源

概述

Hadoop 是一个开源的分布式计算和存储框架，由 Apache 基金会开发和维护。

Hadoop 为庞大的计算机集群提供可靠的、可伸缩的应用层计算和存储支持，它允许使用简单的编程模型跨计算机群集分布式处理大型数据集，并且支持在单台计算机到几千台计算机之间进行扩展。

Hadoop 使用 Java 开发，所以可以在多种不同硬件平台的计算机上部署和使用。其核心部件包括分布式文件系统 (Hadoop DFS，HDFS) 和 MapReduce。

大数据生态体系：

Hadoop组成

以上的各个组件都是属于Hadoop的生态系统的，如果想入门大数据，都是需要学习，它们分别是：

Hadoop HDFS（核心）：Hadoop 分布式存储系统；
Yarn（核心）：Hadoop 2.x版本开始才有的资源管理系统；
MapReduce（核心）：并行处理框架；
HBase：基于HDFS的列式存储数据库，它是一种 NoSQL 数据库，非常适用于存储海量的稀疏的数据集；
Hive：Apache Hive是一个数据仓库基础工具，它适用于处理结构化数据。它提供了简单的 sql 查询功能，可以将sql语句转换为MapReduce任务进行运行；
Pig：它是一种高级脚本语言。利用它不需要开发Java代码就可以写出复杂的数据处理程序；
Flume：它可以从不同数据源高效实时的收集海量日志数据；
Sqoop：适用于在 Hadoop 和关系数据库之间抽取数据；
Oozie：这是一种 Java Web 系统，用于Hadoop任务的调度，例如设置任务的执行时间和执行频率等；
Zookeeper：用于管理配置信息，命名空间。提供分布式同步和组服务；
Mahout：可扩展的机器学习算法库。

HDFS

HDFS ：即 Hadoop 分布式文件系统（Hadoop Distribute File System），以分布式存储的方式存储数据。

HDFS 也是一种 Master-slave 架构，NameNode 是运行 master 节点的进程，它负责命名空间管理和文件访问控制。DataNode 是运行在 slave 节点的进程，它负责存储实际的业务数据，如下图：

Namenode:

即master，有以下功能

*管理文件系统命名空间；

*控制client对数据的读取和写入请求；

*管理数据块到datanode的映射关系；

*管理副本策略。

Datanode:

即slave，主要是存储文件块数据，接受来自namenode的指令，并执行指令对数据块的创建，删除，复制等操作。

Client:

即客户端，有以下功能：

*对文件的切分，HDFS上传数据时，client将文件切分成多个block再进行上传；

*与namenode交互，获取文件的索引信息；

*与datanode交互，对数据的读取和写入；

*在客户端中提供相关HDFS的命令，比如对HDFS的管理，格式化namenode，对HDFS对数据操作，比如上传文件到HDFS等。

Secondary namenode:

并非namenode的热备，当namenode挂掉的时候，并不能立马替换namenode并提供服务，只是在定时的对namenode进行备份，存在一定的时间误差，secondary会备份namenode的Fsimage和Edits，在紧急情况下，可以适用secondarynamenode来恢复部分的namenode。

关于大数据学习，Hadoop HDFS存储入门，以上就为大家做了简单的介绍了。在Hadoop大数据框架当中，HDFS作为分布式文件系统，始终是重要的核心组件，学习当中也自然需要深入理解掌握。

MapReduce

Hadoop MapReduce 是一种编程模型，它是 Hadoop 最重要的组件之一。它用于计算海量数据，并把计算任务分割成许多在集群并行计算的独立运行的 task。

MapReduce 是 Hadoop的核心，它会把计算任务移动到离数据最近的地方进行执行，因为移动大量数据是非常耗费资源的。

MapReduce运行过程，通常涉及到input、split、map、shuffle、reduce、output几个阶段，其中shuffle过程包括sort、copy、combine操作，reduce之前有时涉及二次排序。

MapReduce编程，主要有三种方式：

1、Hadoop streaming执行mapreduce

2、Hive执行mapreduce

3、Java MR编程

①Hadoop streaming执行MapReduce

优点：

可以用大多数语言开发；

代码量少，开发速度快；

方便本地调试。

不足：

只能通过参数控制MR框架，控制性较弱，比如定制partitioner、combiner；

支持的数据类型和数据结构有限，不适合做复杂处理，处理字符型较多；

②Hive执行MapReduce

将类SQL转换成MapReduce，定位于数据仓库。

优点：

开发速度快，易调试，易理解；

易于构建数据仓库模型；

内置函数功能齐全，比如rownumber等窗口函数；

可扩展性好，比如自定义存储格式、自定义函数UDF；

多接口，比如JDBC、Thrift、Rest等。

缺点：

不能用于复杂计算，比如涉及时序处理的数据；

可控制性较弱，比如partition、关联等操作。

③Java MR编程

用Java编写MR，可以说是最“原始”的一种方式，Java面向对象编程，设计模式成熟，通用性好，并且Java方面第三方类库非常丰富。

优点：

定制性强，比如定制partitioner、定制combiner等；

数据类型和数据结构丰富，队列、堆栈、自定义类等使用方便；

控制性非常高，包括MR运行过程的一些控制，Map端join等；

可以方便使用Hadoop组件类库中的类或工具，比如HDFS文件操作类等。

缺点：

相比Hive、Hadoop streaming或Pyspark，开发代码量较大，对开发环境要求高且不易调试；

通常每个操作都要写一个MR类；

不如Spark执行效率高。

写MapReduce程序（Hadoop streaming）

Hadoop Streaming使用Unix标准流作为Hadoop和应用程序之间的接口，允许程序员用多种语言写MapReduce程序。
Streaming天生适合于文本处理。map的输入数据通过标准输入传递给map函数，并且是一行一行地传输，并且将结果行写到标准输出。map输出的键-值对是以一个制表符分隔的行，reduce输入格式与之相同。reduce函数从标准输入流中读取输入行，该输入已经由Hadoop框架根据键排过序，最后将结果写入标准输出。
接下里我们用Streaming重写按年份查找最高气温的MapReduce程序。

Map函数

import re
import sys

for line in sys.stdin:
    val = line.strip()
    (year,temp,q) = (val[15:19],val[87:92],val[92:93])
    if (temp != "+9999" and re.match("[01459]",q)
        print ("%s\t%s" % (year,temp))

Reduce函数



import sys 
(last_key,max_val) = (None,-sys.maxint) 
for line in sys.stdin: 
    (key,val) = line.strip().split("\t") 
    if last_key and last_key != key: 
        print ("%s\t%s" % (last_key,max_val))
        (last_key,max_val) = (key,int(val)) 
    else: 
        (last_key,max_val = (key,max(max_val,int(val))) 
if last_key: 
    print("%s\t%s" % (last_key,max_val))

YARN

Yarn ：是一个资源管理系统，其作用就是把资源管理和任务调度/监控功分割成不同的进程，Yarn 有一个全局的资源管理器叫 ResourceManager，每个 application 都有一个 ApplicationMaster 进程。一个 application 可能是一个单独的 job 或者是 job 的 DAG （有向无环图）。

Yarn 具有下面这些特性：

多租户：Yarn允许在同样的 Hadoop数据集使用多种访问引擎。这些访问引擎可能是批处理，实时处理，迭代处理等；
集群利用率：在资源自动分配的情况下，跟早期的Hadoop 版本相比，Yarn拥有更高的集群利用率；
可扩展性：Yarn可以根据实际需求扩展到几千个节点，多个独立的集群可以联结成一个更大的集群；

在 Yarn 内部有两个守护进程：

ResourceManager ：负责给 application 分配资源
NodeManager ：负责监控容器使用资源情况，并把资源使用情况报告给
ResourceManager。这里所说的资源一般是指CPU、内存、磁盘、网络等。

ApplicationMaster 负责从 ResourceManager 申请资源，并与 NodeManager 一起对任务做持续监控工作。

Container

容器（Container）这个东西是 Yarn 对资源做的一层抽象。就像我们平时开发过程中，经常需要对底层一些东西进行封装，只提供给上层一个调用接口一样，Yarn 对资源的管理也是用到了这种思想。

如上所示，Yarn 将CPU核数，内存这些计算资源都封装成为一个个的容器（Container）。需要注意两点：

容器由 NodeManager 启动和管理，并被它所监控。
容器被 ResourceManager 进行调度。

ResourceManager（RM)

从名字上我们就能知道这个组件是负责资源管理的，整个系统有且只有一个 RM ，来负责资源的调度。它也包含了两个主要的组件：定时调用器(Scheduler)以及应用管理器(ApplicationManager)。

定时调度器(Scheduler)：从本质上来说，定时调度器就是一种策略，或者说一种算法。当 Client
提交一个任务的时候，它会根据所需要的资源以及当前集群的资源状况进行分配。注意，它只负责向应用程序分配资源，并不做监控以及应用程序的状态跟踪。
应用管理器(ApplicationManager)：应用管理器就是负责管理 Client
用户提交的应用。定时调度器（Scheduler）不对用户提交的程序监控，监控应用的工作正是由应用管理器（ApplicationManager）完成的。

ApplicationMaster
每当 Client 提交一个 Application 时候，就会新建一个 ApplicationMaster 。由这个 ApplicationMaster 去与 ResourceManager 申请容器资源，获得资源后会将要运行的程序发送到容器上启动，然后进行分布式计算。

为什么是把运行程序发送到容器上去运行？如果以传统的思路来看，是程序运行着不动，然后数据进进出出不停流转。但当数据量大的时候就没法这么玩了，因为海量数据移动成本太大，时间太长。大数据分布式计算就是这种思想，既然大数据难以移动，那我就把容易移动的应用程序发布到各个节点进行计算呗，这就是大数据分布式计算的思路。

NodeManager
NodeManager 是 ResourceManager 在每台机器的上代理，负责容器的管理，并监控他们的资源使用情况（cpu，内存，磁盘及网络等），以及向 ResourceManager/Scheduler 提供这些资源使用报告。

这张图简单地标明了提交一个程序所经历的流程，接下来我们来具体说说每一步的过程。

Client 向 Yarn 提交 Application，这里我们假设是一个 MapReduce 作业。
ResourceManager 向 NodeManager 通信，为该 Application分配第一个容器。并在这个容器中运行这个应用程序对应的 ApplicationMaster。
ApplicationMaster 启动以后，对作业（也就是 Application）进行拆分，拆分 task 出来，这些 task可以运行在一个或多个容器中。然后向 ResourceManager 申请要运行程序的容器，并定时向 ResourceManager发送心跳。
申请到容器后，ApplicationMaster 会去和容器对应的 NodeManager 通信，而后将作业分发到对应的NodeManager 中的容器去运行，这里会将拆分后的 MapReduce 进行分发，对应容器中运行的可能是 Map 任务，也可能是Reduce 任务。
容器中运行的任务会向 ApplicationMaster 发送心跳，汇报自身情况。当程序运行完成后， ApplicationMaster再向 ResourceManager 注销并释放容器资源。

Hadoop 启动

格式化namenode

hadoop namenode -format

启动hdfs

start-all.sh

查看相应进程

jps

浏览器访问

localhost:9870

工作方式

Hadoop的主从工作方式

Hadoop 以主从的方式工作（如下图）：

Hadoop的守护进程

Hadoop 主要有4个守护进程:

NameNode ：它是HDFS运行在Master节点守护进程。
DataNode：它是 HDFS 运行在Slave节点守护进程。
ResourceManager：它是 Yarn 运行在 Master 节点守护进程。
NodeManager：它是 Yarn 运行在 Slave 节点的守护进程。

除了这些，可能还会有 secondary NameNode，standby NameNode，Job HistoryServer 等进程。

运行模式

Hadoop 的运行模式包括：本地模式、伪分布式模式、完全分布式模式。

本地运行模式

官方 Grep 案例

在 hadoop-2.7.7 文件下面创建一个 input 文件夹

mkdir input

将 Hadoop 的 xml 配置文件复制到 input

cp etc/hadoop/*.xml input

在 hadoop-2.7.7 目录下，执行 share 目录下的 MapReduce 程序

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar grep input/ output 'dfs[a-z.]+'

查看输出结果

官方 WordCount 案例
在 hadoop-2.7.7 文件下面创建一个 wcinput 文件夹

mkdir wcinput

在 wcinput 文件下创建一个 wc.input 文件
vim wc.input

在文件中输入以下内容：

hadoop yarn
hadoop mapreduce
spark
spark

在 hadoop-2.7.7 目录下，执行 share 目录下的 MapReduce 程序

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount wcinput/ wcoutput

查看结果

伪分布式运行模式

启动 HDFS 并运行 MapReduce 程序
配置集群，修改 Hadoop 的配置文件（/hadoop/hadoop-2.7.7/etc/hadoop 目录下）

① core-site.xml

<configuration>
  
  <property>
    <name>fs.defaultFSname>
    <value>hdfs://lyh:9000value>
  property>

  
  <property>
    <name>hadoop.tmp.dirname>
    <value>/hadoop/hadoop-2.7.7/data/tmpvalue>
  property>
configuration>

② hadoop-env.sh

修改 JAVA_HOME 路径：

# The java implementation to use.
export JAVA_HOME=/usr/local/java/jdk1.8.0_151

③ hdfs-site.xml

<configuration>
  
  <property>
    <name>dfs.replicationname>
    <value>1value>
  property>
configuration>

启动集群

① 格式化 NameNode（第一次启动时格式化，以后就不要总格式化）

hdfs namenode -format

② 启动 NameNode

hadoop-daemon.sh start namenode

③ 启动 DataNode

hadoop-daemon.sh start datanode

查看集群
① 查看是否启动成功

② web 端查看 HDFS 文件系统
http://192.168.217.129:50070

操作集群

① 在 HDFS 文件系统上创建一个 input 文件夹

hdfs dfs -mkdir -p /user/lyh/input

② 将测试文件内容上传到文件系统上

hdfs dfs -put wcinput/wc.input /user/lyh/input/

③ 在 hadoop-2.7.7 目录下，运行 MapReduce 程序

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount /user/lyh/input/ /user/lyh/output

④ 查看输出结果

命令行查看：

hdfs dfs -cat /user/atguigu/output/*

浏览器页面查看：

启动 YARN 并运行 MapReduce 程序
配置集群，修改 Hadoop 的配置文件（/hadoop/hadoop-2.7.7/etc/hadoop 目录下）

① yarn-site.xml

<configuration>
  
  <property>
    <name>yarn.nodemanager.aux-servicesname>
    <value>mapreduce_shufflevalue>
  property>

  
  <property>
    <name>yarn.resourcemanager.hostnamename>
    <value>lyhvalue>
  property>
configuration>

② yarn-env.sh

修改 JAVA_HOME 路径：

export JAVA_HOME=/usr/local/java/jdk1.8.0_151

③ mapred-env.sh

修改 JAVA_HOME 路径：

export JAVA_HOME=/usr/local/java/jdk1.8.0_151

④ 将 mapred-site.xml.template 重新命名为 mapred-site.xml

mv mapred-site.xml.template mapred-site.xml

<configuration>
  
  <property>
    <name>mapreduce.framework.namename>
    <value>yarnvalue>
  property>
configuration>

启动集群
① 启动前必须保证 NameNode 和 DataNode 已经启动
② 启动 ResourceManager

yarn-daemon.sh start resourcemanager

③ 启动NodeManager

yarn-daemon.sh start nodemanager

查看集群
① 查看是否启动成功

② web 端查看 YARN 页面
http://192.168.217.129:8088

操作集群

① 删除 HDFS 文件系统上的 output 文件

hdfs dfs -rm -R /user/lyh/output

② 在 hadoop-2.7.7 目录下，运行 MapReduce 程序

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount /user/lyh/input  /user/lyh/output

③ 查看运行结果

命令行查看：

hdfs dfs -cat /user/lyh/output/*

浏览器页面查看：

配置历史服务器
为了查看程序的历史运行情况，需要配置一下历史服务器。
配置 mapred-site.xml
在该文件里面增加以下配置：

  
  <property>
    <name>mapreduce.jobhistory.addressname>
    <value>lyh:10020value>
  property>

  
  <property>
     <name>mapreduce.jobhistory.webapp.addressname>
     <value>lyh:19888value>
  property>

启动历史服务器

mr-jobhistory-daemon.sh start historyserver

查看历史服务器是否启动

查看 JobHistory
http://192.168.217.129:19888/

配置日志的聚集

日志聚集概念：应用运行完成以后，将程序运行日志信息上传到 HDFS 系统上。

日志聚集功能好处：可以方便的查看到程序运行详情，方便开发调试。

注意：开启日志聚集功能，需要重新启动 NodeManager 、ResourceManager 和 HistoryManager。

关闭 NodeManager 、ResourceManager 和 HistoryManager

yarn-daemon.sh stop resourcemanager

yarn-daemon.sh stop nodemanager

mr-jobhistory-daemon.sh stop historyserver

配置 yarn-site.xml
在该文件里面增加以下配置：

  
  <property>
    <name>yarn.log-aggregation-enablename>
    <value>truevalue>
  property>

  
  <property>
    <name>yarn.log-aggregation.retain-secondsname>
  <value>604800value>
  property>

启动 NodeManager 、ResourceManager 和 HistoryManager

yarn-daemon.sh start resourcemanager

yarn-daemon.sh start nodemanager

mr-jobhistory-daemon.sh start historyserver

删除HDFS上已经存在的输出文件

hdfs dfs -rm -R /user/lyh/output

在 hadoop-2.7.7 目录下，执行 WordCount 程序

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount /user/lyh/input /user/lyh/output

查看日志

完全分布式运行模式

虚拟机准备

主机名称	IP地址
master	192.168.217.130
slave1	192.168.217.131
slave2	192.168.217.132

每台机器分别修改 /etc/hosts 文件，将每个机器的 hostname 和 ip 对应

vim /etc/hosts

192.168.217.130 master
192.168.217.131 slave1
192.168.217.132 slave2

编写集群分发脚本 xsync

scp（secure copy）安全拷贝
① scp 定义：
scp 可以实现服务器与服务器之间的数据拷贝。
② 基本语法：

scp -r 要拷贝的文件路径/名称  目的用户@主机:目的路径/名称

rsync（remote synchronize）远程同步工具

① rsync 定义：
rsync 主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
rsync 和 scp 区别：用 rsync 做文件的复制要比 scp 的速度快，rsync 只对差异文件做更新。scp 是把所有文件都复制过去。
② 基本语法：

rsync -rvl 要拷贝的文件路径/名称  目的用户@主机:目的路径/名称

说明：-v：显示复制过程、-l：拷贝符号链接

xsync 集群分发脚本
需求：循环复制文件到所有节点的相同目录下
① 在 /usr/local/bin 目录下创建 xsync 文件

vim xsync

在文件中输入以下内容：

#!/bin/bash
#1 获取输入参数个数，如果没有参数，直接退出
pcount=$#
if((pcount==0)); then
echo no args;
exit;
fi

#2 获取文件名称
p1=$1
fname=`basename $p1`
echo fname=$fname

#3 获取上级目录到绝对路径
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir

#4 获取当前用户名称
user=`whoami`

#5 循环
for i in master slave1 slave2
  do
    echo "****************** $i *********************"
    rsync -rvl $pdir/$fname $user@$i:$pdir
  done

② 修改脚本 xsync 具有执行权限

chmod 777 xsync

③ 调用脚本形式：xsync 文件名称

集群配置
集群部署规划

	master	slave1	slave2
HDFS	NameNode DataNode	DataNode	SecondaryNameNodeDataNode
YARN	NodeManager	ResourceManagerNodeManager	NodeManager

配置集群
⑴ 配置核心文件
配置 core-site.xml

<configuration>
  
  <property>
    <name>fs.defaultFSname>
    <value>hdfs://master:9000value>
  property>

  
  <property>
    <name>hadoop.tmp.dirname>
    <value>/hadoop/hadoop-2.7.7/data/tmpvalue>
  property>
configuration>

⑵ HDFS 配置文件

① 配置 hadoop-env.sh

修改 JAVA_HOME 路径：

# The java implementation to use.
export JAVA_HOME=/usr/local/java/jdk1.8.0_151

② 配置 hdfs-site.xml

<configuration>
  
  <property>
    <name>dfs.replicationname>
    <value>3value>
  property>
  
  
  <property>
    <name>dfs.namenode.secondary.http-addressname>
    <value>slave2:50090value>
  property>
configuration>

⑶ YARN 配置文件

① 配置 yarn-env.sh

修改 JAVA_HOME 路径：

export JAVA_HOME=/usr/local/java/jdk1.8.0_151

② 配置 yarn-site.xml

<configuration>
  
  <property>
    <name>yarn.nodemanager.aux-servicesname>
    <value>mapreduce_shufflevalue>
  property>

  
  <property>
    <name>yarn.resourcemanager.hostnamename>
    <value>slave1value>
  property>

  
  <property>
    <name>yarn.log-aggregation-enablename>
    <value>truevalue>
  property>

  
  <property>
    <name>yarn.log-aggregation.retain-secondsname>
  <value>604800value>
  property>
configuration>

⑷ MapReduce 配置文件

① 配置 mapred-env.sh

修改 JAVA_HOME 路径：

export JAVA_HOME=/usr/local/java/jdk1.8.0_151

② 配置 mapred-site.xml

<configuration>
  
  <property>
    <name>mapreduce.framework.namename>
    <value>yarnvalue>
  property>

  
  <property>
    <name>mapreduce.jobhistory.addressname>
    <value>master:10020value>
  property>

  
  <property>
     <name>mapreduce.jobhistory.webapp.addressname>
     <value>master:19888value>
  property>
configuration>

在集群上分发配置好的 Hadoop 目录

xsync /hadoop/

集群单点启动

如果集群是第一次启动，需要格式化 NameNode

hadoop namenode -format

在 master上启动 NameNode

hadoop-daemon.sh start namenode

在 master、slave1 和 slave2 上分别启动 DataNode

hadoop-daemon.sh start datanode

配置 SSH 无密登录

免密登录原理

生成公钥和私钥
在 /root 目录下输入：

ssh-keygen -t rsa

然后敲（三个回车），就会在 .ssh 目录下生成两个文件 id_rsa（私钥）、id_rsa.pub（公钥）

将公钥拷贝到要免密登录的目标机器上

ssh-copy-id master

ssh-copy-id slave1

ssh-copy-id slave2

在另两台机器上也做 2、3 操作

群起集群

配置 slaves（/hadoop/hadoop-2.7.7/etc/hadoop/slaves）
① 在该文件中增加如下内容：

master
slave1
slave2

注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行。

② 同步所有节点配置文件

xsync slaves

启动集群
① 如果集群是第一次启动，需要格式化 NameNode （注意格式化之前，一定要先停止上次启动的所有 namenode 和 datanode 进程，然后再删除 data 和 log 数据）

hdfs namenode -format

② 启动 HDFS

start-dfs.sh

③ 启动 YARN（slave1 上）

注意：NameNode 和 ResourceManger 如果不是同一台机器，不能在 NameNode 上启动 YARN，应该在 ResouceManager 所在的机器上启动 YARN。

start-yarn.sh

编写查看集群所有节点 jps 脚本 alljps
① 在 /usr/local/bin 目录下创建文件 alljps

vim alljps

在文件中输入以下内容：

#!/bin/bash

for i in master slave1 slave2
  do
    echo "****************** $i *********************"
    ssh $i "source /etc/profile && jps"
  done

② 修改脚本 alljps 具有执行权限

chmod 777 alljps

③ 调用脚本形式：alljps

集群时间同步

时间同步的方式：找一个机器，作为时间服务器，所有的机器与这台集群时间进行定时的同步，比如，每隔十分钟，同步一次时间。

时间服务器配置（必须 root 用户）
① 安装 ntp

yum install ntp

② 修改 ntp 配置文件

vim /etc/ntp.conf

修改内容如下：

⑴ 授权 192.168.1.0-192.168.1.255 网段上的所有机器可以从这台机器上查询和同步时间

#restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap
restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap

⑵ 集群在局域网中，不使用其他互联网上的时间

#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst

⑶ 当该节点丢失网络连接，依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步

server 127.127.1.0
fudge 127.127.1.0 stratum 10

③ 修改/etc/sysconfig/ntpd 文件

vim /etc/sysconfig/ntpd

添加内容如下（让硬件时间与系统时间一起同步）

SYNC_HWCLOCK=yes

④ 重新启动 ntpd 服务

systemctl restart ntpd.service

⑤ 设置 ntpd 服务开机启动

systemctl enable ntpd.service

其他机器配置（必须root用户）
在其他机器配置10分钟与时间服务器同步一次

crontab -e

编写定时任务如下：

*/10 * * * * /usr/sbin/ntpdate master

Hadoop高可用的解决方案

Hadoop 实现自动故障切换需要用到下面的组件：

ZooKeeper quorum
ZKFailoverController 进程（ZKFC）

ZooKeeper quorum

ZooKeeper quorum 是一种集中式服务，主要为分布式应用提供协调、配置、命名空间等功能。它提供组服务和数据同步服务，它让客户端可以实时感知数据的更改，并跟踪客户端故障，HDFS故障自动切换的实现依赖下面两个方面：

故障监测：ZooKeeper维护一个和NameNode之间的会话。如果NameNode发生故障，该会话就会过期，会话一旦失效了，ZooKeeper将通知其他NameNode启动故障切换进程。
活动NameNode选举：ZooKeeper提供了一种活动节点选举机制，只要活动的NameNode发生故障失效了，其他NameNode将从ZooKeeper获取一个排它锁，并把自身声明为活动的NameNode。

ZKFC

ZKFC 是 ZooKeeper 的监控和管理 namenode 的一个客户端，所以每个运行 namenode 的机器上都会有 ZKFC。

那ZKFC具体作用是什么？主要有以下3点：

状态监控：ZKFC 会定期用 ping 命令监测活动的 NameNode，如果 NameNode 不能及时响应ping 命令，那么ZooKeeper 就会判断该活动的 NameNode 已经发生故障了。
ZooKeeper会话管理：如果 NameNode 是正常的，那么它和ZooKeeper会保持一个会话，并持有一个znode锁。如果会话失效了，那么该锁将自动释放。
基于ZooKeeper的选举：如果 NameNode 是正常的，ZKFC 知道当前没有其他节点持有 znode 锁，那么 ZKFC自己会试图获取该锁，如果锁获取成功，那么它将赢得选举，并负责故障切换工作。这里的故障切换过程其实和手动故障切换过程是类似的；先把之前活动的节点进行隔离，然后把ZKFC 所在的机器变成活动的节点。

环境搭建

虚拟机环境准备

克隆虚拟机
修改克隆虚拟机的静态IP

① vim /etc/sysconfig/network-scripts/ifcfg-网卡名称
终端上输入 ifconfig 或 ip addr，找出网卡名称

② 将 BOOTPROTO=dhcp 改成 BOOTPROTO=static、ONBOOT=no 改成 ONBOOT=yes
③ 并在文件尾部添加以下内容

IPADDR=192.168.217.129
NETMASK=255.255.255.0
GATEWAY=192.168.217.2
DNFS1=192.168.217.2

④ 重启网关服务

systemctl restart network

修改主机名

hostnamectl set-hostname lyh

关闭防火墙
① 关闭防火墙

systemctl stop firewalld

② 禁止防火墙开机启动

systemctl disable firewalld

③ 关闭 Selinux

vim /etc/sysconfig/selinux

将 SELINUX=enforcing 改成 SELINUX=disabled

安装 jdk

将 jdk-8u151-linux-x64.tar.gz 安装包通过 xftp 传到 CentOS 7 上
创建 /usr/local/java 文件夹

mkdir /usr/local/java

将 jdk 压缩包解压到 /usr/local/java 目录下

tar -zxvf jdk-8u151-linux-x64.tar.gz -C /usr/local/java/

配置 jdk 的环境变量

vim /etc/profile

添加以下内容：

# JAVAHOME
export JAVA_HOME=/usr/local/java/jdk1.8.0_151
export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export PATH=$PATH:$JAVA_HOME/bin

让配置文件生效

source /etc/profile

输入 java、javac、java -version 命令检验 jdk 是否安装成功
注意：如果之前安装过 jdk 或系统自带 jdk，我们需要卸载这些 jdk
① 查询已安装的 jdk 列表

rpm -qa | grep jdk

② 删除已经安装的 jdk

yum -y remove XXX（上面查询到的 jdk 名称）

注意：如果终端出现以下错误：/var/run/yum.pid 已被锁定，PID 为 1610 的另一个程序正在运行。则输入以下命令：

rm -f /var/run/yum.pid

之后再执行以上删除 jdk 的命令

③ 重新让配置文件生效

source /etc/profile

④ 输入 java、javac、java -version 命令检验 jdk 是否安装成功

安装 Hadoop

将 hadoop-2.7.7.tar.gz 安装包通过 xftp 传到 CentOS 7 上
创建 /hadoop 文件夹

mkdir /hadoop

将 hadoop 压缩包解压到 /haddop 的目录下

tar -zxvf hadoop-2.7.7.tar.gz -C /hadoop/

配置 hadoop 环境变量
① 在 /etc/profile 文件的尾部添加以下内容：

#HADOOP
export HADOOP_HOME=/hadoop/hadoop-2.7.7
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

② 使配置文件生效

source /etc/profile

测试是否安装成功

hadoop version

FIFO 调度器

FIFO 调度器也就是平时所说的先进先出（First In First Out）调度器。可以简单的将其理解为一个 Java 队列，它的含义在于集群中同时只能有一个作业在运行。

队列形式会有什么问题?

FIFO调度器以集群资源独占的方式来运行作业，这样的好处是一个作业可以充分利用所有的集群资源，但是对于运行时间短，重要性高或者交互式查询类的MR作业就要等待排在序列前的作业完成才能被执行，这也就导致了如果有一个非常大的Job在运行，那么后面的作业将会被阻塞。

因此，虽然单一的 FIFO调度实现简单，但是对于很多实际的场景并不能满足要求。这也就催生了 Capacity 调度器和 Fair调度器的出现。

容量调度器（Capacity Scheduler）

Capacity 调度器也就是日常说的容器调度器，可以将它理解成一个个的资源队列，这个资源队列是用户自己去分配的：

举例：如上图，因为工作所需要把整个集群分成了AB两个队列，A队列下面还可以继续分，比如将A队列再分为1和2两个子队列。那么队列的分配就可以参考下面的树形结构：

|___A[60%]
|_____A.1[40%]
|_____A.2[60%]
|___B[40%]

上述的树形结构可以理解为：

A队列占用整个资源的60%，B队列占用整个资源的40%。
A队列里面又分了两个子队列，A.1占据40%，A.2占据60%，也就是说此时A.1和A.2分别占用A队列的40%和60%的资源。
虽然此时已经具体分配了集群的资源，但是并不是说A提交了任务之后只能使用它被分配到的60%的资源，而B队列的40%的资源就处于空闲。只要是其它队列中的资源处于空闲状态，那么有任务提交的队列可以使用空闲队列所分配到的资源，使用的多少是依据配来决定

调度器特性特性：

层次化的队列设计：这种层次化的队列设计保证了子队列可以使用父队列设置的全部资源；
容量保证：队列上都会设置一个资源的占比，这样可以保证每个队列都不会占用整个集群的资源；
安全：每个队列又严格的访问控制。
弹性分配：空闲的资源可以被分配给任何队列。
多租户租用：通过队列的容量限制，多个用户就可以共享同一个集群，同事保证每个队列分配到自己的容量，提高利用率。
操作性：Yarn支持动态修改调整容量、权限等的分配，可以在运行时直接修改。
基于资源的调度：协调不同资源需求的应用程序，比如内存、CPU、磁盘等等。

参数	描述
`capacity`	队列的资源容量（百分比）
`maximum-capacity`	队列的资源使用上限（百分比）
`user-limit-factor`	每个用户最多可使用的资源量（百分比）
`maximum-applications`	集群或者队列中同时处于等待和运行状态的应用程序数目上限
`maximum-am-resource-percent`	集群中用于运行应用程序ApplicationMaster的资源比例上限
`maximum-am-resource-percent`	设置适合自己的值
`state`	队列状态可以为STOPPED或者RUNNING
`acl_submit_applications`	限定哪些Linux用户/用户组可向给定队列中提交应用程序
`acl_administer_queue`	为队列指定一个管理员，该管理员可控制该队列的所有应用程序，比如杀死任意一个应用程序等

公平调度器（Fair Scheduler）

Fair调度器也就是日常说的公平调度器。Fair调度器是一个队列资源分配方式，在整个时间线上，所有的Job平均的获取资源。默认情况下，Fair调度器只是对内存资源做公平的调度和分配。

当集群中只有一个任务在运行时，那么此任务会占用整个集群的资源。当其他的任务提交后，那些释放的资源将会被分配给新的Job，所以每个任务最终都能获取几乎一样多的资源。

如上图所示，例如有两个用户A和B，他们分别拥有一个队列：

当A启动一个Job而B没有任务提交时，A会获得全部集群资源；
当B启动一个Job后，A的任务会继续运行，不过队列A会慢慢释放它的一些资源，一会儿之后两个任务会各自获得一半的集群资源。
如果此时B再启动第二个Job并且其它任务也还在运行时，那么它将会和B队列中的的第一个Job共享队列B的资源，也就是队列B的两个Job会分别使用集群四分之一的资源，
而队列A的Job仍然会使用集群一半的资源，结果就是集群的资源最终在两个用户之间平等的共享。

参数	描述
`yarn.scheduler.fair.allocation.file`	allocation”文件是一个用来描述queue以及它们的属性的配置文件
`yarn.scheduler.fair.user-as-default-queue`	是否将与allocation有关的username作为默认的queue name
`yarn.scheduler.fair.preemption`	是否使用“preemption”(优先权，抢占)，默认为fasle
`yarn.scheduler.fair.assignmultiple`	是在允许在一个心跳中，发送多个container分配信息
`yarn.scheduler.fair.max.assign`	如果assignmultuple为true，那么在一次心跳中，最多发送分配container的个数
`yarn.scheduler.fair.locality.threshold.node`	一个float值，在0~1之间，表示在等待获取满足node-local条件的containers时，最多放弃不满足node-local的container的机会次数，放弃的nodes个数为集群的大小的比例。默认值为-1.0表示不放弃任何调度的机会
`yarn.scheduler.fair.locality.threashod.rack`	同上，满足rack-local
`yarn.scheduler.fair.sizebaseweight`	是否根据application的大小(Job的个数)作为权重

分布式缓存

分布式缓存：是 Hadoop MapReduce 框架提供的一种数据缓存机制，它可以缓存只读文本文件，压缩文件，jar包等文件，一旦对文件执行缓存操作，那么每个执行 map/reduce 任务的节点都可以使用该缓存的文件。

分布式缓存优点

存储复杂的数据：它分发了简单、只读的文本文件和复杂类型的文件，如jar包、压缩包。这些压缩包将在各个slave节点解压。

数据一致性：Hadoop分布式缓存追踪了缓存文件的修改时间戳。然后当job在执行时，它也会通知这些文件不能被修改。使用hash 算法，缓存引擎可以始终确定特定键值对在哪个节点上。所以，缓存cluster只有一个状态，它永远不会是不一致的。

单点失败：分布式缓存作为一个跨越多个节点独立运行的进程。因此单个节点失败，不会导致整个缓存失败。

分布式缓存的使用

旧版本的 DistributedCache已经被注解为过时，以下为 Hadoop-2.2.0以上的新API接口。

Job job = Job.getInstance(conf);
//将hdfs上的文件加入分布式缓存
job.addCacheFile(new URI("hdfs://url:port/filename#symlink"));

由于新版 API 中已经默认创建符号连接，所以不需要再调用 setSymlink(true)方法了，可以下面代码来查看是否开启了创建符号连接。

System.out.println(context.getSymlink());

之后在 map/reduce 函数中可以通过 context 来访问到缓存的文件，一般是重写 setup 方法来进行初始化：

@Override
protected void setup(Context context) throws IOException, InterruptedException {
        super.setup(context);
        if (context.getCacheFiles() != null && context.getCacheFiles().length > 0) {
        String path = context.getLocalCacheFiles()[0].getName();
        File itermOccurrenceMatrix = new File(path);
        FileReader fileReader = new FileReader(itermOccurrenceMatrix);
        BufferedReader bufferedReader = new BufferedReader(fileReader);
        String s;
        while ((s = bufferedReader.readLine()) != null) {
            //TODO:读取每行内容进行相关的操作
        }
        bufferedReader.close();
        fileReader.close();
    }
}

得到的path为本地文件系统上的路径。

这里的 getLocalCacheFiles方法也被注解为过时了，只能使用 context.getCacheFiles方法，和 getLocalCacheFiles 不同的是，getCacheFiles得到的路径是 HDFS上的文件路径，如果使用这个方法，那么程序中读取的就不再试缓存在各个节点上的数据了，相当于共同访问 HDFS 上的同一个文件，可以直接通过符号连接来跳过getLocalCacheFiles 获得本地的文件。

分布式缓存的大小

可以在文件 mapred-site.xml 中设置，默认为10GB。

注意事项:

需要分发的文件必须是存储在HDFS 上了；
文件只读；
不缓存太大的文件，执行task之前对文件进行分发，影响task的启动速度。

命令

所有的 Hadoop 命令均由 bin/hadoop 脚本引发。不指定参数运行hadoop脚本会打印所有命令的描述。

用法：

hadoop [--config confdir] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS]

Hadoop 有一个选项解析框架用于解析一般的选项和运行类。

命令选项	描述
`--config confdir`	覆盖缺省配置目录。缺省是${HADOOP_HOME}/conf。
`GENERIC_OPTIONS`	多个命令都支持的通用选项。
`COMMAND` 命令选项	各种各样的命令和它们的选项会在下面提到。这些命令被分为用户命令和管理命令两组。

常规选项

GENERIC_OPTION	描述
-conf	指定应用程序的配置文件。
-D	为指定property指定值value。
-fs	指定namenode。
-jt	指定job tracker。只适用于job。
-files <逗号分隔的文件列表>	指定要拷贝到map reduce集群的文件的逗号分隔的列表。只适用于job。
-libjars <逗号分隔的jar列表>	指定要包含到classpath中的jar文件的逗号分隔的列表。只适用于job。
-archives <逗号分隔的archive列表>	指定要被解压到计算节点上的档案文件的逗号分割的列表。只适用于job。

从本地模式到分布式集群计算

处理少量输入数据并不能体现MapReduce计算框架的优势，当有大量输入的数据流时，我们需要分布式文件系统（HDFS）和Hadoop资源管理系统（YARN）实现集群分布式计算。

一、术语

Job：MapReduce作业，是客户端需要执行的一个工作单元：包括输入数据、MapReduce程序和配置信息
Task：Hadoop会将作业job分成若干个任务（task）执行，其中包括两类任务：map任务和Reduce任务
Input split：输入分片，Hadoop会将MapReduce的输入数据划分成等长的小数据块，称为“分片”,Hadoop为每个分片构建一个map任务，并由该任务运行用户自定义的map函数从而处理分片中的每条记录。

二、分片

1、分片的意义

处理单个分片的时间小于处理整个输入数据花费的时间，因此并行处理每个分片且每个分片数据比较小的话，则整个处理过程会获得更好的负载平衡（因为一台较快的计算机能够处理的数据分片比一台较慢的计算机更多，且成一定比例）。

2、分片的大小

尽管随着分片切分得更细，负载平衡的质量也会更高。但是分片切分得太小的时候，管理分片的总时间和构建map任务的总时间将决定整个作业的执行时间。
对于大多数作业来说，一个合理的分片大小趋于HDFS一个块的大小，默认是128MB。

三、数据本地化优化（map任务）

Hadoop在存储有输入数据（HDFS中的数据）的节点上运行map任务，可以获得最佳性能（因为无需使用宝贵的集群带宽资源），这就是“数据本地化优化”（data locality optimization）。

1、本地数据、本地机架与跨机架map任务

有时候存储该分片的HDFS数据块复本的所有节点可能正在运行其他map任务，此时作业调度需要从某一数据块所在的机架中一个节点寻找一个空闲的map槽（slot）来运行该map任务分片。特别偶然的情况下（几乎不会发生）会使用其他机架中的节点运行该map任务，这将导致机架与机架之间的网络传输。下图显示了这三种可能性。

2、数据本地化原则决定了最佳分片大小

数据本地化的原则解释了为什么最佳分片大小应该与HDFS块大小相同：因为这是确保可以存储在单个节点上最大输入块的大小。

3、reduce任务不具备数据本地化的优势

单个reduce任务的输入通常来自于所有mapper的输出。排过序的map输出需通过网络传输发送到运行reduce任务的节点，数据在reduce端合并并由用户定义的reduce函数处理。

四、MapReduce任务数据流

reduce任务的数量并非由输入数据的大小决定，而是独立指定的。

真实的应用中，几乎所有作业都会把reducer的个数设置成较大的数字，否则由于所有中间数据都会放到一个reduce任务中，作业的处理效率就会及其低下。
增加reducer的数量能缩短reduce进程；但是reducer数量过多又会导致小文件过多而不够优化。一条经验法则是：目标reducer保持每个运行在5分钟左右，且产生至少一个HDFS块的输出比较合适。

1、单个reduce任务的MapReduce数据流

虚线框表示节点，虚线箭头表示节点内部的数据传输，实线箭头表示不同节点之间的数据传输。

2、多个reduce任务的MapReduce数据流

map任务到reduce任务的数据流称为shuffle（混洗，类似洗牌的意思），每个reduce任务的输入都来自许多map任务。shuffle比图示的更加复杂而且调整shuffle参数对作业总执行时间的影响非常大。

3、无reduce任务

当数据完全可以并行处理时可能会出现无reduce任务的情况，唯一的非本地节点数据传输是map任务将结果写入HDFS。

五、combiner函数（减少map和reduce之间的数据传输）

由前面的描述我们知道数据传输会占用集群上的可用带宽资源，从而限制了MapReduce作业的数量，因此我们应该尽量避免map和reduce任务之间的数据传输。combiner作为一个中间函数简化map任务的输出从而减少了map任务和reduce任务之间的数据传输。

来源

Hadoop 入门教程（超详细）[通俗易懂]
Hadoop
Hadoop入门（一篇就够了）

你可能感兴趣的:(开发,1024程序员节,hadoop,大数据)

Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
基于定制开发开源AI智能名片S2B2C商城小程序的社群游戏定制策略研究说私域人工智能小程序游戏
摘要：本文聚焦社群游戏定制领域，深入探讨以社群文化和用户偏好为导向的定制策略。通过分析互动游戏活动、社群文化塑造等关键要素，结合定制开发开源AI智能名片S2B2C商城小程序的技术特性，提出针对性游戏定制方案。研究旨在提升社群用户参与度与游戏体验，为社群游戏发展提供理论支持与实践指导。关键词：社群游戏定制；定制开发开源AI智能名片S2B2C商城小程序；社群文化；用户偏好一、引言在数字化社交蓬勃发展的
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
前端项目架构设计要领
1.架构设计的核心目标在设计前端项目架构时，核心目标是模块化、可维护、可扩展、可测试，以及开发效率的最大化。这些目标可以通过以下几个方面来实现：组件化：将UI功能封装为可复用的组件。模块化：将业务逻辑分解为独立的模块或服务。自动化构建与部署：实现自动化构建、测试和部署流程，减少人为操作的错误。代码规范化与检查：确保团队协作时，代码风格和质量一致。2.项目目录结构设计一个清晰合理的目录结构对大型项目
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
深入剖析OpenJDK 18 GA源码：Java平台最新发展想法臃肿
本文还有配套的精品资源，点击获取简介：OpenJDK18GA作为Java开发的关键里程碑，提供了诸多新特性和改进。本文章深入探讨了OpenJDK18GA源码，揭示其内部机制，帮助开发者更好地理解和利用这个版本。文章还涵盖了PatternMatching、SealedClasses、Records、JEP395、JEP406和JEP407等特性，以及HotSpot虚拟机、编译器、垃圾收集器、内存模型
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
ARM嵌入式可编程控制器技术开发拉勾科研工作室 arm开发
PLC自动化设计|毕业设计指导|工业自动化解决方案✨专业领域：PLC程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列PLC编程三菱/欧姆龙PLC应用触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：PLC控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以
基于架构的软件设计（Architecture-Based Software Design，ABSD）是一种以架构为核心的软件开发方法
ABSD方法与生命周期基于架构的软件设计（Architecture-BasedSoftwareDesign，ABSD）是一种以架构为核心的软件开发方法，强调在开发的各个阶段都要以架构为中心，确保系统的整体结构和质量属性得到有效管理。ABSD方法是一个自顶向下、递归细化的过程，软件系统的架构通过该方法得到细化，直到能产生软件构件和类。ABSD方法的三个基础功能的分解：使用基于模块的内聚和耦合技术，将
Vue3+Vite+TS+Axios整合详细教程老马聊技术 Vue Vite TS vue.js
1.Vite简介Vite是新一代的前端构建工具，在尤雨溪开发Vue3.0的时候诞生。类似于Webpack+Webpack-dev-server。其主要利用浏览器ESM特性导入组织代码，在服务器端按需编译返回，完全跳过了打包这个概念，服务器随起随用。生产中利用Rollup作为打包工具，号称下一代的前端构建工具。vite是一种新型的前端构建工具，能够显著的提升前端开发者的体验。它主要有俩部分组成：一个
MySQL Explain 详解：从入门到精通，让你的 SQL 飞起来
引言：为什么Explain是SQL优化的“照妖镜”？在Java开发中，我们常常会遇到数据库性能瓶颈的问题。一条看似简单的SQL语句，在数据量增长到一定规模后，可能会从毫秒级响应变成秒级甚至分钟级响应，直接拖慢整个应用的性能。此时，你是否曾困惑于：为什么这条SQL突然变慢了？索引明明建了，为什么没生效？到底是哪里出了问题？答案就藏在MySQL的EXPLAIN命令里。EXPLAIN就像一面“照妖镜”，
本地包解决npm error code E404 雅痞yuppie npm 前端 node.js
这个错误提示表明npm找不到名为create-vue-admin-cli的包。这是因为你开发的CLI工具还没有发布到npm官方注册表。要解决这个问题，有两种方法：方法一：使用本地开发模式测试1.确保你的CLI已正确链接到全局在你的vue-admin-cli项目根目录下执行：npmlink这会在全局环境中创建一个符号链接，指向你本地的CLI项目。2.使用本地链接的CLI创建项目直接使用命令：vue-
前端 NPM 包的依赖可视化分析工具推荐前端视界前端艺匠馆前端 npm arcgis ai
前端NPM包的依赖可视化分析工具推荐关键词：NPM、依赖管理、可视化分析、前端工程、包管理、依赖冲突、性能优化摘要：本文将深入探讨前端开发中NPM包依赖可视化分析的重要性，介绍5款主流工具的使用方法和特点，并通过实际案例展示如何利用这些工具优化项目依赖结构、解决版本冲突问题以及提升构建性能。文章将帮助开发者更好地理解和掌控项目依赖关系，提高开发效率和项目可维护性。背景介绍目的和范围本文旨在为前端开
npm 切换 node 版本和npm的源爱敲代码的小冰 npm 前端 node.js
在开发过程中，不同项目可能需要不同版本的Node.js，同时于由XX原因，我们需要切换npm的源。这时如果需要切换node版本或者npm的源，我们可以使用以下方法。使用nvm切换Node版本1、安装npminstallnvm-g2、使用#列出所有可用版本nvmlist-remote#安装指定版本nvminstall16.15.1#使用指定版本nvmuse16.15.1#查看当前使用的版本nvmcu
EasyCwmp源码分析与接口实现详解：深入理解源码架构，掌握核心接口
EasyCwmp源码分析与接口实现详解：深入理解源码架构，掌握核心接口去发现同类优质开源项目:https://gitcode.com/在开源项目中，寻找一款能够提升开发效率、简化流程的工具是每个开发者的追求。今天，我们要介绍的这款开源项目EasyCwmp，正是为了帮助开发者深入了解源码架构，掌握核心接口实现，从而加速项目开发进程。以下是关于EasyCwmp源码分析与接口实现详解的项目推荐文章。项目
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
ThinkSound V2版 - 一键给无声视频配音，为AI视频生成匹配音效支持50系显卡一键整合包下载昨日之日2006 ai语音音视频人工智能
ThinkSound是阿里通义实验室开源的首个音频生成模型，它能够让AI像专业“音效师”一样，根据视频内容生成高度逼真、与视觉内容完美契合的音频。ThinkSound可直接应用于影视后期制作，为AI生成的视频自动匹配精准的环境噪音与爆炸声效；服务于游戏开发领域，实时生成雨势变化等动态场景的自适应音效；同时可以无障碍视频生产，为视障用户同步生成画面描述与环境音效。今天分享的ThinkSoundV2版
Java 调用 HTTP 接口的 7 种方式：全网最全指南
Java调用HTTP接口的7种方式：全网最全指南在开发过程中，调用HTTP接口是最常见的需求之一。本文将详细介绍Java中7种主流的调用HTTP接口的方式，包括每种工具的优缺点和完整代码实现。1.使用RestTemplateRestTemplate是Spring提供的同步HTTP客户端，适用于传统项目。尽管从Spring5开始被标记为过时，它仍然是许多开发者的首选。示例代码importorg.sp
Kimi Chat 1.5 与 2.0 架构升级对比 charles666666 人工智能 transformer 深度学习产品经理 chatgpt
1.5版的MoE架构优化KimiChat1.5采用了优化后的MoE架构，其核心在于“专家网络动态路由”。这一机制类似于快递系统智能选择最优路径，能够根据输入数据的特性动态分配计算资源。这种优化显著提升了模型的计算效率，同时降低了硬件资源的浪费。在实际应用中，这意味着开发者可以在相同的硬件配置下处理更复杂的任务，或者在有限的资源下实现更高的性能。2.0的混合专家系统创新点与1.5版相比，KimiCh
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
javascript高级程序设计第3版——第12章 DOM2与DOM3 weixin_30687587 javascript 数据结构与算法 ViewUI
12章——DOM2与DOM3为了增强D0M1，DOM级规范定义了一些模块。DOM2核心：为不同的DOM类型引入了一些与XML命名空间有关的方法，还定义了以编程方式创建Document实例的方法；DOM2级样式：针对操作元素的样式而开发；其特性总结：1.每个元素都有一个关联的style对象，可用来确定和修改行内样式；2.要确定某个元素的计算样式，可使用getComgetComputedStyle（）
AIGC工具与软件开发流程的深度集成方案 Irene-HQ 软件开发测试 AIGC 测试工具 github AIGC 程序人生面试
一、代码开发环节集成路径‌环境配置标准化‌安装AIGC工具包并配置环境变量（如设置AIGC_TOOL_PATH），确保团队开发环境一致‌。在IDE插件市场安装Copilot等工具，实现编码时实时建议调用‌。‌人机协作新模式‌‌需求解析‌：上传PRD文档，AI自动提取业务规则生成类结构（如支付模块的PaymentService雏形）‌。‌代码补全‌：输入注释//JWT验证中间件，生成OAuth2.0
Java设计模式实战：高频场景解析与避坑指南 mckim_ 笔记学习 java 设计模式
引言设计模式是软件开发的基石，但许多开发者面对23种模式时容易陷入“学完就忘”或“滥用模式”的困境。本文从工业级项目视角出发，精选10种高频设计模式，结合真实代码案例与主流框架应用，帮你建立模式思维，拒绝纸上谈兵。一、创建型模式：告别new的暴力美学1.工厂方法模式（FactoryMethod）核心痛点：对象创建逻辑散落各处，难以统一管理。场景案例：电商平台需要支持多种支付方式（支付宝、微信、银联
OkHttp3源码解析--设计模式，android开发实习面试题
this.cache=builder.cache;}//构造者publicstaticfinalclassBuilder{Cachecache;…//构造cache属性值publicBuildercache(@NullableCachecache){this.cache=cache;returnthis;}//在build方法中真正创建OkHttpClient对象，并传入前面构造的属性值publi
Windows平台下Android Studio搭建Flutter开发环境的正确姿势（202506）
Flutter作为Google推出的跨平台移动应用开发框架，近年来获得了广泛关注。它允许开发者使用单一代码库构建iOS和Android应用，大大提高了开发效率。本文将带你一步步在Windows系统上搭建完整的Flutter开发环境。第一步：下载并安装FlutterSDK首先，我们需要获取FlutterSDK：访问Flutter官方中文文档的安装页面：https://docs.flutter.cn/
《Java前端开发全栈指南：从Servlet到现代框架实战》
前言在当今Web开发领域，Java依然是后端开发的主力语言，而随着前后端分离架构的普及，Java开发者也需要掌握前端技术栈。本文将全面介绍JavaWeb前端开发的核心技术，包括传统Servlet/JSP体系、现代前端框架集成方案，以及全栈开发的最佳实践。通过本文，您将了解如何构建现代化的JavaWeb应用前端界面。一、JavaWeb前端技术演进1.1传统技术栈Servlet：JavaWeb基础，处
【Linux内核模块】Linux内核模块简介 byte轻骑兵 #嵌入式Linux驱动开发实战 linux arm开发运维
你是否好奇过，为什么Linux系统可以在不重启的情况下支持新硬件？为什么修改一个驱动程序不需要重新编译整个内核？这一切都离不开Linux的"模块化魔法"——内核模块（KernelModule）。作为Linux内核最灵活的特性之一，内核模块让开发者可以动态扩展内核功能，今天就来揭开这个神秘组件的面纱。目录一、什么是内核模块？1.1先打个比方：给内核装"插件"1.2技术定义：动态加载的内核代码段1.3
java观察者模式 3213213333332132 java 设计模式游戏观察者模式
观察者模式——顾名思义，就是一个对象观察另一个对象，当被观察的对象发生变化时，观察者也会跟着变化。在日常中，我们配java环境变量时，设置一个JAVAHOME变量,这就是被观察者，使用了JAVAHOME变量的对象都是观察者，一旦JAVAHOME的路径改动，其他的也会跟着改动。这样的例子很多，我想用小时候玩的老鹰捉小鸡游戏来简单的描绘观察者模式。老鹰会变成观察者，母鸡和小鸡是
TFS RESTful API 模拟上传测试 ronin47
TFS RESTful API 模拟上传测试。　　细节参看这里：https://github.com/alibaba/nginx-tfs/blob/master/TFS_RESTful_API.markdown 模拟POST上传一个图片： curl --data-binary @/opt/tfs.png http
PHP常用设计模式单例, 工厂, 观察者, 责任链, 装饰, 策略,适配,桥接模式 dcj3sjt126com 设计模式 PHP
// 多态, 在JAVA中是这样用的, 其实在PHP当中可以自然消除, 因为参数是动态的, 你传什么过来都可以, 不限制类型, 直接调用类的方法 abstract class Tiger { public abstract function climb(); } class XTiger extends Tiger { public function climb()
hibernate 171815164 Hibernate
main,save Configuration conf =new Configuration().configure(); SessionFactory sf=conf.buildSessionFactory(); Session sess=sf.openSession(); Transaction tx=sess.beginTransaction(); News a=new
Ant实例分析 g21121 ant
下面是一个Ant构建文件的实例，通过这个实例我们可以很清楚的理顺构建一个项目的顺序及依赖关系，从而编写出更加合理的构建文件。下面是build.xml的代码： <?xml version="1
[简单]工作记录_接口返回405原因 53873039oycg 工作
最近调接口时候一直报错，错误信息是: responseCode:405 responseMsg:Method Not Allowed 接口请求方式Post.
关于java.lang.ClassNotFoundException 和 java.lang.NoClassDefFoundError 的区别程序员是怎么炼成的
真正完成类的加载工作是通过调用 defineClass来实现的；而启动类的加载过程是通过调用 loadClass来实现的；就是类加载器分为加载和定义 protected Class<?> findClass(String name) throws ClassNotFoundExcept
JDBC学习笔记-JDBC详细的操作流程 aijuans jdbc
所有的JDBC应用程序都具有下面的基本流程：　　1、加载数据库驱动并建立到数据库的连接。　　2、执行SQL语句。　　3、处理结果。　　4、从数据库断开连接释放资源。下面我们就来仔细看一看每一个步骤：其实按照上面所说每个阶段都可得单独拿出来写成一个独立的类方法文件。共别的应用来调用。 1、加载数据库驱动并建立到数据库的连接： Html代码 St
rome创建rss antonyup_2006 tomcat cms xml struts Opera
引用 1.RSS标准 RSS标准比较混乱，主要有以下3个系列 RSS 0.9x / 2.0 : RSS技术诞生于1999年的网景公司(Netscape)，其发布了一个0.9版本的规范。2001年，RSS技术标准的发展工作被Userland Software公司的戴夫温那(Dave Winer)所接手。陆续发布了0.9x的系列版本。当W3C小组发布RSS 1.0后，Dave W
html表格和表单基础百合不是茶 html 表格表单 meta 锚点
第一次用html来写东西,感觉压力山大,每次看见别人发的都是比较牛逼的再看看自己什么都还不会, html是一种标记语言,其实很简单都是固定的格式 _----------------------------------------表格和表单表格是html的重要组成部分,表格用在body里面的主要用法如下; <table> &
ibatis如何传入完整的sql语句 bijian1013 java sql ibatis
ibatis如何传入完整的sql语句？进一步说，String str ="select * from test_table"，我想把str传入ibatis中执行，是传递整条sql语句。解决办法： <
精通Oracle10编程SQL(14)开发动态SQL bijian1013 oracle 数据库 plsql
/* *开发动态SQL */ --使用EXECUTE IMMEDIATE处理DDL操作 CREATE OR REPLACE PROCEDURE drop_table(table_name varchar2) is sql_statement varchar2(100); begin sql_statement:='DROP TABLE '||table_name;
【Linux命令】Linux工作中常用命令 bit1129 linux命令
不断的总结工作中常用的Linux命令 1.查看端口被哪个进程占用通过这个命令可以得到占用8085端口的进程号，然后通过ps -ef|grep 进程号得到进程的详细信息 netstat -anp | grep 8085 察看进程ID对应的进程占用的端口号 netstat -anp | grep 进程ID &
优秀网站和文档收集白糖_ 网站
集成 Flex, Spring, Hibernate 构建应用程序性能测试工具-JMeter Hmtl5-IOCN网站 Oracle精简版教程网站鸟哥的linux私房菜 Jetty中文文档 50个jquery必备代码片段 swfobject.js检测flash版本号工具
angular.extend boyitech AngularJS angular.extend AngularJS API
angular.extend 复制src对象中的属性去dst对象中. 支持多个src对象. 如果你不想改变一个对象，你可以把dst设为空对象{}: var object = angular.extend({}, object1, object2). 注意: angular.extend不支持递归复制. 使用方法: angular.extend(dst, src); 参数:
java-谷歌面试题-设计方便提取中数的数据结构 bylijinnan java
网上找了一下这道题的解答，但都是提供思路，没有提供具体实现。其中使用大小堆这个思路看似简单，但实现起来要考虑很多。以下分别用排序数组和大小堆来实现。使用大小堆： import java.util.Arrays; public class MedianInHeap { /** * 题目：设计方便提取中数的数据结构 * 设计一个数据结构，其中包含两个函数，1.插
ajaxFileUpload 针对 ie jquery 1.7+不能使用问题修复版本 Chen.H ajaxFileUpload ie6 ie7 ie8 ie9
jQuery.extend({ handleError: function( s, xhr, status, e ) { // If a local callback was specified, fire it if ( s.error ) { s.error.call( s.context || s, xhr, status, e ); }
[机器人制造原则]机器人的电池和存储器必须可以替换 comsci 制造
机器人的身体随时随地可能被外来力量所破坏,但是如果机器人的存储器和电池可以更换,那么这个机器人的思维和记忆力就可以保存下来,即使身体受到伤害,在把存储器取下来安装到一个新的身体上之后,原有的性格和能力都可以继续维持..... 另外,如果一
Oracle Multitable INSERT 的用法 daizj oracle
转载Oracle笔记-Multitable INSERT 的用法 http://blog.chinaunix.net/uid-8504518-id-3310531.html 一、Insert基础用法语法： Insert Into 表名 (字段1,字段2,字段3...） Values (值1,
专访黑客历史学家George Dyson datamachine on
20世纪最具威力的两项发明——核弹和计算机出自同一时代、同一群年青人。可是，与大名鼎鼎的曼哈顿计划（第二次世界大战中美国原子弹研究计划）相比，计算机的起源显得默默无闻。出身计算机世家的历史学家George Dyson在其新书《图灵大教堂》（Turing’s Cathedral）中讲述了阿兰·图灵、约翰·冯·诺依曼等一帮子天才小子创造计算机及预见计算机未来
小学6年级英语单词背诵第一课 dcj3sjt126com english word
always 总是 rice 水稻，米饭 before 在...之前 live 生活，居住 usual 通常的 early 早的 begin 开始 month 月份 year 年 last 最后的 east 东方的 high 高的 far 远的 window 窗户 world 世界 than 比...更
在线IT教育和在线IT高端教育 dcj3sjt126com 教育
codecademy http://www.codecademy.com codeschool https://www.codeschool.com teamtreehouse http://teamtreehouse.com lynda http://www.lynda.com/ Coursera https://www.coursera.
Struts2 xml校验框架所定义的校验文件蕃薯耀 Struts2 xml校验 Struts2 xml校验框架 Struts2校验
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 15:54:59 星期六 http://fa
mac下安装rar和unrar命令 hanqunfeng mac
1.下载：http://www.rarlab.com/download.htm 选择 RAR 5.21 for Mac OS X 2.解压下载后的文件 tar -zxvf rarosx-5.2.1.tar 3.cd rar sudo install -c -o $USER unrar /bin #输入当前用户登录密码 sudo install -c -o $USER rar
三种将list转换为map的方法 jackyrong list
在本文中，介绍三种将list转换为map的方法： 1）传统方法假设有某个类如下 class Movie { private Integer rank; private String description; public Movie(Integer rank, String des
年轻程序员需要学习的5大经验 lampcy 工作 PHP 程序员
在过去的7年半时间里，我带过的软件实习生超过一打，也看到过数以百计的学生和毕业生的档案。我发现很多事情他们都需要学习。或许你会说，我说的不就是某种特定的技术、算法、数学，或者其他特定形式的知识吗？没错，这的确是需要学习的，但却并不是最重要的事情。他们需要学习的最重要的东西是“自我规范”。这些规范就是：尽可能地写出最简洁的代码；如果代码后期会因为改动而变得凌乱不堪就得重构；尽量删除没用的代码，并添加
评“女孩遭野蛮引产致终身不育 60万赔偿款1分未得”医腐深入骨髓 nannan408
先来看南方网的一则报道：再正常不过的结婚、生子，对于29岁的郑畅来说，却是一个永远也无法实现的梦想。从2010年到2015年，从24岁到29岁，一张张新旧不一的诊断书记录了她病情的同时，也清晰地记下了她人生的悲哀。　　粗暴手术让人发寒　　2010年7月，在酒店做服务员的郑畅发现自己怀孕了，可男朋友却联系不上。在没有和家人商量的情况下，她决定堕胎。　　12月5日，
使用jQuery为input输入框绑定回车键事件 VS 为a标签绑定click事件 Everyday都不同 jsp input 回车键绑定 click enter
假设如题所示的事件为同一个，必须先把该js函数抽离出来，该函数定义了监听的处理： function search() { //监听函数略...... } 为input框绑定回车事件，当用户在文本框中输入搜索关键字时，按回车键，即可触发search(): //回车绑定 $(".search").keydown(fun
EXT学习记录 tntxia ext
1. 准备（1）官网：http://www.sencha.com/ 里面有源代码和API文档下载。 EXT的域名已经从www.extjs.com改成了www.sencha.com ，但extjs这个域名会自动转到sencha上。（2）帮助文档：想要查看EXT的官方文档的话，可以去这里h
mybatis3的mapper文件报Referenced file contains errors xingguangsixian mybatis
最近使用mybatis.3.1.0时无意中碰到一个问题： The errors below were detected when validating the file "mybatis-3-mapper.dtd" via the file "account-mapper.xml". In most cases these errors can be d