IT小神

一文理解Hadoop分布式存储和计算框架入门基础

文章目录

概述
- 定义
- 发展历史
- 发行版本
- 优势
- 生态项目
架构
- 组成模块
- HDFS架构
- YARN架构
部署
- 部署规划
- 前置条件
- 部署步骤
- - 下载文件（三台都执行）
  - 创建目录(三台都执行)
  - 配置环境变量(三台都执行)
  - 安装和配置（hadoop1上执行）
  - 启动和停止Hadoop
  - HDFS环境测试
  - 计算和资源环境测试

概述

定义

Hadoop 官网地址 https://hadoop.apache.org/

Hadoop GitHub地址 https://github.com/apache/hadoop

Hadoop 文档地址 https://hadoop.apache.org/docs/stable/

Apache Hadoop是一个由 Apache 基金会所开发的分布式存储和计算的基础框架，使用简单的编程模型跨计算机集群分布式处理海量数据，也即是主要解决海量数据的存储和海量数据的分析计算问题。

Apache Hadoop可从单个服务器扩展到数千台机器，每台机器都提供本地计算和存储，实现存储和计算高可用性；而从广义上来说， Hadoop 通常是指一个更广泛的概念 —— Hadoop 生态圈。

发展历史

Hadoop 创始人 Doug Cutting ，为了实现与 Google 类似的全文搜索功能，他在 Lucene 框架基础上进行优化升级，查询引擎和索引引擎。
2001 年年底 Lucene 成为 Apache 基金会的一个子项目。
对于海量数据的场景， Lucene 框架面对与 Google 同样的困难，存储海量数据困难，检索海量速度慢。
学习和模仿 Google 解决这些问题的办法：微型版 Nutch 。
可以说 Google 是 Hadoop 的思想之源（ Google 在大数据方面的三篇论文，GFS —>HDFS、Map-Reduce —>MR、BigTable —>HBase）。
2003-2004 年， Google 公开了部分 GFS 和 MapReduce 思想的细节，以此为基础 Doug Cutting 等人用了 2 年业余时间实现了 DFS 和 MapReduce 机制，使 Nutch 性能飙升。
2005 年 Hadoop 作为 Lucene 的子项目 Nutch 的一部分正式引入 Apache 基金会。
2006 年 3 月份， Map-Reduce 和 Nutch Distributed File System （ NDFS ）分别被纳入到 Hadoop 项目中， Hadoop 就此正式诞生，标志着大数据时代来临。
名字来源于 Doug Cutting 儿子的玩具大象。

发行版本

Hadoop 发行版除了Apache的开源版本之外，还有华为发行版、Intel发行版、Cloudera发行版(CDH)、Hortonworks发行版（HDP）、MapR等，所有这些发行版均是基于Apache Hadoop衍生出来的。

Apache Hadoop 原生版本，其优点完全开源免费，社区活跃，文档、资料详实。缺点复杂版本管理，复杂的集群部署、安装、配置，复杂的集群运维，复杂的生态环境兼容性和冲突，因此仅适用于以学习原理部署方式。
Cloudera Hadoop（CDH）：cloudera研发了cloudera manger、cdh大数据分析集成平台、cloudera Support；也是最成型的发行版本，拥有最多的部署案例；提供强大的部署、管理和监控工具；Cloudera开发并贡献了可实时处理大数据的Impala项目。
Hortonworks Hadoop（HDP）hortonworks研发了Ambari和hdp的大数据分析集成平台。
CDP：在Cloudera和Hortonworks合并后,Cloudera公司推出了新一代的数据平台产品CDP Data Center(以下简称为CDP).
TDH：星环科技开发，是国内首个全面支持Spark的Hadoop发行版，也是国内落地案例最多的商业版本，是国内外领先的高性能平台。
MapR：获取更好的性能和易用性而支持本地Unix文件系统而不是HDFS。

优势

高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。
高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
高容错性:能够自动将失败的任务重新分配。

生态项目

Ambari™:一个基于web的工具，用于配置、管理和监控Apache Hadoop集群，包括对Hadoop HDFS、Hadoop MapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig和Sqoop的支持。Ambari还提供了一个仪表板，用于查看集群健康状况，如热图，以及可视化地查看MapReduce、Pig和Hive应用程序的能力，以及以用户友好的方式诊断它们的性能特征的功能。
Avro™:数据序列化系统。
Cassandra™:一个可扩展的多主数据库，没有单点故障。
Chukwa™:用于管理大型分布式系统的数据收集系统。
HBase™:一个可扩展的分布式数据库，支持对大型表的结构化数据存储。
Hive™:一个数据仓库基础设施，提供数据汇总和特别查询。
Mahout:一个可扩展的机器学习和数据挖掘库。
Ozone™:一个可扩展的，冗余的，分布式的Hadoop对象存储。
Pig™:用于并行计算的高级数据流语言和执行框架。
Spark™:一个快速通用的Hadoop数据计算引擎。Spark提供了一个简单而富有表现力的编程模型，支持广泛的应用，包括ETL、机器学习、流处理和图计算。
Submarine:一个统一的AI平台，可让工程师和数据科学家在分布式集群中运行机器学习和深度学习工作负载。
Tez™:一个通用的数据流编程框架，建立在HadoopYARN之上，它提供了一个强大而灵活的引擎来执行任务的任意DAG，为批处理和交互用例处理数据。Tez正在被Hive™、Pig™和Hadoop生态系统中的其他框架以及其他商业软件(如ETL工具)所采用，以取代Hadoop™MapReduce作为底层执行引擎。
ZooKeeper™:分布式应用的高性能协调服务。

架构

组成模块

Hadoop Common:支持其他Hadoop模块的通用实用程序。
Hadoop Distributed File System (HDFS™):提供对应用程序数据的高吞吐量访问的分布式文件系统。
Hadoop YARN:一个用于任务调度和集群资源管理的框架。
Hadoop MapReduce:基于yarn的大型数据集并行计算系统。

HDFS架构

Hadoop Distributed File System ，简称 HDFS ，是一个分布式文件系统；HDFS是一个主/从架构，HDFS集群由一个单一的NameNode组成，NameNode是一个主服务器，负责管理文件系统命名空间和规范客户端对文件的访问。此外，还有许多datanode，通常集群中的每个节点都有一个，它们管理连接到它们运行的节点上的存储。HDFS公开了一个文件系统命名空间，允许用户数据存储在文件中。在内部，一个文件被分割成一个或多个块，这些块存储在一组datanode中。NameNode执行文件系统命名空间操作，比如打开、关闭和重命名。简单的说就是NameNode就相当于一个目录一个索引，负责标记每一个DataNode的存放位置；而DataNode才是真正存放数据的。

数据组织
- 数据块：HDFS设计成支持非常大的文件。兼容HDFS的应用程序是那些处理大型数据集的应用程序。这些应用程序只写入数据一次，但它们读取数据一次或多次，并且需要以流速度来满足这些读取。HDFS支持文件的write-once-read-many语义。HDFS使用的典型块大小是128 MB。因此一个HDFS文件被分割成128 MB的块，每个块将驻留在不同的DataNode上。
- 复制管道：当客户端将数据写入一个复制因子为3的HDFS文件时，NameNode会使用复制目标选择算法检索一个datanode列表。该列表包含将承载该块副本的datanode。然后客户端写入第一个DataNode。第一个DataNode开始接收部分数据，将每个部分写入本地存储库，并将该部分传输到列表中的第二个DataNode。第二个DataNode依次开始接收数据块的每个部分，将该部分写入其存储库，然后刷新该部分。最后，第三个DataNode将数据写入它的本地存储库。因此，DataNode可以从管道中的前一个接收数据，同时将数据转发给管道中的下一个。因此，数据通过流水线从一个DataNode传输到下一个DataNode。
NameNode HA高可用配置
- With QJM(Quorum Journal Manager)
- With NFS

YARN架构

YARN的基本思想是将资源管理和作业调度/监视的功能拆分为独立的守护进程。包含一个全局的ResourceManager (RM)和每个应用的ApplicationMaster (AM)，应用程序要么是单个作业要么是多个作业的DAG。

ResourceManager和NodeManager组成了数据计算框架。ResourceManager是对系统中所有应用程序之间的资源进行仲裁的最终权力机构。NodeManager是每台机器的框架代理，负责容器，监控它们的资源使用情况(cpu、内存、磁盘、网络)，并向ResourceManager/Scheduler报告相同的情况。
每个应用程序的ApplicationMaster的任务是与ResourceManager协商资源，并与NodeManager一起执行和监控任务。

用户提交任务，任务给到ResourceManager。
ResourceManager 会找一个节点NodeManager，开启一个Container ，把任务(App Mstr)放在Container。
App Mstr会向 ResourceManager申请说自己需要多少资源 ResourceManager 看哪一个DataNode有资源，给他分配资源。
App Mstr 会在被分配的资源节点上开启计算任务（MapTask ），这个其实就是MapReduce 的map阶段，之后会返回一个Reduce到各自对应的节点。

部署

部署规划

本次使用Hadoop最新版本3.3.4部署3个节点的Hadoop分布式集群。

DataNode：储存数据的节点，定时发送心跳包和数据块信息给NameNode。部署1个。
NameNode：与DataNode交互信息进行监控和索引数据目录。一般是部署2个节点（主、备）。
ZKFailoverController(ZKFC)：主要是负责监控NameNode及选举。每个NameNode节点都会运行ZKFC服务。
JournalNode：同步主备NameNode的数据。至少要部署3个节点，必须是奇数个（3、5、7、…），因为系统最多只能容忍 (n-1)/2 个JN节点失败而不影响正常运行。
NodeManager：Yarn的节点状况监控服务。每台机都要部署。
ResourceManager：Yarn管理集群资源调度的服务，与NodeManager交互信息进行调度管理。一般是部署2个节点（主、备，）。

前置条件

安装JDK8（本篇的服务器安装目录在/home/commons/jdk8）或者JDK11，目前新版本是支持JDK11
关闭主机防火墙
修改3个节点hosts表（/etc/hosts），配置三台服务器的IP对应的节点名称为hadoop1、hadoop2、hadoop3
配置SSH免密码通信,在三台上都执行如下操作，配置完成可以通过ssh命令任意一台无需输入密码则配置免密成功
- 输入命令 ssh-keygen -t rsa 然后连续按下三次回车然后输入命令
- ssh-copy-id hadoop1（master）按下回车后输入所对应的密码
- ssh-copy-id hadoop2（slave1）按下回车后输入所对应的密码
- ssh-copy-id hadoop3（slave2）按下回车后输入所对应的密码
安装Zookeeper集群（三台集群zk1、zk2、zk3,详细可查阅前面讲解Zookeeper文章）

部署步骤

下载文件（三台都执行）

# 在hadoop2上下载最新版的hadoop-3.3.4
cd /home/commons
# 其他两台可以使用scp命令拷贝hadoop-3.3.4.tar.gz如scp ./hadoop-3.3.4.tar.gz hadoop1:/home/commons/和scp ./hadoop-3.3.4.tar.gz hadoop3:/home/commons/
wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
# 解压文件
tar xvf hadoop-3.3.4.tar.gz
# 重命名
mv hadoop-3.3.4 hadoop

创建目录(三台都执行)

mkdir -p /home/commons/hadoop
cd /home/commons/hadoop
mkdir hdfs tmp
cd hdfs
mkdir name data journal

配置环境变量(三台都执行)

vim ~/.bashrc

export HADOOP_HOME=/home/commons/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

export HADOOP_COMMON_HOME=/home/commons/hadoop
export HADOOP_HDFS_HOME=/home/commons/hadoop
export HADOOP_MAPRED_HOME=/home/commons/hadoop
export HADOOP_CONF_DIR=/home/commons/hadoop/etc/hadoop

export HDFS_DATANODE_USER=root
export HDFS_NAMENODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export HDFS_JOURNALNODE_USER=root
export HDFS_ZKFC_USER=root

export YARN_HOME=/home/commons/hadoop
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

更新环境变量

source ~/.bashrc

安装和配置（hadoop1上执行）

cd /home/commons/hadoop/etc/hadoop

编辑 vim hadoop-env.sh ,添加以下内容

export JAVA_HOME=/home/commons/jdk8
export HADOOP_OS_TYPE=${HADOOP_OS_TYPE:-$(uname -s)}

编辑 vim yarn-env.sh

export JAVA_HOME=/home/commons/jdk8

编辑vim core-site.xml


    
        fs.defaultFS
        hdfs://myns/ 
    
    
        hadoop.tmp.dir
        /home/commons/hadoop/tmp
    
    
        io.file.buffer.size
        131072
    
    
        ha.zookeeper.quorum
        zk1:2181,zk2:2181,zk3:2181
    
    
        ha.zookeeper.session-timeout.ms
        1000

编辑vim hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replicationname>
        <value>3value>
    property>
    <property>
        <name>dfs.namenode.name.dirname>
        <value>file:///home/commons/hadoop/hdfs/namevalue>
    property>
    <property>
        <name>dfs.datanode.data.dirname>
        <value>file:///home/commons/hadoop/hdfs/datavalue>
    property>
    <property>
        <name>dfs.webhdfs.enabledname>
        <value>truevalue>
    property>

    <property>
        <name>dfs.nameservicesname>
        <value>mynsvalue> 
    property>
    <property>
        <name>dfs.ha.namenodes.mynsname>
        <value>nn1,nn2value>
    property>
    <property>
        <name>dfs.namenode.rpc-address.myns.nn1name>
        <value>hadoop1:9000value>
    property>
    <property>
        <name>dfs.namenode.rpc-address.myns.nn2name>
        <value>hadoop2:9000value>
    property>
    <property>
        <name>dfs.namenode.http-address.myns.nn1name>
        <value>hadoop1:50070value>
    property>
    <property>
        <name>dfs.namenode.http-address.myns.nn2name>
        <value>hadoop2:50070value>
    property>

    <property>
        <name>dfs.namenode.shared.edits.dirname>
        <value>qjournal://hadoop1:8485;hadoop2:8485;hadoop3:8485/mynsvalue>
        <description>
            JournalNode的配置
            格式是qjournal://host1:port1;host2:port2;host3:port3/journalID
            默认端口号是8485，journalID建议使用nameservice的名称
        description>
    property>
    <property>
        <name>dfs.journalnode.edits.dirname>
        <value>/home/commons/hadoop/hdfs/journalvalue>
    property>

    <property>
        <name>dfs.ha.automatic-failover.enabledname>
        <value>truevalue>
        <description>HDFS的故障自动转移服务description>
    property>
    <property>
        <name>dfs.client.failover.proxy.provider.mynsname>
        <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvidervalue>
        <description>客户端(client)通过该类获取active NameNodedescription>
    property>
    <property>
        <name>ha.failover-controller.cli-check.rpc-timeout.msname>
        <value>60000value>
    property>

    <property>
        <name>dfs.ha.fencing.methodsname>
        <value>
            sshfence
            shell(/bin/true)
        value>
        <description>隔离机制(fencing)，防止主备切换时同时存在2个master的情况description>
    property>
    <property>
        <name>dfs.ha.fencing.ssh.private-key-filesname>
        <value>~/.ssh/id_rsavalue> 
        <description>隔离机制(fencing)使用的远程控制密钥description>
    property>
    <property>
        <name>dfs.ha.fencing.ssh.connect-timeoutname>
        <value>30000value>
    property>
configuration>

编辑vim mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.namename>
        <value>yarnvalue>
    property>
    <property>
        <name>mapreduce.jobtracker.http.addressname>
        <value>hadoop2:50030value>
    property>
    <property>
        <name>mapreduce.jobhistory.addressname>
        <value>hadoop2:10020value>
    property>
    <property>
        <name>mapreduce.jobhistory.webapp.addressname>
        <value>hadoop2:19888value>
    property>
    <property>
        <name>mapred.job.trackername>
        <value>http://hadoop2:9001value>
    property>
configuration>

编辑vim yarn-site.xml

<configuration>
    <property>
        <name>yarn.resourcemanager.ha.enabledname>
        <value>truevalue>
    property>

    <property>
        <name>yarn.resourcemanager.cluster-idname>
        <value>myynvalue>
    property>
    <property>
        <name>yarn.resourcemanager.ha.rm-idsname>
        <value>rm1,rm2value>
    property>
    <property>
        <name>yarn.resourcemanager.hostname.rm1name>
        <value>hadoop1value>
    property>
    <property>
        <name>yarn.resourcemanager.hostname.rm2name>
        <value>hadoop2value>
    property>
    <property>
        <name>yarn.resourcemanager.webapp.address.rm1name>
        <value>hadoop1:8088value>
    property>
    <property>
        <name>yarn.resourcemanager.webapp.address.rm2name>
        <value>hadoop2:8088value>
    property>

    <property>
        <name>yarn.resourcemanager.zk-addressname>
        <value>zk1:2181,zk2:2181,zk3:2181value>
    property>
    <property>
        <name>yarn.resourcemanager.recovery.enabledname>
        <value>truevalue>
        <description>
            ResourceManger会将应用的状态信息保存到yarn.resourcemanager.store.class配置的存储介质中，
            重启后会加载这些信息，并且NodeManger会将还在运行的container信息同步到ResourceManager。
        description>
    property>
    <property>
        <name>yarn.resourcemanager.store.classname>
        <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStorevalue>
    property>

    <property>
        <name>yarn.nodemanager.aux-servicesname>
        <value>mapreduce_shufflevalue>
    property>
    <property>
        <name>yarn.log-aggregation-enablename>
        <value>truevalue>
    property>
    <property>
        <name>yarn.log-aggregation.retain-secondsname>
        <value>86400value>
    property>

    <property>
        <name>yarn.application.classpathname>
        <value>
            /home/commons/hadoop/etc/hadoop,
            /home/commons/hadoop/share/hadoop/common/*,
            /home/commons/hadoop/share/hadoop/common/lib/*,
            /home/commons/hadoop/share/hadoop/hdfs/*,
            /home/commons/hadoop/share/hadoop/hdfs/lib/*,
            /home/commons/hadoop/share/hadoop/yarn/*,
            /home/commons/hadoop/share/hadoop/yarn/lib/*,
            /home/commons/hadoop/share/hadoop/mapreduce/*
        value>
    property>
configuration>

由于目前几台服务器配置较低，所以yarn调度默认配置不满足，死活起动不了job，提交后一直ACCEPTED。修改配置文件vim capacity-scheduler.xml
默认0.1修改的大些，我直接改到0.5,这一步不是必要，有资源问题可以修改

  <property>
    <name>yarn.scheduler.capacity.maximum-am-resource-percentname>
    <value>0.5value>
    <description>
      Maximum percent of resources in the cluster which can be used to run
      application masters i.e. controls number of concurrent running
      applications.
    description>
  property>

配置vim workers

hadoop1
hadoop2
hadoop3

同步配置文件,拷贝到其它两台上

cd /home/commons/hadoop/etc/hadoop
scp * hadoop2:/home/commons/hadoop/etc/hadoop
scp * hadoop3:/home/commons/hadoop/etc/hadoop

启动和停止Hadoop

启动JournalNode

# 在hadoop1上启动
hdfs --workers --daemon start journalnode

格式化NameNode

hadoop namenode -format

格式化后同步namenode的信息文件给hadoop2。因为有2个NameNode节点，hadoop1和hadoop2

scp -r /home/commons/hadoop/hdfs/name/current/ hadoop2:/home/commons/hadoop/hdfs/name/

格式化zkfc

zkfc = ZKFailoverController = ZooKeeper Failover Controller,zkfc用于监控NameNode状态信息，并进行自动切换。

启动HDFS和Yarn

# 下面这两步是最经常出现报错的，因此第一次先一步步单独启动
start-dfs.sh
start-yarn.sh
# 第1次部署时需要用上面的操作，后面启动可以直接用全部启动脚本
start-all.sh

hadoop1上查看进程

hadoop2上查看进程

访问hadoop1 NameNode节点的HDFS的页面http://hadoop1:50070/

访问hadoop1 NameNode节点的HDFS的页面http://hadoop2:50070/

访问yarn的ResourceManager的管理页面http://hadoop2:8088/ ，访问http://hadoop1:8088/会跳转到hadoop2上

HDFS环境测试

# HDFS中创建文件
hadoop fs -mkdir /mytest
hadoop fs -ls  /

查看页面浏览文件系统也可以看下创建的目录

计算和资源环境测试

# 上传一个文件和创建输出目录
hadoop fs -put  word.txt /mytest
hadoop fs -ls  /mytest

# 执行wordcount计算
cd /home/commons/hadoop
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount /mytest /output

查看yarn的ResourceManager的管理页面http://hadoop2:8088/ ，可以看到提交任务已经跑完

查看HDFS的页面http://hadoop2:50070/ ，查看到output目录有输出part-r-00000的文件，文件的内容为正确单词频次统计结果。

**本人博客网站 **IT小神 www.itxiaoshen.com

Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Kafka是如何保证数据的安全性、可靠性和分区的喜欢猪猪 kafka 分布式
Kafka作为一个高性能、可扩展的分布式流处理平台，通过多种机制来确保数据的安全性、可靠性和分区的有效管理。以下是关于Kafka如何保证数据安全性、可靠性和分区的详细解析：一、数据安全性SSL/TLS加密：Kafka支持SSL/TLS协议，通过配置SSL证书和密钥来加密数据传输，确保数据在传输过程中不会被窃取或篡改。这一机制有效防止了中间人攻击，保护了数据的安全性。SASL认证：Kafka支持多种
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，