吃一口桃酥

推荐系统lambda架构学习笔记之Hadoop、HDFS、YARN&MapReduce（三）

Hadoop

Hadoop介绍

Hadoop名字的由来
- 作者：Doug cutting
- Hadoop项目作者的孩子给一个棕黄色的大象样子的填充玩具的命名
Hadoop的概念:
- Apache™ Hadoop® 是一个开源的, 可靠的(reliable), 可扩展的(scalable)分布式计算框架
  - 允许使用简单的编程模型跨计算机集群分布式处理大型数据集
  - 可扩展: 从单个服务器扩展到数千台计算机，每台计算机都提供本地计算和存储
  - 可靠的: 不依靠硬件来提供高可用性(high-availability)，而是在应用层检测和处理故障，从而在计算机集群之上提供高可用服务

Hadoop能做什么?

搭建大型数据仓库

PB级数据的存储处理分析统计等业务

搜索引擎
日志分析
数据挖掘

商业智能(Business Intelligence，简称：BI)

商业智能通常被理解为将企业中现有的数据(订单、库存、交易账目、客户和供应商等数据)转化为知识，帮助企业做出明智的业务经营决策的工具。从技术层面上讲，是数据仓库、数据挖掘等技术的综合运用。

Hadoop发展史
- 2003-2004年 Google发表了三篇论文
  - GFS：Google的分布式文件系统Google File System
  - MapReduce: Simplified Data Processing on Large Clusters
  - BigTable：一个大型的分布式数据库
- 2006年2月Hadoop成为Apache的独立开源项目( Doug Cutting等人实现了DFS和MapReduce机制)。
- 2006年4月— 标准排序(10 GB每个节点)在188个节点上运行47.9个小时。
- 2008年4月— 赢得世界最快1TB数据排序在900个节点上用时209秒。
- 2008年— 淘宝开始投入研究基于Hadoop的系统–云梯。云梯总容量约9.3PB，共有1100台机器，每天处理18000道作业，扫描500TB数据。
- 2009年3月— Cloudera推出CDH（Cloudera’s Dsitribution Including Apache Hadoop）
- 2009年5月— Yahoo的团队使用Hadoop对1 TB的数据进行排序只花了62秒时间。
- 2009年7月— Hadoop Core项目更名为Hadoop Common;
- 2009年7月— MapReduce和Hadoop Distributed File System (HDFS)成为Hadoop项目的独立子项目。
- 2012年11月— Apache Hadoop 1.0 Available
- 2018年4月— Apache Hadoop 3.1 Available
- 搜索引擎时代
  - 有保存大量网页的需求(单机集群)
  - 词频统计 word count PageRank
- 数据仓库时代
  - FaceBook推出Hive
  - 曾经进行数分析与统计时, 仅限于数据库,受数据量和计算能力的限制, 我们只能对最重要的数据进行统计和分析(决策数据,财务相关)
  - Hive可以在Hadoop上运行SQL操作, 可以把运行日志, 应用采集数据,数据库数据放到一起分析
- 数据挖掘时代
  - 啤酒尿不湿
  - 关联分析
  - 用户画像/物品画像
- 机器学习时代广义大数据
  - 大数据提高数据存储能力, 为机器学习提供燃料
  - alpha go
  - siri 小爱天猫精灵

Hadoop核心组件

Hadoop是所有搜索引擎的共性问题的廉价解决方案
- 如何存储持续增长的海量网页: 单节点 V.S. 分布式存储
- 如何对持续增长的海量网页进行排序: 超算 V.S. 分布式计算
- HDFS 解决分布式存储问题
- MapReduce 解决分布式计算问题
Hadoop Common: The common utilities that support the other Hadoop modules.(hadoop的核心组件)
Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.(分布式文件系统)
- 源自于Google的GFS论文, 论文发表于2003年10月
- HDFS是GFS的开源实现
- HDFS的特点:扩展性&容错性&海量数量存储
- 将文件切分成指定大小的数据块, 并在多台机器上保存多个副本
- 数据切分、多副本、容错等操作对用户是透明的
下面这张图是数据块多份复制存储的示意
- 图中对于文件 /users/sameerp/data/part-0，其复制备份数设置为2, 存储的BlockID分别为1、3。
- Block1的两个备份存储在DataNode0和DataNode2两个服务器上
- Block3的两个备份存储在DataNode4和DataNode6两个服务器上

Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.
- 分布式计算框架
- 源于Google的MapReduce论文，论文发表于2004年12月
- MapReduce是GoogleMapReduce的开源实现
- MapReduce特点:扩展性&容错性&海量数据离线处理

Hadoop YARN: A framework for job scheduling and cluster resource management.(资源调度系统)
- YARN: Yet Another Resource Negotiator
- 负责整个集群资源的管理和调度
- YARN特点:扩展性&容错性&多框架资源统一调度

Hadoop优势

高可靠
- 数据存储: 数据块多副本
- 数据计算: 某个节点崩溃, 会自动重新调度作业计算
高扩展性
- 存储/计算资源不够时，可以横向的线性扩展机器
- 一个集群中可以包含数以千计的节点
- 集群可以使用廉价机器，成本低
Hadoop生态系统成熟

环境搭建

下载jdk 和 hadoop 放到 ~/software目录下然后解压到 ~/app目录下
```
tar -zxvf 压缩包名字 -C ~/app/
```

配置环境变量

vi ~/.bash_profile
export JAVA_HOME=/root/bigdata/jdk
export PATH=$JAVA_HOME/bin:$PATH
export HADOOP_HOME=/root/bigdata/hadoop
export PATH=$HADOOP_HOME/bin:$PATH

#保存退出后
source ~/.bash_profile

进入到解压后的hadoop目录修改配置文件

配置文件作用
- core-site.xml 指定hdfs的访问方式
- hdfs-site.xml 指定namenode 和 datanode 的数据存储位置
- mapred-site.xml 配置mapreduce
- yarn-site.xml 配置yarn
修改hadoop-env.sh

cd etc/hadoop
vi hadoop-env.sh
#找到下面内容添加java home
export_JAVA_HOME=/root/bigdata/jdk

修改 core-site.xml 在节点中添加

<configuration>
        <property>
                <name>hadoop.tmp.dirname>
                <value>file:/root/bigdata/hadoop/tmpvalue>
        property>
        <property>
                <name>fs.defaultFSname>
                <value>hdfs://hadoop-master:9000value>
        property>
configuration>

修改hdfs-site.xml 在 configuration节点中添加

<property>
    <name>dfs.namenode.name.dirname>
    <value>/root/bigdata/hadoop/hdfs/namevalue>
property>
<property>
    <name>dfs.datanode.data.dirname>
    <value>/root/bigdata/hadoop/hdfs/datavalue>
property>
<property>
    <name>dfs.replicationname>
    <value>1value>
property>

修改 mapred-site.xml
默认没有这个从模板文件复制

cp mapred-site.xml.template mapred-site.xml

在mapred-site.xml 的configuration 节点中添加

<property>
    <name>mapreduce.framework.namename>
    <value>yarnvalue>
property>

修改yarn-site.xml configuration 节点中添加

<property>
    <name>yarn.nodemanager.aux-servicesname>
    <value>mapreduce_shufflevalue>
property>

来到hadoop的bin目录

./hadoop namenode -format (这个命令只运行一次)

启动hdfs 进入到 sbin
```
./start-dfs.sh
```
启动启动yarn 在sbin中

分布式文件系统HDFS

HDFS的使用

启动HDFS

来到$HADOOP_HOME/sbin目录下
执行start-dfs.sh

[hadoop@hadoop00 sbin]$ ./start-dfs.sh

可以看到 namenode和 datanode启动的日志信息

Starting namenodes on [hadoop00]
hadoop00: starting namenode, logging to /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/logs/hadoop-hadoop-namenode-hadoop00.out
localhost: starting datanode, logging to /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/logs/hadoop-hadoop-datanode-hadoop00.out
Starting secondary namenodes [0.0.0.0]
0.0.0.0: starting secondarynamenode, logging to /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/logs/hadoop-hadoop-secondarynamenode-hadoop00.out

通过jps命令查看当前运行的进程

[hadoop@hadoop00 sbin]$ jps
4416 DataNode
4770 Jps
4631 SecondaryNameNode
4251 NameNode

可以看到 NameNode DataNode 以及 SecondaryNameNode 说明启动成功

通过可视化界面查看HDFS的运行情况
- 通过浏览器查看 192.168.19.137:50070

Overview界面查看整体情况
Datanodes界面查看datanode的情况

HDFS shell操作

调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式
- ls
  
  使用方法：hadoop fs -ls
  
  如果是文件，则按照如下格式返回文件信息：
  文件名 <副本数> 文件大小修改日期修改时间权限用户ID 组ID
  如果是目录，则返回它直接子文件的一个列表，就像在Unix中一样。目录返回列表的信息如下：
  目录名
  修改日期修改时间权限用户ID 组ID
  示例：
  hadoop fs -ls /user/hadoop/file1 /user/hadoop/file2 hdfs://host:port/user/hadoop/dir1 /nonexistentfile
  返回值：
  成功返回0，失败返回-1。
- text
  
  使用方法：hadoop fs -text
  
  将源文件输出为文本格式。允许的格式是zip和TextRecordInputStream。
- mv
  
  使用方法：hadoop fs -mv URI [URI …]
  
  将文件从源路径移动到目标路径。这个命令允许有多个源路径，此时目标路径必须是一个目录。不允许在不同的文件系统间移动文件。
  示例：
  - hadoop fs -mv /user/hadoop/file1 /user/hadoop/file2
  - hadoop fs -mv hdfs://host:port/file1 hdfs://host:port/file2 hdfs://host:port/file3 hdfs://host:port/dir1
  返回值：
  
  成功返回0，失败返回-1。
- put
  
  使用方法：hadoop fs -put …
  
  从本地文件系统中复制单个或多个源路径到目标文件系统。也支持从标准输入中读取输入写入目标文件系统。
  - hadoop fs -put localfile /user/hadoop/hadoopfile
  - hadoop fs -put localfile1 localfile2 /user/hadoop/hadoopdir
  - hadoop fs -put localfile hdfs://host:port/hadoop/hadoopfile
  - hadoop fs -put - hdfs://host:port/hadoop/hadoopfile
    从标准输入中读取输入。
  返回值：
  
  成功返回0，失败返回-1。
- rm
  
  使用方法：hadoop fs -rm URI [URI …]
  
  删除指定的文件。只删除非空目录和文件。请参考rmr命令了解递归删除。
  示例：
  - hadoop fs -rm hdfs://host:port/file /user/hadoop/emptydir
  返回值：
  
  成功返回0，失败返回-1。
http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html

HDFS shell操作练习

在centos 中创建 test.txt
```
touch test.txt
```
在centos中为test.txt 添加文本内容
```
vi test.txt
```
在HDFS中创建 hadoop001/test 文件夹
```
hadoop fs -mkdir -p /hadoop001/test
```

把text.txt文件上传到HDFS中

hadoop fs -put test.txt /hadoop001/test/

查看hdfs中 hadoop001/test/test.txt 文件内容
```
hadoop fs -cat /hadoop001/test/test.txt
```
将hdfs中 hadoop001/test/test.txt文件下载到centos
```
hadoop fs -get /hadoop001/test/test.txt test.txt
```
删除HDFS中 hadoop001/test/

hadoop fs -rm -r /hadoop001

HDFS设计思路

分布式文件系统的设计思路：

HDFS的设计目标
- 适合运行在通用硬件(commodity hardware)上的分布式文件系统
- 高度容错性的系统，适合部署在廉价的机器上
- HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用
- 容易扩展，为用户提供性能不错的文件存储服务

HDFS架构

1个NameNode/NN(Master) 带 DataNode/DN(Slaves) (Master-Slave结构)
1个文件会被拆分成多个Block
NameNode(NN)
- 负责客户端请求的响应
- 负责元数据（文件的名称、副本系数、Block存放的DN）的管理
  - 元数据 MetaData 描述数据的数据
- 监控DataNode健康状况 10分钟没有收到DataNode报告认为Datanode死掉了
DataNode(DN)
- 存储用户的文件对应的数据块(Block)
- 要定期向NN发送心跳信息，汇报本身及其所有的block信息，健康状况
分布式集群NameNode和DataNode部署在不同机器上
HDFS优缺点
- 优点
  - 数据冗余硬件容错
  - 适合存储大文件
  - 处理流式数据
  - 可构建在廉价机器上
- 缺点
  - 低延迟的数据访问
  - 小文件存储

资源调度框架 YARN

YARN

Yet Another Resource Negotiator, 另一种资源协调者
通用资源管理系统
为上层应用提供统一的资源管理和调度，为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处

YARN产生背景

通用资源管理系统
- Hadoop数据分布式存储（数据分块，冗余存储）
- 当多个MapReduce任务要用到相同的hdfs数据，需要进行资源调度管理
- Hadoop1.x时并没有YARN，MapReduce 既负责进行计算作业又处理服务器集群资源调度管理
服务器集群资源调度管理和MapReduce执行过程耦合在一起带来的问题
- Hadoop早期, 技术只有Hadoop, 这个问题不明显
- 随着大数据技术的发展，Spark Storm … 计算框架都要用到服务器集群资源
- 如果没有通用资源管理系统，只能为多个集群分别提供数据
  - 资源利用率低运维成本高
- Yarn (Yet Another Resource Negotiator) 另一种资源调度器
  - Mesos 大数据资源管理产品
不同计算框架可以共享同一个HDFS集群上的数据，享受整体的资源调度

YARN的架构和执行流程

ResourceManager: RM 资源管理器 Master
整个集群同一时间提供服务的RM只有一个，负责集群资源的统一管理和调度
处理客户端的请求： submit, kill
监控我们的NM，一旦某个NM挂了，那么该NM上运行的任务需要告诉我们的AM来如何进行处理
NodeManager: NM 节点管理器 Slave
整个集群中有多个，负责自己本身节点资源管理和使用
定时向RM汇报本节点的资源使用情况
接收并处理来自RM的各种命令：启动Container
处理来自AM的命令
ApplicationMaster: AM
每个应用程序对应一个：MR、Spark，负责应用程序的管理,用于向RM申请资源
为应用程序向RM申请资源（core、memory），分配给内部task
需要与NM通信：启动/停止task，task是运行在container里面，AM也是运行在container里面
Container 容器: 封装了CPU、Memory等资源的一个容器,是一个任务运行环境的抽象
Client: 提交作业查询作业的运行进度,杀死作业

1，Client提交作业请求

2，ResourceManager 进程和 NodeManager 进程通信，根据集群资源，为用户程序分配第一个Container(容器)，并将 ApplicationMaster 分发到这个容器上面

3，在启动的Container中创建ApplicationMaster

4，ApplicationMaster启动后向ResourceManager注册进程,申请资源

5，ApplicationMaster申请到资源后，向对应的NodeManager申请启动Container,将要执行的程序分发到NodeManager上

6，Container启动后，执行对应的任务

7，Tast执行完毕之后，向ApplicationMaster返回结果

8，ApplicationMaster向ResourceManager 请求kill

YARN环境搭建

1）mapred-site.xml


    mapreduce.framework.name
    yarn

2）yarn-site.xml


    yarn.nodemanager.aux-services
    mapreduce_shuffle

启动YARN相关的进程
sbin/start-yarn.sh

4）验证
jps
ResourceManager
NodeManager
http://192,168.19.137:8088

5）停止YARN相关的进程
sbin/stop-yarn.sh

分布式处理框架 MapReduce

MapReduce（主要用于离线计算）

源于Google的MapReduce论文(2004年12月)
Hadoop的MapReduce是Google论文的开源实现
MapReduce优点: 海量数据离线处理&易开发
MapReduce缺点: 实时流式计算

MapReduce编程模型

MapReduce分而治之的思想
- 数钱实例：一堆钞票，各种面值分别是多少
  - 单点策略
    - 一个人数所有的钞票，数出各种面值有多少张
  - 分治策略
    - 每个人分得一堆钞票，数出各种面值有多少张
    - 汇总，每个人负责统计一种面值
  - 解决数据可以切割进行计算的应用
MapReduce编程分Map和Reduce阶段
- 将作业拆分成Map阶段和Reduce阶段
- Map阶段 Map Tasks 分：把复杂的问题分解为若干"简单的任务"
- Reduce阶段: Reduce Tasks 合：reduce
MapReduce编程执行步骤
- 准备MapReduce的输入数据
- 准备Mapper数据
- Shuffle
- Reduce处理
- 结果输出
编程模型
- 借鉴函数式编程方式
- 用户只需要实现两个函数接口：
  - Map(in_key,in_value)
    
    —>(out_key,intermediate_value) list
  - Reduce(out_key,intermediate_value) list
    
    —>out_value list
- Word Count 词频统计案例

MapReduce实战

利用MRJob编写和运行MapReduce代码

mrjob 简介

使用python开发在Hadoop上运行的程序, mrjob是最简单的方式
mrjob程序可以在本地测试运行也可以部署到Hadoop集群上运行
如果不想成为hadoop专家, 但是需要利用Hadoop写MapReduce代码,mrJob是很好的选择

mrjob 安装

使用pip安装
- pip install mrjob

mrjob实现WordCount

from mrjob.job import MRJob

class MRWordCount(MRJob):

    #每一行从line中输入
    def mapper(self, _, line):
        for word in line.split():
            yield word,1

    # word相同的 会走到同一个reduce
    def reducer(self, word, counts):
        yield word, sum(counts)

if __name__ == '__main__':
    MRWordCount.run()

运行WordCount代码

打开命令行, 找到一篇文本文档, 敲如下命令:

python mr_word_count.py my_file.txt

运行MRJOB的不同方式

1、内嵌(-r inline)方式

特点是调试方便，启动单一进程模拟任务执行状态和结果，默认(-r inline)可以省略，输出文件使用 > output-file 或-o output-file，比如下面两种运行方式是等价的

python word_count.py -r inline input.txt > output.txt
python word_count.py input.txt > output.txt

2、本地(-r local)方式

用于本地模拟Hadoop调试，与内嵌(inline)方式的区别是启动了多进程执行每一个任务。如：

python word_count.py -r local input.txt > output1.txt

3、Hadoop(-r hadoop)方式

用于hadoop环境，支持Hadoop运行调度控制参数，如：

1)指定Hadoop任务调度优先级(VERY_HIGH|HIGH),如：–jobconf mapreduce.job.priority=VERY_HIGH。

2)Map及Reduce任务个数限制，如：–jobconf mapreduce.map.tasks=2 --jobconf mapreduce.reduce.tasks=5

python word_count.py -r hadoop hdfs:///test.txt -o hdfs:///output

但3.3方式存在bug(默认本地识别python,而远程不识别python)，需声明本地python2/3的路径，解决如下

若需要将结果保存至其他服务器

mrjob 实现 topN统计（实验）

统计数据中出现次数最多的前n个数据

import sys
from mrjob.job import MRJob,MRStep
# 能够操作堆内存,性能高，内存移除较慢
import heapq

class TopNWords(MRJob):
    def mapper(self, _, line):
        if line.strip() != "":
            for word in line.strip().split():
                yield word,1

    #介于mapper和reducer之间，用于临时的将mapper输出的数据进行统计
    # 类似于小reducer,和reducer操作类似，但是运行在reducer之前，减轻reducer压力
    def combiner(self, word, counts):
        yield word,sum(counts)

    def reducer_sum(self, word, counts):
        yield None,(sum(counts),word)

    #利用heapq将数据进行排序，将最大的2个取出
    def top_n_reducer(self,_,word_cnts):
    # nlargest()类似于冒泡排序
    # nlargest 定义参数为2表示先在所有数据中取出前2个，再取出一个和2个中最小的比，如果小于，继续找下一个；否则，替换最小，再找下一个 
        for cnt,word in heapq.nlargest(2,word_cnts):
            yield word,cnt
    
	#实现steps方法用于指定自定义的mapper，comnbiner和reducer方法
    def steps(self):
        #传入两个step 定义了执行的顺序
        return [
        # 如果MRjob中存在系统方法和自定义方法，需要通过MRstep指定执行顺序mapper->combiner->reducer
            MRStep(mapper=self.mapper,
                   combiner=self.combiner,
                   reducer=self.reducer_sum),
            MRStep(reducer=self.top_n_reducer)
        ]

def main():
    TopNWords.run()

if __name__=='__main__':
    main()

MapReduce原理详解

单机程序计算流程

输入数据—>读取数据—>处理数据—>写入数据—>输出数据

Hadoop计算流程

input data：输入数据

InputFormat：对数据进行切分，格式化处理

map：将前面切分的数据做map处理(将数据进行分类，输出(k,v)键值对数据)

shuffle&sort:将相同的数据放在一起，并对数据进行排序处理

reduce：将map输出的数据进行hash计算，对每个map数据进行统计计算

OutputFormat：格式化输出数据

map：将数据进行处理

buffer in memory：达到80%数据时，将数据锁在内存上，将这部分输出到磁盘上

partitions：分区，在磁盘上有很多"小的数据"，将这些数据进行归并排序。

merge on disk：将所有的"小的数据"进行合并。

reduce：不同的reduce任务，会从map中对应的任务中copy数据

在reduce中同样要进行merge操作

MapReduce架构

MapReduce架构 1.X
- JobTracker:负责接收客户作业提交，负责任务到作业节点上运行，检查作业的状态
- TaskTracker：由JobTracker指派任务，定期向JobTracker汇报状态，在每一个工作节点上永远只会有一个TaskTracker

MapReduce2.X架构
- ResourceManager：负责资源的管理，负责提交任务到NodeManager所在的节点运行，检查节点的状态
- NodeManager：由ResourceManager指派任务，定期向ResourceManager汇报状态

Hadoop生态系统

狭义的Hadoop VS 广义的Hadoop

广义的Hadoop：指的是Hadoop生态系统，Hadoop生态系统是一个很庞大的概念，hadoop是其中最重要最基础的一个部分，生态系统中每一子系统只解决某一个特定的问题域（甚至可能更窄），不搞统一型的全能系统，而是小而精的多个小系统；

Hive:数据仓库

R:数据分析

Mahout:机器学习库

pig：脚本语言，跟Hive类似

Oozie:工作流引擎，管理作业执行顺序

Zookeeper:用户无感知，主节点挂掉选择从节点作为主的

Flume:日志收集框架

Sqoop:数据交换框架，例如：关系型数据库与HDFS之间的数据交换

Hbase : 海量数据中的查询，相当于分布式文件系统中的数据库

Spark: 分布式的计算框架基于内存

spark core
spark sql
spark streaming 准实时不算是一个标准的流式计算
spark ML spark MLlib

Kafka: 消息队列

Storm: 分布式的流式计算框架 python操作storm

Flink: 分布式的流式计算框架

Hadoop生态系统的特点

开源、社区活跃
囊括了大数据处理的方方面面
成熟的生态圈

HDFS 读写流程& 高可用

HDFS读写流程

客户端向NameNode发出写文件请求。
检查是否已存在文件、检查权限。若通过检查，直接先将操作写入EditLog，并返回输出流对象。
（注：WAL，write ahead log，先写Log，再写内存，因为EditLog记录的是最新的HDFS客户端执行所有的写操作。如果后续真实写操作失败了，由于在真实写操作之前，操作就被写入EditLog中了，故EditLog中仍会有记录，我们不用担心后续client读不到相应的数据块，因为在第5步中DataNode收到块后会有一返回确认信息，若没写成功，发送端没收到确认信息，会一直重试，直到成功）
client端按128MB的块切分文件。
client将NameNode返回的分配的可写的DataNode列表和Data数据一同发送给最近的第一个DataNode节点，此后client端和NameNode分配的多个DataNode构成pipeline管道，client端向输出流对象中写数据。client每向第一个DataNode写入一个packet，这个packet便会直接在pipeline里传给第二个、第三个…DataNode。
（注：并不是写好一个块或一整个文件后才向后分发）
每个DataNode写完一个块后，会返回确认信息。
（注：并不是每写完一个packet后就返回确认信息，个人觉得因为packet中的每个chunk都携带校验信息，没必要每写一个就汇报一下，这样效率太慢。正确的做法是写完一个block块后，对校验信息进行汇总分析，就能得出是否有块写错的情况发生）
写完数据，关闭输输出流。
发送完成信号给NameNode。

（注：发送完成信号的时机取决于集群是强一致性还是最终一致性，强一致性则需要所有DataNode写完后才向NameNode汇报。最终一致性则其中任意一个DataNode写完后就能单独向NameNode汇报，HDFS一般情况下都是强调强一致性）
HDFS如何实现高可用(HA)
- 数据存储故障容错
  - 磁盘介质在存储过程中受环境或者老化影响,数据可能错乱
  - 对于存储在 DataNode 上的数据块，计算并存储校验和（CheckSum)
  - 读取数据的时候, 重新计算读取出来的数据校验和, 校验不正确抛出异常, 从其它DataNode上读取备份数据
- 磁盘故障容错
  - DataNode 监测到本机的某块磁盘损坏
  - 将该块磁盘上存储的所有 BlockID 报告给 NameNode
  - NameNode 检查这些数据块在哪些DataNode上有备份,
  - 通知相应DataNode, 将数据复制到其他服务器上
- DataNode故障容错
  - 通过心跳和NameNode保持通讯
  - 超时未发送心跳, NameNode会认为这个DataNode已经宕机
  - NameNode查找这个DataNode上有哪些数据块, 以及这些数据在其它DataNode服务器上的存储情况
  - 从其它DataNode服务器上复制数据
- NameNode故障容错
  - 主从热备 secondary namenode
  - zookeeper配合 master节点选举

Hadoop发行版的选择

Apache Hadoop
- 开源社区版
- 最新的Hadoop版本都是从Apache Hadoop发布的
- Hadoop Hive Flume 版本不兼容的问题 jar包 spark scala Java->.class->.jar ->JVM
CDH: Cloudera Distributed Hadoop （推荐使用）
- Cloudera 在社区版的基础上做了一些修改
- http://archive.cloudera.com/cdh5/cdh/5/

hadoop-2.6.0-cdh-5.7.0 和 Flume*****-cdh5.7.0 cdh版本一致的各个组件配合是有不会有兼容性问题
CDH版本的这些组件没有全部开源
HDP: Hortonworks Data Platform

大数据产品与互联网产品结合

分布式系统执行任务瓶颈: 延迟高 MapReduce 几分钟 Spark几秒钟
互联网产品要求
- 毫秒级响应(1秒以内完成)
- 需要通过大数据实现统计分析数据挖掘关联推荐用户画像
大数据平台
- 整合网站应用和大数据系统之间的差异, 将应用产生的数据导入到大数据系统, 经过处理计算后再导出给应用程序使用
互联网大数据平台架构:

数据采集
- App/Web 产生的数据&日志同步到大数据系统
- 数据库同步:Sqoop 日志同步:Flume 打点: Kafka
- 不同数据源产生的数据质量可能差别很大
  - 数据库也许可以直接用
  - 日志爬虫大量的清洗,转化处理
数据处理
- 大数据存储与计算的核心
- 数据同步后导入HDFS
- MapReduce Hive Spark 读取数据进行计算结果再保存到HDFS
- MapReduce Hive Spark 离线计算, HDFS 离线存储
  - 离线计算通常针对(某一类别)全体数据, 比如历史上所有订单
  - 离线计算特点: 数据规模大, 运行时间长
- 流式计算
  - 淘宝双11 每秒产生订单数监控宣传
  - Storm(毫秒) SparkStreaming(秒)
数据输出与展示
- HDFS需要把数据导出交给应用程序, 让用户实时展示 ECharts
  - 淘宝卖家量子魔方
- 给运营和决策层提供各种统计报告, 数据需要写入数据库
  - 很多运营管理人员, 上班后就会登陆后台数据系统
任务调度系统
- 将上面三个部分整合起来

大数据应用–数据分析

通过数据分析指标监控企业运营状态, 及时调整运营和产品策略,是大数据技术的关键价值之一
大数据平台(互联网企业)运行的绝大多数大数据计算都是关于数据分析的
- 统计指标
- 关联分析,
- 汇总报告,
运营数据是公司管理的基础
- 了解公司目前发展的状况
- 数据驱动运营: 调节指标对公司进行管理
运营数据的获取需要大数据平台的支持
- 埋点采集数据
- 数据库,日志三方采集数据
- 对数据清洗转换存储
- 利用SQL进行数据统计汇总分析
- 得到需要的运营数据报告
运营常用数据指标
- 新增用户数 UG user growth 用户增长
  - 产品增长性的关键指标
  - 新增访问网站(新下载APP)的用户数
- 用户留存率
  - 用户留存率 = 留存用户数 / 当期新增用户数
  - 3日留存 5日留存 7日留存
- 活跃用户数
  - 打开使用产品的用户
  - 日活
  - 月活
  - 提升活跃是网站运营的重要目标
- PV Page View
  - 打开产品就算活跃
  - 打开以后是否频繁操作就用PV衡量, 每次点击, 页面跳转都记一次PV
- GMV
  - 成交总金额(Gross Merchandise Volume) 电商网站统计营业额, 反应网站应收能力的重要指标
  - GMV相关的指标: 订单量客单价
- 转化率
```
转化率 = 有购买行为的用户数 / 总访问用户数
```

数据分析案例

背景: 某电商网站, 垂直领域领头羊, 各项指标相对稳定
运营人员发现从 8 月 15 日开始，网站的订单量连续四天明显下跌
8 月 18 号早晨发现 8 月 17 号的订单量没有恢复正常，运营人员开始尝试寻找原因
- 是否有负面报道被扩散
- 是否竞争对手在做活动
- 是否某类商品缺货
- 价格异常
没有找到原因, 将问题交给数据分析团队

数据分析师分析可能性
- 新增用户出现问题
- 查看日活数据, 发现日活没有明显下降
  - 基本判断, 用户在访问网站的过程中,转化出了问题

转化过程:
- 打开APP
- 搜索关键词浏览搜索结果列表
- 点击商品访问详情
- 有购买意向开始咨询
- 放入购物车
- 支付

订单活跃转化率 = 日订单量 / 打开用户数
搜索打开转化率 = 搜索用户数 / 打开用户数
有明显降幅的是咨询详情转化率

对咨询信息分类统计后发现，新用户的咨询量几乎为 0
于是将问题提交给技术部门调查，工程师查看 8 月 15 日当天发布记录,发现有消息队列SDK（软件开发包，soft development kit）更新

Hadoop企业应用案例之消费大数据

亚马逊提前发货系统

Hadoop企业案例之商业零售大数据

智能推荐

你可能感兴趣的:(笔记,hadoop,hdfs,mapreduce)

阅读笔记‖不做无谓的争辩海风轻吹
《道德经》里讲：信言不美，美言不信；善者不辩，辩者不善。诸葛亮舌战群儒，一生经常与人辩论可谓雄辩之才，但是他却说：大辩不辩。辩论的最高境界，就是不辩！对待有些人，可能唯有沉默，才是最好的方法，沉默是金！庄子在《秋水》篇里讲过这样一句话：夏虫不可以语冰。就是说不要和夏天的虫子谈论冬天的冰，这纯属浪费时间。因为它从来没有感受过寒冬，它从来没有体验过冰雪，在它的世界里只有春天的阳光和炎炎夏日，它永远都无
《小狗钱钱2》读书笔记慧妍0010
文|慧妍图片发自App如果说《小狗钱钱》第一部侧重培养孩子的财商，那么第二部则侧重培养孩子的品格。《小狗钱钱2》提出了“甜甜圈理论”，即：甜甜圈外面的圈象征了金钱和一切可以消费的东西，而里面那个无形的圆孔就代表了人的内心，象征了我们无法看到却又必须具备的品格。没有金钱只有内心，生活都无法保证，幸福从何而来？只有金钱，失了内心的人，拥有的却不是真幸福。如何培养优秀的品格，书中给出了7条准则。每一条准
读书笔记06‖《时间管理，如何充分利用你的24小时》 Gemini_565d
54分钟，你没有听错，我读完了这本妙趣横生的书！总共128页，平均每分钟2页的阅读速度，我能行，你可以做到！作者用幽默诙谐的语言向我们讲述了时间管理的有效方法，字数不多，风格独特，没有废话！实际上并不单单指你24小时的内容！且来看看这本不占用你时间，但给你提出时间管理的技巧！01.主要结构与内容1.篇章结构上半部分:如何利用时间？下半部分:是否正在使用时间发挥最大效用？2.主要概念（1）意识是时间
2023-03-22 小郭不会打篮球
3.21笔记一、定位作用：显示定在所有其他元素之上、可以让元素在浏览器中任意位置。a标准流块级元素独占一行→垂直布局行内元素/行内块元素一行显示多个→水平布局b浮动可以让原本垂直布局的块级元素变成水平布局c定位可以让元素自由的摆放在网页的任意位置一般用于盒子之间的层叠情况1、属性名：position静态定位：static相对定位：relative绝对定位：absolute固定定位：fixed向下移
nextjs学习笔记 ainuo5213 web前端框架学习 next react react服务端渲染 next入门
由于本人最近在学习jocky老师的React16.8+Next.js+Koa2开发Github全栈项目关于react的服务端重构项目，然后跟着老师的视频做笔记，记录下自己的所学知识。目录结构pages(必需)：pages目录是nextjs中最终要的一个目录，这个目录的每一个文件都会对应到每一个页面，可以根据地址栏的路由进行跳转。若pages下的js文件在一个目录下，那么nextjs默认会将这个
读书笔记：德鲁克《管理的实践》17 李唐星辰
1、【企业对员工的要求】这个版块中提到：企业期望员工不只是被动接受劳动力工作，而必须主动承担达成经营绩效的责任。……要求越高，表现越好，是人的特性，因此员工能发挥多大的生产力，很大部分取决于企业对他们的要求有多高。星辰感悟：人的潜力是无限的。说这句话的时候，不仅肯定了自己，也肯定了所有奋斗的人。很多时候，认知会限制我们的想法。这跟小马过河是一个道理。松鼠小觉得小溪就是一条河，但是对于马儿来说根本不
Java程序设计笔记是程序蜂啊 java 笔记开发语言
Java程序设计目录Java程序设计第一章java语言开发环境1.1工具篇1.2Eclipse调整字体第三章Java基础3.1java基本数据类型3.2关键字与标识符3.3常数3.4变量3.5.数据类型转换3.6由键盘输入数据4.1顺序结构4.2分支语句5.1什么是数组5.2数组赋值：5.3一维数组5.4二维数组6.1类的基本概念6.2定义类6.3对象的创建与使用6.4参数的传递第七章java语言
《陪伴成长》读书笔记(一) 姬磨小学李会巧
今天，我读了《陪伴成长》中的“家庭教育不能盲从”这一章节，感受颇深。的确，在这个重视教育的年代，怎么样才能把自己的孩子教育成功呢？我们的孩子到底需要什么样的教育呢？当今社会，很多人都在渴望自己的孩子成为优秀，但他们很多人都忽视了优秀人才成长的基础；众多人都在关心孩子的教育，但他们很多人都把目光投向了分数；众多人都在以孩子成绩为荣，但他们很多人都淡忘了心理健康与道德修养；众多人都在给予爱，但他们很多
黑衣天使看见幸福开花
今日笔记：谁用脑谁受苦。半夜吃东西，因为我饿了，饿了就吃，困了就睡。不再带着担忧恐惧对孩子说：大半夜吃了东西，对肠胃不好啊。但我担忧恐惧半夜吃东西对孩子不好时，第一步要做的是格这个担忧恐惧，而不是欺骗自己说不担忧不恐惧，需要诚意的面对自己的情绪，再功课处理情绪。当我愤怒攻击对方，想让对方关注我，理解我的时候，我需要做的是看到自己的愤怒委屈，看着我的愤怒宝宝，委屈宝宝，而不是去想他为什么要如此针对我
Python学习笔记 cherishSpring python python 学习笔记
目录一、名词解释二、数据类型（变量名无类型，变量值有类型）三、数据类型转换(万物皆可转字符串)四、标识符五、运算符六、字符串扩展七、数据输入八、if语句九、while语句十、for循环语句十一、函数十二、数据容器1、List列表2、tuple元组3、字符串4、序列的常用操作-切片5、set集合6、dict字典7、数据容器相互转换8、通用操作十三、文件编码一、名词解释1、字面量被写在代码中的固定的值
D065+8组煎果子+《高效能人士的7个习惯》读书笔记煎果子
习惯一：积极主动时下盛行的社会观点认为，环境与条件对我们起着决定性的作用。我们不否认条件作用的影响巨大，但并不等于承认它凌驾于一切之上，甚至可以决定我们的命运。在外界的刺激与最后的回应之间，人拥有选择的自由，这也是人与动物之间最大的不同。史蒂芬•柯维指出，看一个人的时间和精力集中于哪些事物，就可以大致判断出他是否积极主动。作者将我们关注的问题分成两类：关注圈和影响圈。关注圈，是指我们关注的问题，包
白帽必备技术栏目一（javascript基础）
直接进入主题正好也在带学生会把笔记同步发送到csdn上后期不管是去就业还是在家里挖洞都都行javascript基础注意事项局部作用域里面给到的变量不加var就会变成全局变量数据类型boolean布尔类型boolean除了0和空字符串以及nullundefined其他的都是truevarbool=true;varbool=false;number类型varnum=10;//10varnum=0x23
人的行为读书笔记，2-7 夕颜剑主
第二章人的行为科学在认识论层次的一些问题第七节历史的范畴和专门的研究方法1.历史的研究范畴与历史家如何进行真正的历史工作历史的范畴是研究所有关于人的行为的经验资料。历史学家收集、批判、筛选所有可以取得的文件，以这种证据为基础，着手进行真正的历史工作。2.错误的历史研究方法有人说，历史的任务是揭露一些事件实际上是如何发生的，不允许有所遐想，亦不许有价值判断（也即，对于一切价值判断保持中立）。他们认为
《我和你》读书笔记（六）相信，遇见心理咨询师卜彬
如何才能在一个生命的里面让早被掩埋的联系能量复活呢？如何才能让一个一直生活在任性之中的人觉到自由呢？自由同命运如影随形，任性与灾难也是如影随形。但自由同命运有誓约，任性与灾难、灵魂魔魅与世界鬼魇，则不过是一团和气地住在一起，而且很小心不想伤害和气，哪有什么结合可言，也谈不上有摩擦，完全无意义可言——直到在某一刻，眼神一不小心对上了，终于意识到原来并没有得到救赎！自由人是那种并非由于任性而有所想要的
hive底层原理 sql执行过程_Hive原理总结（完整版）
目录课程大纲(HIVE增强)31.Hive基本概念41.1Hive简介41.1.1什么是Hive41.1.2为什么使用Hive41.1.3Hive的特点41.2Hive架构51.2.1架构图51.2.2基本组成51.2.3各组件的基本功能51.3Hive与Hadoop的关系61.4Hive与传统数据库对比61.5Hive的数据存储62.Hive基本操作72.1DDL操作72.1.1创建表72.1.
Matlab 数字图像第二章矩阵及其运算肌肉猛1大序子 matlab 矩阵开发语言图像处理
目录2.1矩阵的创建2.1.1直接输入：2.1.2载入外部数据文件2.1.3利用内置函数创建2.2矩阵的寻访2.2.1下标元素访问2.2.2访问单元素2.3矩阵的拼接2.3.1矩阵拼接符[]2.3.2函数2.4矩阵的运算2.4.1加减2.4.2乘除2.4.3乘方2.4.4按位运算2.4.5行列式与秩2.4.6逆与迹2.4.7矩阵的范数（?)2.4.8特征值和特征向量PS纯纯用来记笔记，要是有错随时
【读书笔记】《做高效能父母》之接纳：关系是一切管教的基础端端妈
一、没有人比我更爱孩子，但我真的接纳他吗？三个孩子的宝妈，由于居住环境的改变，发现原本听话的3个孩子，每个人都发生了变化，都在变得不听话了，于是妈妈开始反省自己的过失，给我们分享了正面管教的四个有效管教标准和6A课程。正面管教的四个有效管教标准1.是否和善与坚定并行？2.是否有助于孩子感受到归属感和价值感？3.是否长期有效？4.是否能教给孩子有价值的社会技能和人生技能，培养孩子的良好品格？6A课程
课程设计的三大关键要素社群asd
最常犯的错误：没有对教学过程把控三大要素一：教学内容设计1：痛点解决（提分率问题，中高考痛点，成长痛点，某些没有达到的事情2：趣味性强（擅用道具，吉他唱歌。语言魅力，学会讲故事，老师个人风采提升）3：结果呈现（简单易懂，汇报展示，笔记展示）二：课堂气氛设计1：课堂游戏设计（击鼓传花，一块五毛，小舞蹈，松鼠大树）2：小组pk（分小组，定学习委员，定游戏规则）3：积分激励三：结果呈现设计1：教师点评（
hive的sql优化思路-明白底层运行逻辑 ycllycll hive sql hadoop
一、首先要明白底层map、shuffle、reduce的顺序之中服务器hdfs数据文件在内存与存储之中是怎么演变的，因为hive的性能瓶颈基本在内存，具体参考以下他人优秀文章：1.HiveSQL底层执行过程详细剖析2.HiveJOIN性能调优二是要明白hive对应的sql它底层的mapreduce的过程中sql字段的执行顺序，来理解map的key、value会填充什么值，才能深刻理解怎么一步一步的
Spring 中的 Bean 作用域(Scope)有哪些？各自适用于什么场景？
面试考察重点Spring框架核心概念的理解深度Bean生命周期管理机制的掌握不同作用域的适用场景判断能力Web环境与非Web环境的差异认知Spring配置与使用的实际经验粉丝福利！需要全套2025最新Java面试笔记的【点击此处即可】即可免费获取！面试核心知识点详解Spring提供的标准作用域：singleton(单例)：默认作用域每个SpringIoC容器只存在一个Bean实例所有对该Bean的
Spring的IOC是什么？它解决了哪些问题？浮生带你学Java Java面试题 Spring spring rpc java
面试考察重点Spring核心机制的理解程度依赖注入和控制反转概念的区分解耦思想和设计模式的应用能力Spring容器实现原理的掌握Bean生命周期管理的认知粉丝福利！需要全套2025最新Java面试笔记的【点击此处即可】即可免费获取！面试核心知识点详解IOC基本概念：IOC(InversionofControl)：控制反转，是一种设计思想DI(DependencyInjection)：依赖注入，是I
美团外卖券购买攻略，如何轻松获取优惠？高省APP
美团外卖凭借其便捷的服务和丰富的选择，成为了许多消费者日常用餐的首选。而美团外卖券作为一种常见的优惠方式，更是受到了广大用户的青睐。那么，如何购买美团外卖券呢？本文将为您详细解答，并带您了解购买过程中的注意事项。都在挣钱！推荐个月入几千到几万的靠谱副业项目！月入十万必看！都在挣钱！推荐几个月入几千到几万的靠谱副业项目！（公众号：善士思维笔记）公众号流量主就找善士导师（shanshi2024）公众号
鉴峰笔记.高处鉴峰笔记
鉴峰自我管理[连续签到第84天]2018-4-2周一开门红鉴峰笔记之高处:当你我，以宽恕之心向后看，以希望之心向前看，以同情之心向下看，以感激之心向上看时，你我就站在了生活的高处。早安！图片发自App
美团外卖红包优惠券领取全攻略：轻松享受美食优惠氧惠好项目
美团外卖作为外卖行业的领军品牌，一直以其便捷的服务和丰富的菜品选择受到消费者的喜爱。而在美团外卖上，红包优惠券更是让消费者能够以更低的价格享受到美食。那么，美团外卖红包优惠券怎么领取呢？接下来，本文将为您详细介绍美团外卖红包优惠券的领取方法。都在挣钱！推荐个月入几千到几万的靠谱副业项目！月入十万必看！都在挣钱！推荐几个月入几千到几万的靠谱副业项目！（公众号：善士思维笔记）公众号流量主就找善士导师（
5—6中药学之【温里药+理气药】彩霞姐姐的学习笔记境瑜伽彩霞
第十一单元温里药①“温”解决的是寒②本类药多辛热燥烈，“辛”—花椒、大蒜、辣椒的味道，辛味易耗上阴液使人上火③天气炎热/体内有火时减少用量④孕妇体内有热，容易导致胎动不安，慎用。胎动不安可以用：黄芩，竹茹，苎麻根1、附子：①✍考：回阳救逆第一要药：附子②亡阳证：亡阳指大量丢失阳，出现四肢寒冷+脉微欲绝③人的阳气一身之根本存在肾，元气（出存在肾）是生命活动的原动力。肾阳为阳气之根本，肾阳可以补充中焦
六、深度剖析 Hadoop 分布式文件系统（HDFS）的数据存储机制与读写流程
深度剖析Hadoop分布式文件系统（HDFS）的数据存储机制与读写流程在当今大数据领域当中，Hadoop分布式文件系统（HDFS）作为极为关键的核心组件之一，为海量规模的数据的存储以及处理构筑起了坚实无比的根基。本文将会对HDFS的数据存储机制以及读写流程展开全面且深入的探究，通过将原理与实际的实例紧密结合的方式，助力广大读者更加全面地理解HDFS的工作原理以及其具体的应用场景。一、HDFS概述H
读书笔记一年顶十年怎样才能常遇贵人一幻花韵马
学:改圈子，你才更有可能实现突破。走出去，你才更有可能遇到贵人。如果你想常遇贵人，那就一定不要宅着，不要封闭地活着，而要走出去，去认识更多优秀的人。思:贵人在什么地方？贵人对你有什么意义，他能带给怎样的价值？如何认识更多的贵人并得到贵人的帮助？行:我要主动走出去，往有贵人的圈子发展，改变自己的人际关系，想办法多遇贵人。
模式识别与机器学习课程笔记（1）：数学基础 Ro Jace 学习笔记机器学习笔记人工智能
模式识别与机器学习课程笔记（1）：数学基础特征矢量和特征空间随机矢量的描述随机矢量的分布函数随机矢量的数字特征随机变量、随机矢量间的统计关系随机矢量的变换正态分布正态分布的定义正态分布随机矢量的性质离散随机矢量及其分布信息论矩阵微分法基本知识矢量或矩阵对于数量变量的微分二、数量函数对于矢量的微分三、矢量函数对于矢量的微分特征矢量和特征空间特征量的类型：物理量、次序量、名义量物理量：直接反映特征的实
无论身处何种境地，我们能决定自己的生活姿态极昼之光明
11月23日读书打卡《你想活出怎样的人生》读书笔记（一）“你想活出怎样的人生”,这个灵魂一问，是对生命本真的思考和质问，听起来像是沉重的哲学命题，给读者的感觉，以为全书应该是深奥枯燥的哲学探讨。没想到，吉野源三郎写的这本书是以小说形式，围绕小哥白尼等几个少年成长这条主线，通过他们日常生活中几个浅显易懂的小故事，把生而为人应该具备的道德品质，轻松形象地呈现给了读者。这本书曾经影响了宫歧骏的一生，古稀
成功日记（Day492）狮子座的兔子姑娘
1、跟老师出诊。~4.5h。2、和z鹤学弟聊天。~1h。3、整理笔记。~0.5h。4、看了l玲公众号好几篇文章，打赏了她，并且和她聊聊天。~0.5h。5、写了一篇日记，算是对最近生活的梳理。感悟：发现自己已经离不开日记了。包括成功日记和心里话日记。心情：还可以。
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多