weixin_39883129

大数据 python hadoop_大数据与Hadoop

1. 大数据简介

1.1 大数据的由来

随着计算机技术的发展，互联网的普及，信息的积累已经到了一个非常庞大的地步，信息的增长也在不断的加快，随着互联网、物联网建设的加快，信息更是爆炸式增长，收集、检索、统计这些信息越发困难，必须使用新的技术来解决这些问题

1.2 什么是大数据

xxxxxxxxxx

【1】定义

大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产

【2】总结

大数据是指即从各种各样类型的数据中，获得有价值的信息

1.3 大数据特性

x

【1】大体量(Volume)

数据体量大,一般从TB级别开始计算，可从数百TB到数十数百PB甚至EB的规模

KB、MB、GB、TB、PB、EB、... ...

1KB = 1024Bytes

1MB = 1024K

1GB = 1024M

1TB = 1024G

1PB = 1024T

1EB = 1024P

... ...

【2】多样性(Variety)

数据的种类和来源多

【3】时效性(Velocity)

很多大数据需要在一定的时间限度下得到及时处理

【4】准确性(Veracity)

处理的结果要保证一定的准确性

【5】大价值(Value)

大数据包含很多深度的价值，大数据分析挖掘和利用将带来巨大的商业价值

【补充】

数据的价值密度越来越低,但是这并不意味着想要的数据越来越少,相反我们想要的数据是越来越多，但是样本总量的增长速度是要高于想要的数据的增长速度的

1.4 大数据与Hadoop

xxxxxxxxxx

【1】Hadoop是什么？

1.1) Hadoop是一种分析和处理海量数据的软件平台

1.2) Hadoop是一款开源软件，使用JAVA开发

1.3) Hadoop可以提供一个分布式基础架构

1.5 带来的问题

xxxxxxxxxx

【1】数据存储问题 - 存储速度、存储空间

【2】数据计算|分析问题 - 性能与效率问题

【说明】

1、numpy、pandas处理上GB的数据,如果处理TB、PB级别数据怎么办？

2、传统企业解决

3、谷歌解决方案:

使用MapReduce算法,将任务分成小份,并将他们分配到多台计算机,并且能够从多台计算机收集并合并，得到最终的结果。

谷歌实现了分布式存储、分布式计算

2. Hadoop简介

2.1 Hadoop概述

2.1.1 Hadoop概念

定义

Hadoop是Yahoo!开发，后贡献给了Apache的一套开源的、可靠的、可扩展的用于分布式计算的框架

Hadoop作者

Doug cutting

Hadoop名字由来

以Hadoop作者的孩子的一个棕黄色的大象样子的玩具的命名

2.1.2 Hadoop特点

高可靠性

Hadoop按位存储和数据处理的能力值得信赖

高扩展性

Hadoop通过可用的计算机集群分配数据，完成存储和计算任务，这些集群可以方便地扩展到数以千计的节点中，具有高扩展性

高效性

Hadoop能够在节点之间进行动态地移动数据，并保证各个节点的动态平衡，处理速度非常快，具有高效性

高容错性

Hadoop能够自动保存数据的多个副本(默认是3个)，并且能够自动将失败的任务重新分配

2.1.3 Hadoop能做什么

大数据量存储

分布式存储(各种云盘，百度，360~还有云平台均有hadoop应用)

日志处理

搜索引擎

如何存储持续增长的海量网页: 单节点 V.S. 分布式存储

如何对持续增长的海量网页进行排序: 超算 V.S. 分布式计算

数据挖掘

目前比较流行的广告推荐

2.1.4 Hadoop版本

Hadoop1.0

包含Common，HDFS和MapReduce，停止更新

Hadoop2.0

包含了Common，HDFS，MapReduce和YARN。Hadoop2.0和Hadoop1.0完全不兼容。

Hadoop3.0

包含了Common，HDFS，MapReduce，YARN。Hadoop3.0和Hadoop2.0是兼容的

2.2 Hadoop核心组件

2.2.1 HDFS(Hadoop Distributed File System)

HDFS

分布式存储，解决海量数据的存储

HDFS特点及原理

HDFS具有扩展性、容错性、海量数量存储的特点

原理为将大文件切分成指定大小的数据块, 并在分布式的多台机器上保存多个副本

HDFS角色和概念

Client

切分文件、访问HDFS、与NameNode交互获取文件位置信息、与DataNode交互读取和写入数据

Namenode

Master节点，管理HDFS的名称空间和数据块映射信息，配置副本策略，处理所有客户端请求

Secondarynode

定期同步NameNode，紧急情况下，可转正

Datanode

数据存储节点，存储实际的数据

汇报存储信息给NameNode

Block

每块默认128MB大小

每块可以多个副本

HDFS示意图

HDFS原理图

1、每个数据块3个副本，分布在两个机架内的节点，2个副本在同一个机架上，另外一个副本在另外的机架上

2、心跳检测，datanode定期向namenode发送心跳消息。查看是否有datanode挂掉了

3、secondary namenode;定期同步元数据映像文件和修改日志，namenode发生故障，secondaryname会成为主namenode

HDFS写文件流程

xxxxxxxxxx

【1】客户端将文件拆分成固定大小128M的块，并通知namenode

【2】namenode找到可用的datanode返回给客户端

【3】客户端根据返回的datanode，对块进行写入

【4】通过流水线管道流水线复制

【5】更新元数据，告诉namenode已经完成了创建新的数据块，保证namenode中的元数据都是最新的状态

HDFS读文件流程

xxxxxxxxxx

【1】客户端向namenode发起读请求，把文件名，路径告诉namenode

【2】namenode查询元数据，并把数据返回客户端

【3】此时客户端就明白文件包含哪些块，这些块在哪些datanode中可以找到

2.2.2 MapReduce

MapReduce实现了分布式计算

Hadoop的MapReduce是对google三大论文的MapReduce的开源实现，实际上是一种编程模型，是一个分布式的计算框架，用于处理海量数据的运算，由JAVA实现

MapReduce原理图

MapReduce角色及概念

JobTracker

–Master节点只有一个

–管理所有作业/任务的监控、错误处理等

–将任务分解成一系列任务，并分派给TaskTracker

TaskTracker

–Slave节点，一般是多台

–运行Map Task和Reduce Task

–并与JobTracker交互，汇报任务状态

Map Task

–解析每条数据记录，传递给用户编写的map()并执行，将结果输出

Reducer Task

–从Map Task的执行结果中，远程读取输入数据，对数据进行排序，将数据按照分组传递给用户编写的reduce函数执行

2.2.3 Yarn

作用

负责整个集群资源的管理和调度，是Hadoop的一个通用的资源管理系统

定义

Apache Hadoop YARN (Yet Another Resource Negotiator，另一种资源协调者)是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处

原理图

Yarn角色及概念

Resourcemanager

–处理客户端请求

–启动/监控ApplicationMaster

–监控NodeManager

–资源分配与调度

Nodemanager

–单个节点上的资源管理

–处理来自ResourceManager的命令

–处理来自ApplicationMaster的命令

ApplicationMaster

–为应用程序申请资源，并分配给内部任务

–任务监控与容错

Container

–对任务运⾏行环境的抽象，封装了CPU 、内存等

Client

–用户与Yarn交互的客户端程序

–提交应用程序、监控应用程序状态，杀死应用程序等

2.3 Hadoop总结

2.3.1 Hadoop组成

分布式存储 - HDFS

分布式计算 - MapReduce

资源管理 - Yarn

2.3.2 HDFS特点

HDFS优点

高可靠性

高扩展性

高效性

高容错性

低成本：与一体机、商用数据仓库等相比，hadoop是开源的，项目的软件成本因此会大大降低

HDFS缺点

不能做到低延迟，由于hadoop针对高数据吞吐量做了优化，牺牲了获取数据的延迟，所以对于低延迟数据访问，不适合hadoop

不适合大量小文件存储，由于namenode将文件系统的元数据存储在内存中，因此该文件系统所能存储的文件总数受限于namenode的内存容量，根据经验，每个文件、目录和数据块的存储信息大约占150字节

对于上传到HDFS上的文件，不支持修改文件，HDFS适合一次写入，多次读取的场景

2.3.3 HDFS相关

名词

NameNode

DataNode

写入文件流程

客户端将文件拆分成固定大小128M的块，并通知namenode

namenode找到可用的datanode返回给客户端

客户端根据返回的datanode，对块进行写入

通过流水线管道流水线复制

更新元数据，告诉namenode已经完成了创建新的数据块，保证namenode中的元数据都是最新的状态

读取文件流程

客户端向namenode发起独立请求，把文件名，路径告诉namenode

namenode查询元数据，并把数据返回客户端

此时客户端就明白文件包含哪些块，这些块在哪些datanode中可以找到

3. 环境安装

3.1 安装方式

单机模式

只能启动MapReduce

伪分布式

能启动HDFS、MapReduce 和 YARN的大部分功能

完全分布式

能启动Hadoop的所有功能

3.2 安装JDK

3.2.1 JDK安装步骤

更新Ubuntu源

sudo apt-get update

将JDK压缩包解压到Ubuntu系统中 /usr/local/ 中

sudo tar -zxvf jdk-8u251-linux-x64.tar.gz -C /usr/local/

将解压的文件夹重命名为 jdk8

cd /usr/local/

sudo mv jdk1.8.0_251/ jdk8

添加到环境变量

cd /home/tarena/

sudo gedit .bashrc

在文件末尾添加如下内容:

xxxxxxxxxx

export JAVA_HOME=/usr/local/jdk8

export JRE_HOME=$JAVA_HOME/jre

export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib

export PATH=.:$JAVA_HOME/bin:$PATH

source .bashrc

验证是否安装成功

java -version

3.3 安装Hadoop并配置伪分布式

3.3.1 Hadoop安装配置步骤

安装SSH

sudo apt-get install ssh

配置免登录认证,避免使用Hadoop时的权限问题

ssh-keygen -t rsa (输入此条命令后一路回车)

cd ~/.ssh

cat id_rsa.pub >> authorized_keys

ssh localhost (发现并未让输入密码即可连接)

exit (退出远程连接状态)

解压到 /usr/local 目录中,并将文件夹重命名为 hadoop，最后设置权限

sudo tar -zxvf hadoop-2.10.0.tar.gz -C /usr/local/

cd /usr/local

sudo mv hadoop-2.10.0/ hadoop2.10

sudo chown -R tarena hadoop2.10/

验证Hadoop

cd /usr/local/hadoop2.10/bin

./hadoop version (此处出现hadoop的版本)

设置JAVE_HOME环境变量

sudo gedit /usr/local/hadoop2.10/etc/hadoop/hadoop-env.sh

把原来的export JAVA_HOME=${JAVA_HOME}改为 export JAVA_HOME=/usr/local/jdk8

设置Hadoop环境变量

sudo gedit /home/tarena/.bashrc

在末尾追加

xxxxxxxxxx

export HADOOP_HOME=/usr/local/hadoop2.10

export CLASSPATH=.:{JAVA_HOME}/lib:${HADOOP_HOME}/sbin:$PATH

export PATH=.:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH

source /home/tarena/.bashrc

伪分布式配置，修改2个配置文件(core-site.xml 和 hdfs-site.xml)

修改core-site.xml

sudo gedit /usr/local/hadoop2.10/etc/hadoop/core-site.xml

添加如下内容

xxxxxxxxxx

hadoop.tmp.dir

file:/usr/local/hadoop2.10/tmp

fs.defaultFS

hdfs://localhost:9000

修改hdfs-site.xml

sudo gedit /usr/local/hadoop2.10/etc/hadoop/hdfs-site.xml

添加如下内容

xxxxxxxxxx

dfs.replication

1

dfs.namenode.name.dir

file:/usr/local/hadoop2.10/tmp/dfs/name

dfs.datanode.data.dir

file:/usr/local/hadoop2.10/tmp/dfs/data

配置YARN - 1

cd /usr/local/hadoop2.10/etc/hadoop

cp mapred-site.xml.template mapred-site.xml

sudo gedit mapred-site.xml

添加如下配置

xxxxxxxxxx

mapreduce.framework.name

yarn

配置YARN - 2

sudo gedit yarn-site.xml

添加如下配置：

xxxxxxxxxx

yarn.nodemanager.aux-services

mapreduce_shuffle

执行NameNode格式化

cd /usr/local/hadoop2.10/bin

./hdfs namenode -format

出现 Storage directory /usr/local/hadoop2.10/tmp/dfs/name has been successfully formatted 则表示格式化成功

启动Hadoop所有组件

cd /usr/local/hadoop2.10/sbin

./start-all.sh

启动时可能会出现警告，直接忽略即可，不影响正常使用

启动成功后，可访问Web页面查看 NameNode 和 Datanode 信息，还可以在线查看 HDFS 中的文件

查看Hadoop相关组件进程

jps

会发现如下进程

xxxxxxxxxx

NameNode

DataNode

SecondaryNameNode

ResourceManager

NodeManager

测试 - 将本地文件上传至hdfs

hadoop fs -put 一个本地的任意文件 /

hadoop fs -ls /

也可以在浏览器中Utilities->Browse the file system查看

4. HDFS Shell操作

4.1 命令格式

hadoop fs 命令

4.2 常用命令汇总

查看HDFS系统目录(ls)

命令格式：hadoop fs -ls 路径

示例：hadoop fs -ls /

创建文件夹(mkdir)

命令格式1 ：hadoop fs -mkdir 绝对路径

命令格式2 ：hadoop fs -mkdir -p 绝对路径 (可递归创建文件夹)

示例1 ：hadoop fs -mkdir /test

示例2 ：hadoop fs -mkdir -p /test/stu

上传文件(put)

命令格式：hadoop fs -put 本地文件 HDFS目录

示例：hadoop fs -put words.txt /test/

下载文件(get)

命令格式：hadoop fs -get HDFS文件本地目录

示例：hadoop fs -get /test/words.txt /home/tarena/

删除文件或目录(rm)

命令格式1 ：hadoop fs -rm 文件或目录的绝对路径

命令格式2 ：hadoop fs -rm -r 目录 (删除文件夹要加 -r 选项)

示例1 ：hadoop fs -rm /test/words.txt

示例2 ：hadoop fs -rm -r /test

查看文件内容(text)

命令格式：hadoop fs -text 文件绝对路径

示例：hadoop fs -text /test/words.txt

移动(mv)

命令格式：hadoop fs -mv 源文件目标目录

示例：hadoop fs -mv /test/words.txt /words.txt

复制(cp)

命令格式：hadoop fs -cp 源文件目标目录

示例：hadoop fs -cp /test/words.txt /words.txt

4.3 HDFS Shell操作练习

在本地 /home/tarena/ 下新建 students.txt

在students.txt中任意添加内容

在HDFS中创建 /studir/stuinfo/ 目录

将本地students.txt文件上传到HDFS中

查看HDFS中 /studir/stuinfo/students.txt 的内容

将HDFS中 /studir/stuinfo/students.txt 下载到本地命名为 new_students.txt

删除HDFS中的 /studir 目录

5. MapReduce详解

5.1 MapReduce概述

5.1.1 MapReduce定义

MapReduce是Hadoop提供的一套进行分布式计算的框架，用于大规模数据集(大于1TB)的并行运算

MapReduce将计算过程拆分为2个阶段：Map(映射)阶段和Reduce(规约)阶段

5.1.2 MapReduce编程模型

MapReduce分而治之思想

xxxxxxxxxx

【示例1】

需要在一堆扑克牌(张数未知)中统计四种花色的牌有多少张

思路：

首先：需要找几个人(比如说四个人)，每人给一堆，数出来四种花色的张数

然后：这四个人，每个人只负责统计一种花色，最终将结果汇报给一个人，此为典形的map-reduce模型

【示例2】

一堆钞票，请查找出各种面值的钞票分别有多少张？

思路：

首先：每个人分一部分钞票，输出各种面值的分别有多少张

然后：汇总，每个人负责统计一种面值

统计文件中每个单词出现的次数原理图

5.2 MapReduce编程实现

5.2.1 相关库安装

sudo pip3 install mrjob

5.2.2 Python实现wordcount案例

新建words.txt，并写入如下内容

xxxxxxxxxx

hello world

hello tarena

I am world and tarena

I love tarena world

python代码实现wordcount

xxxxxxxxxx

"""

1.mapper的执行次数由行数决定，

参数1：行首的便宜量(一般用不到)

参数2：一行的内容，经常写做 line

2.reduce的执行次数由键的个数决定

参数1(key)：由mapper() 发送

参数2(value)：所有相同key的值的序列

"""

from mrjob.job import MRJob

class MRJobCounter(MRJob):

def mapper(self, _, line):

for w in line.split():

yield w, 1

def reducer(self, word, occurence):

yield word, sum(occurence)

if __name__ == '__main__':

MRJobCounter.run()

运行MapReduce程序的两种方式

xxxxxxxxxx

[1]本地模式(一次启动多个进程)

python3 wordCount.py -r local word.txt > out2.txt

[2]Hadoop模式

python3 wordCount.py -r hadoop word.txt -o hdfs:///out

验证

hadoop fs -ls /out

hadoop fs -text /out/part-00000

6. hive

6.1 Hive概述

6.1.1 Hive概述

Hive是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件映射为一张表，并提供完整的sql查询功能，本质上还是一个文件

底层是将sql语句转换为MapReduce任务进行运行

本质上是一种大数据离线分析工具

学习成本相当低，不用开发复杂的mapreduce应用，十分适合数据仓库的统计分析

hive可以用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在hadoop上的数据。

6.1.2 数据仓库

数据是集成的，数据的来源可能是：MySQL、oracle、网络日志、爬虫数据...... 等多种异构数据源。Hadoop你就可以看成是一个数据仓库，分布式文件系统hdfs就可以存储多种不同的异构数据源

数据仓库不仅要存数据，还要管理数据，即：hdfs 和 mapreduce，从这个角度看之前的hadoop其实就是一个数据仓库，hive其实就是在hadoop之外包了一个壳子，hive是基于hadoop的数据仓库工具，不通过代码操作，通过类sql语言操作数据仓库中的数据。

底层其实仍然是分布式文件系统和mapreduce，会把sql命令转为底层的代码

数据仓库的特征

数据仓库是多个异构数据源集成的

数据仓库存储的一般是历史数据，大多数的应用场景是读数据(分析数据)

数据库是为捕获数据而设计，而数据仓库是为了分析数据而设计

数据仓库是弱事务的，因为数据仓库存的是历史数据，一般都读(分析)数据场景

OLTP系统(online transaction processing)

数据库属于OLTP系统，联机事务处理，涵盖了企业大部分的日常操作，比如购物、库存、制造、银行、工资、注册、记账等，比如mysql oracle等关系型数据库

OLTP系统的访问由于要保证原子性，所以有事务机制和恢复机制

OLAP系统(online analytical processing)

数据仓库属于OLAP系统，联机分析处理系统，hive等

OLAP系统一般存储的是历史数据，所以大部分都是只读操作，不需要事务

6.1.3 Hive的HQL

HQL - Hive通过类SQL的语法，来进行分布式的计算

HQL用起来和SQL非常的类似，Hive在执行的过程中会将HQL转换为MapReduce去执行，所以Hive其实是基于Hadoop的一种分布式计算框架，底层仍然是MapReduce

6.1.4 Hive特点

Hive优点

学习成本低，只要会sql就能用hive

开发效率高，不需要编程，只需要写sql

模型简单，易于理解

针对海量数据的高性能查询和分析

与 Hadoop 其他产品完全兼容

Hive缺点

不支持行级别的增删改

不支持完整的在线事务处理

6.1.5 Hive适用场景

Hive 构建在基于静态(离线)批处理的Hadoop 之上，Hadoop通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此，Hive 并不能够在大规模数据集上实现低延迟快速的查询因此，Hive并不适合那些需要低延迟的应用

Hive并不提供实时的查询和基于行级的数据更新操作。Hive 的最佳使用场合是大数据集的离线批处理作业，例如，网络日志分析。

6.2 Hive安装

6.2.1 详细安装步骤

解压到 /usr/local/ 目录下

sudo tar -zxvf apache-hive-2.3.7-bin.tar.gz -C /usr/local

给文件夹重命名

sudo mv /usr/local/apache-hive-2.3.7-bin /usr/local/hive2.3.7

设置环境变量

sudo gedit /home/tarena/.bashrc 在末尾添加如下内容

xxxxxxxxxx

export HIVE_HOME=/usr/local/hive2.3.7

export PATH=.:${HIVE_HOME}/bin:$PATH

刷新环境变量

source /home/tarena/.bashrc

下载并添加连接MySQL数据库的jar包(8.0.19 Ubuntu Linux Ubuntu Linux 18.04)

下载链接: https://downloads.mysql.com/archives/c-j/ 解压后找到 mysql-connector-java-8.0.19.jar 将其拷贝到 /usr/local/hive2.3.7/lib sudo cp -p mysql-connector-java-8.0.19.jar /usr/local/hive2.3.7/lib/

创建hive-site.xml配置文件

sudo touch /usr/local/hive2.3.7/conf/hive-site.xml

sudo gedit /usr/local/hive2.3.7/conf/hive-site.xml 并添加如下内容

xxxxxxxxxx

javax.jdo.option.ConnectionURL

jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true

JDBC connect string for a JDBC metastore

javax.jdo.option.ConnectionDriverName

com.mysql.cj.jdbc.Driver

Driver class name for a JDBC metastore

javax.jdo.option.ConnectionUserName

root

username to use against metastore database

javax.jdo.option.ConnectionPassword

123456

password to use against metastore database

在hive配置文件中添加hadoop路径

cd /usr/local/hive2.3.7/conf sudo cp -p hive-env.sh.template hive-env.sh sudo gedit /usr/local/hive2.3.7/conf/hive-env.sh 添加如下内容:

xxxxxxxxxx

HADOOP_HOME=/usr/local/hadoop2.10

export HIVE_CONF_DIR=/usr/local/hive2.3.7/conf

hive元数据初始化

schematool -dbType mysql -initSchema

测试hive

hive

hive>show databases;

如果能够正常显示内容，则hive安装并配置完毕

6.2.2 hive安装总结

安装JDK

安装Hadoop

配置JDK和Hadoop的环境变量

下载Hive安装包

解压安装hive

下载并安装MySQL连接器

启动Hadoop的HDFS和Yarn

启动hive

6.3 Hive基本操作

6.3.1 文件和表如何映射

流程操作准备

xxxxxxxxxx

mkdir hivedata

cd /home/tarena/hivedata/

vi t1.txt

1,tom,23

2,lucy,25

3,jim,33

hadoop fs -mkdir /hivedata

hadoop fs -put t1.txt /hivedata

如何建立一张表和其对应

xxxxxxxxxx

【1】进入到hive的命令行进行建库建表操作

create database tedu;

use tedu;

create table t1(id int, name string, age int);

【2】到hdfs中确认目录

/user/hive/warehouse/ 会有tedu.db

【3】将本地t1.txt放到hdfs指定目录中

hadoop fs -put /home/tarena/hivedata/t1.txt /user/hive/warehouse/tedu.db/t1

【4】在hive命令行进行查看测试

hive>select * from t1;

发现都是 NULL ，可能是分隔符的问题

如何建立一张表和其对应 - 续1

xxxxxxxxxx

【1】创建表t2，并指定分隔符为 ,

create table t2(id int, name string, age int)row format delimited fields terminated by ',';

【2】将t1.txt放到hdfs指定目录中

hadoop fs -put /home/tarena/hivedata/t1.txt /user/hive/warehouse/tedu.db/t2

【3】查询验证

hive>select * from t2;

发现有具体数据了

hive>select count(id) from t2;

练习

xxxxxxxxxx

【1】题目：把 /etc/passwd 映射为 stu库中的 t4表

【2】答案

1、sudo cp /etc/passwd /home/tarena/

2、hive中建表

use stu;

create table t4(

username string,

password string,

uid int,

gid int,

comment string,

shell string

)row format delimited fields terminated by ':';

3、hadoop fs -put /home/tarena/passwd /user/hive/warehouse/stu.db/t4

4、select * from t4;

补充(MySQL数据导入)

xxxxxxxxxx

【1】sudo cp /etc/passwd /var/lib/mysql-files

【2】mysql -uroot -p123456

【3】use stu;

【4】建表

create table t4(

username varchar(50),

password char(1),

uid int,

gid int,

comment varchar(100),

homedir varchar(100),

shell varchar(100)

);

【5】执行数据导入

load data infile '/var/lib/mysql-files/passwd'

into table t4

fileds terminated by ':'

lines terminted by '\n';

【6】查询确认

select * from t4;

6.3.2 hive基础指令

命令作用额外说明

show databases;

查看都有哪些数据库

create database testdb;

创建testdb数据库

创建的数据库，实际是在Hadoop的HDFS文件系统里创建一个目录节点，统一存在： /user/hive/warehouse 目录下

use testdb;

进入testdb数据库

show tables;

查看当前数据库下所有表

create table stutab (id int,name string);

创建stutab表，以及相关的两个字段

hive里，表示字符串用的是string，不用char和varchar 所创建的表，也是HDFS里的一个目录节点

insert into stutab values(1,'zhang')；

向stutab表插入数据

HDFS不支持数据的修改和删除，因此已经插入的数据不能够再进行任何的改动在Hadoop2.0版本后支持了数据追加。实际上，insert into 语句执行的是追加操作 hive支持查询，行级别的插入。不支持行级别的删除和修改 hive的操作实际是执行一个job任务，调用的是Hadoop的MR 插入完数据之后，发现HDFS stutab目录节点下多了一个文件，文件里存了插入的数据，因此，hive存储的数据，是通过HDFS的文件来存储的。

select * from stutab

查看表数据

也可以根据字段来查询，比如select id from stutab

drop table stutab

删除表

select * from stutab

查询stutab表数据

load data local inpath '/home/tarena/1.txt' into table stutab;

通过加载文件数据到指定的表里

在执行完这个指令之后，发现hdfs stu目录下多了一个1.txt文件。由此可见，hive的工作原理实际上就是在管理hdfs上的文件，把文件里数据抽象成二维表结构，然后提供hql语句供程序员查询文件数据可以做这样的实验：不通过load 指令，而通过插件向stu目录下再上传一个文件，看下hive是否能将数据管理到stu表里。

create table stu1(id int,name string) row format delimited fields terminated by ' ';

创建stu1表，并指定分割符空格。

desc stu

查看 stu表结构

create table stu2 like stu

创建一张stu2表，表结构和stu表结构相同

like只复制表结构，不复制数据

insert overwrite table stu2 select * from stu

把stu表数据插入到stu2表中

insert overwrite local directory '/home/tarena/stu' row format delimited fields terminated by ' ' select * from stu;

将stu表中查询的数据写到本地的/home/tarena/stu目录下

insert overwrite directory '/stu' row format delimited fields terminated by ' ' select * from stu;

将stu表中查询的数据写到HDFS的stu目录下

alter table stu rename to stu2

为表stu重命名为stu2

alter table stu add columns (age int);

为表stu增加一个列字段age，类型为int

exit

退出hive

6.3.3 内部表和外部表

默认为内部表，外部表的关键字：external

内部表：对应的文件夹就在默认路径下 /user/hive/warehouse/库名.db/

外部表：数据文件在哪里都行，无须移动数据

示例

xxxxxxxxxx

【1】创建外部表并查看(location指映射的文件路径)

create external table studenttab(

id int,

name string,

sex string,

age int

)row format delimited fields terminated by ',' location '/stu';

【2】上传文件并测试

hadoop fs -mkdir /stu

hadoop fs -put students.txt /stu

hive>select * from studenttab;

发现已经存在了数据，而且在默认路径下根本就没有文件夹

【3】删除表

2.1)删除内部表 drop table t2; 元数据和具体数据全部删除

2.2)删除外部表 drop table studenttab; 发现数据还在，只是删除了元数据

【4】内部表是受hive管理的表，外部表是不受hive管理的表

【5】应用场景

对于一些原始日志文件，同时被多个部门同时操作的时候就需要使用外部表，如果不小心将meta data删除了，HDFS上的data还在可以恢复，增加了数据的安全性。

在对数据做统计分析时候用到的中间表，结果表可以使用内部表，因为这些数据不需要共享，使用内部表更为合适

【6】实际工作中外部表使用较多，先在分布式文件系统中传文件，然后管理

内部表和外部表区别总结

xxxxxxxxxx

【1】内部表无external关键字，外部表有

【2】内部表由Hive自身管理，外部表由HDFS管理

【3】内部表/user/hive/warehouse位置，外部表存在hdfs中任意位置

【4】内部表元数据及存储数据一起删除，外部表会删除元数据，HDFS上不会被删除

Hive练习

在电商网站上，当我们进入到某电商页面浏览商品时，就会产生用户对商品访问情况的数据，包含两个字段(商品id，点击次数)，以逗号分隔，由于数据量很大，所以为了方便统计，我们只截取了一部分数据，内容如下：

xxxxxxxxxx

1010031,100

1010102,100

1010152,97

1010178,96

1010280,104

1010320,103

1010510,104

1010603,96

1010637,97

问题(hive中实现):

问题1: 实现文件和表的映射

xxxxxxxxxx

create table product_tab(

goods_id int,

goods_click int

)row format delimited fields terminated by ',';

load data local inpath '/home/tarena/hadoop/product.txt' into table product_tab;

问题2: 使用HQL命令实现对商品点击次数从低到高进行排序，即要求输出如下:

xxxxxxxxxx

96 1010178

96 1010603

97 1010152

97 1010637

100 1010031

100 1010102

103 1010320

104 1010280

104 1010510

select goods_click,goods_id from product_tab order by goods_click;

你可能感兴趣的:(大数据,python,hadoop)

Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
Python strip() 方法详解：用途、应用场景及示例解析（中英双语）阿正的梦工坊 Python python 开发语言
Pythonstrip()方法详解：用途、应用场景及示例解析在Python处理字符串时，经常会遇到字符串前后存在多余的空格或特殊字符的问题。strip()方法就是Python提供的一个强大工具，专门用于去除字符串两端的指定字符。本文将详细介绍strip()的用法、适用场景，并通过多个示例解析其应用。1.strip()方法简介strip()方法用于去除字符串两端的指定字符（默认为空格和换行符）。它的
使用Python连接SqlServer 带带琪宝工作日记 python sqlserver 开发语言
目录cursor()execute('sqlstr')fetchall()、fetchone()cursor.description属性close()转化为dataframe进行分析使用的是pymssql库，这个库的详细用法参照博客（博客里也有官方文档，英语好的可以直接看）：pythonpymssql—pymssql模块使用指南_夏日白云的博客-CSDN博客我目前的需求只是使用Python连接数据
Python连接SQL SEVER数据库全流程 m0_74823131 数据库 python sql
背景介绍在数据分析领域，经常需要从数据库中获取数据进行分析和处理。而SQLServer是一种常用的关系型数据库管理系统，因此学习如何使用Python连接SQLServer数据库并获取数据是非常有用的。以下是Python使用pymssql连接SQLServer数据库的全流程：安装pymssql库本地账号设置脚本连接数据导入函数实现一、安装pymssqlpymssql是Python连接SQLServe
【Hive】-- hive 3.1.3 伪分布式部署（单节点） oo寻梦in记 Apache Paimon 大数据服务部署 hive 分布式 hadoop
1、环境准备1.1、版本选择apachehive3.1.3apachehadoop3.1.0oraclejdk1.8mysql8.0.15操作系统：Macos10.151.2、软件下载https://archive.apache.org/dist/hive/https://archive.apache.org/dist/hadoop/1.3、解压tar-zxvfapache-hive-4.0.0-
Java后端开发技术详解小二爱编程· java 开发语言
Java作为一门成熟的编程语言，已广泛应用于后端开发领域。其强大的生态系统和广泛的支持库使得Java成为许多企业和开发者的首选后端开发语言。随着云计算、微服务架构和大数据技术的兴起，Java后端开发的技术栈也不断演进。本文将详细介绍Java后端开发的核心技术，包括Java基础、常见框架、数据库操作、缓存技术、异步编程等。1.Java基础：理解面向对象的编程Java是一种面向对象的编程语言，面向对象
力扣 160 - Intersection of Two Linked Lists. (相交链表) Python双指针小杨快没头发了 Leetcode 刷题
力扣160-IntersectionofTwoLinkedLists.(相交链表)Python双指针原题地址：https://leetcode.com/problems/intersection-of-two-linked-lists/Giventheheadsoftwosinglylinked-listsheadAandheadB,returnthenodeatwhichthetwolistsi
【Linux】Hadoop-3.4.1的伪分布式集群的初步配置孤独打铁匠Julian Linux linux hadoop ubuntu
配置步骤一、检查环境JDK#目前还是JDK8最适合Hadoopjava-versionecho$JAVA_HOMEHadoophadoopversionecho$HADOOP_HOME二、配置SSH免密登录Hadoop需要通过SSH管理节点（即使在伪分布式模式下）sudoaptinstallopenssh-server#安装SSH服务（如未安装）cd~/.ssh/ssh-keygen-trsa#生
Opencv之计算机视觉一闭月之泪舞计算机视觉计算机视觉 opencv python
一、环境准备使用opencv库来实现简单的计算机视觉。需要安装两个库：opencv-python和opencv-contrib-python，版本可以自行选择，注意不同版本的opencv中的某些函数名和用法可能不同pipinstallopencv-python==3.4.18.65-ihttps://pypi.tuna.tsinghua.edu.cn/simplepipinstallopencv-
VSCode python 遇到的问题：vscode can't open file '': [Errno 2] No such file or dire... weixin_33984032 python 开发工具 json
代码很简单，就两行：importpandasaspdimportnetCDF4asncdataset=nc.Dataset('20150101.nc')环境：在VSCode中左下角把原环境的Python3.6.532-bit切换为Anaconda中的Python3.6.564-bit('base':conda)过程中有两种错误：（忘记截图了，都是历史记录中的google网页搜索栏找到的搜索记录）1
【测试工程师必备！】VS Code好用插件FastPytestRunner 花小田 pytest vscode
你是否还在为PythonTestExplorerforVisualStudioCode以下痛点焦头烂额？•测试扫描慢到怀疑人生，每次启动都要等待5分钟•调试时总是找不到断点入口，配置项复杂到崩溃•传统测试工具无法满足大规模测试需求•每次切换项目都要重新配置测试环境FastPytestRunner——专为测试工程师量身打造的极速测试利器来了！️实战进阶技巧：✅配置黄金法则：{"pytestRunne
如何用 Python 实现树结构不辉放弃 python 开发语言
一、树结构基础认知1.1树的四大特征层级关系：父子节点的从属关系唯一根节点：访问起点无循环：从根到叶的路径不形成环N叉分支：每个节点可有多个子节点1.2核心组件解析classTreeNode:def__init__(self,data):self.data=data#节点存储的数据self.children=[]#子节点容器（多叉树特性）defadd_child(self,node):self.c
Python 用户账户(让用户拥有自己的数据) 钢铁男儿 Python 从入门到精通 python 数据库 sqlite
Web应用程序的核心是让任何用户都能够注册账户并能够使用它，不管用户身处何方。在本章中，你将创建一些表单，让用户能够添加主题和条目，以及编辑既有的条目。你还将学习Django如何防范对基于表单的网页发起的常见攻击，这让你无需花太多时间考虑确保应用程序安全的问题。然后，我们将实现一个用户身份验证系统。你将创建一个注册页面，供用户创建账户，并让有些页面只能供已登录的用户访问。接下来，我们将修改一些视图
Python 用户账户(让用户能够输入数据) 钢铁男儿 Python 从入门到精通 python 数据库 sqlite
Web应用程序的核心是让任何用户都能够注册账户并能够使用它，不管用户身处何方。在本章中，你将创建一些表单，让用户能够添加主题和条目，以及编辑既有的条目。你还将学习Django如何防范对基于表单的网页发起的常见攻击，这让你无需花太多时间考虑确保应用程序安全的问题。然后，我们将实现一个用户身份验证系统。你将创建一个注册页面，供用户创建账户，并让有些页面只能供已登录的用户访问。接下来，我们将修改一些视图
安卓编译安装python_一文了解如何在安卓系统上安装Pydroid 3并进行编码 weixin_39916681 安卓编译安装python
由于Pydroid3集成开发环境(IDE)，因此可以用Python进行可移植的编码。Pydroid是Python3的极简解释器，可让您执行较小的项目并在Android设备上进行最少的编码。如果您还想在没有PC的任何地方学习Python编程，同时在Android上为Python复制PC平台，那么Pydroid3是一个不错的应用程序。无论您是Python编程的新手还是专家，让我们看看使用Pydroid
python为什么需要文本编辑器-推荐几款高效的Python文本编辑器| 高效的文本编辑器的特点是什么... weixin_39991305
我们都知道程序员花费大量的时间在编写、阅读和编辑代码上，因此一定要使用高效的文本编辑器才能够提高并很好的完成工作的效率和保证工作的质量。什么是高效的文本编辑器呢？除了自己用的得心应手外，小编认为还应该包含以下几个特点：·突出代码的结构，让你在编写代码时就能够发现常见的bug；·包含自动缩进功能；·显示代码长度的标志；·用于执行常见操作的快捷键；如果你是编程新手小白，小u非常建议你使用具备上述功能而
一文读懂Python列表（5）跟着杰哥学Python python
列表让你能够在一个地方存储成组的信息，其中可以只包含几个元素，也可以包含数百万个元素，列表是新手可直接使用的最强大的Python功能之一。一、列表是什么1.列表由按顺序排列的元素组成，用[]表示列表，用逗号分隔元素2.举例：bicycles=['trek','cannondale','redline','specialized']二、列表的索引1.第一个列表元素的索引为0，而不是12.举例：三、访
一文读懂Python异常（16）跟着杰哥学Python python
Python程序执行期间发生的错误叫做异常，如果你编写了处理异常的代码，程序将继续执行；如果未编写处理异常的代码，程序将停止，并返回一条traceback，其中包含异常的报告。通常使用try-except代码块来处理异常。一、try-except代码块1、如果try代码块的代码运行起来没问题，则跳过except代码块；如果try代码块的代码导致了错误，则运行except代码块。2、举例二、try-
一文读懂Python之random模块（31）跟着杰哥学Python python
random模块是Python的内置标准库，用于生成各类随机数，可以用作生成网站初始登录密码和随机验证码。一、random模块简介random模块可以生成随机数，包括随机整数、浮点数、随机元素等。二、random模块相关概念随机数：是指在一定范围内随机产生的数，每个数被选中的概率相等。随机数最重要的特性是其后产生的数与前面的数毫无关系，即随机性、不可预测性和不可重现性。三、random模块常用方法
IDC权威认证！永洪科技入选 IDC「GBI图谱」，点亮生成式 BI 价值灯塔永洪科技科技人工智能 BI 大数据数据分析
大数据市场正在稳步前进，生成式AI已成为厂商服务的重点方向，其发展离不开数据底座建设和数据工程管理，反过来AI也会帮助开发运维人员、业务人员和管理层更好地使用、查询数据。IDC调研数据显示，在生成式AI的驱动下，未来5年企业在数据管理和数据分析基础设施建设的投资增长率将分别达到8.7%和9.2%。近日，国际咨询机构IDC发布了《中国数据智能市场生态图谱V5.0》，在这一领域，永洪科技以其创新前沿的
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
应用-构建并优化 Python 的 Rust 扩展李星星BruceL 自动化测试 python rust 开发语言
目录构建并优化Python的Rust扩展如果你的Python代码运行速度不够快，你可以选择使用编译语言来编写更快的扩展。本文将重点介绍Rust，它具有以下优势：现代工具链，包括名为crates.io的包仓库和内置的构建工具（cargo）。出色的Python集成和工具支持。Rust的Python支持包是PyO3。对于打包，你可以使用setuptools-rust来与现有的setuptools项目集成
超详细Python教程——初识Python 月流霜 python 数据库服务器
初识Python温馨提示：2018年创建这个仓库的时候，关于Python语言基础这个部分的内容写得相对是比较粗糙，对粗学者可能不是那么友好。如果你正好是一名初学者，建议你移步到我的另一个仓库Python-for-Freshmen-2023，这个仓库对初学者更加友好，对应的内容，大家也可以在我的知乎专栏“从零开始学Python”中找到，点击进入传送门。Python简介Python的历史1989年圣诞
Python自制文本编辑器 Xiaoqing461 python 开发语言
Python自制文本编辑器。随便写的半成品fromtkinterimport*fromtkinterimportfiledialog,messageboxclassFindWindow:def__init__(self,parent):self.parent=parentself.find_window=Toplevel(parent)self.find_window.title("Find")s
【地图 Map3d】——2 花花 Show Python pyecharts—从0到精通信息可视化数据分析 python
解锁数据可视化的魔法钥匙——pyecharts实战指南在这个数据为王的时代，每一次点击、每一次交易、每一份报告背后都隐藏着无尽的故事与洞察。但你是否曾苦恼于如何将这些冰冷的数据转化为直观、吸引人的视觉盛宴？欢迎来到《pyecharts图形绘制大师班》在这里，你将不再受限于单调的表格和图表，而是学会如何运用pyecharts这一强大的Python数据可视化库，将复杂的数据转化为令人惊叹的交互式图形。
python垃圾分类游戏_垃圾分类就要来了？教你使用Python轻松完成垃圾分类 weixin_39627390 python垃圾分类游戏
从7月1日起，上海市正式实施《上海市生活垃圾管理条例》。条例规定，个人混合投放垃圾今后可最高罚200元，单位混装混运，最高可罚至5万元，而且违规还将会列入征信，堪称“史上最严垃圾分类措施”。相信最近一段时间大家已经被上海的小伙伴们因为垃圾分类的困扰而刷屏了，就在大家还在一片“与我无瓜”中暗自庆幸时，现实给了我们一击：该来的总要来，谁都逃不过去。其实，在我国垃圾分类的举措要从2000年开始，但效果并
灰狼优化算法（Grey Wolf Optimization, GWO）及其 Python 代码追蜻蜓追累了算法 python github pycharm jupyter matlab numpy
灰狼优化算法（GreyWolfOptimization,GWO）是一种基于灰狼社会行为觅食过程而设计的优化算法。其基本原理是模拟灰狼群体中个体的协作和竞争行为，以迭代更新的方式寻找最优解。灰狼优化算法涉及三种灰狼的角色：alpha（α）、beta（β）和delta（δ），它们分别代表群体中的优势个体。算法包括初始化灰狼位置、计算适应度值、更新灰狼位置等步骤。以下是一个简单的Python示例代码，实
读书笔记五 ---大数据之路--数仓分层 qq_38215991 big data 大数据
数据分层在流式数据模型中,数据模型整体上分为五层。ODS层跟离线系统的定义一样,ODS层属于操作数据层,是直接从业务系统采集过来的最原始数据（进行了数据清洗）,包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的,这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线问数据比对。例如:原始的订单变更记录数据、服务器引擎的访同日志。（原始数据
编译QT5.15.2 qtwebengine模块以支持mp4 m0_74822999 qt 开发语言
由于版权限制，Qt官方无法在其二进制包中提供某些解码器，这导致QtWebEngine无法支持一些常见的视频格式（如MP4）。为了解决这一问题，我们可以通过重新编译QtWebEngine来集成所需的解码器一、编译准备1.获取源码qtwebengine-everywhere-src-5.15.2.zip2.编译环境Python2.7.5:Python2.7.5Perl:StrawberryPerlfo
Python多进程Logging ftpeak Python python linux 开发语言 logging
多个进程的logging向同一个.log文件写入是一套Python程序被多次启动时（多进程启动）无法回避的问题。一个进程的程序正在向.log文件写入的同时，另一个进行启动的程序也需要向同一个.log文件写入，会产生异常吗？答案是：会的！直接写入存在的问题如果多个进程直接使用Python的logging模块向同一个文件写入日志，可能会出现日志内容混乱、数据丢失等问题。这是因为多个进程同时访问和修改文
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他