Leesin Dong

大数据学习笔记之Flume（一）：Flume入门

文章目录

1、Flume在集群中扮演的角色
2、Flume框架简介
3、安装配置FLume

3.1 flume-env.sh

4、Flume帮助命令
5、案例：

5.1、案例一：Flume监听端口，输出端口数据。

5.1.1、创建Flume Agent配置文件flume-telnet.conf
5.1.2、安装telnet工具
5.1.3、首先判断44444端口是否被占用
5.1.4、先开启flume监听端口
5.1.5、使用telnet工具向本机的44444端口发送内容。

5.2、案例二：监听上传Hive日志文件到HDFS

5.2.1 拷贝Hadoop相关jar到Flume的lib目录下
5.2.2 创建flume-hdfs.conf文件
5.2.3、执行监控配置

5.3.1 创建配置文件flume-dir.conf
5.3.2、执行测试
总结：

1、Flume在集群中扮演的角色

将hive产生的日从linux本地移到HDFS上
Flume、Kafka用来实时进行数据收集，Spark、Storm用来实时处理数据，impala用来实时查询。

2、Flume框架简介

1.1 Flume提供一个分布式的，可靠的，对大数据量的日志进行高效收集、聚集、移动的服务，Flume只能在Unix环境下运行。
1.2 Flume基于流式架构，容错性强，也很灵活简单，主要用于在线实时分析。
1.3 角色

** Source
用于采集数据，Source是产生数据流的地方，同时Source会将产生的数据流传输到Channel，这个有点类似于Java IO部分的Channel，总的来说就是指定数据的来源的
** Channel
用于桥接Sources和Sinks，类似于一个队列。
** Sink
从Channel收集数据，将数据写到目标源（可以是下一个Source，也可以是HDFS或者HBase）

工作原理

当数据产生的时候，会把数据流拆分成一个一个的事件，比如现在监控的是hive.log中的日志，当操作hive的时候，文件是在不停的刷新的，通过tail -f hive.log 向flume中传输大量的数据流，拆分成一个个的event，每个event又分为Header和Body，相当于http的header和body，header中包含了数据的来源，使用什么样的协议，body某个event中携带的数据。
比如某个时间段产生的数据流，一次采集到的“123 123 123 123”，分为若干个event比如：“123（event） 123（event） 123（event） 123（event）”，一个123就是一个event，source负责把拆分好的event放到对了channel（先进先出）里面，现出来的event对接到sink，sink拿到event之后进行解码处理，解码之后放在想放在的地方，比如hdfs或者linux本地的另一个位置

fliume还能抓包

flume除了监听文件之外，还能监听端口，数据产生和消费的地方，都是要经过端口的，flume监听端口，只要端口中有数据往来，就把端口中所有监听到的数据，收集过来。
1.4 传输单元
** Event
Flume数据传输的基本单元，以事件的形式将数据从源头送至目的地
1.5 传输过程
source监控某个文件，文件产生新的数据，拿到该数据后，
将数据封装在一个Event中，并put到channel后commit提交，
channel队列先进先出，sink去channel队列中拉取数据，然后写入到hdfs或者HBase中。

3、安装配置FLume

直接下载解压即可

mv flume-enc.sh.template flume-env.sh

3.1 flume-env.sh

配置Java的环境变量

export JAVA_HOME=/opt/..../jdk1.8.0_121

4、Flume帮助命令

		$ bin/flume-ng

5、案例：

5.1、案例一：Flume监听端口，输出端口数据。

5.1.1、创建Flume Agent配置文件flume-telnet.conf

# Name the components on this agent
//为当前的agent去一个名称叫a1，也可以叫agent1，只是一个名字
//下面是分别为三个角色取名字
//整个为agent sources sinks channels 取别称，分别为a1 r1 k1 c1 
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
//原数据的数据类型是怎么来的netcat
a1.sources.r1.type = netcat
//绑定本地的主机
a1.sources.r1.bind = localhost
//产生数据的数据源的端口
a1.sources.r1.port = 44444

# Describe the sink
//sink的类型是logger类型，就是在终端可以打印出来，相当于一个解过码的字符串
//在流里面的数据如果直接打印的话是不可视的，100101101
a1.sinks.k1.type = logger

# Use a channel which buffers events in memory
//指定在传输的过程中，即数据在channel阶段，数据以什么样的形式流转，或者以什么样的形式保存
//以内存的形式流转或保存，好处是特别快，坏处是容易丢数据，因为内存中的数据一断电就没有了
a1.channels.c1.type = memory
//在内存中进行转储的时候，最多接受的event是1000个
a1.channels.c1.capacity = 1000

a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
//连接操作，source所对应的channel是c1，sink对应的channel是c1
//注意sources对应的channels，sources可以对应多个channel，但是sink只能对应一个
//如下图
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

5.1.2、安装telnet工具

$ sudo rpm -ivh telnet-server-0.17-59.el7.x86_64.rpm 
$ sudo rpm -ivh telnet-0.17-59.el7.x86_64.rpm

5.1.3、首先判断44444端口是否被占用

$ netstat -an | grep 44444

5.1.4、先开启flume监听端口

//bin/flume-ng agent指定agent角色的目录，--conf conf/ 指定agent的配置目录，
//--name a1 agent名字,--conf-file conf/flume-telnet.conf指定具体的是哪个配置文件
//-Dflume.root.logger==INFO,console配置当前监听到的内容，往哪个地方展示，即是否开启调试模式
$ bin/flume-ng agent --conf conf/ --name a1 --conf-file conf/flume-telnet.conf -Dflume.root.logger==INFO,console

5.1.5、使用telnet工具向本机的44444端口发送内容。

$ telnet localhost 44444

5.2、案例二：监听上传Hive日志文件到HDFS

5.2.1 拷贝Hadoop相关jar到Flume的lib目录下

share/hadoop/common/lib/hadoop-auth-2.5.0-cdh5.3.6.jar
share/hadoop/common/lib/commons-configuration-1.6.jar
share/hadoop/mapreduce1/lib/hadoop-hdfs-2.5.0-cdh5.3.6.jar
share/hadoop/common/hadoop-common-2.5.0-cdh5.3.6.jar

5.2.2 创建flume-hdfs.conf文件

在flume的conf目录下创建

# Name the components on this agent
a2.sources = r2
a2.sinks = k2
a2.channels = c2

# Describe/configure the source
//将原来的netcat写成exec
//exec用一个可执行的命令，监控某个文件作为source
a2.sources.r2.type = exec
//这里的目录就是hive的目录，在本配置文件的末尾有相关的图片
//注意不要写成hive.log.2017-07-21这种，这种已经不会发生变化了，只有hive.log才会发生变化
a2.sources.r2.command = tail -f /opt/modules/cdh/hive-0.13.1-cdh5.3.6/logs/hive.log
//   /bin/bash -c 的作用相当于``
//举个栗子  echo data 会输出data这个字符串 echo `data` 会输出日期
//等同于 echo /bin/bash -c data ，输出执行data这个命令。
a2.sources.r2.shell = /bin/bash -c

# Describe the sink
//将sink设置为hdfs类型
a2.sinks.k2.type = hdfs
//抽取的文件上传到hdfs系统中的目录，以格式化的时间创建目录，会根据时间动态改变
a2.sinks.k2.hdfs.path = hdfs://192.168.122.20:8020/flume/%Y%m%d/%H
#上传文件的前缀
a2.sinks.k2.hdfs.filePrefix = events-hive-
#是否按照时间滚动文件夹，是否按照时间创建文件夹分类
a2.sinks.k2.hdfs.round = true
#多少时间单位创建一个新的文件夹，单位默认是1分钟
a2.sinks.k2.hdfs.roundValue = 1
#重新定义时间单位
a2.sinks.k2.hdfs.roundUnit = hour
#是否使用本地时间戳，默认false
a2.sinks.k2.hdfs.useLocalTimeStamp = true
#积攒多少个Event才flush到HDFS一次
a2.sinks.k2.hdfs.batchSize = 1000
#设置文件类型，可支持压缩
a2.sinks.k2.hdfs.fileType = DataStream
#多久生成一个新的文件，多久进行一次滚动
a2.sinks.k2.hdfs.rollInterval = 600
#设置每个文件的滚动大小，多大的文件进行一次滚动
a2.sinks.k2.hdfs.rollSize = 134217700
#文件的滚动与Event数量无关，多少个事件进行一次滚动，很多时候，很多个事件就是一句话
#所以一般设置为0，不根据event的数量生成文件
a2.sinks.k2.hdfs.rollCount = 0
#最小冗余数，最小备份数，即上面有三种生成新的文件的规则，那是不是需要三个文件呢？，hdfs自带冗余，所以这里是1，不是3，除了hdfs还有磁盘阵列等文件存储系统也是带冗余的
a2.sinks.k2.hdfs.minBlockReplicas = 1


# Use a channel which buffers events in memory
a2.channels.c2.type = memory
a2.channels.c2.capacity = 1000
a2.channels.c2.transactionCapacity = 100

# Bind the source and sink to the channel
a2.sources.r2.channels = c2
a2.sinks.k2.channel = c2

在hive中配置了log4j的话，到相应的目录页下会有日志，hive.log是当天的日志，过了今天之后这个日志就会变成后面的形式

5.2.3、执行监控配置

$ bin/flume-ng agent --conf conf/ --name a2 --conf-file conf/flume-hdfs.conf

在被监控的hive里面做一些事情

在hdfs中查看

tmp文件表示，文件还在滚动，生成真正的文件之后会变成真正的文件的格式

将文件下载下来，就是刚才hive的相关操作，中间有个报错，不要在意这些细节，是因为重新创建库了，因为没有做if exist判断

5.3、案例三：Flume监听整个目录

5.3.1 创建配置文件flume-dir.conf

$ cp -a flume-hdfs.conf flume-dir.conf
a3.sources = r3
a3.sinks = k3
a3.channels = c3

# Describe/configure the source
// 这里需要进行修改
a3.sources.r3.type = spooldir
//command换成spoolDir  监控的目录是/opt/modules/cdh/apache-flume-1.5.0-cdh5.3.6-bin/upload
a3.sources.r3.spoolDir = /opt/modules/cdh/apache-flume-1.5.0-cdh5.3.6-bin/upload
//保存文件的时候，是否要保存文件的绝对路径
a3.sources.r3.fileHeader = true
#忽略所有以.tmp结尾的文件，不上传
//如果监控的目录里面有符合这个正则表达式的，就不上传这个文件
//什么情况下回用到呢？
//一种情况：
//比如在upload文件夹里面，有一个框架正在往里面写日志，比如叫nginx.log.temp,如果已经写完了
//就变成了nginx.log，也就是说nginx.log.temp是一直在变动的，是不希望上传的，
//在flume中为了区别已经上传的文件和未上传的文件，已经上传的会自动在文件的末尾加上.COMPLETED作为区分
//但是这个文件正在用着，如果在往里面写的过程整，在后面加上了.COMPLETED，name不是temp结尾了，
//就不能继续往里面写入了
//另一种情况：
//加入现在nginx.log.temp里面写着123456，然后上传了，这个时候里面又写了789，这个时候再次上
//传，就会变成123456123456789，上传了两次123456，也就是hdfs里面会有很多重复的

//这个时候就需要includePattern（上传包含了正则表达式的） 和 ignorePattern （不上传包含正则表达式的）

//所有的.tmp结尾的文件都不上传
a3.sources.r3.ignorePattern = ([^ ]*\.tmp)

# Describe the sink
a3.sinks.k3.type = hdfs
a3.sinks.k3.hdfs.path = hdfs://192.168.122.20:8020/flume/upload/%Y%m%d/%H
#上传文件的前缀
a3.sinks.k3.hdfs.filePrefix = upload-
#是否按照时间滚动文件夹
a3.sinks.k3.hdfs.round = true
#多少时间单位创建一个新的文件夹
a3.sinks.k3.hdfs.roundValue = 1
#重新定义时间单位
a3.sinks.k3.hdfs.roundUnit = hour
#是否使用本地时间戳
a3.sinks.k3.hdfs.useLocalTimeStamp = true
#积攒多少个Event才flush到HDFS一次
a3.sinks.k3.hdfs.batchSize = 1000
#设置文件类型，可支持压缩
a3.sinks.k3.hdfs.fileType = DataStream
#多久生成一个新的文件
a3.sinks.k3.hdfs.rollInterval = 600
#设置每个文件的滚动大小
a3.sinks.k3.hdfs.rollSize = 134217700
#文件的滚动与Event数量无关
a3.sinks.k3.hdfs.rollCount = 0
#最小冗余数
a3.sinks.k3.hdfs.minBlockReplicas = 1


# Use a channel which buffers events in memory
a3.channels.c3.type = memory
a3.channels.c3.capacity = 1000
a3.channels.c3.transactionCapacity = 100

# Bind the source and sink to the channel
a3.sources.r3.channels = c3
a3.sinks.k3.channel = c3

往当前的目录复制点文件


下载下来看一看

发现很快就上传上去了，为什么这么快？每六百秒扫描一次当前的目录，当前目录只要有变化就会上传。

注意：如果拷贝一个.tar.gz结尾的很大的文件，比如说一个g，上传上去需要多久？
答案是不会上传，因为flume上传的是日志文件，flume是监控数据实时变化的，流式数据。
那有的人说直接将.tar.gz结尾的文件修改后缀，注意，在被监控的文件夹下面直接修改文件的类型会报错的，

注意：不要直接在被监控的文件夹里面直接创建文件，比如vi aaa.sh，是无效的，flume监控的是直接从其他的文件拷贝过来的完结的文件，而不是在当前的被监控的文件里面创建文件。

所以上的例子应该在外面将后缀改为日志小文件格式，然后拷贝到当前被监控的目录中，就可以被监控并上传了。

5.3.2、执行测试

$ bin/flume-ng agent --conf conf/ --name a3 --conf-file conf/flume-dir.conf &

总结：

在使用Spooling Directory Source
注意事项：
1、不要在监控目录中创建并持续修改文件
2、上传完成的文件会以.COMPLETED结尾
3、被监控文件夹每600毫秒扫描一次变动
作业：
1、实现hive.log日志实时上传到HDFS，同时实现Hadoop日志实时展示在控制台。

Springboot-配置文件中敏感信息的加密：三种加密保护方法比较 m0_74825223 面试学习路线阿里巴巴 spring boot 后端 java
一.背景当我们将项目部署到服务器上时，一般会在jar包的同级目录下加上application.yml配置文件，这样可以在不重新换包的情况下修改配置。一般会将数据库连接、Redis连接等放到配置文件中。例如配置数据库连接：spring:servlet:multipart:max-file-size:10MB#文件大小限制max-request-size:100MB#请求大小限制datasource:
第01章 14 VTK数据集（DataSet）的类型捕鲸叉 VTK编程学习 VTK
在VTK（VisualizationToolkit）中，数据类型（DataTypes）主要用于表示不同类型的数据集（DataSets），这些数据集可以是几何和拓扑信息的组合，用于描述三维空间中的对象。每种数据类型都有其独特的特点和应用场合。以下是VTK中常用的数据类型及其特点和应用：1.vtkPolyData特点：vtkPolyData是一种简单的数据类型，用于表示多边形数据。它由点（Points
第01章 15 vtkDataArray的特点与应用捕鲸叉 VTK编程学习 VTK
在VTK（VisualizationToolkit）中，vtkDataArray是一个用于存储数组的基类，可以用于存储不同类型的数值数据。虽然vtkDataArray本身是一个抽象类，但VTK提供了多种具体的实现类，如vtkFloatArray、vtkDoubleArray、vtkIntArray等，用于存储不同类型的数值数据。vtkDataArray的特点多类型支持：每个vtkDataArray
《重生到现代之从零开始的数据结构生活》—— 复杂度 yttandb c语言数据结构 c++
前言进入代码世界已经有一阵了，C语言学的差不多了打算看看数据结构以前都没想过我能学到这嘞哈哈哈哈所以，《重生到现代之从零开始的数据结构生活》开始啦数据结构我们天天说数据结构怎么怎么了，那什么是数据结构你知道吗数据结构(DataStructure)是计算机存储、组织数据的⽅式，指相互之间存在⼀种或多种特定关系的数据元素的集合这么说可能有点抽象了，但是如果举一个例子：intarr[3]={0};不就是
使用echarts实现3d柱状图+折线图吉吉安 echarts 前端 javascript
以下代码有问题请直接问国内直连GPT/ClaudeHTML需要注意threeDchart一定要设置宽度高度，不然图不显示,然后echarts版本不要太低，不然也不显示jsset3DBarChart2(data){varmyChart=echarts.init(document.getElementById('middle-right-top-chart'));data=[2000,1529,225
推荐开源项目：python-oracledb —— 高效连接Oracle数据库的Python扩展模块方玉蜜United
推荐开源项目：python-oracledb——高效连接Oracle数据库的Python扩展模块python-oracledbPythondriverforOracleDatabaseconformingtothePythonDBAPI2.0specification.Thisistherenamed,newmajorreleaseofcx_Oracle项目地址:https://gitcode.c
Python-oracledb 项目教程邓越浪Henry
Python-oracledb项目教程python-oracledbPythondriverforOracleDatabaseconformingtothePythonDBAPI2.0specification.Thisistherenamed,newmajorreleaseofcx_Oracle项目地址:https://gitcode.com/gh_mirrors/py/python-oracl
【Redis】使用redis-cli的“--bigkeys”选项查找大Key 奇墨 ITQM redis 数据库缓存
在Redis的使用过程中，我们经常会遇到BigKey（下文将其称为“大key”）及HotKey（下文将其称为“热key”）。大Key与热Key如果未能及时发现并进行处理，很可能会使服务性能下降、用户体验变差，甚至引发大面积故障。下面将为大家介绍大Key的定义及查找方法：一、什么是大Key？通常我们会将含有较大数据或含有大量成员、列表数的Key称之为大Key，下面我们将用几个实际的例子对大Key的特
火山引擎数据飞轮2.0：聚焦Data+AI，驱动企业数智化转型大数据
数字化浪潮席卷全球，数据与人工智能的融合正给各行各业带来巨大变革，不仅重塑数据处理流程，更在决策支持、业务优化、产品创新等多个维度上展现巨大的潜力。近期，火山引擎数智平台技术和产品专家受邀出席DataFun首届“数据与人工智能解决方案大会”，围绕数据飞轮2.0模式，及Data+AI领域热门话题ChatBI、多模态数据湖展开分享。据介绍，2023年4月火山引擎发布了数据飞轮，其内核为“以数据消费促资
python面试题目365道_[Python]百姓网的面试题筹朩无双 python面试题目365道
1#-*-coding:utf-8-*-23classBTree:4def__init__(self,data):5self.l=None6self.r=None7self.data=data89definsertl(self,ltree):10self.l=ltree1112definsertr(self,rtree):13self.r=rtree1415defprintTree(self,in
K8S环境快速部署Kafka(K8S外部可访问) 2401_83817392 程序员 kubernetes kafka 容器
apiVersion:v1kind:Servicemetadata:name:zookeeper-nodeportnamespace:kafka-testspec:type:NodePortports:port:2181nodePort:32181selector:app:zookeeperrelease:kafka执行命令：kubectlapply-fzookeeper-nodeport-svc
Flink Standalone 方案中解决挂机问题星尘幻宇科技 flink 大数据
Standalone中可以配置HighAvailability（HA）部署和配置首先了解Flink实际运行时包括两类进程：JobManager（又称为JobMaster）：协调Task的分布式执行，包括调度Task、协调创Checkpoint以及当Jobfailover时协调各个Task从Checkpoint恢复等。TaskManager（又称为Worker）：执行Dataflow中的Tasks，
自动化物流仓储货到人箱输送线扫描功能实现得利捷DataLogic DS2400 !chen 自动化立体仓库系统及控制系统自动化
一、前言在自动化物流仓储系统中，实现货到人箱输送线扫描，使用得利捷（Datalogic）DataLogicDS2400扫描器是非常常见的选择。这款扫描器主要用于以下几个方面：精确扫描：DS2400具有高精度的扫描能力，能够快速识别并读取条形码，即使在复杂的环境中也能提供稳定的性能。这对于仓储物流中快节奏的操作至关重要。适用环境：DS2400适用于多种环境条件，包括但不限于低光照或高反射表面的情况。
记录一次 centos 启动失败 __pop_ 杂七杂八总览 linux 运维服务器 centos
文章目录现场1分析1现场2分析2搜索实际解决过程现场1一次断电,导致之前能正常启动的centos7.7起不来了有部分log,关键信息如下[1.332724]XFS(sda3):Internalerrorxfs...atlinexxxoffs/xfs/xfs_trans.c[1.332724]XFS(sda3):Corruptionofin-memorydatadetected.Shuttingdo
竞技体育数据可视化与可视化分析综述 *小白* 文献笔记大数据数据分析
Asurveyofcompetitivesportsdatavisualizationandvisualanalysis竞技体育数据可视化与可视化分析综述研究背景：1、竞技体育的发展导致竞技体育数据的大规模产生；2、针对竞技体育数据已有研究人员进行分析和软件开发；3、竞技体育数据的分析有助于专业分析，并可通过有效行为决策达到提高体育训练和比赛效果。研究目的：1、处理大规模竞技体育数据，认知运动员的
no persistent volumes available for this claim and no storage class is set 喝醉酒的小白 K8s 运维
问题1问题描述User:NormalFailedBinding7s(x5over52s)persistentvolume-controllernopersistentvolumesavailableforthisclaimandnostorageclassissetKimi:根据您提供的错误信息和搜索结果，PVCdata-vector-aggregator-0无法绑定的原因是“没有可用的Persi
Hibernate与Spring Data JPA：深入解读两大持久化框架的优劣与选择 devme hibernate spring java
亲爱的读者，你是否在处理Java应用程序的数据库交互时，曾对选择哪种持久化框架感到困惑？你是否曾对Hibernate和SpringDataJPA之间的关系感到好奇？今天，我将带你深入探索这两个流行的Java持久化框架，帮助你更好地理解它们的优缺点，以及在何种情况下应该选择哪一个。首先，让我们来了解一下Hibernate和SpringDataJPA的基本概念。HibernateHibernate是一
LLaMA-Factory 基于 LoRA 的 SFT 指令微调及相关功能梳理 Ambition_LAO 深度学习人工智能机器学习
1.数据准备微调数据的格式为Alpaca或ShareGPT格式，需进行以下步骤：自定义数据集转换：将原始数据集转换成指定格式（JSON格式）。示例数据：{"instruction":"写一个商品文案","input":"类型#裤*版型#宽松","output":"宽松的阔腿裤吸引了大量明星的喜爱，设计感十足。"}数据注册：修改data/dataset_info.json文件，将数据集注册到系统中。
Flink CDC MySQL同步MySQL错误记录 lingllllove flink mysql 大数据
FlinkCDC简介FlinkCDC（ChangeDataCapture）是一种高效的数据同步工具，利用Flink强大的实时流处理能力，从MySQL等数据库捕获数据变更，并将这些变更实时同步到目标数据库。本文将详细介绍FlinkCDCMySQL同步到MySQL时常见的错误记录及其解决方法。常见错误及解决方法1.连接错误错误信息：FailedtoconnecttoMySQLserver.可能原因：
function isBulkReadStatement, file SQLiteDatabaseTracking.cpp 丁乾坤的博客 iOS常见问题 Xcode16 mysql ios18闪退
一问题：Xcode16.0运行在iPhone16/ios18.0以上发生闪退，闪退在YYCache–>YYKVStorage文件内。以上删除保以下错误：functionisBulkReadStatement,fileSQLiteDatabaseTracking.cpp解决方案：找到YYKVStorage文件中_dbClose方法替换里面的一行代码：-(BOOL)_dbClose{//if(_dbS
批量作业调度、数据挖掘，这几款应该是今年 “最值得推荐” 的ETL工具了加菲盐008 taskctl Kettle kettle etl 批量作业调度数据挖掘 taskctl
工具传送门：Taskctl商业付费版(付费)TaskctlWeb商业免费版（永久免费）Kettle（开源免费）Datastage(付费)ETL是数据仓库中的非常重要的一环，是承前启后的必要的一步。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。下面给大家介绍一下什么是ETL以及
Android 导出CSV文件乱码问题处理 AD钙奶-lalala android
最近有一个需求，需要在Android端导出CSV文件，自测是用的WPS，没啥问题。可到了测试那边，用Excel直接打开就是乱码，需要在Excel数据里面用【从文件/CSV】打开。这样就显示非常的不方便。解决办法：publicstaticvoidexportToCsv(Listdata,StringfilePath)throwsIOException{FilecsvFolder=newFile(Fi
MySQL表的创建实验谁把我睡的觉偷了xhxh mysql 数据库
创建并使用数据库mydb6_product。mysql>createdatabasemydb6_product;QueryOK,1rowaffected(0.01sec)mysql>usemydb6_product;Databasechanged新建employees表。对于gender，有默认值意味着不为空，在建表时可以选择不写notnull；mysql>createtableemployees
Hadoop 常用命令 ZenPower hadoop 大数据分布式
查看指定目录下的文件及文件夹hadoopfs-ls/user/hive/warehouse/查看指定目录下的文件及文件夹大小#文件大小（单位Byte）hadoopfs-du/user/hive/warehouse#文件大小（单位人性化）hadoopfs-du-h/user/hive/warehouse#文件大小（只显示汇总）hadoopfs-du-s/user/hive/warehouse删除指定
hadoop常用命令汇总 m0_67402026 java java 后端
1、查看目录下的文件列表：hadoopfs–ls[文件目录]hadoopfs-ls-h/lance2、将本机文件夹存储至hadoop上：hadoopfs–put[本机目录][hadoop目录]hadoopfs-putlance/3、在hadoop指定目录内创建新目录：hadoopfs–mkdir[目录]hadoopfs-mkdir/lance4、在hadoop指定目录下新建一个文件，使用touch
Day_1 数据结构与算法&LeetCode入门及攻略 Finger-Von-Frings c++leetcode
数据结构与算法学习目的：我们学习算法和数据结构，是为了学会在编程中从时间复杂度、空间复杂度方面考虑解决方案，训练自己的逻辑思维，从而写出高质量的代码，以此提升自己的编程技能，获取更高的工作回报。数据结构定义：数据结构(DataStructure)指的是带有结构特性的数据元素的集合。学习的目的：为了帮助我们了解和掌握计算机中的数据是以何种方式进行组织、存储的。Q1：何为结构特性？所谓结构特性，指的是
hadoop常用命令我要用代码向我喜欢的女孩表白 hadoop npm 大数据
Yarn查看提交到资源调度器的任务（任何用yarn资源的都可以看，比如spark、tez、mapreduce）看正在运行的yarn任务yarnapplication-list杀死对应的yarn任务yarnapplication-kill{application_Id}（id可以通过-list看到）hdfs查看hdfs目录hdfsdfs-ls/（查看本集群的目录）hdfsdfs-lshdfs://i
【数据集】全球预报系统GFS概述：数据下载及处理 WW、forever 数据集 GFS
【数据集】全球预报系统GFS概述：数据下载及处理GFSweatherdata数据下载NOAANOMADSNOAA数据处理基于Python完成数据重命名参考GFSweatherdata全球预报系统GFS（GlobalForecastSystem）是美国国家海洋和大气管理局（NOAA）开发和运行的数值天气预报模型。它是一个全球性的大气模式，提供中长期天气预报。以下是一些关键点：全球覆盖：GFS提供全球
OpenDRG/DRG_Datas 项目使用教程咎宁准Karena
OpenDRG/DRG_Datas项目使用教程项目地址:https://gitcode.com/gh_mirrors/dr/DRG_Datas1.项目目录结构及介绍DRG_Datas/├──ICD/│├──ICD诊断、手术操作编码.csv│├──基础数据.csv│├──版本对照关系.csv│└──手术操作类别属性.csv├──Payment/│├──各地DRG病组清单.csv│└──医保支付标准.
AWS SAP-C02教程6--安全_aws sap c02题库(1) 2401_84252743 程序员 aws 安全区块链
有AWS管理密钥，因此安全度高AWSKMS与大多数用于加密数据的其他AWS服务集成例题：Acompanyneedstomoveitswrite-intensiveAmazonRDSforPostgreSQLdatabasefromtheeu-west-1Regiontotheeu-north-1Region.Aspartofthemigration,thecompanyneedstochangef
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。