星光下的赶路人star

电商数仓（用户行为采集平台）数据仓库概念、用户行为日志、业务数据、模拟数据、用户行为数据采集模块、日志采集Flume

1、数据仓库概念

数据仓库（ Data Warehouse ），是为企业制定决策，提供数据支持的。可以帮助企业，改进业务流程、提高产品质量等。
数据仓库的输入数据通常包括：业务数据、用户行为数据和爬虫数据等。
业务数据：就是各行业在处理事务过程中产生的数据。比如用户在电商网站中登录、下单、支付等过程中，需要和网站后台数据库进行增删改查交互，产生的数据就是业务数据。业务数据通常存储在MySQL、Oracle等数据库中。
用户行为数据：用户在使用产品过程中，通过埋点收集与客户端产品交互过程中产生的数据，并发往日志服务器进行保存。比如页面浏览、点击、停留、评论、点赞、收藏等。用户行为数据通常存储在日志文件中。
爬虫数据：通常是通过技术手段获取其他公司网站的数据。

2、项目需求及架构设计

2.1 项目需求分析

1、采集平台
（1）用户行为数据采集平台
（2）业务数据采集平台

2.2 项目架构

2.2.1 技术选型

技术选型主要考虑的因素：数据量大小、业务需求、行业内经验、技术成熟度、开发维护成本、总成本预算。

数据采集传输：Flume、Kafka、DataX、MaxWell
数据储存：MySQL、HDFS、Hbase、Redis
数据计算：Hive、Spark、Flink
数据查询：Presto、ClickHouse
数据可视化：Superset、Sugar
任务调度：DolphinScheduler
集群监控：Zabbix、Prometheus

2.2.2 系统数据流程设计

2.2.3 框架版本选型

（1）Apache框架版本

框架	版本
Hadoop	3.1.3
Zookeeper	3.5.7
MySQL	5.7.16
Hive	3.1.2
Flume	1.9.0
Kafka	3.0.0
Spark	3.0.0
DataX	3.0.0
Superset	1.3.2
DolphinScheduler	2.0.3
MaxWell	1.29.2
Flink	1.13.0
Redis	6.0.8
Hbase	2.0.5
ClickHouse	20.4.5.36-2

2.2.4 测试集群资源规划设计

服务名称	子服务	服务器（hadoop102）	服务器（hadoop103）	服务器（hadoop104）
HDFS	NameNode	√
HDFS	DataNode	√	√	√
HDFS	SecondaryNameNode			√
Yarn	ResourceManager		√
Yarn	NodeManager	√	√	√
Zookeeper	Zookeeper Server	√	√	√
Flume（采集日志）	Flume	√	√
Kafka	Kafka	√	√	√
Flume(消费kafka日志)	Flume			√
Flume(消费kafka业务)	Flume			√
Hive		√	√	√
MySQL	MysQL	√
DataX		√	√	√
Spark		√	√	√
DolphinScheduler	ApiApplicationServer	√
DolphinScheduler	AlertServer	√
DolphinScheduler	MasterServer	√
DolphinScheduler	WorkerServer	√	√	√
DolphinScheduler	LoggerServer	√	√	√
Superset	Superset	√
Flink		√
ClickHouse		√
Redis		√
Hbase		√
服务数总计		20	11	12

3、用户行为日志

3.1 用户行为日志概述

用户行为日志的内容，主要包括用户的各项行为信息以及行为所处的环境信息。收集这些信息的主要目的是优化产品和为各项分析统计指标提供数据支撑。收集这些信息的手段通常为埋点。

目前主流的埋点方式，有代码埋点（前端/后端）、可视化埋点、全埋点等。

代码埋点是通过调用埋点SDK函数，在需要埋点的业务逻辑功能位置调用接口，上报埋点数据。例如，我们对页面中的某个按钮埋点后，当这个按钮被点击时，可以在这个按钮对应的 OnClick 函数里面调用SDK提供的数据发送接口，来发送数据。

可视化埋点只需要研发人员集成采集 SDK，不需要写埋点代码，业务人员就可以通过访问分析平台的“圈选”功能，来“圈”出需要对用户行为进行捕捉的控件，并对该事件进行命名。圈选完毕后，这些配置会同步到各个用户的终端上，由采集 SDK 按照圈选的配置自动进行用户行为数据的采集和发送。

全埋点是通过在产品中嵌入SDK，前端自动采集页面上的全部用户行为事件，上报埋点数据，相当于做了一个统一的埋点。然后再通过界面配置哪些数据需要在系统里面进行分析。

3.2 用户行为日志内容

本项目收集和分析的用户行为信息主要有页面浏览记录、动作记录、曝光记录、启动记录和错误记录。

3.2.1 页面流量记录

页面浏览记录，记录的是访客对页面的浏览行为，该行为的环境信息主要有用户信息、时间信息、地理位置信息、设备信息、应用信息、渠道信息及页面信息等。

3.2.2 动作记录

动作记录，记录的是用户的业务操作行为，该行为的环境信息主要有用户信息、时间信息、地理位置信息、设备信息、应用信息、渠道信息及动作目标对象信息等。

3.2.3 曝光记录

曝光记录，记录的是曝光行为，该行为的环境信息主要有用户信息、时间信息、地理位置信息、设备信息、应用信息、渠道信息及曝光对象信息等。

3.2.4 启动记录

启动记录，记录的是用户启动应用的行为，该行为的环境信息主要有用户信息、时间信息、地理位置信息、设备信息、应用信息、渠道信息、启动类型及开屏广告信息等。

3.2.5 错误记录

启动记录，记录的是用户在使用应用过程中的报错行为，该行为的环境信息主要有用户信息、时间信息、地理位置信息、设备信息、应用信息、渠道信息、以及可能与报错相关的页面信息、动作信息、曝光信息和动作信息。

3.3 用户行为日志格式

我们的日志结构大致可分为两类，一是页面日志，二是启动日志。

3.3.1 页面日志

页面日志，以页面浏览为单位，即一个页面浏览记录，生成一条页面埋点日志。一条完整的页面日志包含，一个页面浏览记录，若干个用户在该页面所做的动作记录，若干个该页面的曝光记录，以及一个在该页面发生的报错记录。除上述行为信息，页面日志还包含了这些行为所处的各种环境信息，包括用户信息、时间信息、地理位置信息、设备信息、应用信息、渠道信息等。

{
	"common": {                     -- 环境信息
		"ar": "230000",             -- 地区编码
		"ba": "iPhone",             -- 手机品牌
		"ch": "Appstore",           -- 渠道
		"is_new": "1",              -- 是否首日使用，首次使用的当日，该字段值为1，过了24:00，该字段置为0。
		"md": "iPhone 8",           -- 手机型号
		"mid": "YXfhjAYH6As2z9Iq",  -- 设备id
		"os": "iOS 13.2.9",         -- 操作系统
		"uid": "485",               -- 会员id
		"vc": "v2.1.134"            -- app版本号
	},
	"actions": [{                   -- 动作(事件)
		"action_id": "favor_add",   -- 动作id
		"item": "3",                -- 目标id
		"item_type": "sku_id",      -- 目标类型
		"ts": 1585744376605         -- 动作时间戳
	    }
	],
	"displays": [{                  -- 曝光
			"displayType": "query", -- 曝光类型
			"item": "3",            -- 曝光对象id
			"item_type": "sku_id",  -- 曝光对象类型
			"order": 1,             -- 出现顺序
			"pos_id": 2             -- 曝光位置
		},
		{
			"displayType": "promotion",
			"item": "6",
			"item_type": "sku_id",
			"order": 2,
			"pos_id": 1
		},
		{
			"displayType": "promotion",
			"item": "9",
			"item_type": "sku_id",
			"order": 3,
			"pos_id": 3
		},
		{
			"displayType": "recommend",
			"item": "6",
			"item_type": "sku_id",
			"order": 4,
			"pos_id": 2
		},
		{
			"displayType": "query ",
			"item": "6",
			"item_type": "sku_id",
			"order": 5,
			"pos_id": 1
		}
	],
	"page": {                          -- 页面信息
		"during_time": 7648,           -- 持续时间毫秒
		"item": "3", 	               -- 目标id
		"item_type": "sku_id",         -- 目标类型
		"last_page_id": "login",       -- 上页类型
		"page_id": "good_detail",      -- 页面ID
		"sourceType": "promotion"      -- 来源类型
	},                                 
	"err": {                           --错误
		"error_code": "1234",          --错误码
		"msg": "***********"           --错误信息
	},                                 
	"ts": 1585744374423                --跳入时间戳
}

3.3.2 启动日志

启动日志以启动为单位，及一次启动行为，生成一条启动日志。一条完整的启动日志包括一个启动记录，一个本次启动时的报错记录，以及启动时所处的环境信息，包括用户信息、时间信息、地理位置信息、设备信息、应用信息、渠道信息等。

{
  "common": {
    "ar": "370000",
    "ba": "Honor",
    "ch": "wandoujia",
    "is_new": "1",
    "md": "Honor 20s",
    "mid": "eQF5boERMJFOujcp",
    "os": "Android 11.0",
    "uid": "76",
    "vc": "v2.1.134"
  },
  "start": {   
    "entry": "icon",         --icon手机图标  notice 通知   install 安装后启动
    "loading_time": 18803,  --启动加载时间
    "open_ad_id": 7,        --广告页ID
    "open_ad_ms": 3449,    -- 广告总共播放时间
    "open_ad_skip_ms": 1989   --  用户跳过广告时点
  },
"err":{                     --错误
"error_code": "1234",      --错误码
    "msg": "***********"       --错误信息
},
  "ts": 1585744304000
}

3.4 服务器和JDK准备

3.4.1 服务器准备

第1章 Hadoop运行环境搭建
1.1 模板虚拟机环境准备
0）安装模板虚拟机，IP地址192.168.10.100、主机名称hadoop100、内存4G、硬盘50G

1）hadoop100虚拟机配置要求如下（本文Linux系统全部以CentOS-7.5-x86-1804为例）
（1）使用yum安装需要虚拟机可以正常上网，yum安装前可以先测试下虚拟机联网情况
[root@hadoop100 ~]# ping www.baidu.com
PING www.baidu.com (14.215.177.39) 56(84) bytes of data.
64 bytes from 14.215.177.39 (14.215.177.39): icmp_seq=1 ttl=128 time=8.60 ms
64 bytes from 14.215.177.39 (14.215.177.39): icmp_seq=2 ttl=128 time=7.72 ms
（2）安装epel-release
注：Extra Packages for Enterprise Linux是为“红帽系”的操作系统提供额外的软件包，适用于RHEL、CentOS和Scientific Linux。相当于是一个软件仓库，大多数rpm包在官方 repository 中是找不到的）
[root@hadoop100 ~]# yum install -y epel-release
（3）注意：如果Linux安装的是最小系统版，还需要安装如下工具；如果安装的是Linux桌面标准版，不需要执行如下操作
net-tool：工具包集合，包含ifconfig等命令
[root@hadoop100 ~]# yum install -y net-tools 
vim：编辑器
[root@hadoop100 ~]# yum install -y vim
2）关闭防火墙，关闭防火墙开机自启
[root@hadoop100 ~]# systemctl stop firewalld
[root@hadoop100 ~]# systemctl disable firewalld.service
	注意：在企业开发时，通常单个服务器的防火墙时关闭的。公司整体对外会设置非常安全的防火墙
3）创建atguigu用户，并修改atguigu用户的密码
[root@hadoop100 ~]# useradd atguigu
[root@hadoop100 ~]# passwd atguigu
4）配置atguigu用户具有root权限，方便后期加sudo执行root权限的命令
[root@hadoop100 ~]# vim /etc/sudoers
修改/etc/sudoers文件，在%wheel这行下面添加一行，如下所示：
## Allow root to run any commands anywhere
root    ALL=(ALL)     ALL

## Allows people in group wheel to run all commands
%wheel  ALL=(ALL)       ALL
atguigu   ALL=(ALL)     NOPASSWD:ALL
注意：atguigu这一行不要直接放到root行下面，因为所有用户都属于wheel组，你先配置了atguigu具有免密功能，但是程序执行到%wheel行时，该功能又被覆盖回需要密码。所以atguigu要放到%wheel这行下面。
5）在/opt目录下创建文件夹，并修改所属主和所属组
（1）在/opt目录下创建module、software文件夹
[root@hadoop100 ~]# mkdir /opt/module
[root@hadoop100 ~]# mkdir /opt/software
	（2）修改module、software文件夹的所有者和所属组均为atguigu用户 
[root@hadoop100 ~]# chown atguigu:atguigu /opt/module 
[root@hadoop100 ~]# chown atguigu:atguigu /opt/software
（3）查看module、software文件夹的所有者和所属组
[root@hadoop100 ~]# cd /opt/
[root@hadoop100 opt]# ll
总用量 12
drwxr-xr-x. 2 atguigu atguigu 4096 5月  28 17:18 module
drwxr-xr-x. 2 root    root    4096 9月   7 2017 rh
drwxr-xr-x. 2 atguigu atguigu 4096 5月  28 17:18 software
6）卸载虚拟机自带的JDK
	注意：如果你的虚拟机是最小化安装不需要执行这一步。
[root@hadoop100 ~]# rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps 
rpm -qa：查询所安装的所有rpm软件包
grep -i：忽略大小写
xargs -n1：表示每次只传递一个参数
rpm -e –nodeps：强制卸载软件
7）重启虚拟机
[root@hadoop100 ~]# reboot
1.2 克隆虚拟机
1）利用模板机hadoop100，克隆三台虚拟机：hadoop102、hadoop103、hadoop104
	注意：克隆时，要先关闭hadoop100
2）修改克隆机IP，以下以hadoop102举例说明
（1）修改克隆虚拟机的静态IP
[atguigu@hadoop100 ~]# sudo vim /etc/sysconfig/network-scripts/ifcfg-ens33
改成
DEVICE=ens33
TYPE=Ethernet
ONBOOT=yes
BOOTPROTO=static
NAME="ens33"
IPADDR=192.168.10.102
PREFIX=24
GATEWAY=192.168.10.2
DNS1=192.168.10.2
（2）查看Linux虚拟机的虚拟网络编辑器，编辑->虚拟网络编辑器->VMnet8


（3）查看Windows系统适配器VMware Network Adapter VMnet8的IP地址

（4）保证Linux系统ifcfg-ens33文件中IP地址、虚拟网络编辑器地址和Windows系统VM8网络IP地址相同。
3）修改克隆机主机名，以下以hadoop102举例说明
	（1）修改主机名称
[atguigu@hadoop100 ~]# sudo vim /etc/hostname
hadoop102
（2）配置Linux克隆机主机名称映射hosts文件，打开/etc/hosts
[atguigu@hadoop100 ~]# sudo vim /etc/hosts
添加如下内容
192.168.10.100 hadoop100
192.168.10.101 hadoop101
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104
192.168.10.105 hadoop105
192.168.10.106 hadoop106
192.168.10.107 hadoop107
192.168.10.108 hadoop108
4）重启克隆机hadoop102 
[atguigu@hadoop100 ~]# sudo reboot
5）修改windows的主机映射文件（hosts文件）
（1）如果操作系统是window7，可以直接修改 
	①进入C:\Windows\System32\drivers\etc路径
	②打开hosts文件并添加如下内容，然后保存
192.168.10.100 hadoop100
192.168.10.101 hadoop101
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104
192.168.10.105 hadoop105
192.168.10.106 hadoop106
192.168.10.107 hadoop107
192.168.10.108 hadoop108
（2）如果操作系统是window10，先拷贝出来，修改保存以后，再覆盖即可
①进入C:\Windows\System32\drivers\etc路径
②拷贝hosts文件到桌面
③打开桌面hosts文件并添加如下内容
192.168.10.100 hadoop100
192.168.10.101 hadoop101
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104
192.168.10.105 hadoop105
192.168.10.106 hadoop106
192.168.10.107 hadoop107
192.168.10.108 hadoop108
④将桌面hosts文件覆盖C:\Windows\System32\drivers\etc路径hosts文件

3.4.2 编写集群分发脚本xsync

1、xsync集群分发脚本
（1）需求：循环复制文件到所有节点的相同目录下
（2）需求分析
①rsync命令原始拷贝：
rsync -av /opt/module root@hadoop103:/opt/
②期望脚本：
xsync要同步的文件名称
③说明：在/home/zhm/bin这个目录下存放的脚本，zhm用户可以在系统任何地方直接执行。
（3）脚本实现
①在用的家目录/home/zhm下创建bin文件夹
②在/home/atguigu/bin目录下创建xsync文件，以便全局调用
在该文件中编写如下代码

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
  echo Not Enough Arguement!
  exit;
fi
#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
  echo ====================  $host  ====================
  #3. 遍历所有目录，挨个发送
  for file in $@
  do
    #4 判断文件是否存在
    if [ -e $file ]
    then
      #5. 获取父目录
      pdir=$(cd -P $(dirname $file); pwd)
      #6. 获取当前文件的名称
      fname=$(basename $file)
      ssh $host "mkdir -p $pdir"
      rsync -av $pdir/$fname $host:$pdir
    else
      echo $file does not exists!
    fi
  done
done

③修改脚本xsync具有执行权限

3.4.3 SSH无密登录配置

说明：这里面只配置了hadoop102、hadoop103到其他主机的无密登录；因为hadoop102未外配置的是NameNode，hadoop103配置的是ResourceManager，都要求对其他节点无密访问。
1、hadoop102上生成公钥和私钥：

ssh-keygen -t rsa （要cd ~/.ssh）

然后敲（三个回车），就会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）
2、将hadoop102公钥拷贝到要免密登录的目标机器上（在.ssh目录下，下面一样）

ssh-copy-id hadoop102
ssh-copy-id hadoop103
ssh-copy-id hadoop104

3、hadoop103上生成公钥和私钥：

ssh-keygen -t rsa

4、将hadoop103公钥拷贝到要免密登录的目标机器上

ssh-copy-id hadoop102
ssh-copy-id hadoop103
ssh-copy-id hadoop104

3.4.4 JDK准备

1、卸载现有JDK（3台节点）

sudo rpm -qa | grep -i java | xargs -n1 sudo rpm -e --nodeps

（1）rpm -qa：表示查询所有已经安装的软件包
（2）grep -i：表示过滤时不区分大小写
（3）xargs -n1：表示一次获取上次执行结果的一个值
（4）rpm -e --nodeps：表示卸载软件
2、用XShell工具将JDK导入到hadoop102的/opt/software文件夹下面
3、解压JDK到/opt/module目录下

tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/

4、配置JDK环境变量
（1）新建/etc/profile.d/my_env.sh文件
添加如下内容，然后保存（:wq）退出

#JAVA_HOME
export JAVA_HOME=/opt/module/jdk
export PATH=$PATH:$JAVA_HOME/bin

（2）让环境变量生效

source /etc/profile.d/my_env.sh

5、测试JDK是否安装成功

java -version

6、分发JDK

xsync /opt/module/jdk

7、分发环境变量配置文件

sudo /home/atguigu/bin/xsync /etc/profile.d/my_env.sh

8、分别在hadoop103、hadoop104上执行source

3.5 模拟数据

3.5.1 使用说明

1、将application.yml、gmall2020-mock-log-2021-10-10.jar、path.json、logback.xml上传到hadoop102的/opt/module/applog目录下

资源获取
链接：https://pan.baidu.com/s/1d_sumGVy5OxYGHT1HbB7xg
提取码：zhm6

（1）创建applog路径
（2）上传文件到/opt/module/applog目录
2、配置文件
（1）application.yml文件
可以根据需求生成对应日期的用户行为日志。

vim application.yml

修改如下内容

# 外部配置打开
logging.config: "./logback.xml"
#业务日期  注意：并不是Linux系统生成日志的日期，而是生成数据中的时间
mock.date: "2020-06-14"

#模拟数据发送模式
#mock.type: "http"
#mock.type: "kafka"
mock.type: "log"

#http模式下，发送的地址
mock.url: "http://hdp1/applog"

#kafka模式下，发送的地址
mock:
  kafka-server: "hdp1:9092,hdp2:9092,hdp3:9092"
  kafka-topic: "ODS_BASE_LOG"

#启动次数
mock.startup.count: 200
#设备最大值
mock.max.mid: 500000
#会员最大值
mock.max.uid: 100
#商品最大值
mock.max.sku-id: 35
#页面平均访问时间
mock.page.during-time-ms: 20000
#错误概率 百分比
mock.error.rate: 3
#每条日志发送延迟 ms
mock.log.sleep: 10
#商品详情来源  用户查询，商品推广，智能推荐, 促销活动
mock.detail.source-type-rate: "40:25:15:20"
#领取购物券概率
mock.if_get_coupon_rate: 75
#购物券最大id
mock.max.coupon-id: 3
#搜索关键词  
mock.search.keyword: "图书,小米,iphone11,电视,口红,ps5,苹果手机,小米盒子"

（2）path.json，该文件用来配置访问路径
（3）logback配置文件
可配置日志生成路径，修改内容如下

<?xml version="1.0" encoding="UTF-8"?>
<configuration>
    <property name="LOG_HOME" value="/opt/module/applog/log" />
    <appender name="console" class="ch.qos.logback.core.ConsoleAppender">
        <encoder>
            <pattern>%msg%n</pattern>
        </encoder>
    </appender>

    <appender name="rollingFile" class="ch.qos.logback.core.rolling.RollingFileAppender">
        <rollingPolicy class="ch.qos.logback.core.rolling.TimeBasedRollingPolicy">
            <fileNamePattern>${LOG_HOME}/app.%d{yyyy-MM-dd}.log</fileNamePattern>
        </rollingPolicy>
        <encoder>
            <pattern>%msg%n</pattern>
        </encoder>
    </appender>

    <!-- 将某一个包下日志单独打印日志 -->
    <logger name="com.atgugu.gmall2020.mock.log.util.LogUtil"
            level="INFO" additivity="false">
        <appender-ref ref="rollingFile" />
        <appender-ref ref="console" />
    </logger>

    <root level="error"  >
        <appender-ref ref="console" />
    </root>
</configuration>

（4）生成日志

进入到/opt/module/applog路径，执行以下命令

java -jar gmall2020-mock-log-2021-10-10.jar

在/opt/module/applog/log目录下查看生成日志

3.5.2 集群日志生成脚本

在hadoop102的/home/atguigu目录下创建bin目录，这样脚本可以在服务器的任何目录执行。
1、在/home/atguigu/bin目录下创建脚本lg.sh
2、在脚本中编写如下内容

#!/bin/bash
for i in hadoop102 hadoop103; do
    echo "========== $i =========="
    ssh $i "cd /opt/module/applog/; java -jar gmall2020-mock-log-2021-10-10.jar >/dev/null 2>&1 &"
done

3、修改脚本执行权限

chmod 777 lg.sh

4、将jar包及配置文件上传至hadoop103的/opt/module/applog/路径
5、启动脚本

lg.sh

6、分别在hadoop102、hadoop103的/opt/module/applog/log目录上查看生成的数据

4、用户行为数据采集模块

4.1 数据通道

用户行为日志数据通道

4.2 环境准备

4.2.1 集群所有进程查看脚本

1、在/home/atguigu/bin目录下创建脚本jpsall

vim jpsall

2、在脚本中编写如下内容

#! /bin/bash
 
for i in hadoop102 hadoop103 hadoop104
do
    echo --------- $i ----------
    ssh $i jps
done

3、修改脚本执行权限

chmod 777 jpsall

4、启动脚本

xcall

4.2.2 Hadoop安装

4.2.3 Zookeeper安装

4.2.4 Kafka安装

4.2.5 Flume安装

4.3 日志采集Flume

4.3.1 日志采集Flume概述

按照规划，需要采集的用户行为日志文件分布在hadoop102，hadoop103两台日志服务器，故需要在hadoop102，hadoop103两台节点配置日志采集Flume。日志采集Flume需要采集日志文件内容，并对日志格式（JSON）进行校验，然后将校验通过的日志发送到Kafka。

此处可选择TaildirSource和KafkaChannel，并配置日志校验拦截器。

选择TailDirSource和KafkaChannel的原因如下：
1、TailDirSource
TailDirSource相比ExecSource、SpoolingDirectorySource的优势
TailDirSource：断点续传、多目录。Flume1.6以前需要自己自定义Source记录每次读取文件位置，实现断点续传。
ExecSource可以实时搜集数据，但是在Flume不运行或者Shell命令出错的情况下，数据将会丢失。
SpoolingDirectorySource监控目录，支持断点续传。
2、KafkaChannel
采用Kafka Channel，省去了Sink，提高了效率。

日志采集Flume关键配置如下：

4.3.2 日志采集Flume配置实操

1、创建Flume配置文件
在hadoop102节点的Flume的job目录下创建file_to_kafka.conf

@hadoop104 flume]$ mkdir job
@hadoop104 flume]$ vim job/file_to_kafka.conf

2、配置文件内容如下

#定义组件
a1.sources = r1
a1.channels = c1

#配置source
a1.sources.r1.type = TAILDIR
a1.sources.r1.filegroups = f1
a1.sources.r1.filegroups.f1 = /opt/module/applog/log/app.*
a1.sources.r1.positionFile = /opt/module/flume/taildir_position.json
a1.sources.r1.interceptors =  i1
a1.sources.r1.interceptors.i1.type = org.zhm.gmall.flume.interceptor.ETLInterceptor$Builder

#配置channel
a1.channels.c1.type = org.apache.flume.channel.kafka.KafkaChannel
a1.channels.c1.kafka.bootstrap.servers = hadoop102:9092,hadoop103:9092
a1.channels.c1.kafka.topic = topic_log
a1.channels.c1.parseAsFlumeEvent = false

#组装 
a1.sources.r1.channels = c1

3、编写Flume拦截器
（1）创建Maven工程flume-interceptor
（2）创建包：com.atguigu.gmall.flume.interceptor
（3）在pom.xml文件中添加如下配置

<dependencies>
    <dependency>
        <groupId>org.apache.flumegroupId>
        <artifactId>flume-ng-coreartifactId>
        <version>1.9.0version>
        <scope>providedscope>
    dependency>

    <dependency>
        <groupId>com.alibabagroupId>
        <artifactId>fastjsonartifactId>
        <version>1.2.62version>
    dependency>
dependencies>

<build>
    <plugins>
        <plugin>
            <artifactId>maven-compiler-pluginartifactId>
            <version>2.3.2version>
            <configuration>
                <source>1.8source>
                <target>1.8target>
            configuration>
        plugin>
        <plugin>
            <artifactId>maven-assembly-pluginartifactId>
            <configuration>
                <descriptorRefs>
                    <descriptorRef>jar-with-dependenciesdescriptorRef>
                descriptorRefs>
            configuration>
            <executions>
                <execution>
                    <id>make-assemblyid>
                    <phase>packagephase>
                    <goals>
                        <goal>singlegoal>
                    goals>
                execution>
            executions>
        plugin>
    plugins>
build>

（4）在org.zhm.gmall.flume.utils包下创建JSONUtil类

import com.alibaba.fastjson.JSONObject;
import com.alibaba.fastjson.JSONException;

public class JSONUtil {
/*
* 通过异常判断是否是json字符串
* 是：返回true  不是：返回false
* */
    public static boolean isJSONValidate(String log){
        try {
            JSONObject.parseObject(log);
            return true;
        }catch (JSONException e){
            return false;
        }
    }
}

（5）在org.zhm.gmall.flume.interceptor包下创建ETLInterceptor类

import com.atguigu.gmall.flume.utils.JSONUtil;
import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.interceptor.Interceptor;


import java.nio.charset.StandardCharsets;
import java.util.Iterator;
import java.util.List;

public class ETLInterceptor implements Interceptor {

    @Override
    public void initialize() {

    }

    @Override
    public Event intercept(Event event) {
		
		//1、获取body当中的数据并转成字符串
        byte[] body = event.getBody();
        String log = new String(body, StandardCharsets.UTF_8);
		//2、判断字符串是否是一个合法的json，是：返回当前event；不是：返回null
        if (JSONUtil.isJSONValidate(log)) {
            return event;
        } else {
            return null;
        }
    }

    @Override
    public List<Event> intercept(List<Event> list) {

        Iterator<Event> iterator = list.iterator();

        while (iterator.hasNext()){
            Event next = iterator.next();
            if(intercept(next)==null){
                iterator.remove();
            }
        }

        return list;
    }

    public static class Builder implements Interceptor.Builder{

        @Override
        public Interceptor build() {
            return new ETLInterceptor();
        }
        @Override
        public void configure(Context context) {

        }

    }

    @Override
    public void close() {

    }
}

（6）打包

（7）需要先将打好的包放入到hadoop102的/opt/module/flume/lib文件夹下面。

4.3.3 日志采集Flume测试

1、启动Zookeeper、Kafka集群
2、启动hadoop102的日志采集Flume

 bin/flume-ng agent -n a1 -c conf/ -f job/file_to_kafka.conf -Dflume.root.logger=info,console

3、启动一个Kafka的Console-Consumer

bin/kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --topic topic_log

4、生成模拟数据

lg.sh

5、观察Kafka消费者是否能消费到数据

4.3.4 日志·采集Flume启停脚本

1、分发日志采集Flume配置文件和拦截器
若上述测试通过，需将hadoop102节点的Flume的配置文件和拦截器jar包，向另一台日志服务器发送一份。

scp -r job hadoop103:/opt/module/flume/
[atguigu@hadoop102 flume]$ scp lib/flume-interceptor-1.0-SNAPSHOT-jar-with-dependencies.jar hadoop103:/opt/module/flume/lib/

2、方便起见，此处编写一个日志采集Flume进程的启停脚本
在hadoop102节点的/home/atguigu/bin目录下创建脚本f1.sh

vim f1.sh

在脚本中填写如下内容

#!/bin/bash

case $1 in
"start"){
        for i in hadoop102 hadoop103
        do
                echo " --------启动 $i 采集flume-------"
                ssh $i "nohup /opt/module/flume/bin/flume-ng agent -n a1 -c /opt/module/flume/conf/ -f /opt/module/flume/job/file_to_kafka.conf >/dev/null 2>&1 &"
        done
};; 
"stop"){
        for i in hadoop102 hadoop103
        do
                echo " --------停止 $i 采集flume-------"
                ssh $i "ps -ef | grep file_to_kafka | grep -v grep |awk  '{print \$2}' | xargs -n1 kill -9 "
        done

};;
esac

3、增加脚本执行权限

 chmod 777 f1.sh

4、f1启动

f1.sh start

5、f1停止

f1.sh stop

你可能感兴趣的:(数仓学习,数据仓库,flume,大数据,kafka,数据库)

告别繁琐！使用AI代码生成器ScriptEcho快速构建WebSocket实时应用前端
WebSocket实时应用，以其低延迟、高效率的特点，在实时聊天、在线游戏、股票交易等领域发挥着越来越重要的作用。然而，对于新手开发者来说，构建一个功能完善的WebSocket应用却并非易事。复杂的代码编写、繁琐的后端接口对接以及漫长的调试测试过程，往往成为入门学习的巨大挑战。幸运的是，现在有了AI代码生成器ScriptEcho，它能够显著简化开发流程，帮助你快速构建高质量的WebSocket应用
Flink CDC MySQL同步MySQL错误记录 lingllllove flink mysql 大数据
FlinkCDC简介FlinkCDC（ChangeDataCapture）是一种高效的数据同步工具，利用Flink强大的实时流处理能力，从MySQL等数据库捕获数据变更，并将这些变更实时同步到目标数据库。本文将详细介绍FlinkCDCMySQL同步到MySQL时常见的错误记录及其解决方法。常见错误及解决方法1.连接错误错误信息：FailedtoconnecttoMySQLserver.可能原因：
咱们继续学Java——高级篇第一百九十八篇：之Java 2D中的区域与笔划知识详解一杯年华@编程空间咱们继续学java高级篇 struts spring boot java-ee jetty junit log4j servlet
咱们继续学Java——高级篇第一百九十八篇：之Java2D中的区域与笔划知识详解在Java的学习征程中，每一个知识点都是我们积累经验、提升能力的基石。我写这篇博客的目的，就是希望能与各位一同探索Java编程的奇妙世界，共同在这个领域中取得进步。今天，我们将聚焦于Java2D中的区域和笔划相关知识，深入了解这些概念和操作，相信这会让你在图形绘制方面有更多的技巧和方法。Path2D类的方法介绍java
PyTorch 基础数据集：从理论到实践的深度学习基石那年一路北 Pytorch理论+实践深度学习 pytorch 人工智能
一、引言深度学习作为当今人工智能领域的核心技术，在图像识别、自然语言处理、语音识别等众多领域取得了令人瞩目的成果。而在深度学习的体系中，数据扮演着举足轻重的角色，它是模型训练的基础，如同建筑的基石，决定了模型的性能和泛化能力。PyTorch作为当下最流行的深度学习框架之一，为开发者提供了丰富且强大的工具来处理数据集。本文将深入探讨PyTorch中的基础数据集，从深度学习中数据的重要性出发，详细介绍
MySQL备份策略（五）：LVM快照备份一万个大苹果自动化运维 mysql 数据库 lvm 运维
方法一：1.添加新的磁盘2.创建LVM并格式化3.将当前的mysql数据库迁移到逻辑卷上4.快照备份数据库5.测试快照备份方法二：（整理为脚本）1.将上面备份整理为脚本+Crontab计划任务定时完成备份数据文件要在逻辑卷上；此逻辑卷所在卷组必须有足够空间使用快照卷；数据文件和事务日志要在同一个逻辑卷上；MySQL数据lv和将要创建的快照要在同一vg，vg要有足够的空间存储。方法一：1.添加新的磁
mysql的timestamp类型_MySQL数据库中的timestamp类型与时区 weixin_39758696
MySQL的timestamp类型时间范围between'1970-01-0100:00:01'and'2038-01-1903:14:07'，超出这个范围则值记录为'0000-00-0000:00:00'，该类型的一个重要特点就是保存的时间与时区密切相关，上述所说的时间范围是UTC(UniversalTimeCoordinated)标准，指的是经度0度上的标准时间，我国日常生活中时区以首都北京所
批量作业调度、数据挖掘，这几款应该是今年 “最值得推荐” 的ETL工具了加菲盐008 taskctl Kettle kettle etl 批量作业调度数据挖掘 taskctl
工具传送门：Taskctl商业付费版(付费)TaskctlWeb商业免费版（永久免费）Kettle（开源免费）Datastage(付费)ETL是数据仓库中的非常重要的一环，是承前启后的必要的一步。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。下面给大家介绍一下什么是ETL以及
新星计划Day11【数据结构与算法】排序算法2 京与旧铺 java学习排序算法 java 算法
新星计划Day11【数据结构与算法】排序算法2‍博客主页：京与旧铺的博客主页✨欢迎关注点赞收藏⭐留言✒本文由京与旧铺原创，csdn首发！系列专栏：java学习参考网课：尚硅谷首发时间：2022年5月13日你做三四月的事，八九月就会有答案，一起加油吧如果觉得博主的文章还不错的话，请三连支持一下博主哦最后的话，作者是一个新人，在很多方面还做的不好，欢迎大佬指正，一起学习哦，冲冲冲推荐一款模拟面试、刷题
React Native 介绍王睿丶资讯看点 React Native 移动开发跨平台 React 王睿丶
文章目录一丶ReactNative惊喜二丶ReactNative简介三丶ReactNative特性四丶ReactNative优点五丶ReactNative局限性六丶构建最简单的应用七丶学习资料一丶ReactNative惊喜ReactNative是一个使用JavaScript和React来编写跨终端移动应用（Android或IOS）的一种解决方案这句话是什么意思呢？即使你不懂如何使用Java或Kot
MySQL表的创建实验谁把我睡的觉偷了xhxh mysql 数据库
创建并使用数据库mydb6_product。mysql>createdatabasemydb6_product;QueryOK,1rowaffected(0.01sec)mysql>usemydb6_product;Databasechanged新建employees表。对于gender，有默认值意味着不为空，在建表时可以选择不写notnull；mysql>createtableemployees
收藏！Python常用的第三方模块,你知道几个呢？ Python子木_ Python入门 Python学习 Python零基础 python pandas python教程 python基础 python学习 python入门青少年编程
作为一种流行的编程语言,拥有丰富的第三方模块,这些模块极大地扩展了的功能,使得各种开发任务变得更加高效和便捷.本文将介绍几种常用的第三方模块,提供示例展示,并对它们进行分类,以帮助读者更好地理解和使用这些工具.这里插播一条粉丝福利，如果你正在学习Python或者有计划学习Python，想要突破自我，对未来十分迷茫的，可以点击这里获取最新的Python学习资料和学习路线规划（免费分享，记得关注）1.
Day_1 数据结构与算法&LeetCode入门及攻略 Finger-Von-Frings c++leetcode
数据结构与算法学习目的：我们学习算法和数据结构，是为了学会在编程中从时间复杂度、空间复杂度方面考虑解决方案，训练自己的逻辑思维，从而写出高质量的代码，以此提升自己的编程技能，获取更高的工作回报。数据结构定义：数据结构(DataStructure)指的是带有结构特性的数据元素的集合。学习的目的：为了帮助我们了解和掌握计算机中的数据是以何种方式进行组织、存储的。Q1：何为结构特性？所谓结构特性，指的是
DolphinScheduler × Jiron：打造高效智能的数据调度新生态 jiron开源平台开发 flink 大数据 hadoop hive sqoop spring cloud sentinel
JironGitHub地址https://github.com/642933588/jiron-cloudhttps://gitee.com/642933588/jiron-cloudDolphinScheduler×Jiron：打造高效智能的数据调度新生态DolphinScheduler是一个开源的分布式任务调度平台，专为大数据场景下的工作流调度和数据治理而设计。将DolphinSchedule
动态内存管理 ulias212 算法 c语言开发语言
在了解和学习之前，我们需要了解为什么要有动态内存管理？程序运行时需要动态分配内存，而系统提供的内存有限程序运行时需要频繁地分配和释放内存，降低系统的内存利用率程序运行时需要处理大量的内存，如字符串、数组、结构体等malloc和free函数#includevoid*malloc(size_tsize)我们可以通过如此的操作来分配内存。参数的单位是字节(size_t)，如果申请内存成功返回起始地址，反
【深度学习】Pytorch：导入导出模型参数 T0uken 深度学习 pytorch 人工智能
PyTorch是深度学习领域中广泛使用的框架，熟练掌握其模型参数的管理对于模型训练、推理以及部署非常重要。本文将全面讲解PyTorch中关于模型参数的操作，包括如何导出、导入以及如何下载模型参数。什么是模型参数模型参数是指深度学习模型中需要通过训练来优化的变量，如神经网络中的权重和偏置。这些参数存储在PyTorch的torch.nn.Module对象中，通过以下方式访问：importtorchim
matlab程序代编程写做代码图像处理BP神经网络机器深度学习python matlabgoodboy 深度学习 matlab 图像处理
1.安装必要的库首先，确保你已经安装了必要的Python库。如果没有安装，请运行以下命令：bash复制代码pipinstallnumpymatplotlibtensorflowopencv-python2.图像预处理我们将使用OpenCV来加载和预处理图像数据。假设你有一个图像数据集，每个类别的图像存放在单独的文件夹中。python复制代码importosimportcv2importnumpya
Kubernetes架构原则和对象设计（二） grahamzhu 云原生学习专栏 kubernetes 架构容器集群搭建 API设计云计算 kubelet
云原生学习路线导航页（持续更新中）kubernetes学习系列快捷链接Kubernetes架构原则和对象设计（一）Kubernetes常见问题解答本文从云计算架构发展入手，详细分析了kubernetes的生态系统、设计理念、分层架构、API设计原则、架构设计原则等，并介绍了使用kubelet+staticPod拉起集群的过程1.云计算的传统分类云计算出现之前，对于任何企业，想要搭建自己的服务，需要
一种时序数据模式演化的跟踪与查询方法米朵儿技术屋智能科学与技术专栏分类学习数据挖掘
摘要在物联网与大数据应用蓬勃发展的背景下，各类感知设备产生海量的时序数据，设备管理软件版本的快速迭代导致时序数据的模式演化问题日益凸显.模式演化要求对数据模式进行版本管理，使数据进行模式变更时不产生信息损失，且支持对数据跨模式版本进行读写操作.结合流行的时序数据库管理系统，调研总结了各类数据库管理系统对模式演化的支持情况，对时序数据及其模式进行了形式化表述，对其模式演化的过程进行了分析，设计了一种
Spring Task定时任务的基础使用 Bailey395 spring java 数据库
SpringTask的使用就分为3步骤：1.在pom.xml中导入对应的依赖2.自定义定时任务累3.在启动类中添加对应的注解学习之前我们先学习一下cron表达式：在我们使用调度任务技术的时候，特别是调度框架，里面都支持使用日历的方式来设置任务制定的时间、频率等，通常情况下都会使用cron表达式来表达cron表达式是一个字符串,用来设置定时规则,由七部分组成,每部分中间用空格隔开,每部分的含义如下表
预约功能的知识整理 Bailey395 java servlet 数据库
前置知识如果项目为小程序的开发项目中：我们确定数据库中有的字段有:预约人姓名、手机号、家人名称、预约时间根据我们的经定一表必须要有的6个字段：主键、创建时间、修改时间、创建人、修改人、备注使用我们现在有的字段为：主键、预约人姓名、手机号、家人姓名、预约时间、创建时间、修改时间、创建人、修改人、备注预约的状态也有4种,具体如下:待报道预约成功后已完成取消过期所以，预约表中最终的表字段为：主键、预约人
FPGA在高速数据采集系统中的应用！！！ FPGA资料库 fpga开发 fpga verilog 物联网 stm32
FPGA（现场可编程门阵列）在高速数据采集系统中的应用非常广泛，主要得益于其并行处理能力、可编程性和高速接口特性。以下是FPGA在高速数据采集系统中的详细应用，以及一些具体例子：1.应用背景高速数据采集系统通常用于需要高采样率和大数据量处理的场合，如雷达信号处理、医疗成像、高速通信等。FPGA因其独特的硬件架构，能够有效处理高速数据流，因此在这些系统中扮演着关键角色。2.应用内容2.1数据采集接口
后端程序员基础篇（一） JAVA基础菜鸡来咯 java
在以往的博客中，大部分讲解的是框架的基础框架和功能模块，对于想要从事Web开发的同学来说，框架和各个功能模块固然非常重要，但这些都是建立在你有深厚的基础之上的，一开始学习的重点应该放在基础上面，在有了深厚的地基之后，学习框架和各个功能模块再之后的微服务等各个架构才能举一反三，学习得更加透彻接下来以我的逻辑来简要说明一下Web应用的开发人员的学习之路，算是帮助目前还比较迷茫的同学。Java基础，Sq
Python气象数据分析：风速预报订正、台风预报数据智能订正、机器学习预测风电场的风功率、浅水模型、预测ENSO等小艳加油大气科学 python 人工智能气象机器学习
目录专题一Python和科学计算基础专题二机器学习和深度学习基础理论和实操专题三气象领域中的机器学习应用实例专题四气象领域中的深度学习应用实例更多应用Python是功能强大、免费、开源，实现面向对象的编程语言，在数据处理、科学计算、数学建模、数据挖掘和数据可视化方面具备优异的性能，这些优势使得Python在气象、海洋、地理、气候、水文和生态等地学领域的科研和工程项目中得到广泛应用。可以预见未来Py
YOLOv8/YOLOv11使用web界面推理自己的模型，Gradio框架快速搭建挂科边缘 YOLOv8改进 YOLO 前端计算机视觉目标检测人工智能 python
前言Gradio是一个开源Python库，用于快速构建和共享机器学习模型的Web界面。开发者可以通过简单的Python代码将机器学习模型封装成交互式应用，无需复杂的设置即可在浏览器中使用自己训练好模型。接下来教你使用Gradio框架构建一个简单Web界面推理YOLOv8/YOLOv11模型。话不多说上检测结果：一、YOLOv8/YOLOv11源码下载YOLOv8源码下载：官网打不开的话，从我的网盘
自学 python 中的异步编程 asyncio (五)：asyncio 与线程thread Eaton5959 python
自学python中的异步编程asyncio(一)：学习基本概念自学python中的异步编程asyncio(二)：asyncio模块与核心组件自学python中的异步编程asyncio(三)：asyncio实现基本异步编程自学python中的异步编程asyncio(四)：基本的异步IO编程自学python中的异步编程asyncio(五)：asyncio与线程thread自学python中的异步编程a
iPhone手机桌面必备：好用的便签/效率/美化/学习/生活工具 lee54621 智能手机学习生活
是不是总觉得自己的iPhone手机桌面不够酷炫、不够实用？看着千篇一律的布局，是不是觉得缺了点什么？别担心，今天就给大家分享一波iPhone手机桌面必备的好用App，让你的手机瞬间提升格调，实用性拉满，无论是学习、工作还是娱乐，都能得心应手，轻松拿捏，赶紧跟着我一起探索这些宝藏应用吧！》》效率提升类敬业签：可以和鸿蒙安卓电脑共享数据的云便签，集合便签、清单、提醒事项、日历、云盘、翻译、语音转文字、
深度学习笔记——模型部署好评笔记深度学习笔记深度学习笔记人工智能 transformer 模型部署大模型部署大模型
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文简要概括模型部署的知识点，包括步骤和部署方式。文章目录模型部署模型部署的关键步骤常见的模型部署方式优势与挑战总结边缘端部署方案总结历史文章机器学习深度学习模型部署模型部署是指将训练好的机器学习或深度学习模型集成到生产环境中，使其能够在实际应用中处理实时数据和提供预测服务。模型部署的流程涉及模型的封装、部署环境的选择、部
探索泰坦尼克号生存分类数据集：机器学习与数据分析的完美起点岑童嵘
探索泰坦尼克号生存分类数据集：机器学习与数据分析的完美起点【下载地址】泰坦尼克号生存分类数据集本仓库提供了一个经典的机器学习数据集——泰坦尼克号生存分类数据集。该数据集包含两个CSV文件：训练集和测试集。数据集主要用于训练和评估机器学习模型，以预测泰坦尼克号乘客的生存情况项目地址:https://gitcode.com/open-source-toolkit/35561项目介绍泰坦尼克号生存分类数
k8s_CKA考试_学习笔记 bq_o_pd kubernetes linux 容器笔记
k3s默认无法使用docker，导入docker的镜像加载到k3s中[root@worker1php]#k3scrictlimagesIMAGETAGIMAGEIDSIZEdocker.io/library/busyboxlatest9211bbaa0dbd62.23MBdocker.io/library/nginx1.7.935d28df486f6139.9MBdocker.io/library
oracle goldengate from mongodb to oracle的实时同步夹心饼2024 数据库运维案例分享 oracle mongodb 数据库
oraclegoldengatefrommongodbtooracle的实时同步近期因公司项目需要，需要将mongodb数据同步到oracle数据库，由于第一次接触到mongodb数据库同步到Oracle的项目，故没有主动获取数据，而且让对方工程师把mongodb数据同步到我方的mongodb数据库，为此新建了一个mongodb数据库。我方工程师把mongodb数据库同步到doris数据仓库。考虑
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_