筝湘湘

数据仓库（跟做）

第一章数据仓库Data Warehouse

1.1 数据仓库概念

1. 数据仓库（Data Warehouse）:是为企业所有决策制定过程，提供所有系统数据支持的战略集合。为企业决策提供数据支撑
2. 通过对数据仓库中数据的分析，可以帮助企业改进业务流程，控制成本，提高产品质量等。	
3. 数据仓库不是数据的最终目的地，而是为数据最终目的地做好准备：对数据进行  清晰->转义 ->分类 -> 重组 -> 合并 -> 拆分 ->统计等等。

1.2 数据仓库详细解释

1.2.1 获取数据部分

企业中获取下列三类数据：
业务数据：用户加购物车，下订单，付款等数据
用户行为数据：通过前端埋点获取用户行为数据，比如浏览时长等数据
爬虫数据：爬取别的公司的数据，别乱进行
传输这些数据到数据蚕仓库，进行存储，分析，计算，然后为企业决策提供技术支撑。

所以，java前端与大数据框架是闭环的，缺一不可

1.2.2 传输部分

把从数据来源得到的数据（文件形式）传输到数据目标地址（数据仓库，存储在hive（hive底层数据存储在hdfs中））
1. 使用flume传输用户行为数据
2. 使用sqoop传输业务数据（存储在mysql）到数据仓库（数据仓库，存储在hive（hive底层数据存储在hdfs中））,有多种传输方式，选择最适合的

1.2.3 数据仓库部分

--数据仓库不是数据的最终目的地，而是为数据最终目的地做好准备：对数据进行  清晰->转义 ->分类 -> 重组 -> 合并 -> 拆分 ->统计等等。
--数据仓库分为5层：ODS DWD DWS DWT ADS
1. ODS层：数据备份，备份元数据，假如后面层中某一层数据处理失败并且数据被损坏了，就可以从ODS层中快速拿到元数据
2. DWD层：数据清洗层，清除不合格的脏的数据（比如字段少了的数据，不完整的日志），留下合格的干净的数据，完成数据的清晰
3. DWS层DWT层：对一些小的表进行Join形成大的宽表
（1） DWS层：按天聚合数据，形成多张主题的大表
（2）DWT层：累积型聚合，比如从某用户注册网站到现在为止的数据变化，都会放到DWT进行处理
4. ADS层：数据可视化层，数据的统计，可视化展现，
（1）可以处理好的数据输出到报表系统中，可以明显的看出数据变化趋势
（2）可以做用户画像系统，给用户打标签
-----用户画像分为三个等级
->统计类标签（易）
->规则类标签（易）
->机器学习标签（难）使用算法比较强
（3）为推荐系统做准备，通常用户画像和推荐系统是绑定在一起，推荐系统也需要算法
（4）机器学习：包括推荐系统，是个大方向，涉及大量算法

1.2.4 任务调度

任务调度决定任务什么时候启动，什么时候结束

第二章项目需求及架构设计

2.1 项目需求分析

产品经理得到的需求信息来源：
1. 老板
2. 客户
3. 设计人员设计过程发现的需求
---------------------
具体需求：
1. 用户行为数据采集平台搭建：设计flume传输参数，要不要增加卡夫卡缓存数据等问题

2. 业务数据采集平台搭建：配置设计sqoop.....

3. 数据仓库纬度建模:设计层次，每层需要做什么，那些表需要照应在一起，表样式......

4. 分析，设备，会员，商品，地区，活动等电商核心主题， 统计的报表指标近100个

5. 采用即席查询工具，随时进行指标分析

6. 对集群性能进行监控:，监控每一个框架的进程的好坏，发生异常要报警：比如hadoop某节点挂掉了，但是集群依旧在运行，在接收数据，越积越多，错误很大，就需要有报警系统，任何一个节点出错误都能及时检测到并且报警（电话，短信等）

7. 元数据管理:对hive元数据进行管理，层次执行中，某一环节某些指标被破坏，元数据管理可以把所有任务，任务的依赖关系在图形化页面上显示出，就可以知道那个指标没有出来，考虑先抢救更重要的任务

8.质量监控:数据质量监控，监控数据的异常变化，比如交易额急剧上升或者下降，可能是计算错误，当数据范围超过设计的值范围，就会报警

9. 权限管理：数仓中有很多表，给表设置权限，不是每一张表大家都能看到，比如交易额只能老板看，或者给字段设置权限

2.2 项目框架

2.2.1 技术选型

1. 技术选型需要考虑的因素？

1. 技术选型主要考虑的因素：数据量大小，业务需求，行业内经验，技术成熟度，开发维护成本，总成本预算

考虑因素：
1.数据量决定未来技术的选型：
2.业务需求：比如计算速度要求快慢就决定不同的技术框架
3.行业内经验：大厂用什么技术，说明已经调查测验过了，我们就跟着用，顺应技术潮流
4.技术成熟度：普通数仓，中台（大厂使用），数据湖（成熟）hudi
5.开发维护成本： 物理机，便宜但是考虑存放地，维护人员，风扇降温等因素，最后不一定划算；云主机，贵，但是不需要考虑其他问题
6.总成本预算：

2. 技术选型

1.数据采集传输：
使用：
（1）flume专门传输文件日志，
（2）sqoop专门传输业务数据，
（3）kafaka缓冲数据，消除风险
不选用：
----Logstash属于ELk框架，ELk框架一般小公司使用，分析的指标并不复杂
----DataX,和sqoop市场使用量不相上下

2. 数据存储：
 使用：
（1）HDFS：存储海量数据
（2）MySQL：在ADS层（可视化层）存储小量数据，方便后期快速的可视化展示
（3）Hbase:存储kylin多为分析快速查询框架的数据
不选用：
---redis:实时数仓使用，这个离线数仓不使用
---MongoDB:一般存放爬虫数据

3. 数据计算：
使用：
（1）Hive:底层走MR，数据是落盘的，有suffle
（2）Tez:数据完全放在内存中进行计算，比较消耗内存，但是查询速度很快
（3）spark：部分数据放在内存，部分数据放在磁盘，计算比较可靠，速度也快，相对Hived的MR引擎速度快，因为suffle需要落盘。

不选用：
---Finhk,Strom:使用在实时数仓

4.数据查询：临时的查询某指标
使用：
（1）PreSto:
(2) Kylin:与Hbase配套使用
不选用：
---Impala:比较适合在CDH框架使用
---Druid: 快速实时查询，通常用在实时数仓场景
---ClickHouse: 快速实时查询，通常用在实时数仓场景
---Doris:通常用在实时数仓场景

5. 数据可视化：
使用：
（1）Echarts:
（2）Superset

不使用：
---QuickBI（针对离线数据）,DataV（针对实时数据，大屏显示）:使用更好，页面更好看，但是不开源，阿里的框架

6. 任务调度
使用
（1）Azkaban:简单实用上手快，中小型使用多
不使用：
---Oozie:功能多，框架重
---DolphinScheduler:国内开发的，可视化页面好看
---Airflow:python脚本写的

7. 集群监控
使用：
（1）Zabbix:离线使用
不使用：
Promethes:实时使用

8. 元数据管理:监控那个层次那个指标没有正常输出
Atlas:

9. 去哪先管理：
使用：Ranger
不使用Sentry

2.2.2 系统数据流程设计

1. 导入用户行为数据到Hadoop中

解释：
2. 埋点用户行为数据：用户在使用产品过程中，与客户端产品交互过程中产生的数据，比如页面浏览，点击，停留，评论，点赞，收藏等。

3.  业务交互数据采集和用户行为数据采集都会用到Nginx,起到负载均衡的作用，均匀的分配数据到几台服务器中，那么每台服务器都不会有太大的压力

4. 日志服务器中的日志文件将保存30天，如果后面数仓瘫痪了，就能找到原始数据。在大数据场景中，数据最重要，磁盘最廉价，所以用磁盘多备份好原始数据文件，用磁盘可靠性保证数仓的数据安全

5. 使用flume采集用户行为数据到Hadoop,要考虑：
（1）Flume组成，Put事务，Take事务
（2）Flume三个器：source，channel，sink的选择
（3）Flume优化

6. kafka消息缓存·，需要考虑：
（1）卡夫卡 基本信息
（2）kafka挂了
（3）kafka丢了
（4）kafka重复
（5）kafka积压
（6）kafka优化
（7）kafka高效读写原因

7. 安装kafka就得安装zookeeper:
（1）zookeeper部署多少台
（2）zookeeper选举机制，Paxos算法

8. Flume从Kafka消费到hadoop（简单配置就可以完成对应功能）

9. HDFS小文件：从Flume传输过来的数据，落盘到HDFS中，很有可能会产生小文件，就要考虑解决小文件的方法：
（1）Har归档
（2）CombineTextInputformat
（3）JVM重用

2. 导入业务数据到Hadoop中

1. 业务交互数据：业务流程中产生的登录，订单，用户，商品，支付等相关的数据，通常存储在DB（database：数据库，如MySQL,Oracle）中
 
2. 使用sqoop从Mysql导入数据到HDFS,需要考虑
（1）输出端参数配置
（2）输入端参数配置
（3）发生空值，一致性，数据倾斜应该怎么办
（4）sqoop每天的导入数据量，执行时间如何分配

3.

3. 数仓具体分层

数仓核心·维度建模
1. 使用Hive on Spark引擎进行数据分析，需要考虑：
（1）Hive内部表，外部表的区别
（2）4个·By
（3）系统函数
（4）自定义UDF,UDTF函数
（5）窗口函数
（6）HIVE优化，数据倾斜
（7）Hive引擎
（8）数据备份

2. 分层的目标：快速统计出对应的指标，应对任何数据的变化

3.

4. 数据可视化

拿到统计分析好的数据进行可视化展示

5. 任务调度+元数据管理+权限管理+数据质量监控

6. 实时监控

监控各个节点是否正常工作

2.2.3 框架版本选型

1. Apache/CDH/HDP版本选择

1. Apache:开源麻烦运维麻烦，组件兼容性需要自己调研（一般大厂有专业的运维人员，会使用这个版本）,建议使用
2. CDH：国内使用很多，但是CM免费（到3.3.2）不开源,新版本CDP7.0收费，一个节点一万美金/年
3. HDP：开源，可以进行二次开发，但是没有CDH稳定，国内使用比较少

2. 云服务选择

公司想快速搭建服务
1. 阿里云：EMR,MaxCompute,DataWorks
EMR,：在里面选择组件，会自动搭建部署框架
MaxCompute：集成多个框架的功能，省去框架间的数据传输问题
2. 亚马逊云：EMR，
3. 腾讯云：EMR
4. 华为云：EMR

3. Apache框架版本

1. 为了兼容性，必须使用一整套
2. 框架选型尽量不要选择最新的框架，选择最新框架半年前左右的稳定版

2.2.4 服务器选型

1. 当购买物理机超过10台以上，就需要专业的运维人员，电费也是很大的开销，空调费，存放地，
2. 云主机缩短开发周期
3. 融资上市，先用云主机搭建效果，拉投资，拉到投资再购买物理机，为了数据安全
4.

2.2.5 集群资源规划设计

2.2.5.1 如何确定集群规模？

集群规模决定服务器的购买数量
1. 如何确认集群规模（假设一台服务器8T磁盘，128G内存）
（1）每天日活用户100万（中小型公司），没人平均一天产生100条数据：100万*100条=1亿条
注释：中小型企业在初期不一定每天每用户产生100条数据，因为统计指标可能少（比如20个）
（2）每条数据有1K左右，每天数据总量：100000000/1024/1024=约100G
  一般一条用户数据在0.5k~2k
（3）如果半年内不扩容服务器：100G*180天/1024=约18T
（4）每天数据3个副本：18T*3=54T
（5）预留20%~30%Buf=54T/0.7=77T
（6）最终理论上：8T*10台服务器

2. 数据仓库会进行数仓分层，加上数据压缩，具体的量需要重新计算
数据压缩:100G-->4~5G
中小型公司（每天100G数据量），半年内不扩容的话，3~5台服务器足够，1~2年不扩容，10台左右可以。

2.2.5.2 集群资源规划设计

1. 在企业中通常会搭配一套生产集群和一套测试集群。
2. 生产集群运行生产任务
3. 测试集群用于上线前代码的编写和测试

1. 生产集群

规划原则：
（1）消耗内存的分开
（2）数据传输紧密的放在一起（kafka，zookeeper），传输速率比较快
（3）客户端尽量放在一两台服务器上，方便外部访问，避免多节点客户端带来的权限问题
（4）有依赖关系的尽量放在同一台服务器（例如：Hive和Azkaban Executor）

2. 测试集群

1. 一般企业里测试集群由3台服务器组成，三台服务器可以搭建一个集群
2. 第一台资源多一点，因为配置比较高（一般配置6G内存，从节点4G内存）
3. 规划符合生产集群规划原则

第三章用户数据生成模块

虽然我们可以在客户端点击产生数据，但是太慢了
所以需要准备一个模块，模拟生成大量我们需要的数据，方便学习期间学习

3.1 目标数据

需要收集和分析的数据（针对前端埋点用户数据，业务数据后续再说）有：
（1）页面数据
（2）事件数据
（3）曝光数据
（4）启动数据
（5）错误数据

3.1.1 页面

1. 页面本身静态展示项的数据：
（1）页面id
（2）页面对象id（比如这个商品的id）
（3）页面对象类型(比如这个商品属于什么类型，数码产品，食物或是其他)
（4）上页id（比如手机上一页是数码产品）
页面数据主要记录一个页面的用户访问情况包括：
（1）访问时间/跳入时间（什么时间点访问的）
（2）停留时间
（3）页面来源类型（比如通过搜索来到这个页面）
（4）页面路径
等等·

3. 字段：page_id:   字段描述
					home（"首页"）,
					category（"分类页"）,
					discovery（"发现页"）,
					top_n（"热门排行"）,
					favor（"收藏页"）,
					search（"搜索页"）,
					good_list（"商品列表页"）,
					good_detail（"商品详情"）,
					good_spec（"商品规格"）,
					comment（"评价"）,
					comment_done（"评价完成"）,
					comment_list（"评价列表"）,
					cart（"购物车"）,
					trade（"下单结算"）,
					payment（"支付页面"）,
					payment_done（"支付完成"）,
					orders_all（"全部订单"）,
					orders_unpaid（"订单待支付"）,
					orders_undelivered（"订单待发货"）,
					orders_unreceipted（"订单待收货"）,
					orders_wait_comment（"订单待评价"）,
					mine（"我的"）,
					activity（"活动"）,
					login（"登录"）,
					register（"注册"）;

4. 字段：last_page_id:  上页id
 
5. 字段：page_item_id:  页面对象类型
						sku_id（"商品skuId"）,
						keyword（"搜索关键词"）,
						sku_ids（"多个商品skuId"）,
						activity_id（"活动id"）,
						coupon_id（"购物券id"）;
6.  字段：page_item： 页面对象id
7. 字段：sourceType: 页面来源类型
						promotion（"商品推广"）,
						recommend（"算法推荐商品"）,
						query（"查询结果商品"）,
						activity（"促销活动"）;
8. 字段：during_time :停留时间
9. 字段： ts : 跳入时间

3.1.2 事件（动作日志）

1. 事件数据也叫事件日志，动作日志
2. 事件数据主要记录一个具体操作行为，包括
（1）操作行为的类型
（2）操作的对象
（3）操作对象类型
（4）操作时间

1.  字段： action_id: 动作id
					favor_add（"添加收藏"）,
					favor_canel（"取消收藏"）,
					cart_add（"添加购物车"）,
					cart_remove（"删除购物车"）,
					cart_add_num（"增加购物车商品数量"）,
					cart_minus_num（"减少购物车商品数量"）,
					trade_add_address（"增加收货地址"）,
					get_coupon（"领取优惠券"）;
					注：对于下单、支付等业务数据，可从业务数据库获取。

2. 字段： item_type   动作目标类型
					sku_id（"商品"）,
					coupon_id（"购物券"）;

3. 字段  item :动作目标id
4. 字段 ts ：动作时间

3.1.3 曝光

1. 曝光：只要在用户页面上显示出来了，甭管用户眼睛看到没有，都叫曝光
2. 曝光数据主要记录：
（1）曝光类型
（2）曝光对象类型
（3）曝光对象
（4）曝光顺序

displayType	   曝光类型
				promotion（"商品推广"）,
				recommend（"算法推荐商品"）,
				query（"查询结果商品"）,
				activity（"促销活动"）;
item_type	    曝光对象类型
				sku_id（"商品skuId"）,
				activity_id（"活动id"）;

item	        曝光对象id
order	        曝光顺序

3.1.4 启动

启动数据记录应用的启动信息

字段名称    字段描述
1. entry        启动入口
				icon（"图标"）,
				notification（"通知"）,
				install（"安装后启动"）;
2. loading_time  启动加载时间
3. open_ad_id	 开屏广告id
4. open_ad_ms	 广告播放时间
5. open_ad_ms	 广告播放时间
6. ts      	     启动时间

3.1.5 错误

错误数据记录应用使用过程中的错误信息，包括错误编码和错误信息

  字段名称       字段描述
1. error_code	错误码
2. msg	        错误信息（错误的描述，比如404,405）

3.2 数据埋点

3.2.1 主流埋点方式

1. 埋点一般有前端程序员完成，后端开始工作是接收埋点产生的数据
2. 目前主流的埋点方式有代码埋点（前端/后端），可视化埋点，全埋点

1. 代码埋点（不推荐，太麻烦）

1. 通过调用埋点SDK函数，在需要埋点的业务逻辑功能位置调用接口，上报埋点数据。
2. 简单来说就是在页面中的按钮加入JS Onclick，当点击这个按钮的时候，对应的Onclick函数调用SDK提供的数据发送接口，发送数据到日志服务器
3. SDK：软件开发工具包是一些被软件工程师用于为特定的软件包、软件框架、硬件平台、操作系统等创建应用软件的开发工具的集合，一般而言SDK即开发Windows平台下的应用程序所使用的SDK。它可以简单的为某个程序设计语言提供应用程序接口API的一些文件，但也可能包括能与某种嵌入式系统通讯的复杂的硬件。一般的工具包括用于调试和其他用途的实用工具。SDK还经常包括示例代码、支持性的技术注解或者其他的为基本参考资料澄清疑点的支持文档。

2. 可视化埋点

1. 只需要开发人员集成采集SDK，不用写入埋点代码，业务人员就可以通过访问分析平台的圈选功能，圈出需要对用户行为进行捕捉的控件并对该事件命名。圈选完毕之后，这些配置会同步到各个用户的终端上，由采集SDK按照圈选出来的配置自动进行用户行为数据的采集和发送
2. 开发人员开发一个后台Web页面,在上面进行相关配置，里面按钮都对应前端页面按钮，当用户点击前端Web页面按钮，自动选择到后端Web页面里对应的按钮
3. 开发效率高

3. 全埋点

1. 在应用里放第三方SDK，会自动埋点所有用户数据，发采集，发送用户行为数据到日志服务器上

2. 全埋点是通过在产品中嵌入SDK，前端自动采集页面上的全部用户行为事件，上报埋点数据，相当于做了一个统一的埋点。然后再通过界面配置哪些数据需要在系统里面进行分析。

3.市场主流SDK，神策，百度

3.2.2 埋点数据上报时机

1.每个事件、动作、错误等，产生后，立即发送。优点，响应及时。缺点，对服务器接收数据压力比较大。
就是 产生一条发一条：效率高但是网络IO增加
2. 在离开该页面时，上传在这个页面产生的所有数据（页面、事件、曝光、错误等）。优点，批处理，减少了服务器接收数据压力。缺点，不是特别及时。
就是页面离开后统一发送：网络IO少但是时效性差

3.2.3 埋点数据日志结构

日志结构分为两类
1. 普通页面埋点日志
2. 启动日志

1. 普通页面埋点日志

1. 普通页面埋点日志
（1）每条日志包含当前的页面信息，所有事件（动作），所有曝光信息，所有错误信息
（2）还包含一系列公共信息，包括设备信息，地理位置，应用信息等
格式如下

{
  "common": {                  -- 公共信息
    "ar": "230000",              -- 地区编码
    "ba": "iPhone",              -- 手机品牌
    "ch": "Appstore",            -- 渠道
    "is_new": "1",--是否首日使用，首次使用的当日，该字段值为1，过了24:00，该字段置为0。
	"md": "iPhone 8",            -- 手机型号
    "mid": "YXfhjAYH6As2z9Iq", -- 设备id
    "os": "iOS 13.2.9",          -- 操作系统
    "uid": "485",                 -- 会员id
    "vc": "v2.1.134"             -- app版本号
  },
"actions": [                     --动作(事件)  
    {
      "action_id": "favor_add",   --动作id
      "item": "3",                   --目标id
      "item_type": "sku_id",       --目标类型
      "ts": 1585744376605           --动作时间戳
    }
  ],
  "displays": [
    {
      "displayType": "query",        -- 曝光类型
      "item": "3",                     -- 曝光对象id
      "item_type": "sku_id",         -- 曝光对象类型
      "order": 1,                      --出现顺序
      "pos_id": 2                      --曝光位置
    },
    {
      "displayType": "promotion",
      "item": "6",
      "item_type": "sku_id",
      "order": 2, 
      "pos_id": 1
    },
    {
      "displayType": "promotion",
      "item": "9",
      "item_type": "sku_id",
      "order": 3, 
      "pos_id": 3
    },
    {
      "displayType": "recommend",
      "item": "6",
      "item_type": "sku_id",
      "order": 4, 
      "pos_id": 2
    },
    {
      "displayType": "query ",
      "item": "6",
      "item_type": "sku_id",
      "order": 5, 
      "pos_id": 1
    }
  ],
  "page": {                       --页面信息
    "during_time": 7648,        -- 持续时间毫秒
    "item": "3",                  -- 目标id
    "item_type": "sku_id",      -- 目标类型
    "last_page_id": "login",    -- 上页类型
    "page_id": "good_detail",   -- 页面ID
    "sourceType": "promotion"   -- 来源类型
  },
"err":{                     --错误
"error_code": "1234",      --错误码
    "msg": "***********"       --错误信息
},
  "ts": 1585744374423  --跳入时间戳
}

2. 启动日志

启动日志主要包含公共信息，启动信息，错误信息

{
  "common": {
    "ar": "370000",
    "ba": "Honor",
    "ch": "wandoujia",
    "is_new": "1",
    "md": "Honor 20s",
    "mid": "eQF5boERMJFOujcp",
    "os": "Android 11.0",
    "uid": "76",
    "vc": "v2.1.134"
  },
  "start": {   
    "entry": "icon",         --icon手机图标  notice 通知   install 安装后启动
    "loading_time": 18803,  --启动加载时间
    "open_ad_id": 7,        --广告页ID
    "open_ad_ms": 3449,    -- 广告总共播放时间
    "open_ad_skip_ms": 1989   --  用户跳过广告时点
  },
"err":{                     --错误
"error_code": "1234",      --错误码
    "msg": "***********"       --错误信息
},
  "ts": 1585744304000
}

3.3 服务器和JDK准备

3.3.1 安装hadoop-3.1.3完全分布式

https://blog.csdn.net/qq_51490070/article/details/123673640

3.3.2 安装zookeeper-3.5.7集群

https://blog.csdn.net/qq_51490070/article/details/124695903

3.3.3 安装kafka2.4.1

https://blog.csdn.net/qq_51490070/article/details/124716742?spm=1001.2014.3001.5501

1. kafka机器数量计算

kafka机器数量=2*（峰值生产速度*副本数/100）+1
解释：
1. 峰值生产速度：通过kafka压力测试可以得到
2. 副本数：
（1）kafka默认副本数为1个，企业一般2~3个，2个居多
（2）副本多可以提高可靠性，但是降低网络传输效率
举例：峰值生产速度50M/s,副本数为2
kafka机器数量=2*（50M/s*2/100）+1 = 3台

2. kafka压力测试

3.3.4 安装flume1.9.0

https://blog.csdn.net/qq_51490070/article/details/124267937?spm=1001.2014.3001.5501

3.4 模拟用户行为数据生成

3.4.1 上传生成数据的jar文件

1. 上传生成数据的jar包以及配置文件：将application.yml、gmall2020-mock-log-2021-01-22.jar、path.json、logback.xml上传到hadoop102的/opt/module/applog目录下
2. 都是使用springBoot写出的

1. 创建applog文件夹

//在/opt/module/文件夹下面创建applog文件夹
mkdir applog

2. 上传生成数据文件到applog文件夹

3.4.2 配置文件

1. application.yml文件

vim application.yml
//根据需求生成对应日期的用户行为日志

# 外部配置打开
logging.config: "./logback.xml"
#业务日期：表示用户日志生成的日期
mock.date: "2020-06-14"

#模拟数据发送模式
#mock.type: "http"
#mock.type: "kafka"
mock.type: "log"

#http模式下，发送的地址
mock.url: "http://hdp1/applog"

#kafka模式下，发送的地址
mock:
  kafka-server: "hdp1:9092,hdp2:9092,hdp3:9092"
  kafka-topic: "ODS_BASE_LOG"

#启动次数
mock.startup.count: 200
#设备最大值：
mock.max.mid: 500000
#会员最大值：一次最多生成多少条会员数据
mock.max.uid: 100
#商品最大值
mock.max.sku-id: 35
#页面平均访问时间单位是毫秒
mock.page.during-time-ms: 20000
#错误概率 百分比
mock.error.rate: 3
#每条日志发送延迟 ms
mock.log.sleep: 10
#商品详情来源  用户查询，商品推广，智能推荐, 促销活动
mock.detail.source-type-rate: "40:25:15:20"
#领取购物券概率
mock.if_get_coupon_rate: 75
#购物券最大id
mock.max.coupon-id: 3
#搜索关键词
mock.search.keyword: "图书,小米,iphone11,电视,口红,ps5,苹果手机,小米盒子"

2. path.json配置访问路径

根据需求，配置用户点击路径，模拟多条点击路径
比如第一条：
{"path：["home","good_list","good_detail","cart","trade","pay““ment"],"rate":20 }
{"路径":[首页->商品列表->商品详情页->加入购物车->提交订单->支付]，此类日志比例占20%}

[
	{"path":["home","good_list","good_detail","cart","trade","payment"],"rate":20 },
	{"path":["home","search","good_list","good_detail","login","good_detail","cart","trade","payment"],"rate":40 },
	{"path":["home","mine","orders_unpaid","trade","payment"],"rate":10 },
	{"path":["home","mine","orders_unpaid","good_detail","good_spec","comment","trade","payment"],"rate":5 },
	{"path":["home","mine","orders_unpaid","good_detail","good_spec","comment","home"],"rate":5 },
	{"path":["home","good_detail"],"rate":10 },
	{"path":["home"  ],"rate":10 }
]

3. logback.xml配置文件

配置日志生成路径


<configuration>
    <property name="LOG_HOME" value="/opt/module/applog/log" />
    <appender name="console" class="ch.qos.logback.core.ConsoleAppender">
        <encoder>
            <pattern>%msg%npattern>
        encoder>
    appender>

    <appender name="rollingFile" class="ch.qos.logback.core.rolling.RollingFileAppender">
        <rollingPolicy class="ch.qos.logback.core.rolling.TimeBasedRollingPolicy">
            <fileNamePattern>${LOG_HOME}/app.%d{yyyy-MM-dd}.logfileNamePattern>
        rollingPolicy>
        <encoder>
            <pattern>%msg%npattern>
        encoder>
    appender>

    
    <logger name="com.atgugu.gmall2020.mock.log.util.LogUtil"
            level="INFO" additivity="false">
        <appender-ref ref="rollingFile" />
        <appender-ref ref="console" />
    logger>

    <root level="error"  >
        <appender-ref ref="console" />
    root>
configuration>

3.4.3 生成日志

1. 进入applog执行
 java -jar gmall2020-mock-log-2021-01-22.jar
2. 进入log,查看

3.4.4 日志生成脚本

cd bin/                    //进入bin目录
vim log.sh              //编辑log.sh脚本
chmod u+x log.sh   //添加权限
xsync log.sh           //分发脚本
log.sh start             //使用脚本模拟生成用户行为数据

#!/bin/bash
for i in hadoop102 hadoop103;
 do
   echo "===========$i=========="
   ssh     $i     "cd /opt/module/applog/;  java -jar gmall2020-mock-log-2021-01-22.jar >/dev/null 2>&1 &"
done

3.5 采集flume配置

flume采集数据到kafka

3.5.1 编写flume拦截器

1. 背景： 对source采集到的数据在进入channel之前进行ETL清洗，允许正常json进入，不合格的json就处理掉
2. 所以需要编写拦截器，在channel之前进行数据清洗
3. 拦截器必细致的写，不然到开启flume时会出现错误，我暂时没搞懂
 ERROR node.AbstractConfigurationProvider: Source r1 has been removed due                                          to an error during configuration

1.创建maven项目flume-interceptor

2. 创建包

创建包：com.flume.interceptor

创建

3. 配置pom.xml文件


<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0modelVersion>

    <groupId>org.examplegroupId>
    <artifactId>flume-interceptorartifactId>
    <version>1.0-SNAPSHOTversion>
    <dependencies>
        <dependency>
            <groupId>org.apache.flumegroupId>
            <artifactId>flume-ng-coreartifactId>
            <version>1.9.0version>
            <scope>providedscope>
        dependency>

        <dependency>
            <groupId>com.alibabagroupId>
            <artifactId>fastjsonartifactId>
            <version>1.2.62version>
        dependency>
    dependencies>

    <build>
        <plugins>
            <plugin>
                <artifactId>maven-compiler-pluginartifactId>
                <version>2.3.2version>
                <configuration>
                    <source>1.8source>
                    <target>1.8target>
                configuration>
            plugin>
            <plugin>
                <artifactId>maven-assembly-pluginartifactId>
                <configuration>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependenciesdescriptorRef>
                    descriptorRefs>
                configuration>
                <executions>
                    <execution>
                        <id>make-assemblyid>
                        <phase>packagephase>
                        <goals>
                            <goal>singlegoal>
                        goals>
                    execution>
                executions>
            plugin>
        plugins>
    build>

project>

 
            org.apache.flume
            flume-ng-core
            1.9.0
            provided
        
        解释：provided:表示在打包的时候找不到某jar包，就会去服务器上面寻找
        ---------------------

4. 创建类：ETLInterceptor,实现flume下的Interceptor

创建类：ETLInterceptor,实现flume下的Interceptor

5. 创建工具类：JSONUtils

package com.flume.interceptor;

import com.alibaba.fastjson.JSON;

public class JSONUtils {
    /**
     * 测试isValidate（）方法的正确性
     * @param args
     */
    public static void main(String[] args) {
        //1.测试一条非标准json
        System.out.println(isValidate("{\"albb\":1,"));

        //2.测试一条标准json
        System.out.println(isValidate("{\"albb\":1}"));

        //3. 说明：字符串被认为是标准json
        System.out.println(isValidate("22222"));
    }
    /**
     * 验证参数是否是标准json，是返回true，不是返回false
     * @param log
     * @return
     */
    public static boolean isValidate(String log) {
        try{
            //利用阿里巴巴的json验证log是否是标准json
            //没有异常说明是标准json，返回true
            JSON.parse(log);
            return true;
        }catch(Exception e){
            //c出现异常说明不是标准json,返回false
            return false;
        }
    }
}

6. 打包

有两个jar包，一个带依赖环境，一个不带依赖环境
为了方便起见，我们使用带依赖环境的jar包

7. 上传jar包到集群

1. 上传带依赖的jar包到flume/lib目录下面
2. 分发jar包到其他主机

3.5.2 配置文件

（1）编写配置文件

1. 在flume/conf下编写采集flume文件file-flume-kafka.conf
2. flume配置文件基本五步骤
（1）定义组件
（2）配置source
（3）配置channel
（4）.配置sink
（5）拼接组件
3. 采集flume不用配置sink

#为各组件命名
a1.sources = r1
a1.channels = c1

#描述source
a1.sources.r1.type = TAILDIR
a1.sources.r1.filegroups = f1
a1.sources.r1.filegroups.f1 = /opt/module/applog/log/app.*
a1.sources.r1.positionFile = /opt/module/flume/taildir_position.json
a1.sources.r1.interceptors =  i1
a1.sources.r1.interceptors.i1.type = com.niit.flume.interceptor.ETLInterceptor$Builder

#描述channel
a1.channels.c1.type = org.apache.flume.channel.kafka.KafkaChannel
a1.channels.c1.kafka.bootstrap.servers = hadoop102:9092,hadoop103:9092
a1.channels.c1.kafka.topic = topic_log
a1.channels.c1.parseAsFlumeEvent = false

#绑定source和channel以及sink和channel的关系
a1.sources.r1.channels = c1

（2）配置文件解读

#配置解读
#flume配置文件基本五步骤
# 1.定义组件
a1.sources=r1
a1.channels=c1

# 2.配置taildirssource
//source的类型
a1.sources.r1.type=TAILDIR
//采集flume要监控的文件组
a1.sources.r1.filegroups=f1
//采集flume要监控的文件组中的文件
a1.sources.r1.filegroups.f1=/opt/module/applog/log/app.*
//断点续存的oppset存在的位置，默认在系统家目录，更改为flume目录
a1.sources.r1.positionFile=/opt/module/flume/taildir_position.json

#配置拦截器(自定义拦截器，实现ETL数据清洗，判断json是否完整)
a1.sources.r1.interceptors=i1
//配置拦截器的全类名
a1.sources.r1.interceptors.i1.type=com.flume.interceptor.ETLInterceptor$Builder

# 3.配置channel
//channel的类型
a1.channels.c1.type=org.apache.flume.channel.kafka.KafkaChannel
//要连接的kafka集群，只读kafka topic的元数据信息（文件大小，副本信息。。。。。）
a1.channels.c1.kafka.bootstrap.servers=hadoop102:9092,hadoop103:9092
//要写入的kafkatopic
a1.channels.c1.kafka.topic=topic_log
//配置是否接收flume传输数据的原本格式（头+body格式），不保持就只有body
a1.channels.c1.parseAsFlumeEvent=false

# 4.配置sink(不用配置)

# 5.拼接组件
a1.sources.r1.channels=c1

（3）分发配置文件

1. 分发file-flume-kafka.conf文件
xsync file-flume-kafka.conf

3.5.3 测试flume-kafka通道

1.开启服务

hadoop102,hadoop103启动flume
bin/flume-ng agent --name a1 --conf-file conf/file-flume-kafka.conf &

nohup bin/flume-ng agent --name a1 --conf-file conf/file-flume-kafka.conf &

kafka消费数据
$ bin/kafka-console-consumer.sh \
--bootstrap-server hadoop102:9092 --from-beginning --topic topic_log

3.5.4 flume启动，停止脚本

1.问题

nohup：可以在退出账户或者关闭终端之后继续运行相应的进程，就是不间断执行
1. 命令开启的flume，不管前台开启还是后台开启，当连接断开进程就会被杀死
2. 必须保证进程持续执行，在命令前加 nohup
 nohup bin/flume-ng agent --name a1 --conf-file conf/file-flume-kafka.conf &


3.flume 自身没有提供关闭application的脚本，需要自己使用kill -9 进程号杀掉进行，这里会出现问题：不知道那个进程号是需要被杀死的---此时需要先过滤出Application
ps -ef | grep Application

若不想要最下面grep行,再次进行过滤 不需要谁就 -v 名字
ps -ef | grep Application   |  grep -v grep

awk：默认分隔符为空格
继续过滤到对应的进程号，使用切割awk默认切割符空格号)  awk '{print $n}'  n:第几个元素
ps -ef | grep Application   |  grep -v grep  | awk '{print $2}'

xargs:取出前面命令行运行的结果，作为后面命令的输入参数
一次按行获取前面的数据  xargs  -n数字（获取几行）
ps -ef | grep Application   |  grep -v grep  | awk '{print $2}'  | xargs -n4

最后  加上 kill -9 ，表示把前面的数据复制到 kill -9 后面 
ps -ef | grep Application   |  grep -v grep  | awk '{print $2}'  | xargs -n4  kill -9

新问题：Application只是代称，有其他程序也会叫application,就冲，重名了，可以使用配置文件名称进行过滤，这是唯一的

![ps -ef | grep file-flume-kafka  | grep -v grep | awk '{print $2}' | xargs -n1 kill -9

2.脚本

#! /bin/bash

case $1 in
"start"){
        for i in hadoop102 hadoop103
        do
                echo " --------启动 $i 采集flume-------"
                ssh $i "nohup /opt/module/flume/bin/flume-ng agent --conf-file /opt/module/flume/conf/file-flume-kafka.conf --name a1 -Dflume.root.logger=INFO,LOGFILE >/opt/module/flume/log1.txt 2>&1  &"
        done
};;	
"stop"){
        for i in hadoop102 hadoop103
        do
                echo " --------停止 $i 采集flume-------"
                ssh $i "ps -ef | grep file-flume-kafka | grep -v grep |awk  '{print \$2}' | xargs -n1 kill -9 "
        done

};;
esac


<--'{print \$2}',加上\转义符，避免双引号把$2解析为脚本第二个参数，造成错误-->

chmod u+x f1.sh
 f1.sh start
 f1.sh stop
 成功

3.5 模拟业务数据生成

第四章业务数据生成模块

4.1 业务数据解析

4.2 业务数据采集

4.2.1 安装mysql 5.7.16

1. 卸载本机已经安装的mysql

rpm -qa | grep -i -E mysql\|mariadb | xargs -n1 rpm -e --nodeps

2.安装mysql依赖

rpm -ivh 01_mysql-community-common-5.7.16-1.el7.x86_64.rpm
rpm -ivh 02_mysql-community-libs-5.7.16-1.el7.x86_64.rpm
rpm -ivh 03_mysql-community-libs-compat-5.7.16-1.el7.x86_64.rpm

3.安装mysql-client

rpm -ivh 04_mysql-community-client-5.7.16-1.el7.x86_64.rpm

4.安装mysql-server

rpm -ivh 05_mysql-community-server-5.7.16-1.el7.x86_64.rpm

5.启动mysql

systemctl start mysqld

6.查看初始密码

cat /var/log/mysqld.log | grep password

7. 配置mysql

（1）使用初始密码登录mysql

mysql -uroot -p 'dhq0BKW3eY*5'

4.2.2 安装hive3.1.2

5 普通模式下的全流程调度

数仓的每一层指代的就是每一层的执行任务，脚本
这些脚本是相互依赖的，需要一层一层执行
调度时需要考虑脚本的依赖关系
每天都有新数据产生，所以需要考虑定时执行所有脚本的问题

5.1 Azkaban安装部署

5.1.1 Azkaban基本概念

调度器原理：
1. 描述工作流程
2. 配置定时任务·

3. Azkaban：专门调度数仓中批处理定时任务的工具，调度器
4. 以一整个工作流程为单位，定时开始提交第一个工作单元，一个工作单元执行结束后会自动提交第二个工作单元，以此类推
5. 简单易用

5.1.2 Azkaban基本架构

Azkaban基本架构架构
6.  web server :项目管理，用户管理，权限管理，任务的定时和触发
7.  Executor Server: 负责具体任务的执行，Azkaban调度的任务最终是在 Executor Server所在的节点进行执行
8. mysql:存储工作流程的配置，定时任务的配置，任务的执行状态等等

5.1.3 Azkaban基本部署模式

1. 单机模式：只有一个进程，包含 web server ，Executor Server
2. 集群模式（生产环境下推荐使用）： web server ，Executor Server是两个独立的进程，可以部署多个Executor Server，
多Executor模式可以起到负载均衡和容载的作用

1. 安装

1. hadoop02部署 web server 
2. hadoop02，hadoop03，hadoop04 部署Executor Server


db里面装的是Azkanban需要在mysql中建表用的建表语句

2. 配置MySQL

1. 集群有mysql
2. 启动mysql
3. 登录mysql
4. 创建Azkaban数据库
5. 创建azkaban用户，并且赋予其增删改查Azkaban数据库的权限
6. 创建Azkaban表，source  
7. 查看创建表

3. 配置Executor Server

1. 编辑azkaban.properties
vim /opt/module/azkaban/azkaban-exec/conf/azkaban.properties

2. 修改
#...
default.timezone.id=Asia/Shanghai  //市区
#...
azkaban.webserver.url=http://hadoop102:8081  //指定executor

executor.port=12321  //设置executor端口号，不设置是随机值，不方便管理
#...
database.type=mysql
mysql.port=3306
mysql.host=hadoop102  //mysql所在主机
mysql.database=azkaban   //指定azkaban数据库
mysql.user=azkaban    //指定azkaban用户
mysql.password=000000    
mysql.numconnections=100   //最大连接数



3.  分发给其他结点
xsync /opt/module/azkaban/azkaban-exec

4. 进入到/opt/module/azkaban/azkaban-exec路径，分别在三台机器上，启动executor
bin/start-exec.sh

5. 激活executor，每台结点都需要
curl -G "hadoop01:12321/executor?action=activate" && echo
curl -G "hadoop02:12321/executor?action=activate" && echo

4. 配置 Web Server

1. 编辑azkaban.properties
vim /opt/module/azkaban/azkaban-web/conf/azkaban.properties

#StaticRemainingFlowSize：正在排队的任务数；
#CpuStatus：CPU占用情况
#MinimumFreeMemory：内存占用情况。测试环境，必须将MinimumFreeMemory删除掉，否则它会认为集群资源不够，不执行。

2. 修改azkaban-users.xml文件，添加niit用户

必须进入到hadoop102的/opt/module/azkaban/azkaban-web路径，启动web server
 bin/start-web.sh

访问http://hadoop102:8081,并用niit用户登陆,密码123456
有如下界面说明webserver启动成功

5.2 创建mysql数据库和表

1. 创建数据库和表

字段个数顺序类型需要与hive中表一致

2. 编写hive导出数据到mysql中的脚本，sqoop脚本

需要每张表设置主键或者唯一键，避免数据导入重复

5.3 生成功新的数据

5.3.1 用户日志数据生成

1. 启动zk
2. 启动kafka
3.启动flume采集脚本
3. 启动flume消费脚本
4. 修改生成日志日期
5. 生成用户数据
6. hdfs查看生成数据

5.3.2 新业务数据生成

1. 修改日期
2. 生成业务数据
3. mysql中查看是否生成数据

5.4 开始全流程调度

1. 创建调度项目

2. 编写azkaban.project文件，

内容如下
azkaban-flow-version: 2.0

3. 编写gmall.flow文件

编写gmall.flow文件
dt此时设置为参数，在Azkanban上面进行设置
任务之间有依赖关系

4. 将azkaban.project、gmall.flow文件压缩到一个zip文件，文件名称必须是英文。

 将azkaban.project、gmall.flow文件压缩到一个zip文件，文件名称必须是英文。
gmall.zip文件上传到gmall项目

5.查看任务流

6. 配置dt时间，并且执行

全绿表示执行成功
蓝色表示正在执行
红色表示执行失败

7. mysql gmall_report中查看数据

6 安全模式下的全流程调度

6.1 为什么需要全流程调度？

1. 安全环境：启用kerberos安全认证的hadoop集群
2. 在安全环境下，前面所有可执行脚本（都是和hdfs还有hive打交道的）都需要进行认证才可以进行对数据的增删改查操作

6.2 用户准备

统一将认证用户都设置为hive用户
全部数据资源：
1. origin_data:临时存储数据资源
2. warehouse:最终存放数据资源，数据是从origin_dataload加载进来的·

故数仓的全部数据可能在两个路径下，就需要将这两个路径的所有者设置为hive，方便全流程的每一步操作进行认证，都认证为hive

6.2.1 在3个节点创建hive用户

1.在3个节点创建hive用户
useradd hive -g hadoop   //创建用户
echo hive | passwd --stdin hive   //设置密码为hive

6.2.2 为hive用户创建keberos主体

为hive用户创建keberos主体,这里是为hive用户创建的keberos主体：后续执行全流程每一步计算操作时需要认证的用户（客户端认证）

不同于为hive服务创建的keberos主体：是为了启动HiveServer2  和 hive Metastore 时进行认证(服务端认证)

kadmin -padmin/admin -wadmin -q"addprinc -randkey hive"  //为hive用户创建keberos主体


 kadmin -padmin/admin -wadmin -q"xst -k /etc/security/keytab/hive.keytab hive"  //生成keytab文件
--因为普通用户认证需要密码认证，hive用户是给全流程中的脚本使用的，需要有可以交互的密码--


chown hive:hadoop /etc/security/keytab/hive.keytab //修改keytab文件所有者和访问权限
chmod 440 /etc/security/keytab/hive.keytab  //440只读权限

xsync /etc/security/keytab/hive.keytab //分发keytab文件
--因为全流程使用Azkaban，Azkaban采用多excutor模式，执行任务有两种模式，
一种是指定excutor，若指定102为执行任务的executor，就不需要分发keytab文件
一种是把脚本分发到集群当中每台节点然后执行，这种情况下脚本被分到任意节点都是需要认证的，都需要使用keytab文件 --

6.3 数据采集通道修改

全流程中，与hdfs 和hive打交道的脚本都需要修改

6.3.1 日志，用户行为数据

flume专门为kerberos认证提供了参数
修改/opt/module/flume/conf/kafka-flume-hdfs.conf配置文件，只用修改sink增加以下参数

vim /opt/module/flume/conf/kafka-flume-hdfs.conf

[email protected]  //创建的hive用户主题
a1.sinks.k1.hdfs.kerberosKeytab=/etc/security/keytab/hive.keytab   //创建的用户主题的keytab文件，秘钥文件

6.3.2 业务数据

业务数据依靠sqoop上传到hdfs，
vim /home/atguigu/bin/mysql_to_hdfs.sh
在顶部增加如下认证语句

秘钥文件认证
kinit -kt /etc/security/keytab/hive.keytab hive  
kinit -kt 指向秘钥文件所在路径 需要认证的用户
当我们执行相应脚本时就会先进行认证，认证完再进行操作

6.3.3 数仓各层脚本修改

除开sqoop脚本，还有10个·数据仓库的脚本需要修改
1. hdfs_to_ods_log.sh
2. hdfs_to_ods_db.sh
3. ods_to_dwd_log.sh
4. ods_to_dim_db.sh
5. ods_to_dwd_db.sh
6. dwd_to_dws.sh
7. dws_to_dwt.sh
8. dwt_to_ads.sh
9. hdfs_to_mysql.sh



均在顶部加上认证语句
 kinit -kt /etc/security/keytab/hive.keytab hive
语句：sed -i '1 a kinit -kt /etc/security/keytab/hive.keytab  hive'  脚本名称  //都是相对路径，需要在所在文件夹执行命令

sed -i  '1 a text'  file
表示将text内容加入到file文件的第1行之后

6.3.4 修改HDFS特定路径所有者

1. 先认证为hdfs用户，原本就是
kinit hdfs/hadoop

2. 修改数据采集目标路径
hadoop fs -chown -R hive:hadoop /origin_data

3.修改数仓表所在路径
hadoop fs -chown -R hive:hadoop /warehouse

4.修改hive家目录/user/hive
hadoop fs -chown -R hive:hadoop /user/hive
相当于home目录，就是家目录,里面保存所有用户，hive用户数据也在其中，需要将所有者改为hive用户

6.4 数据准备

6.4.1 用户日志数据生成

1. 启动zk
2. 启动kafka
3.启动flume采集脚本
3. 启动flume消费脚本
4. 修改生成日志日期
5. 生成用户数据
6. hdfs查看生成数据

6.4.2 业务数据生成

1. 修改日期
2. 生成业务数据
3. mysql中查看是否生成数据

6.5 启动Azkaban

帮助用户执行进程脚本

1. 各节点创建azkaban用户

useradd azkaban -g hadoop    //创建用户
 echo azkaban | passwd --stdin azkaban //修改密码

2. 把各个节点Azkaban安装路径所有者改为azkaban用户

chown -R azkaban:hadoop /opt/module/azkaban
-R是递归的意思，表示/opt/module/azkaban下的所东西都属于 azkaban用户，所属组都是hadoop

3. 使用azkaban用户启动Azkaban

1. 启动Executor Server:需要做两步
（1）执行启动命令：必须进入路径下执行
sudo -i -u azkaban bash -c "cd /opt/module/azkaban/azkaban-exec;bin/start-exec.sh"

sudo -i -u azkaban 以azkaban身份执行后面命令
bash -C 就是将后面的字符串当成shell命令执行

（2）激活Executor Server，任选一台节点执行以下激活命令即可
curl http://hadoop102:12321/executor?action=activate



此时mysql中查看Azkaban数据库中的表executors,active值都是1，说明3个节点都启动成功了

3. 启动Web Server
sudo -i -u azkaban bash -c "cd /opt/module/azkaban/azkaban-web;bin/start-web.sh"

访问hadoop02：8081查看web server是否开启

4. 修改数仓各层脚本访问权限，确保azkaban用户能够访问到
chown -R atguigu:hadoop /home/niit
chmod 770 /home/niit

指定executor:需要保证Azkaban可以访问指定节点各层脚本
chown -R atguigu:hadoop /home/niit
chmod 770 /home/niit
因为azkaban也属于hadoop组，所以可以访问/home/niit下的脚本
Azkaban自己分配executor

6.6 全流程调度

1. 打开azkaban进入gmall

2. 点击 Execute Flow

点击Flow Parameters

4.准备参数
执行
此时任务就开始执行了，大概需要20分钟左右
执行结束，任务块全部变绿

你可能感兴趣的:(大数据项目,数据仓库,hive,big,data)

WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Linux MariaDB使用OpenSSL安装SSL证书 Meta39 MySQL Oracle MariaDB Linux Windows ssl linux mariadb
进入到证书存放目录，批量删除.pem证书警告：确保已经进入到证书存放目录find.-typef-iname\*.pem-delete查看是否安装OpenSSLopensslversion没有则安装yuminstallopensslopenssl-devel开启SSL编辑/etc/my.cnf文件（没有的话就创建，但是要注意，在/etc/my.cnf.d/server.cnf配置了datadir的，
网络编程基础记得开心一点啊网络
目录♫什么是网络编程♫Socket套接字♪什么是Socket套接字♪数据报套接字♪流套接字♫数据报套接字通信模型♪数据报套接字通讯模型♪DatagramSocket♪DatagramPacket♪实现UDP的服务端代码♪实现UDP的客户端代码♫流套接字通信模型♪流套接字通讯模型♪ServerSocket♪Socket♪实现TCP的服务端代码♪实现TCP的客户端代码♫什么是网络编程网络编程，指网络上
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
4.C_数据结构_队列荣世蓥数据结构数据结构
概述什么是队列：队列是限定在两端进行插入操作和删除操作的线性表。具有先入先出(FIFO)的特点相关名词：队尾：写入数据的一段队头：读取数据的一段空队：队列中没有数据，队头指针=队尾指针满队：队列中存满了数据，队尾指针+1=队头指针循环队列1、基本内容循环队列是以数组形式构成的队列数据结构。循环队列的结构体如下：typedefintdata_t;//队列数据类型#defineN64//队列容量typ
vue项目element-ui的table表格单元格合并酋长哈哈 vue.js elementui javascript 前端
一、合并效果二全部代码exportdefault{name:'CellMerge',data(){return{tableData:[{id:'1',name:'王小虎',amount1:'165',amount2:'3.2',amount3:10},{id:'1',name:'王小虎',amount1:'162',amount2:'4.43',amount3:12},{id:'1',name:'
python tif转png Python与遥感 python 开发语言
importosfromosgeoimportgdalimportnumpyasnpfromPILimportImage#提取432三波段fromspectralimport*#输入文件夹路径defget_img(dataset_img):width=dataset_img.RasterXSize#获取行列数height=dataset_img.RasterYSizebands=dataset_i
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
Vue中table合并单元格用法 weixin_30613343 javascript ViewUI
地名结果人名性别{{item.name}}已完成未完成{{item.groups[0].name}}{{item.groups[0].sex}}{{item.groups[son].name}}{{item.groups[son].sex}}exportdefault{data(){return{list:[{name:'地名1',result:'1',groups:[{name:'张三',sex
uniapp map组件自定义markers标记点以对_ uni-app学习记录 uni-app javascript 前端
需求是根据后端返回数据在地图上显示标记点，并且根据数据状态控制标记点颜色，标记点背景通过两张图片实现控制{{item.options.labelName}}exportdefault{data(){return{storeIndex:0,locaInfo:{longitude:120.445172,latitude:36.111387},markers:[//标点列表{id:1,//标记点idin
放松的一天 4da9b7687fa0
20190325总结起床07:20图片发自App睡觉:23:00天气:晴今日任务清单学习·信息·阅读•水滴阅读Day40Alice’sAdventuresinWonderlandChapter6.2图片发自App•BBC跟读训练营Day24图片发自App图片发自App图片发自App•潘多拉口语训练营Day6Wow.Whatabigboy!•文化知识学习今日无•阅读时间地狱健康·饮食·锻炼•饮食目标
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
vue + Element UI table动态合并单元格我家媳妇儿萌哒哒 element UI vue.js 前端 javascript
一、功能需求1、根据名称相同的合并工作阶段和主要任务合并这两列，但主要任务内容一样，但要考虑主要任务一样，但工作阶段不一样的情况。（枞向合并）2、落实情况里的定量内容和定性内容值一样则合并。（横向合并）二、功能实现exportdefault{data(){return{tableData:[{name:'a',address:'1',age:'1',six:'2'},{name:'a',addre
Python实现TIFF 文件转换为 PNG 和 JPG 格式 sand&wich python 开发语言
在日常的图像处理工作中，可能会遇到需要将TIFF格式的图像转换为其他格式的情况，例如PNG和JPG。下面，本文将介绍如何使用Python和GDAL库实现这一功能。准备工作在开始之前，请确保已经安装了必要的库：GDAL（GeospatialDataAbstractionLibrary）可以使用以下命令安装GDAL：pipinstallgdal代码实现以下是一个将TIFF文件转换为PNG文件的示例代码
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
使用datepicker和uploadify的冲突解决（IE双击才能打开附件上传对话框） zhanglb12
在开发的过程当中，IE的兼容无疑是我们的一块绊脚石，在我们使用的如期的datepicker插件和使用上传附件的uploadify插件的时候，两者就产生冲突，只要点击过时间的插件，uploadify上传框要双才能打开ie浏览器提示错误Missinginstancedataforthisdatepicker解决方案//if(.browser.msie&&'9.0'===.browser.version
golang获取用户输入的几种方式余生逆风飞翔 golang 开发语言后端
一、定义结构体typeUserInfostruct{Namestring`json:"name"`Ageint`json:"age"`Addstring`json:"add"`}typeReturnDatastruct{Messagestring`json:"message"`Statusstring`json:"status"`DataUserInfo`json:"data"`}二、get请求的
【Java】已解决：org.springframework.jdbc.datasource.lookup.DataSourceLookupFailureException 屿小夏 java 开发语言
文章目录一、分析问题背景问题背景描述出现问题的场景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：org.springframework.jdbc.datasource.lookup.DataSourceLookupFailureException在使用Spring框架进行开发时，数据源的配置和使用是非常关键的一环。然而，有时候我们可能会遇到org.springframewo
el-table实现全选整表，单元一页复选框功能周bro vue.js elementui javascript 前端
全选整表单选一页0":popper-append-to-body="false":total="tableData.length":page-size="pageObj.pagesize":page-sizes="[10,50,100]"layout="total,sizes,prev,pager,next"@size-change="handleSizeChange"@current-chang
Vue + Express实现一个表单提交九旬大爷的梦
最近在折腾一个cms系统，用的vue+express，但是就一个表单提交就弄了好久，记录一下。环境：Node10+前端：Vue服务端：Express依赖包：vueexpressaxiosexpress-formidableelement-ui（可选）前言：axiosget请求参数是：paramsaxiospost请求参数是：dataexpressget接受参数是req.queryexpresspo
Kubernetes部署MySQL数据持久化沫殇-MS Kubernetes MySQL数据库 kubernetes mysql 容器
一、安装配置NFS服务端1、安装nfs-kernel-server：sudoapt-yinstallnfs-kernel-server2、服务端创建共享目录#列出所有可用块设备的信息lsblk#格式化磁盘sudomkfs-text4/dev/sdb#创建一个目录：sudomkdir-p/data/nfs/mysql#更改目录权限：sudochown-Rnobody:nogroup/data/nfs
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
使用input[type=file]遇上的一些问题刘圣凯
项目遇到一个需要，如下image.png功能大致就是添加图片，展示出来，然后在用户点击提交的时候把图片传给后台，在和后台交涉之后，决定在用户选择图片之后转成formdata传给后台，后台返回一个url，提交的时候将url返回给后台/**转formdata*/varformdata=newFormData();formdata.append("file1",$("#pic")[0].files[0]
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
详解mybatis的一二级缓存以及缓存失效原因仰望天花板缓存数据库 mybatis java mysql
数据库的大部分场景下是从磁盘读取，如果数据从内存进行读取，速度较比磁盘要快得多。但因为内存的容量有限，所以一般只会把使用和查询较多的数据缓存起来，以便快速反应，其他使用率不太多的继续存放在磁盘。mybatis分为一级缓存和二级缓存1.一级缓存一级缓存存放在SqlSqeeion上，默认开启1.1pojo@DatapublicclassRole{privateLongid;privateStringr
小程序通过js控制页面字体颜色属性祈澈菇凉
需求：当电量少于百分之20的时候，显示电量的字体显示为红色。1：在wxml里面设置属性batStyle：style="{{item.batStyle}}"电量:{{item.battery}}%2：当复合逻辑条件的时候，在js里面carList[i].batStyle="color:red";success:function(res){constcarList=res.data.list;for(
Golang Channel PandaSkr golang
Channel解析1.Channel源码分析1.1Channel数据结构typehchanstruct{qcountuint//channel的元素数量dataqsizuint//channel循环队列长度bufunsafe.Pointer//指向循环队列的指针elemsizeuint16//元素大小closeduint32//channel是否关闭0-未关闭elemtype*_type//元素类
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl