月初，

Apache 辅助系统工具

一丶Apache Sqoop

1.Sqoop的介绍：

Sqoop的工作机制是将导入或者导出的命令翻译成MapReduce实现，Sqoop可以理解为：SQL到Hadoop或者Hadoop到SQL

2.Sqoop的安装

配置文件修改：
cd $SQOOP_HOME/conf
mv sqoop-env-template.sh sqoop-env.sh
vi sqoop-env.sh
export HADOOP_COMMON_HOME= /export/servers/hadoop-2.7.5
export HADOOP_MAPRED_HOME= /export/servers/hadoop-2.7.5
export HIVE_HOME= /export/servers/hive
加入 mysql 的 jdbc 驱动包
cp /hive/lib/mysql-connector-java-5.1.32.jar $SQOOP_HOME/lib/
验证启动

注意，sqoop验证的命令必须要在一行写完，此处我使用了\来表示一行
bin/sqoop list-databases \
--connect jdbc:mysql://localhost:3306/ \
--username root --password hadoop
本命令会列出所有 mysql 的数据库。
到这里，整个 Sqoop 安装工作完成。

3.Sqoop导入

1.全量导入数据到hdfs

mysql的地址尽量不要使用localhost 请使用ip或host
如果不指定导入到hdfs的分隔符是“，”
可以通过-fields-teminated-by '\t'指定分隔符

如果表的数据比较大可以并行启动多个maptask执行导入操作，如果表没有主键，需要指定根据哪个字段进行切分

bin/sqoop import \
--connect jdbc:mysql://node03:3306/userdb \
--username root \
--password 123456 \
--target-dir /sqoopresult214 \
--fields-terminated-by '\t' \
--split-by id \
--table emp --m 2

2.导入表数据子集（query查询）

使用 query sql 语句来进行查找不能加参数--table ;
并且必须要添加 where 条件;
并且 where 条件后面必须带一个$CONDITIONS 这个字符串;
并且这个 sql 语句必须用单引号，不能用双引号;

3.增量数据的导入

所谓的增量数据指的是上次至今中间新增加的数据

sqoop支持两种模式的增量导入

append追加根据数值类型字段进行追加导入大于指定的last-value
lastmodified 根据时间戳类型字段进行追加 大于等于指定的last-value
注意在lastmodified 模式下还分为两种情形：append merge-key

关于lastmodified 中的两种模式：

append 只会追加增量数据到一个新的文件中并且会产生数据的重复问题，因为默认是从指定的last-value 大于等于其值的数据开始导入
merge-key 把增量的数据合并到一个文件中处理追加增量数据之外如果之前的数据有变化修改，也可以进行修改操作底层相当于进行了一次完整的mr作业。数据不会重复。

4.数据导出操作

注意：导出的目标表需要自己手动提前创建也就是sqoop并不会帮我们创建复制表结构

导出有三种模式：

默认模式目标表是空表底层把数据一条条insert进去
更新模式底层是update语句
调用模式调用存储过程

5.更新导出

updateonly 只更新已经存在的数据不会执行insert增加新的数据

allowinsert 更新已有的数据插入新的数据底层相当于insert&update

4.sqoop的job作业操作

1.创建作业(--create)

在这里，我们创建一个名为myjob，这可以从RDBMS表的数据导入到HDFS作业。下面的命令用于创建一个从DB数据库的employee表导入到HDFS文件的作业。

bin/sqoop job --create itcastjob1 -- import --connect jdbc:mysql://node-1:3306/userdb \
--username root \
--password hadoop \
--target-dir /sqoopresult555 \
--table emp --m 1

注意import前要有空格

2.查看作业列表 (--list)

‘--list’ 参数是用来验证保存的作业。下面的命令用来验证保存Sqoop作业的列表。

bin/sqoop job --list

它显示了保存作业列表。

Available jobs: 
   myjob

3.查看作业内容(--show)

‘--show’ 参数用于检查或验证特定的工作，及其详细信息。以下命令和样本输出用来验证一个名为myjob的作业。

bin/sqoop job --show myjob

它显示了工具和它们的选择，这是使用在myjob中作业情况。

Job: myjob 
 Tool: import Options:
 ---------------------------- 
 direct.import = true
 codegen.input.delimiters.record = 0
 hdfs.append.dir = false 
 db.table = employee
 ...
 incremental.last.value = 1206
 ...

4.删除作业 (--exec)

bin/sqoop job --delete jobname

5.执行作业 (--exec)

‘--exec’ 选项用于执行保存的作业。下面的命令用于执行保存的作业称为myjob。

bin/sqoop job --exec myjob

sqoop需要输入mysql密码
它会显示下面的输出。

10/08/19 13:08:45 INFO tool.CodeGenTool: Beginning code generation 
...

6.job的免密输入

sqoop在创建job时，使用--password-file参数，可以避免输入mysql密码，如果使用--password将出现警告，并且每次都要手动输入密码才能执行job，sqoop规定密码文件必须存放在HDFS上，并且权限必须是400。

echo -n "hadoop" > itcastmysql.pwd
hdfs dfs -mkdir -p /input/sqoop/pwd/
hdfs dfs -put itcastmysql.pwd /input/sqoop/pwd/
hdfs dfs -chmod 400 /input/sqoop/pwd/itcastmysql.pwd

检查sqoop的sqoop-site.xml是否存在如下配置：


    sqoop.metastore.client.record.password
    true
    If true, allow saved passwords in the metastore.

创建sqoop job

在创建job时，使用--password-file参数

bin/sqoop job --create itcastjob2 -- import --connect jdbc:mysql://node03:3306/userdb \
--username root \
--password-file /input/sqoop/pwd/itcastmysql.pwd \
--target-dir /sqoopresult666 \
--table emp --m 1

执行job

通过命令验证

sqoop job -exec itcastjob1

二丶Apache Flume

1.Flume的介绍

概述
flume是一款大数据中海量数据采集传输汇总的软件。特别指的是数据流转的过程，或者说是数据搬运的过程。把数据从一个存储介质通过flume传递到另一个存储介质中。
核心组件
source：用于对接各个不同的数据源
sink: 用于对接各个不同存储数据的目的地（数据下沉地）
channle：用于中间临时存储缓存数据
运行机制
flume本身是java程序，在需要数据采集的机器上启动agent进程
agent进程里面包含了：source sink channel
在flume中，数据被包装成event 真实的数据是放在event body中，event是flume中最小的数据单元
运行架构
1.简单架构：
只需要部署一个agent进程即可
2.复杂架构：
多个agent之间的串联相当于大家手拉手共同完成数据的采集传输工作，在串联架构中没有主从之分大家的地位都是一样的。

2.Flume的安装部署

在conf/flume-env.sh 中导入java环境变量

保证flume工作的时候一定可以正确加载到环境变量

flume的开发步骤

根据业务需求编写采集方案配置文件
文件名要见名知意，例如：source-sink.conf
具体需要描述清楚sink source channel组件配置信息结合官网配置

启动命令

bin/flume-ng agent --conf conf --conf-file conf/netcat-logger.conf --name a1 -Dflume.root.logger=INFO,console

案例：监控目录数据变化到hdfs

hdfs sink 配置文件编写

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
##注意：不能往监控目中重复丢同名文件
a1.sources.r1.type = spooldir
a1.sources.r1.spoolDir = /root/logs2
a1.sources.r1.fileHeader = true

# Describe the sink
a1.sinks.k1.type = hdfs
a1.sinks.k1.channel = c1
a1.sinks.k1.hdfs.path = /flume/events/%y-%m-%d/%H%M/
a1.sinks.k1.hdfs.filePrefix = events-
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.roundValue = 10
a1.sinks.k1.hdfs.roundUnit = minute
a1.sinks.k1.hdfs.rollInterval = 3
a1.sinks.k1.hdfs.rollSize = 20
a1.sinks.k1.hdfs.rollCount = 5
a1.sinks.k1.hdfs.batchSize = 1
a1.sinks.k1.hdfs.useLocalTimeStamp = true
#生成的文件类型，默认是Sequencefile，可用DataStream，则为普通文本
a1.sinks.k1.hdfs.fileType = DataStream

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

spooldir source

注意其监控的文件夹下面不能有同名文件的产生
如果有报错且罢工后去就不在进行数据的监视采集了
在企业中通常给文件追加时间戳命名的方式保证文件不会重名

3.Flume负载均衡

所谓的负载均衡，用于解决一个进程处理不了所有请求多个进程一起解决
同一个请求只能交给一个进行处理避免数据重复
如何分配请求就涉及到了负载均衡的算法：轮询（round_dobin）随机(random) 权重

flume串联跨网络传输数据

avro sink 和 avro source

使用上述两个组件指定绑定的端口ip就可以满足数据跨网络的传递通常用于flume串联架构中

flume串联启动通常从远离数据源的一端启动

3.Flume failover（容错）

容错又称为故障转移容忍错误的发生
通常用于解决单点故障给容易出故障的地方设置备份、
备份越多容错能力越强但是资源浪费越严重

4.静态拦截器

如果没有使用静态拦截器
Event: { headers:{} body:  36 Sun Jun  2 18:26 }

使用静态拦截器之后 自己添加kv标识对
Event: { headers:{type=access} body:  36 Sun Jun  2 18:26 }
Event: { headers:{type=nginx} body:  36 Sun Jun  2 18:26 }
Event: { headers:{type=web} body:  36 Sun Jun  2 18:26 }

后续在存放数据的时候可以使用flume的规则语法获取到拦截器添加的kv内容

%{type}

模拟数据实时产生

while true; do echo "access access....." >> /root/logs/access.log;sleep 0.5;done
while true; do echo "web web....." >> /root/logs/web.log;sleep 0.5;done
while true; do echo "nginx nginx....." >> /root/logs/nginx.log;sleep 0.5;done

三丶Azkaban调度器

1.Azkaban介绍

是由领英推出的一款免费开源的工作流调度软件

特点

功能强大可以带哦度几乎所有的软件执行
配置简单 job配置文件
提供了web页面使用
java语言开发源码清晰可见可以进行二次开发

架构

web 服务器：对外提供web服务用户在页面上进行项目的相关管理
excutor服务器：负责具体的工作流的调度提交。
数据库：用于保存工作流相关信息（如mysql）

部署模式

单节点模式：web，excutor 在同一个进程用于测试体验
two-server：web，excutor 在不同进程中，可以使用第三发数据库
mutil-excutor-server:web,excutor在不同机器上可以部署多个excutor服务器

2.azkaban的安装部署

单节点部署模式注意时区内存检测要关闭

启动时必须在安装包的根目录下启动

bin/start-solo.sh

Azkaban的开发流程：

编写job的配置文件xxx.job


type=command

.......

command=xxxx

把所有的job配置打成一个zip压缩包
登录页面node03:8081 创建工程（默认用户名密码都是azkaban）
上传zip压缩包
选择调度schduler或者立即执行executor
、

2.two server模式部署

该模式的特点是web服务器和executor服务器分别位于不同的进程中
使用第三方的数据库进行数据的保存：mysql
安装部署注意事项
- 先对mysql进行初始化操作
- 配置azkaban.properties 注意时区 mysql相关 ssl
- 启动时候注意需要自己手动的激活executor服务器在根目录下启动
- 如果启动出错通过安装包根目录下的日志进行判断
- 访问的页面https
  特别注意：executor启动（包括重启）的时候默认不会激活需要自己手动激活对应的mysql中的表executors active ：0 表示未激活 1表示激活可以自己手动修改数据提交激活也可以使用官方的命令请求激活
  - ```
  curl -G "node03:$(<./executor.port)/executor?action=activate" && echo
```

azkaban调度总结

理论上任何一款软件，只有可以通过shell command执行都可以转化成为azkaban的调度执行
type=command command = sh xxx.sh

Apache Oozie

1.Oozie的介绍

oozie是一个工作调度软件 oozie的目的是根据一个定义的DAG（有向无环图）执行工作流程
oozie本身的配置是一种xml格式的配置文件 oozie跟hue配合使用很方便
oozie的特点是顺序执行周期重复定时可视化追踪结果

2.Oozie的构造

Oozie client：主要是提供一种方式给用户进行工作流的提交启动（client javaapi restfor）
Ooize server:(本身是一个java web 应用)
Hadoop生态圈
ooize各种类型任务提交底层依赖于mr程序首先启动一个没有Reducetask的mr 通过这个reduce吧各个不同类型的任务提交到具体的集群上执行

3.Ooize的流程节点

ooize核心配置是在应该workflow.xml文件中顶一个工作流程规则

类型：

control node 控制工作流的执行路径：start end fork join kill
action node 具体的任务类型： mr spark shell java hive
上述两种类型结合起来就可以描绘出应该工作流的DAG 图

4.oozie 工作类型

workflow 基本类型的工作流只会按照定义T恤执行无定时触发
coordinator 定时触发任务当满足执行时间或者输入数据可用触发workflow执行
Bundle 批处理任务一次提交多个 coordinator

5.Ooize的安装配置

5.1 配置 httpfs 服务

修改 hadoop 的配置文件 core-site.xml


hadoop.proxyuser.root.hosts
*


hadoop.proxyuser.root.groups
*

5.2 配置 jobhistory 服务

修改 hadoop 的配置文件 mapred-site.xml


mapreduce.jobhistory.address
node01:10020
MapReduce JobHistory Server IPC host:port


mapreduce.jobhistory.webapp.address
node01:19888
MapReduce JobHistory Server Web UI host:port



mapreduce.jobhistory.done-dir
/export/data/history/done



mapreduce.jobhistory.intermediate-done-dir
/export/data/history/done_intermediate

启动 history-server

mr-jobhistory-daemon.sh start historyserver

停止 history-server

mr-jobhistory-daemon.sh stop historyserver

通过浏览器访问 Hadoop Jobhistory 的 WEBUI
http://node-1:19888

5.3．．重启 Hadoop 集群相关服务

上传 oozie 的安装包并解压
oozie 的安装包上传到/export/softwares
tar -zxvf oozie-4.1.0-cdh5.14.0.tar.gz
解压 hadooplibs 到与 oozie 平行的目录
cd /export/servers/oozie-4.1.0-cdh5.14.0
tar -zxvf oozie-hadooplibs-4.1.0-cdh5.14.0.tar.gz -C ../
添加相关依赖
oozie 的安装路径下创建 libext 目录
cd /export/servers/oozie-4.1.0-cdh5.14.0
mkdir -p libext
拷贝 hadoop 依赖包到 libext
cd /export/servers/oozie-4.1.0-cdh5.14.0
cp -ra hadooplibs/hadooplib-2.6.0-cdh5.14.0.oozie-4.1.0-
cdh5.14.0/* libext/
上传 mysql 的驱动包到 libext
mysql-connector-java-5.1.32.jar
添加 ext-2.2.zip 压缩包到 libext
ext-2.2.zip

5.4 ．修改 oozie-site.xml

cd /export/servers/oozie-4.1.0-cdh5.14.0/conf
vim oozie-site.xml
oozie 默认使用的是 UTC 的时区，需要在 oozie-site.xml 当中配置时区为
GMT+0800 时区


oozie.service.JPAService.jdbc.driver
com.mysql.jdbc.Driver


oozie.service.JPAService.jdbc.url
jdbc:mysql://node03:3306/oozie


oozie.service.JPAService.jdbc.username
root


oozie.service.JPAService.jdbc.password
hadoop


oozie.processing.timezone
GMT+0800


oozie.service.coord.check.maximum.frequency
false


oozie.service.HadoopAccessorService.hadoop.configurations
*=/export/servers/hadoop-2.7.5/etc/hadoop

5.5 ．初始化 mysql 相关信息

上传 oozie 的解压后目录的下的 yarn.tar.gz 到 hdfs 目录

bin/oozie-setup.sh sharelib create -fs hdfs://node01:9000 -
locallib oozie-sharelib-4.1.0-cdh5.14.0-yarn.tar.gz

本质上就是将这些 jar 包解压到了 hdfs 上面的路径下面去
创建 mysql 数据库
mysql -uroot -p
create database oozie;
初始化创建 oozie 的数据库表
cd /export/servers/oozie-4.1.0-cdh5.14.0
bin/oozie-setup.sh db create -run -sqlfile oozie.sql

5.6 打包项目，生成 war 包


cd /export/servers/oozie-4.1.0-cdh5.14.0
bin/oozie-setup.sh prepare-war

5.7 配置 oozie 环境变量

vim /etc/profile

export OOZIE_HOME=/export/servers/oozie-4.1.0-cdh5.14.0
export OOZIE_URL=http://node03.hadoop.com:11000/oozie
export PATH=$PATH:$OOZIE_HOME/bin

source /etc/profile

5.8 启动关闭 oozie 服务

启动命令
cd /export/servers/oozie-4.1.0-cdh5.14.0
bin/oozied.sh start
关闭命令
bin/oozied.sh stop
启动的时候产生的 pid 文件，如果是 kill 方式关闭进程则需要删除该文件
重新启动，否则再次启动会报错。

5.9 ．浏览器 web UI 页面

http://node-1:11000/oozie/

5.10 ．解决 oozie 页面时区显示异常

页面访问的时候，发现 oozie 使用的还是 GMT 的时区，与我们现在的时区
相差一定的时间，所以需要调整一个 js 的获取时区的方法，将其改成我们现在的
时区。
修改 js 当中的时区问题
cd oozie-server/webapps/oozie
vim oozie-console.js
function getTimeZone() {
Ext.state.Manager.setProvider(new Ext.state.CookieProvider());
return Ext.state.Manager.get("TimezoneId","GMT+0800");
}
重启 oozie 即可
cd /export/servers/oozie-4.1.0-cdh5.14.0
bin/oozied.sh stop
bin/oozied.sh start

java 庖丁解牛_“庖丁解牛” 分词器实现 weixin_39813009 java 庖丁解牛
importjava.io.IOException;importjava.io.StringReader;importnet.paoding.analysis.analyzer.PaodingAnalyzer;importorg.apache.lucene.analysis.Analyzer;importorg.apache.lucene.analysis.Token;importorg.apac
Flink SQL 底层封装的原理 goTsHgo Flink 大数据分布式 flink sql 大数据
ApacheFlink是一个分布式流处理引擎，而FlinkSQL是其提供的一个SQL层，允许用户通过标准SQL查询对流式或批量数据进行查询和分析。FlinkSQL的实现基于ApacheCalcite，这是一个通用的SQL解析和优化引擎，Flink在其基础上进行了扩展和优化，以支持流数据的查询语义（如窗口、事件时间等）。要理解FlinkSQL的底层实现，首先需要理解Flink是如何通过SQL解析、优
在 Ubuntu 上搭建 MinIO 服务器珍宝碎片化服务器 ubuntu linux 运维
在日常开发时，如果有文件上传下载的需求（比如用户头像），但是又不想使用对象存储，那么自己搭建一个MinIO服务器是一个比较简单的解决方案。MinIO是一个基于ApacheLicensev2.0开源协议的对象存储服务。它兼容亚马逊S3云存储服务接口，非常适合于存储大容量非结构化的数据，例如图片、视频、日志文件、备份数据和容器/虚拟机镜像等，而一个对象文件可以是任意大小，从几kb到最大5T不等。Min
java使用word模板填充内容，再生成pdf ByteX 工具类 java pdf 开发语言
1.word模板填充内容使用EasyPoi写入Word文档。importcn.afterturn.easypoi.word.WordExportUtil;importorg.apache.commons.io.FileUtils;importorg.apache.commons.io.IOUtils;importorg.apache.poi.xwpf.usermodel.XWPFDocument;
Java实现Word文档转换为PDF详解一休哥助手工具 java java word pdf
目录引言为什么要将Word转换为PDF实现方式概述使用ApachePOI和iTextApachePOI简介iText简介安装依赖代码实现
Linux 下Hive 安装(Remote Metastore Database 单节点) A6-母婴小店-第6分店 HIVE hadoop
1、Linux下安装好mysql：Linux下Mysql安装2、启动hadoop集群：1、zk启动[root@node02~]#zkServer.shstartZooKeeperJMXenabledbydefaultUsingconfig:/opt/software/apache-zookeeper-3.6.2-bin/bin/../conf/zoo.cfgStartingzookeeper...
深入解析 ZooKeeper：分布式协调服务的原理与应用 guihong004 java面试题分布式 zookeeper 云原生
1.说说Zookeeper是什么？ZooKeeper是一个开源的分布式协调服务，由ApacheSoftwareFoundation开发维护。它为构建分布式应用程序提供了一套简单且高效的协调接口。ZooKeeper的设计目的是为了简化分布式系统中常见的任务，例如命名、配置管理、同步（包括锁和选举）、组成员关系等。ZooKeeper提供了一个类似文件系统的层次结构数据模型，使用一系列以斜杠(/)分隔的
【Java】日志框架茉菇 java python 开发语言
一、概述Java日志框架是开发中记录和管理日志的重要工具，合理选择和使用日志组件能提升项目的可维护性和灵活性。1、核心概念日志门面（LoggingFacade）作用：提供统一的API接口，解耦业务代码与具体日志实现。优势：允许灵活切换底层日志库，无需修改代码。常见门面：SLF4J、JCL（ApacheCommonsLogging）。日志实现（LoggingImplementation）作用：实际处
Kafka 迁移 AutoMQ 时 Flink 位点管理的挑战与解决方案后端java
编辑导读：AutoMQ是一款与ApacheKafka100%完全兼容的新一代Kafka，可以做到至多10倍的成本降低和极速的弹性。凭借其与Kafka的完全兼容性可以与用户已有的Flink等大数据基础设施进行轻松整合。Flink是重要的流处理引擎，与Kafka有着密切的关系。本文重点介绍了当用户需要将生产Kafka集群迁移到AutoMQ时，如何处理好Flink的位点来确保整体迁移的平滑过渡。引言在云
一个比 Nginx 还简单的 Web 服务器 vip1024p 面试学习路线阿里巴巴 nginx 前端服务器
企业级的Web服务器非常多，Nginx、Tomcat、Apache、IIS、FastAPI、Flask等。今天松哥再给大家介绍一个开源的Web服务器，这款服务器具备自动HTTPS功能和高度可配置性，它的名字是：Caddy。Caddy是一个Go编写的Web服务器，类似于Nginx，Caddy提供了更加强大的功能，随着v2版本发布，Caddy已经可以作为中小型站点Web服务器的另一个选择。相较于Ngi
使用Apache Lucene构建高效的全文搜索服务忙碌的菠萝 java apache lucene mybatis
使用ApacheLucene构建高效的全文搜索服务在现代应用程序中，全文搜索功能是不可或缺的一部分。无论是电子商务网站、内容管理系统，还是数据分析平台，快速、准确地搜索大量数据是提升用户体验的关键。ApacheLucene是一个强大的全文搜索引擎库，它提供了高效的索引和搜索功能，能够轻松集成到Java应用程序中。本文将介绍如何使用ApacheLucene构建一个高效的全文搜索服务，并通过一个实际的
大数据经典技术解析：Hadoop+Spark大数据分析原理与实践 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介大数据时代已经来临。随着互联网、移动互联网、物联网等新兴技术的出现，海量数据开始涌现。而在这些海量数据的基础上进行有效的处理，成为迫切需要解决的问题之一。ApacheHadoop和ApacheSpark是目前主流开源大数据框架。由于其易于部署、高容错性、并行计算能力强、适应数据量大、可编程、社区支持广泛等特点，大大提升了大数据应用的效率和效果。本文通过对Hado
Hadoop基础知识及部署模式 2301_82242502 hadoop 大数据分布式
一、Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力，解决海量数据的存储及海量数据的分析计算问题。广义上的Hadoop是指Hadoop的整个技术生态圈；狭义上的Hadoop指的是其核心三大组件，包括HDFS、YARN及MapReduce.二、Hadoop的发展史Hadoop起源于Lucen
探讨Hadoop的基础架构及其核心特点 xx155802862xx hadoop 大数据分布式
Hadoop是一个开源软件框架，用于存储和处理大规模数据集。它是Apache软件基金会下的一个项目，灵感来源于Google的两篇论文：一篇关于Google文件系统（GFS），另一篇关于MapReduce。Hadoop设计用于从单台服务器扩展到数千台机器，每台机器提供局部计算和存储。而不仅仅是处理大数据，Hadoop的真正价值在于其对于数据的高容错性、可扩展性以及相对低成本的存储和处理能力。以下是探
Spring Boot 3.x 基于 Redis 实现邮箱验证码认证 Vcats spring boot redis 后端
文章目录依赖配置开启QQ邮箱SMTP服务配置文件代码实现验证码服务邮件服务接口实现执行流程依赖配置org.springframework.bootspring-boot-starter-weborg.springframework.bootspring-boot-starter-data-redis3.4.2org.apache.commonscommons-pool22.11.1io.lettu
快速入门 FastAdmin 的开发环境搭建奥顺互联_老张 php教程 php 缓存 mysql
快速入门FastAdmin的开发环境搭建FastAdmin是一个基于ThinkPHP和Bootstrap的后台管理框架，专为快速开发而设计。本文将为您详细介绍如何搭建FastAdmin的开发环境，包括所需的环境配置、安装步骤以及简单的示例代码。1.环境要求在开始之前，请确保您的开发环境满足以下要求：PHP7.2及以上版本ComposerMySQL5.6及以上版本Nginx或ApacheGit（可选
tomcat 服务狂踹瘸子那条好腿！ tomcat java
任务描述：采用Tomcat搭建动态网站。这个先做（3）配置linux3和linux4为tomcat服务器，网站默认首页内容分别为“tomcatA”和“tomcatB”，仅使用域名访问80端口http和443端口https；证书路径均为/etc/ssl/skills.jks。[root@linux3~]#tar-zxvfapache-tomcat-10.0.2.tar.gz[root@linux3~
第9章 Apache WEB服务器企业实战 lihuhelihu Linux运维学习 apache 前端服务器 linux 运维 centos 计算机网络
万维网(WORLDWIDEWEB，WWW)服务器，也称之为WEB服务器，主要功能是提供网上信息浏览服务。WWW是Internet的多媒体信息查询工具，是Internet上飞快发展的服务，也是目前用的最广泛的服务。正是因为有了WWW软件，才使得近年来Internet迅速发展。目前主流的WEB服务器软件包括：Apache、Nginx、Lighttpd、IIS、Resin、Tomcat、WebLogic
java:Apache Commons Configuration2占位符解析异常的正确解法:${prefix:name:-default} 10km java java apache configuration2 变量插值 Interpolation
问题重现在之前的博文《spring-boot:apachecommons-configuration2异常:java.lang.IllegalArgumentException:name原因分析》中，我们曾遇到SpringBootFat-Jar运行时因LaunchedURLClassLoader资源加载异常导致的启动失败问题。当时的解决方案是通过预创建空配置文件来规避异常1：//旧方案：手动创建空
记录一次排查问题遇到apache.commons.beanutils包的坑饭磊问题排查
引言在开发过程中，难免需要用到对象转换器，比如apache的BeanUtils、ConvertUtils还有spring的BeanUtils。我们在公司的项目中就使用了apache的BeanUtils和ConvertUtils作为公共的对象转换工具。但是在没有充分理解源代码的情况下，添加个性化Converter就会出现意想不到的bug。下面我来介绍一下我在排查问题中遇到的这个bug。问题本文采用的
mybatis使用注解查询 HPF_99 java mybatis mysql mybatis java mysql xml
mybatis入门案例不使用注解入门案例：在入门案例的的基础上进行首先使用注解的话可以不使用UserMapper.xml，所以可以将这个文件去掉。UserMapper的两个查询（其他操作类似）：packagecom.feng.dao;importcom.feng.pojo.User;importorg.apache.ibatis.annotations.Param;importorg.apache
‌Tomcat 8.0.12安装流程小魚資源大雜燴 tomcat java linux
需要确保系统已经安装了JavaDevelopmentKit(JDK)7或更高版本。可以通过以下命令检查Java是否安装以及版本信息：shjava-version如果未安装Java，需要先下载并安装适合你操作系统的JDK。Windows系统安装流程步骤1：下载Tomcat8.0.12打开浏览器，访问ApacheTomcat的存档页面：https://archive.apache.org/dist/t
夜天之书 #106 Apache 软件基金会如何投票选举？ _tison apache
近期若干开源组织进行换届选举。在此期间，拥有投票权的成员往往会热烈讨论，提名新成员候选人和治理团队的候选人。虽然讨论是容易进行的，但是实际的投票流程和运作方式，在一个成员众多的组织中，可能会有不少成员并不清楚。本文以Apache软件基金会（ApacheSoftwareFoundation,ASF）为例，介绍ASF所采用的投票方式。首先介绍一年一度的成员大会期间所采用的两种投票方式：单一可转让投票和
入门Apache Spark：基础知识和架构解析 juer_0001 java spark
介绍ApacheSparkSpark的历史和背景ApacheSpark是一种快速、通用、可扩展的大数据处理引擎，最初由加州大学伯克利分校的AMPLab开发，于2010年首次推出。它最初设计用于支持分布式计算框架MapReduce的交互式查询，但逐渐发展成为一种更通用的数据处理引擎，能够处理数据流、批处理和机器学习等工作负载。Spark的特点和优势Spark是一种快速、通用、可扩展的大数据处理框架，
使用 Java 更新 Word 文档中的图表数据-超详细 Ben_F java word 开发语言
使用Java更新Word文档中的图表数据在日常的工作中，尤其是在数据分析和报告自动化的场景中，可能会遇到需要定期更新Word文档中的图表数据的需求。比如，生成数据报告时，我们需要在图表中更新一些动态的数据值。今天，我将展示如何使用Java和ApachePOI库来实现这一功能：自动读取Word文件中的图表，提取Excel数据源，修改数据并更新图表。背景我们要处理的是Word文档中的图表，而这些图表的
Flink架构体系：深入解析Apache Flink的架构与工作原理雨中徜徉的思绪漫溢 flink 架构 apache 大数据
Flink架构体系：深入解析ApacheFlink的架构与工作原理ApacheFlink是一种高性能、分布式、流式处理引擎，被广泛应用于大数据处理和实时分析场景。本文将深入解析Flink的架构体系和工作原理，包括核心组件和数据流处理过程，并提供相应的示例代码。Flink架构概述ApacheFlink的架构基于流式处理模型，它通过将数据流划分为有向无环图（DAG）的形式，将大规模的数据处理任务划分为
Streampark 入门到生产实践大数据学习爱好者 spark开发和机器学习数据仓库数据仓库大数据
Streampark入门到生产实践1.StreamPark初探1.1什么是StreamPark1.2Features1.3架构2.环境安装要求如何插入一段漂亮的代码片3.安装apache-streampark最新版4.使用教程4.1配置Flink_home4.2git拉取项目和构建项目4.3企业微信告警4.4相关参数配置4.5相关参数配置yarn-session1.StreamPark初探1.1什
【Apache Paimon】-- 13 -- 利用 paimon-flink-action 同步 mysql 表数据 oo寻梦in记 Apache Paimon apache flink mysql apache paimon
利用PaimonSchemaEvolution核心特性同步变更的mysql表结构和数据1、背景信息在Paimon诞生以前，若mysql/pg等数据源的表结构发生变化时，我们有几种处理方式（1）人工通知（比如常规的使用邮件），然后运维人员手动同步到数据仓库中（2）使用flink消费DDLbinlog，然后自动更新Hive的外部表和内部表schema那么现在，有了Paimon，我们可以利用其特性，自动
StreamPark发布：Flink迎来首个Apache版本 MfvShell flink apache 大数据 Flink
近日，流处理计算平台StreamPark重磅发布了其首个Apache版本，为用户带来了更强大的功能和性能优化。这一版本的发布标志着StreamPark与ApacheFlink的融合迈出了重要的一步，为用户提供了更好的流处理体验。ApacheFlink是一个开源的流处理框架，具有强大的扩展性和容错性，被广泛应用于实时数据处理和分析场景。而StreamPark则是基于ApacheFlink构建的流处理
Flink CDC LonelyProgramme flink 数据库大数据
我先说说我的业务需求,我想要实时从mysql数据库中读取配置数据,我以前没接触这个技术之前是定时从数据库中获取数据,但是将数据间隔设置太小就会出现问题,所以达不到纯实时的效果.下面开始介绍一下准备工作:支持的数据库(下面是官方的建议:MySQL|ApacheFlinkCDC)ConnectorDatabaseDrivermysql-cdcMySQL:5.6,5.7,8.0.xRDSMySQL:5.
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST