sanerbaby

千亿数仓项目--离线部分杂记

一、电商行业的相关介绍

电商行业介绍

电商行业技术特点

技术新
技术范围广
分布式
高并发、集群、负载均衡、高可用
海量数据
业务复杂
系统安全

电商业务系统简介

网站采用商家入驻的模式，商家入驻平台提交申请，由平台进行资质审核；审核通过后，商家拥有独立的管理后台录入商品信息，商品经过平台审核后即可发布。

大多电商平台由三部分组成：

网站前台
运营商后台
商家管理后台

网站前台

网站前台通常由这几部分构成：

网站首页
商家首页
商品详细页
搜索页
会员中心
订单与支付相关页面
秒杀频道等

运营商后台

运营商后台是运营商的运营人员管理的后台。主要包括商家审核、品牌管理、规格管理、模板管理、商品分类管理、商品审核、广告类型管理、广告管理、订单管理、商家结算等。

商家管理后台

入驻的商家进行管理的后台，主要功能是对商品的管理以及订单查询统计、资金结算等功能。

二、数仓项目简介

项目具体技术简介

kettle
缓慢变化维（拉链表）：时间维度，脚本生成，时间维度生成之后不会变化。SCD问题我们使用拉链表来解决。
Hive
kettle：导出数据的工具
Spark SQL：计算引擎
kylin：计算引擎，进行预计算之后的多维度统计分析可以达到压秒级别。

三、Kettle

kettle的介绍

对于企业和行业应用来说，经常会遇到各种数据的处理、迁移，掌握一种ｅｔｌ工具的使用必不可少。kettle现命名为PDI，但习惯上仍称为kettle。

kettle是一款国外开源的ETL工具，纯Java编写，可以在Windows、Linux、Unix上运行，绿色无需安装。
kettle中文名叫水壶，该项目的主程序员MATT希望把各种数据放到一个壶里，然后以一种指定的形式流出。
kettle允许管理来自不同数据库的数据，提供一个图形化的用户化境来描述想做什么，无需关心怎么做。

kettle的安装配置

环境要求：安装、配置好JDK

１.下载kettle（版本为pdi-ce-8.2.0.0-342）

２.解压kettle

kettle整合Hadoop

关于 active.hadoop.configuration=cdh514 的问题：

cdh514和hdp几几几不是随意写的，而是看我们自身使用的是那种版本的Hadoop（CDH/Hadoop普通的发行版本），当我们确定了使用的Hadoop的“类型”，我们再去看版本号，在自身kettle提供的几种版本中选择正确类型的且版本号大于等于当前使用的Hadoop的版本号的。

例：kettle版本为8.2 Hadoop版本为hadoop2.7.2 而kettle8.2提供的几个对于cdh/hadoop的支持为：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IMIMCYxT-1685508533931)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20230130083746206.png)]

我们应该选择大于等于当前版本号最接近的，所以选择hadp30。在没有完全相同的版本时：选择高版本向后兼容是我们的选择依据。

kettle整合Hadoop—Hadoop input

顾名思义：使用Hadoop input作为kettle转化的输入，以其他形式输出。

ps：在操作Hadoop input时，首先配置的是Hadoop input，在获取字段时会有一个弹窗（类似于让你选择获取100条数据，这时候一定要选择ok，而不是直接叉掉），ok后在配置输出时才能正常获取到字段。（弹窗不点ok的话，输入项配置是可与获取到字段的，但是输出项是无法获取到字段的，转换生成的数据文件也是空的）

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zz5WJz1Q-1685508533932)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20230201162114703.png)]

kettle整合Hive

ps：

(hive中的test库是为了学习kettle和数仓而简历的，创建时间为北京时间23年2月1日16点33分)
需要将 /opt/module/hadoop-2.7.2/share/hadoop/common下的hadoop-common-2.7.2.jar拷贝。（在common目录下由两个相似名字的jar包，拷贝那个不带test的那个jar包）

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-f8Doxnsz-1685508533933)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20230201165314940.png)]

HiveServer2 / beeline

kettle连接hive遇到的问题

本人安装的kettle版本是pdi-ce-8.2.0.0-342，是黑马程序员老师分享的kettle的安装包。本人Hadoop集群中的hive版本是1.2，在将hive-site.xml文件以及hadoop-common....jar文件都放入指定的文件目录后，在重启kettle测试连接hive后，报错connection confused（连接拒绝），经查阅各位大佬分享的文章以及检查自己的错误后，检查出如下两点需要纠正的地方：

1.开启服务端hive的hiveserver2服务

这个服务是hive提供给第三方软件的连接服务，第三方软件连接的应该是hiveserver2

①[....hive]$ bin/hiveserver2

②[...hive]$ bin/beeline

③beeline> !connect jdbc:hive2://hadoop303:10000

④输入进入hive的用户名和密码，进入hive

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-o2ZpCKBF-1685508533933)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20230202161540450.png)]

到这里hive服务端需要做的已经全部做完了。

2.将hive的lib目录下的hive-开头的配置文件复制到data-integration/lib以及D:\Download\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp30\lib两个目录下

再次重启kettle后测试连接hive后成功（访问hive的端口号为10000端口）

kettle操作hive时一定药开启HS2

数仓项目的问题

1. kettle增加hive分区问题

在使用kettle向hive导入数据并新增加分区时，kettle任务执行成功但是hive表中没有数据，可以使用下面的语句在hive的对应库下修复对应表的分区。

msck repair table databasename.tablename;

2. hive的动态分区

动态分区的必要性： 基于查询参数的位置去推断分区的名称，从而建立分区。

通常向hive的分区表insert数据时，会指定插入数据的目标分区，那么此时的分区成为静态分区；
```
insert overwrite table xxx partition(dt='ddd');
```

在insert时不指定目标分区，那么会默认select的最后一个字段的值作为分区的名称，即为动态分区，原表中没有当前分区会自动创建分区。

#开启动态分区，默认是false
#开启允许所有分区都是动态的，否则必须要有静态分区才能使用
set hive.exec.dynamic.partition=true;  
set hive.exec.dynamic.partition.mode=nonstrict; 
-- c的值作为动态分区的字段值--分区名称
-- 表xxx为仅有一级分区的表（包含二级分区的表的sql应随之改变）
-- 表xxx所包含的字段个数应与被查询表的字段数目相同
insert overwrite table xxx
select a, b, c from vvv;

如果在执行insert overwrite使用动态分区报错，应即使调整修改相应的动态分区配置参数：

① Error: GC overhead limit exceeded

② Fatal error occurred when node tried to create too many dynamic partitions.

解决办法有两种：

-- 默认的最大分区数量值为100；必要的时候可以适量增大
set hive.exec.max.dynamic.partitions.pernode=1000;

Ⅰ.扩大动态分区数量，这样会导致有很多小文件，不利于系统维护
Ⅱ.修改脚本，尽量不要使用动态分区

ps:本次的错误有两个，第一个是reduce为0，第二个是产生了200＋的动态分区

-- 开启动态分区，默认值为false
set hive.exec.dynamic.partition=true;  
-- 设置动态分区为非严格模式；（严格模式下将不允许使用笛卡儿积 、union all等）
set hive.exec.dynamic.partition.mode=nonstrict; 
-- 启动自动排序参数，强制产生reduce任务
set hive.optimize.sort.dynamic.partition =true;
-- 由于产生的动态分区数量大于默认值100，增加最大分区数量
set hive.exec.max.dynamic.partitions.pernode=1000;


-- 下面4个是纯享版

set hive.exec.dynamic.partition=true;  
set hive.exec.dynamic.partition.mode=nonstrict; 
set hive.optimize.sort.dynamic.partition =true;
set hive.exec.max.dynamic.partitions.pernode=1000;

3. mapreduce任务日志提示：The maximum path component name limit of job_

原因是:

set dfs.namenode.fs-limits.max-component-length=448;
set mapreduce.job.name=dimshops;

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aBFjHUuw-1685508533934)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20230227083634080.png)]

2.spark是有问题的，值为null

在执行insert overwrite时，发现插入表的数据值为null。

但是同样的sql在hive执行却没有这样的问题。

之前在spark的conf目录改了properties文件，改为了WARN

dw层的时间维度表dw_dim的数据只有一点，原因是http://timor.tech/api/holiday/info/这个接口限制访问次数了，很多的都429了

13123132.究其原因，还是找到的线程代码的问题没有找到

3. 环境变量

在启动kylin时，提示找不到spark/bin/jars。这个问题时由于配置Spark的环境变量时出现马虎导致Kylin去错误的路径找了$SPARK_HOME/jars

安装任何如Hadoop，hive，Hbase等时，在/etc/profile中 export XXX_HOME=/opt/module/SoftwareName，配置完成之后首先source /etc/profile ，然后可以在控制台输入 echo $XXX_HOME来验证环境变量配置成功。

4. 清理内存

（释放内存，为即将或正在运行的进程腾出更多的资源）

# 查看系统内存使用情况
free -m
# 清理内存
echo 1 >/proc/sys/vm/drop_caches
# 在自己的机器上试过，然并卵

Hive

1. 窗口函数（开窗函数）

使用规范

窗口函数必须跟在聚合函数后面—聚合函数统计的行是根据窗口函数指定的大小进行统计的

含义

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FYvHfRSm-1685508533934)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20230304231421781.png)]

没加

2. 修复分区

修复分区的使用场景：

使用kettle进行数据的转移，如使用kettle从MySQL向hive的分区表抽取数据。通常来说是在kettle的作业过程中创建分区（分区文件夹），在分区中写入数据。------这个时候是硬创建分区，并不是通过hive的HQL语句主动创建的分区，所以即便使用kettle创建了分区并在分区目录写入了数据，但此时hive并不能识别该分区及分区内的数据。此时需要在hive的客户端修复以下该分区。
```
-- msck talbe tablename
msck table weblog_origin;
-- 如果上述操作执行完成，但依然查询不到指定数据，且客户端并无报错提示信息，需使用如下命令
-- msck repair talbe tablename
msck repair talbe weblog_origin;
-- 原理相当简单，执行后，Hive会检测如果HDFS目录下存在但表的metastore中不存在的partition元信息，更新到metastore中。
```

3. .snappy.parquet

create table weblog_origin (
id int,
name string)
partition by (dt string)
-- row format delimited 分隔符
-- fields terminated by '\t' -- 字段分隔为\t，表示一个字段为一个制表位
row format delimited fields terminited by '/t'
-- STORED AS就是表中的存储格式
-- 如果文件数据是纯文本，可以使用 STORED AS TEXTFILE。如果数据需要压缩，使用 STORED AS SEQUENCEFILE。
-- TBLPROPERTIES是表的一些属性，HIVE内置了一部分属性，使用者也可以在创建表时进行自定义；
STORED AS PARQUET TBLPROPERTIES('parquet.compression'='SNAPPY');

这里需要注意的一个点：在代码处理数据文件、并保存到hive分区的parquet类型文件时，一定注意，写入parquet文件的数据类型一定要与hive能对应的上，如果parquet中的某个字段的类型与hive建表时该字段的类型对应不上，那么将会出现查询不出数据的这么一种情况，如：

Cannot inspect org.[apache](https://so.csdn.net/so/search?q=apache&spm=1001.2101.3001.7020).hadoop.io.LongWritable
-- 这个是因为hive中没有long类型，而parquet的schema中的字段类型是long，在hive中是bigint

。如果出现了查询不出hive中parquet文件中的数据，应做如下处理：

package ServiceToWareHouse
import org.apache.spark.sql.SparkSession
import org.apache.spark.SparkConf
/*
* 1.当前文件是使用Spark的方式读取parquet文件内容
* */
object SparkReadParquet {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder
      .appName(this.getClass.getSimpleName)
      .master("local[*]")
      .getOrCreate()
      // spark读取parquet文件
    val dz = spark.read.parquet("/user/hive/warehouse/itcast_ods.db/click_pageviews/dt=20191101/part-00000-48464ca9-871f-4ef3-866a-08360109f4be.snappy.parquet")
      // 展示读取到文件的20行
    dz.show(20)
      // 打印出读取的parquet文件的schema信息，字段名以及字段类型
    dz.printSchema()
    val df = spark.read.parquet("/user/hive/warehouse/itcast_ods.db/click_stream_visit/dt=20191101/part-00000-78ce327c-3924-41b2-97ee-b822a42a34dd.snappy.parquet")
    df.show(20)
    df.printSchema()
      // 在网上的资料中可以实现spark将parquet文件的字段类型进行修改，但是本人并未实现，由于石油.cast时没有找到对应方法
//    df=df.withColumn(‘business_mobile’, df[‘business_mobile’].cast(“string”))
//    import org.apache.spark.sql.functions._
//    df.withColumn("page_staylong",col("page_staylong").cast("string"))
      // Thread.sleep(10000000) --->这部分对于查看Spark任务的UI页面中任务的执行情况很有帮助，如果不设置这一句，在Spark任务执行完后Spark的UI页面会自动断开连接，导致无法查看任务执行情况
    Thread.sleep(10000000)
  }
}

4.Hive函数

1. cast函数

cast函数用于将一种数据类型转换为另一种数据类型，用法为 cast (col_name as Type)

Unable to get value 'BigNumber(16)' from database resultset, index 0

需要用 cast对字段进行转换，将bigint转换成string。

SELECT
  cast(id as string)
, cast(is_deleted as boolean)  -- 若无报错，则无需转换数据类型
, createtime
, company_name
, cast(last_modified_time as string)
FROM hive.t_test
limit 1000

flume

flume1.7版本是一个分水岭，在1.7以前的版本，flume不支持taildirsource这种source类型及不能实现断点续传。那么TailDirSource这种source类型，会动态的监听这个文件夹及文件夹下每一子文件的变化；同样重要的在1.7以前的版本是不支持断点续传的，在1.7及之后的版本，即便在flume传输的过程中出现了断电的问题，flume本身会在一个json文件中记录文件传输的过程—即偏移量，如果在传输过程中突然断电或者服务区宕机，我们只需要在开机后重新启动flume程序，那么flume程序会自动接着上次采集的位置进行采集-----由此实现断电续传。

# Describe/configure the source
# 这里是设置source的类型为TAILDIR
a1.sources.r1.type = TAILDIR
# 这里是设置用于存放偏移量（断点续传）的json文件的位置，如果不设置会存放到默认的位置
a1.sources.r1.positionFile = /var/log/flume/taildir_position.json

问题

1. flume使用hdfs sink时.conf文件中有在hdfs文件系统上的根目录创建文件夹的操作

[rose@Hadoop303 flume]$ bin/flume-ng agent --conf-file job/flume-TailDirSrc-hdfssink.conf -name a1 -Dflume.root.logger=INFO,console

执行完上述的命令后，控制台并未打印creating /…tmp文件，在hdfs文件系统上也并未有相应的文件夹创建。

原因：默认情况下当脚本和配置文件在hdfs的根目录创建文件夹时（未切换到root用户时），需要使用root用户权限才可以创建。

且为保证断点续传，需要在启动agent前在对应位置创建好.json文件，这样position位置才能正常的保存到json文件中。

PS：在使用su -root 时，提示无效选项，这时候就不用使用su -root这种方式了，而是直接使用su，su回车后会提示你输入root用户密码（在由root用户切换到普通用户时，使用su user即可）【su robot(从普通用户切换到root后再切换到普通用户)】

目前来看的话呢，这个json文件如果每次使用都用同一个文件名，那么这个json文件在每次运行之前都清空，否则任务将执行失败

declare final

Spark

Partitioner（分区器）

在不考虑自定义分区器的情况下，通常Spark中RDD的分区器有HashPartitioner和RangePartitioner两种。两种分区器都是针对于key-value类型的RDD。

HashPartitioner: 根据key的Hash值与分区数取模，根据取模后的值存入对应分区。从HashPartitioner分区的实现原理可以看出，其结果可能导致每个分区中数据量的不均匀。

RangePartitioner：从HashPartitioner的原理中我们能发现两个问题，首先：在不考虑存在重复key的情况下，会出现每个分区中的数据不均匀。而另一种情况：当RDD中存在key相同的数据，如果有大量数据有一个相同的key，那么这些相同的key的数据会落在同一个分区中，在数据的分析计算中会导致数据倾斜，从而影响计算分析。
这种情况下，使用rangpartitioner成为了解决这类问题的比较好的选择，rangparitioner在鱼塘抽样后计算出原始分区中每个分区数据的权重，原始分区中的数据都是根据key值大小升序排序的。计算出所有分区中每条数据权重的和，用权重和除以预分区的数量a，得出一个整数值n。通过累加原始第一个分区中的权重值，当权重值的和小于等于n时，得出预分区的第一个分区的最大key的值；再由第一条数据继续累加权重值，当权重值的和≤2n时，得到预分区的第二个分区的最大key值，以此类推可以计算出每个预分区中最大key的值，从而可以讲不通key值的数据存入不通的分区中。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0askfoX2-1685508533934)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20230309231118134.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-u3dMTetv-1685508533935)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20230309231152237.png)]

Spark的Task卡住

定位原因

Step1：

启动Spark程序，让程序一直运行，until当在Spark的UI页面发现有一个Task卡住。

（ps: 判断任务是不是属于卡住的状态，根据任务的Duration，这个时间一直在增加，但是后面的任务过程却一直没有进行，这基本就可以判断任务属于卡死了。而卡死的原因是不唯一的，而较多的可能是锁或者死循环的原因导致，具体原因还是要仔细排查）

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8DlwfZk7-1685508533935)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20230314113537594.png)]

Step2：

使用cmd或者git bash，输入 jps -ml 查看正在运行的Java进程以及main class信息。通过main class信息找到我们的目标进程pid。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zz2Yxm2y-1685508533936)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20230314114242203.png)]

ps : 这里使用 pslist 也可以查看正在运行的进程，不过会显示出当前主机运行的所有进程而不只是Java进程。

Step3:

找到了对应的进程，我们要根据进程的pid去查看该进程中的线程信息，找到占用CPU最多的线程的Tid，注意该线程的Tid为十进制数字。

pslist -dmx PID

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6jfWSrAS-1685508533936)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20230314114734906.png)]

Step4:

将10进制的Tid转化为16进制，目的是方便对照。

在命令行中输入 jstack PID，将进程堆栈打印，并将16进制转换后的Tid在jstack文件中查询，定位到该线程。

定位到该线程后，在找到该线程的位置查看对应的Java日志信息，定位代码的问题。

集群模式

在这台电脑的集群中，应使用如下配置跑Spark集群模式下的作业

com.itheima.main.ELTApp是跑的程序的类的主方法。可右键该class并copy refrence

bin/spark-submit  \
  --class com.itheima.main.ETLApp  \
  --conf spark.dynamicAllocation.enabled=false  \
  --driver-memory 800M  \
  --master spark://Hadoop303:7077  \
  --executor-memory 800M  \
  --total-executor-cores 6  \
  --num-executors 12   \
  click_log_etl_16-1.0-SNAPSHOT.jar \

Jstack

Jstack简介

概念

jstack是JVM自带的Java堆栈跟踪工具，它用于打印出给定的Java进程ID、core file、远程调试服务的Java堆栈信息。

作用

jstack命令用于生成虚拟机当前时刻的线程快照。
线程快照是当前虚拟机内每一条线程正在执行的方法堆栈的集合，生成线程快照的意义主要是定位线程出现长时间停顿的原因，如线程间死锁、死循环、请求外部资源导致的长时间等待等问题。
线程出现停顿的时候通过jstack来查看各个线程的调用堆栈，就知道没有响应的线程到底在后台做什么事情，或者等待什么资源。
如果Java程序崩溃生成core文件，jstack工具可以用来获得core文件的Java stack和native stack的信息，从而可以轻松地知道Java程序是如何崩溃和在程序何处发生问题。
另外，jstack工具还可以附属到正在运行的Java程序中，看到当时运行的Java程序的Java stack和native stack的信息，如果现在运行的Java程序呈现hung状态，jstack是非常有用的。

锁

实战案例

关于死锁

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-maFanRHO-1685508533936)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20230324103011359.png)]

Jstack排查

定位步骤

关于锁的那边介绍的链接的文章中，笔者是在一段代码中设置了线程名字，程序在运行的过程中进入了阻塞状态。
而本人真正认识到锁相关的知识是在Spark做数据清洗的代码中，其中有相关的Page View模型赫Visit模型。程序重要实现的是将HDFS指定路径上的文件内容进行采集，并将文件中的内容有选择性的写入到3张Hive分区表中。
而在程序写入到第一张表的数据成功后，在向第二张分区表写入数据时，Spark的的Task卡在了最后的一个stage，在Spark的UI界面看到的任务状态就是其他的任务全部SUCCESS了，只有一个task的Duration Time一直在增加，但是关于这个Task的数据读写以及过程中的shuffle情况缺都是0。
首先我考虑到的是死循环，因为在卡住的任务确实是在执行for循环之后卡住的。但是仔细核对了一边代码之后发现代码逻辑并没有问题，所以排除了死循环导致的程序卡死；那么现在的情况有两种了，第一种就是死锁，第二种就是电脑资源确实不够用的了；

实施排查

预采集的HDFS上的文件大小有200M多不到300M ，这样的情况下谁也不会想是自己电脑的资源不够导致的任务卡死。

首先实施锁的排查或者是说是排查死锁：

其实在Spark的UI页面，我们在excutor的程序详细信息中，我们就可以看到，正常如果是死锁的情况，那么必定有一个线程的状态是BLOCKED，但是我们在Spark的UI页面中没找到BLOCKED的线程，其实这里就已经证明了不是锁的问题了。但是，由于对于锁的不了解和自己的蠢，还是使用Jstack对锁进行了排查。

# 1. 使用jps查看正在运行的Java进程
> jps
12343 jps
22345 ithiema.AppTest.main
33333 laucher
# 2. 找到进行中与我们正在运行的程序名相同的进程的PID --->22345
> jstask -l PID
# 这时候控制台会打印出这个进程中的所有线程的状态以及它们的持有锁以及 等待锁的情况
# 排查后并未发现 有某个线程持有的锁 而另一个线程拥有这个锁的情况
# 这个时候就单纯的认为是RUNABLE这个状态的线程正在执行的代码出了问题，但是当前运行的代码是写入的代码，代码是没问题的
# 或者说这个代码不会影响到程序到卡死的状态
# 就总结到这吧，详细的还是见那个链接

最后就在我快羽化成仙的时候，我把原始数据的一半删掉了，原始数据共有17万行左右，我将数据只保留到8万行左右.然后代码不变重新跑了以下程序，您猜怎么着，嘿，那叫一个地道，踏马的程序运行成功了，由此总结为因系统资源不足导致程序出现卡死。

Kylin

hadoop303:7070/kylin

注意事项

1. 启动进程

需要启动Hadoop集群，zookeeper集群，Hbase集群，并启动hive的metastore服务以及hiveserver2服务，以及Yarn的history server。

# 启动Hadoop集群
# 相关进程有 namenode seconderynamenode datanode nodemanager 
Hadoop304[opt/module/hadoop-2.7.2]$ sbin/start-dfs.sh
Hadoop305[opt/module/hadoop-2.7.2]$ sbin/start-yarn.sh
# 启动zk
# 相关进程 Qour...Mean
Hadoop304[opt/module/zookeeper]$ bin/zkServer.sh start
Hadoop305[opt/module/zookeeper]$ bin/zkServer.sh start
Hadoop306[opt/module/zookeeper]$ bin/zkServer.sh start
# 启动Hbase集群
# 相关进程 HregionServer HMaster
Hadoop304[opt/module/hbase]$ bin/start-hbase.sh
# 启动 metastore
Hadoop304[opt/module/hive/bin]$ nohup hive --service metastore &
# 启动 hiverserver2
Hadoop304[opt/module/hive/bin]$ nohup hive --service hiveserver2 &
# 启动Yarn history server
Hadoop304[opt/module/hadoop-2.7.2/sbin]$ mr-jobhistory-daemon.sh start historyserver
# 启动kylin
Hadoop304[opt/module/apache-kylin/bin]$./kylin.sh start

启动spark history server【可选】

2. Hbase相关

版本：安装麒麟需要对Hbase的版本有要求，不同版本的Hbase与不同版本的Kylin之家可能存在不兼容的问题，会导致Kylin无法安装成功或Kylin使用出现问题。
安装Kylin时，要求hbase的hbase.zookeeper.quorum值必须只能是host1,host2,…。不允许出现host:2181,…（否则会启动失败）

3. kylin 理解

kylin自身的组件只有两个，JobServer 和 QueryServer 。Kylin的JobServer 主要负责将数据源(hive, kafka)的数据通过计算引擎(Mapreduce,Spark)生成Cube存储到存储引擎(hbase)中；QueryServer主要负责SQL的解析，逻辑计划的生成和优化，向Hbase的多个Region发起请求，并对多个Region的结果进行汇总，生成最终的结果集。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-E1OoQJYs-1685508533937)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20230524194118001.png)]

Linux

命令

ln

ln是Linux中比较重要的一个命令，当我们需要在不同目录用到同一个文件时，我们不需要将同一个文件保存到不同的位置，只需要将目标文件保存在一个固定的目录即可，如果某个目录要用到这个文件，我们只需要在这个目录创建目标文件的链接即可，这个可以节省磁盘资源。ln的功能是为某一个文件在另外一个位置建立一个同步的链接。

用法：

# 如果是在当前目录，可以使用 ln -s /文件原路径	这样即可
# 使用ln -s即为创建软连接(Symbolic Link)、又称符号链接 --- 使用ln 即为创建硬链接(Hard Link)
# 当删除软链接的源文件时，会导致所有的软链接变为死链接；而当删除硬链接的源文件时，硬链接不受影响，当原始文件及所有硬链接被删除时，硬链接才会失效
# 无论软硬连接，文件都会同步变化
# 创建软连接
ln -s /文件全路径 /目标路径
# 显示软链接的link的路径
ls -l
# 注意！！！ 很多时候创建完软链接后链接后面会有红色路径闪烁，这时候考虑两点： 1。原始文件已失效或被删除 2.使用文件完整路径创建链接（而不是使用变量，类似ln -s $SPARK_HOME/conf/spark-defaults.xml）-----原因不详

开机必启动

在build麒麟的cube时，cube的build非常慢，而且总会中断，从而ERROR。查看服务器上的服务运行情况，发现有个节点上的HMaster和kylin已经停掉了。这个时候也给知道了为什么cube构建出错的原因。通过查阅别人的分享，知道可能会因为HBase集群的各节点时间不同步导致单个节点的HMaster挂掉。检查后发现—还真是^^

启动ntpd服务，目的是让集群间的各个服务器的时间同步

# 切换到root用户
su root
# 查看ntpd服务的状态
service ntpd status
# 启动ntpd服务
service ntpd start
# chkconfig ntpd on  ## 这个语句用来设置开机自启动，但是机器本身资源有限，就不这么设置了

在其他的从节点上，设置定时任务，通过定时任务定时同步宿主机的时间（下面的操作只是记录一下。做过一次之后就再也不用做了）

在所有的从节点：

crontab -e
输入如下内容
*/1 * * * * /usr/sbin/ntpdate Hadoop303
意义为没一分钟同步一次时间

是使用变量，类似ln -s $SPARK_HOME/conf/spark-defaults.xml）-----原因不详


## 开机必启动

> 在build麒麟的cube时，cube的build非常慢，而且总会中断，从而ERROR。查看服务器上的服务运行情况，发现有个节点上的HMaster和kylin已经停掉了。这个时候也给知道了为什么cube构建出错的原因。通过查阅别人的分享，知道可能会因为HBase集群的各节点时间不同步导致单个节点的HMaster挂掉。检查后发现---还真是^^

	启动ntpd服务，目的是让集群间的各个服务器的时间同步

```shell
# 切换到root用户
su root
# 查看ntpd服务的状态
service ntpd status
# 启动ntpd服务
service ntpd start
# chkconfig ntpd on  ## 这个语句用来设置开机自启动，但是机器本身资源有限，就不这么设置了

在其他的从节点上，设置定时任务，通过定时任务定时同步宿主机的时间（下面的操作只是记录一下。做过一次之后就再也不用做了）

在所有的从节点：

crontab -e
输入如下内容
*/1 * * * * /usr/sbin/ntpdate Hadoop303
意义为没一分钟同步一次时间

你可能感兴趣的:(大数据,数据仓库)

养老院管理系统基于SpringBoot的养老院管理系统系统设计与实现（源码+论文+部署讲解等）
博主介绍：✌全网粉丝60W+,csdn特邀作者、Java领域优质创作者、csdn/掘金/哔哩哔哩/知乎/道客/小红书等平台优质作者，计算机毕设实战导师，目前专注于大学生项目实战开发,讲解,毕业答疑辅导，欢迎高校老师/同行前辈交流合作✌技术栈范围：SpringBoot、Vue、SSM、Jsp、HLMT、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习、单片机
大数据处理技术：分布式文件系统HDFS 茜茜西西CeCe hdfs hadoop 大数据 HDFS-JAVA接口文件头歌 Java
目录1实验名称：2实验目的3实验内容4实验原理5实验过程或源代码5.1HDFS的基本操作5.2HDFS-JAVA接口之读取文件5.3HDFS-JAVA接口之上传文件5.4HDFS-JAVA接口之删除文件6实验结果6.1HDFS的基本操作6.2HDFS-JAVA接口之读取文件6.3HDFS-JAVA接口之上传文件6.4HDFS-JAVA接口之删除文件1实验名称：分布式文件系统HDFS2实验目的1.理
Linux教程（4）----[hive数据仓库工具] .房东的猫 Linux教程（完善中~~）linux
Hive基本概念Hive简介什么是HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。为什么使用Hive直接使用hadoop所面临的问题人员学习成本太高
基于用户画像的商品推荐系统 Dush32 机器学习人工智能 python 推荐算法
随着人工智能和大数据技术的进步，产品推荐系统成为了现代广告与电商平台中不可或缺的部分。通过深度挖掘用户的行为数据，能够为广告主提供精准的用户画像，从而更高效地推荐相关产品，提升购买转化率。本项目基于科大讯飞AI营销云大赛的赛题，目的是利用用户画像进行产品推荐，预测用户是否会购买相应商品。我们使用了机器学习的二分类模型，通过分析用户的性别、年龄、常驻地、机型等信息，来判断用户的付费行为。项目目标：本
InfluxDB 数据模型：桶、测量、标签与字段详解（一）计算机毕设定制辅导-无忧 #InfluxDB db
一、引言**在大数据和物联网蓬勃发展的当下，时间序列数据的处理需求呈爆发式增长。InfluxDB作为一款高性能的开源时序数据库，凭借其卓越的特性，在时序数据库领域占据了重要地位，被广泛应用于各种场景。InfluxDB专为时间序列数据设计，拥有高效的存储和查询性能。它采用独特的存储引擎，能够快速写入大量带有时间戳的数据，并支持灵活的查询操作。其核心设计针对时间序列数据的特点进行了优化，包括时间索引、
Kafka 集群架构与高可用方案设计（一）计算机毕设定制辅导-无忧 #Kafka kafka 架构分布式
Kafka集群架构与高可用方案设计的重要性在大数据和分布式系统的广阔领域中，Kafka已然成为了一个中流砥柱般的存在。它最初由LinkedIn开发，后捐赠给Apache软件基金会并成为顶级项目，凭借其卓越的高吞吐量、可扩展性以及持久性，被广泛应用于日志收集、实时数据处理、流计算、数据集成等诸多关键领域。在日志收集场景下，以大型互联网公司为例，每天都会产生海量的日志数据，如用户的访问记录、系统操作日
大数据集成方案对比：Kafka vs Flume vs Sqoop AI天才研究院计算 AI大模型应用入门实战与进阶 Agentic AI 实战大数据 kafka flume ai
大数据集成方案对比：KafkavsFlumevsSqoop关键词：大数据集成、Kafka、Flume、Sqoop、流处理、批量迁移、日志收集摘要：在大数据生态中，数据集成是连接数据源与数据处理平台的关键环节。本文深度对比Kafka、Flume、Sqoop三大主流集成工具，从核心架构、技术原理、适用场景到实战案例展开系统性分析。通过数学模型量化性能差异，结合实际项目经验总结选型策略，帮助开发者根据业
飞算科技：以创新科技引领数字化变革，旗下飞算 JavaAI 成开发利器飞算JavaAI开发助手科技
作为国家级高新技术企业，飞算科技专注于自主创新，在数字科技领域持续深耕，用前沿技术为各行业客户赋能，助力其实现数字化转型升级的飞跃。飞算科技凭借深厚的技术积累，将互联网科技、大数据、人工智能等技术与实际应用紧密融合。公司组建了一支由行业资深专家和技术精英构成的团队，他们在相关领域积累了多年实践经验，深刻理解不同行业客户在数字化进程中面临的痛点与挑战。基于这些洞察，飞算科技推出了一系列具有创新性和实
Java 大视界 -- Java 大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用青云交大数据新视界 Java 大视界 java 大数据机器学习情绪分析智能投资多源数据
Java大视界--Java大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用）引言：正文：一、金融情绪数据的立体化采集与治理1.1多模态数据采集架构1.2数据治理与特征工程二、Java机器学习模型的工程化实践2.1情感分析模型的深度优化2.2强化学习驱动的动态投资策略三、顶级机构实战：Java系统的金融炼金术四、技术前沿：Java与金融科技的未来融合4.1量子机器学习集成4.2联邦学习在合
Java 大视界 -- Java 大数据在影视内容推荐与用户兴趣挖掘中的深度实践（183）青云交大数据新视界 Java 大视界 Java+Python 双剑合璧：AI 大数据实战通关秘籍大数据影视内容推荐用户兴趣挖掘协同过滤基于内容推荐数据可视化个性化推荐系统
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！全网（微信公众号/CSDN/抖音/华为/支付宝/微博）：青云交一、欢迎加入【福利社群】点击快速加入1：青云交技术圈福利社群（NEW)点击快速加入2：2025CS
Java 大视界 -- 基于 Java 的大数据分布式文件系统在科研数据存储与共享中的应用优化（187）青云交大数据新视界 Java 大视界 Java+Python 双剑合璧：AI 大数据实战通关秘籍大数据大数据分布式文件系统科研数据存储科研数据共享应用优化 HDFS 数据分区
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！全网（微信公众号/CSDN/抖音/华为/支付宝/微博）：青云交一、欢迎加入【福利社群】点击快速加入1：青云交技术圈福利社群（NEW)点击快速加入2：CSDN博客
Python医疗大数据实战：基于Scrapy-Redis的医院评价数据分布式爬虫设计与实现 Python爬虫项目 python 开发语言爬虫 selenium scrapy
摘要本文将详细介绍如何使用Python构建一个高效的医院评价数据爬虫系统。我们将从爬虫基础讲起，逐步深入到分布式爬虫架构设计，使用Scrapy框架结合Redis实现分布式爬取，并采用最新的反反爬技术确保数据采集的稳定性。文章包含完整的代码实现、性能优化方案以及数据处理方法，帮助读者掌握医疗大数据采集的核心技术。关键词：Python爬虫、Scrapy-Redis、分布式爬虫、医疗大数据、反反爬技术1
flink-sql读写hive-1.13 第一片心意 flink flink sql hive
1.版本说明本文档内容基于flink-1.13.x，其他版本的整理，请查看本人博客的flink专栏其他文章。1.1.概述ApacheHive已经成为了数据仓库生态系统中的核心。它不仅仅是一个用于大数据分析和ETL场景的SQL引擎，同样也是一个数据管理平台，可用于发现，定义，和演化数据。Flink与Hive的集成包含两个层面。一是利用了Hive的MetaStore作为持久化的Catalog，用户可通
觉察与正念佳佳的宝瓶子
今天因为交电费的事与妈妈沟通。在沟通的过程中，年届八十的母亲一直给我强调着过去怎么怎么。父母家的电费一直是银行代扣的，这样的模式自从可以通过银行代扣便开始了。可见那时候的父母还是蛮新潮的，能接受新事物的。至从有了智能手机，人类便进入了大数据时代。通过微信或支付宝来交电费方便得多。可惜父亲不在了，老母亲是连手机都坚决不用的人。（因为想要掩饰自己的不能、不敢，所以干脆拒绝！不愿意做任何的改变）。今年，
Java大视界：Java大数据在智能医疗电子健康档案数据挖掘与健康服务创新＞ Loving_enjoy 计算机学科论文创新点人工智能深度学习迁移学习经验分享
>本文通过完整代码示例，揭秘如何用Java大数据技术挖掘电子健康档案价值，实现疾病预测、个性化健康管理等创新服务。###一、智能医疗时代的数据金矿电子健康档案（EHR）作为医疗数字化的核心载体，包含海量患者全生命周期健康数据。据统计，全球医疗数据量正以每年**48%的速度增长**，单个三甲医院年数据量可达**PB级**。这些数据蕴藏着疾病规律、治疗效能的宝贵知识，但传统技术难以有效挖掘。**Jav
无人值守人工智能智慧系统数据分析：深度洞察与未来展望呆码科技人工智能数据分析数据挖掘
无人值守人工智能智慧系统数据分析：深度洞察与未来展望随着科技的飞速发展，人工智能（AI）技术已逐渐渗透到社会经济的各个领域，其中无人值守人工智能智慧系统作为AI技术应用的前沿阵地，正引领着一场深刻的行业变革。这类系统通过集成高级算法、大数据分析、物联网（IoT）及云计算等先进技术，实现了对复杂环境的自主监控、智能决策与高效管理，极大地提升了运营效率，降低了人力成本，并开启了数据驱动决策的新纪元。本
浮漂式水质监测设备：智能守护水环境的未来之眼柏峰电子人工智能
浮漂式水质监测设备：智能守护水环境的未来之眼柏峰【BF-FBSZ】随着全球水资源短缺和水污染问题日益严峻，水质监测技术正迎来前所未有的发展机遇。作为这一领域的创新突破，浮漂式水质监测设备凭借其实时性、智能化和网络化优势，正在重塑水资源管理的新格局。本文将深入探讨这一技术的原理、特点、应用场景及未来发展趋势。一、技术原理与系统架构浮漂式水质监测设备是一种集成了现代传感器技术、物联网和大数据分析的智能
基于蜣螂算法优化多头注意力机制的卷积神经网络结合双向长短记忆神经网络实现温度预测DBO-CNN-biLSTM-Multihead-Attention附matlab代码 matlab科研助手神经网络算法 cnn
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。个人主页：Matlab科研工作室个人信条：格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理图像处理路径规划元胞自动机无人机物理应用机器学习内容介绍温度预测在气象学、农业、能源等领域具有重要的应用价值。随着大数据和人工智能技术的快速发
基于Socket来构建无界数据流并通过Flink框架进行处理每天五分钟玩转人工智能 Flink技术实战 flink 大数据 Flink 分布式无界数据
本文重点随着大数据技术的不断发展，实时数据流处理已成为企业应对海量数据、实现快速决策的关键技术。ApacheFlink是一个开源的流处理框架，它能够对无界数据流进行高效的、精确的处理。本文将介绍如何通过Socket构建无界数据流，并利用Flink框架进行无界流处理。基于Socket构建无界数据无界数据指的是源源不断产生的数据，这些数据通常来自各种实时数据源，如用户行为日志、传感器数据等。Socke
sgg大数据全套技术链接[plus] 原来是大华啊~ 资源大数据
写在开头：感谢尚硅谷，尚硅谷万岁，我爱尚硅谷111个技术栈+43个项目，兄弟们，冲！最近小米又又又火了一把，致敬所有造福人民的企业和伟大的企业家，致敬雷军，小米，致敬马云，致敬尚硅谷，致敬所有为人民谋福的英雄人物和企业，再次献上我诚挚的敬意，致敬！尚硅谷大数据全套111个技术1.Java从入门到精通JDK版链接：https://pan.baidu.com/s/1GAc610SYSMmZBuOX4D
疫情下，我的健康码首次变成了黄码唯我一心
3月中旬，老公在广州白云区接了一单生意，要很久才回来，就在那里租了一间房，带我和孩子一起住。房子在七楼，步梯，因孩子小，自己就很少下楼，都是他买菜回来，4月8号，订单完成，返程回了佛山。过了两天突然接到短信通知，白云区要大规模核酸筛查，又过一天收到短信:通过大数据分析，您近期行程涉及疫情防控重点区域，您的健康码将被赋予2次黄码并需开展2次核酸检测，请注意健康码状态，尽快凭码到附近黄码核酸检测点进行
到底应该怎么抓语文成绩山东董纯
上学期期末考试，全区统一采用网上阅卷的形式。在这个大数据时代，在这个极为透明的数据时代，一旦采用这样网络统一阅卷的形式。那丑媳妇就要真的见公婆了。再这样一个要生源没生源。要学习积极性没有学习积极性的氛围里。想取得好的成绩是真的难上加难。尽管已经预料到跟其他兄弟学校有一定的差距。但是没有想到差距如此之大。领导们坐不住了，反复约谈备课组长。理由是其他科目差距不大，甚至有优势。为什么语文学科会有如此大的
告别内存焦虑！用Dask打开Python大数据并行计算的“任意门“ 小张在编程 python 大数据开发语言
引言当你在Jupyter里用Pandas读取20GB的CSV文件，看到内存占用率从10%飙升到90%，最后弹出"MemoryError"时；当你想对亿级数据做分组聚合，却发现单线程计算要等上半小时——这些场景是不是像极了用小推车搬运万吨货物？Python生态中，Dask库就像一台"并行计算推土机"，能把大数据拆分成小块并行处理，让你的普通电脑也能拥有分布式计算的能力。本文将从原理到实战，带你掌握这
python大数据论文_大数据环境下基于python的网络爬虫技术 weixin_39775976 python大数据论文
软件开发大数据环境下基于python的网络爬虫技术作者/谢克武，重庆工商大学派斯学院软件工程学院摘要：随着互联网的发展壮大，网络数据呈爆炸式增长，传统捜索引擎已经不能满足人们对所需求数据的获取的需求，作为搜索引擎的抓取数据的重要组成部分，网络爬虫的作用十分重要，本文首先介绍了在大数据环境下网络爬虫的重要性，接着介绍了网络爬虫的概念，工作原理，工作流程，网页爬行策略，python在编写爬虫领域的优势
推荐文章：《同济大学软件学院万院长谈择业》 weixin_34087301
同济大学软件学院万院长谈择业一、关于企业计算方向企业计算（EnterpriseComputing）是稍时髦较好听的名词，主要是指企业信息系统，如ERP软件（企业资源规划）、CRM软件（客户关系管理）、SCM软件（供应链管理，即物流软件），银行证券软件，财务软件，电子商务/政务（包括各种网站），数据仓库，数据挖掘，商务智能等企业信息管理系统。企业计算领域对人才的需求显然永远是数量最大的，因为这是计算
Redis性能测试：工具、参数与实战示例 Seal^_^ 数据库专栏 #数据库--Redis redis 数据库 Redis性能测试
Redis性能测试：工具、参数与实战示例1.Redis性能测试概述2.redis-benchmark基础使用2.1基本语法2.2简单示例3.性能测试参数详解4.实战测试示例4.1基础测试4.2指定命令测试4.3带随机key的测试4.4大数据测试4.5管道测试5.性能测试流程图6.测试结果分析与优化建议6.1结果解读6.2优化建议7.高级测试场景7.1持久化影响测试7.2集群测试7.3长时间稳定性测
计算机系毕业生的前途在哪（一个牛人对计算机系的阐述）蚊子嵌入式嵌入式操作系统 wince linux 手机游戏 j2me
值得未毕业的、刚毕业的、或想转行的朋友们揣摩参考。一、关于企业计算方向企业计算(EnterpriseComputing)是稍时髦较好听的名词，主要是指企业信息系统如：ERP软件(企业资源规划)、CRM软件(客户关系管理)、SCM软件(供应链管理，即物流软件)，银行证券软件财务软件电子商务/政务(包括各种网站)，数据仓库，数据挖掘，商务智能等企业信息管理系统。企业计算领域对人才的需求显然永远是数量最
2025年各细分产业链企业数据(汽车、数字经济、食品、制造业) 经管数据库汽车智能手机数据分析
本数据包含2025年及之前的所有上中下游企业信息，67个细分产业。汽车专区、数字经济专区、数字创意专区、未来产业专区、高端装备专区、新能源专区、食品农业专区、传统制造业专区等71个文件。汽车专区：充电桩制造动力电池汽车材料制造汽车制造汽车制造设备汽车座椅制造驱动电机制造燃料电池汽车制造燃料电池系统制造新能源汽车制造智能驾驶智能视觉数字经济专区：5g边缘计算大数据类服务器光通信集成电路区块链人工智能
大学生学软件必看欧巴Godwin 日志嵌入式嵌入式操作系统 wince linux 手机游戏 j2me
一、关于企业计算方向企业计算(EnterpriseComputing)是稍时髦较好听的名词，主要是指企业信息系统,如ERP软件（企业资源规划）、CRM软件（客户关系管理）、SCM软件（供应链管理，即物流软件）,银行证券软件,财务软件,电子商务/政务（包括各种网站），数据仓库，数据挖掘，商务智能等企业信息管理系统.企业计算领域对人才的需求显然永远是数量最大的,因为这是计算机应用最多的领域.搞这方面的
C#语法基础总结（超级全面）（二） inwith C#语法基础 c#开发语言
文章目录c#语法基本元素关键字操作符（operator）类型转换标识符（Identifier）语句try语句迭代语句（循环语句）索引器文本（字面值）五大数据类型引用类型：值类型：变量、对象与内存装箱和拆箱类类的实例化类的三大成员（属性、方法、事件）属性（property）方法（函数）方法参数值参数引用参数输出参数数组参数具名参数可选参数扩展方法（this参数）方法的重载构造器（constructo
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla