ayoonching

apache griffin数据质量平台安装过程

Apache Griffin安装过程

前言

（本文是我写在word上再转成markdown产生的，转换过程中容易把一些英文字符转成中文字符，虽再三校对，难免还是有疏漏）

为学习搭建griffin数据质量平台，在官方教程的基础上，形成以下文档，作为安装参考。对于刚入门的新手来说，官方教程走不下去的地方比较多，本文已经解决了全部编者在搭建过程中遇到的问题。在阅读时，建议至少阅读完一小节再操作，有些环节，是一定能看到报错信息的，其后才附上解决方案。

限于编者水平（0大数据基础）以及仓促的时间（快过年了），以及技术文档的时效性（以griffin0.6.0为基础编写），遇到的很多问题编者都是知其然不知其所以然，以跑通为目标没有深究原理。本文也不保证一直有用。文章中涉及配置参数的部分，建议同时对照官方文档。

一、环境要求

1.1 虚拟机

按照官方文档，使用Ubuntu
18版本。此处以阿里云2核16G内存虚拟机作为部署服务器。使用全新开通的实例。我写到2.12章节时，发现8G不够，已经卡到无法操作了，最终选用16G内存。

1.2 java

使用JAVA 8 (openjdk)

1.3 maven

使用apt-get安装默认版本，修改mirror源为阿里云。

1.4 MySQL

官方教程在数据库要求的标题中，使用了8.0.11版本MySQL数据库。实际使用了MySQL
5.7版本。这里使用5.7版本。

1.5 node和npm

在编译griffin源码的时候，会安装这些。版本>6.0.0。

1.6 Hadoop

官方文档要求高于2.6.0。选用2.10。

1.7 Hive

官方文档要求为2.x版本。

1.8 Spark

版本2.2.1。选用without Hadoop的版本。

1.9 Livy

1.10 ElasticSearch

官方要求版本5.0以上。

1.11 Scala

官方文档未提到版本，选用2.x版本。

二、环境准备

2.1 准备文件夹

本文档选择在/home/dq/文件夹下放置相关软件包和数据。dq是自行创建的文件夹。

按照顺序，执行的命令有：

$ mkdir /home/dq/software -p

$ mkdir /home/dq/software/data -p

$ sudo ln -s /home/dq/software /apache

$ sudo ln -s /apache/data /data

$ mkdir /apache/tmp -p

$ mkdir /apache/tmp/hive -p

2.2 安装完整版openjdk 8

官方给的教程安装的openjdk8是没有tools.jar这类工具包的，我们在这台虚拟机上编译griffin，而不是在外边编译好了放到服务器，这时如果用官方教学提供的安装openjdk命令，在后期编译griffin时会报错。因此在这里安装openjdk选用的是完整版。

使用的命令：

# 由于是本教程中第一次使用apt，先apt-get update

sudo apt-get update

sudo apt-get install openjdk-8-jdk

官方给的命令：
sudo apt install openjdk-8-jre-headless

安装好之后，等半分钟，看一下java版本：

java –version

大概会返回这样的信息：

2.3 安装maven

使用该命令：

sudo apt-get install maven

安装好之后，设置maven的mirror为阿里云，备份后编辑maven的配置文件

#备份

cp /etc/maven/settings.xml /etc/maven/settings.xml.bak

# 清空

echo > /etc/maven/settings.xml

#编辑

vim /etc/maven/settings.xml

整个文件直接替换成以下内容（其实网上有很多类似现成的maven配置）


 
<settings xmlns="http://maven.apache.org/SETTINGS/1.0.0"
          xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
          xsi:schemaLocation="http://maven.apache.org/SETTINGS/1.0.0 http://maven.apache.org/xsd/settings-1.0.0.xsd">
 
    <pluginGroups>
    pluginGroups>
 
    <proxies>
    proxies>
 
    <servers>
    servers>
 
    <mirrors>
        <mirror>
            <id>nexus-aliyunid>
            <mirrorOf>centralmirrorOf>
            <name>Nexus aliyunname>
            <url>http://maven.aliyun.com/nexus/content/groups/publicurl>
        mirror>
    mirrors>
 
 
    <profiles>
        <profile>
            <id>aliyunid>
            
            <repositories>
                <repository>
                    <id>nexus-aliyunid>
                    <name>Nexus aliyunname>
                    <url>http://maven.aliyun.com/nexus/content/groups/publicurl>
                    <releases>
                        <enabled>trueenabled>
                    releases>
                    <snapshots>
                        <enabled>trueenabled>
                    snapshots>
                repository>
            repositories>
        profile>
    profiles>
 
    <activeProfiles>
        <activeProfile>aliyunactiveProfile>
    activeProfiles>
settings>

随后保存该文件。

2.4 安装MySQL

执行命令：

sudo apt install mysql-server-5.7

注意这里安装了5.7版本

修改mysql的root帐号密码，先登录，命令为：

mysql -uroot -p #敲回车让输入密码，不用输入，再敲一次回车就能登录

# 选用mysql数据库

mysql> use mysql;

#更新mysql的root密码为123456

mysql> update user set authentication_string=PASSWORD("123456") where
User='root';

#很多博客说要加上这句

mysql> update user set plugin="mysql_native_password";

#更新权限

mysql> flush privileges;

#退出

mysql> quit;

用新密码重新登录下试试。依然是mysql -uroot
–p敲回车，此时要求输入密码，输入123456再回车，看到能登录成功。

2.5 安装大数据相关软件包之前的准备

国内下载apache网站的hadoop/hive/spark等软件包太慢，准备了一个腾讯的镜像。地址为https://mirrors.cloud.tencent.com/apache/

2.6 设置环境变量

编辑/etc/profile文件，文件末尾之后，粘贴以下内容并保存。

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

export HADOOP_HOME=/apache/hadoop
export HADOOP_COMMON_HOME=/apache/hadoop
export HADOOP_COMMON_LIB_NATIVE_DIR=/apache/hadoop/lib/native
export HADOOP_HDFS_HOME=/apache/hadoop
export HADOOP_INSTALL=/apache/hadoop
export HADOOP_MAPRED_HOME=/apache/hadoop
export HADOOP_USER_CLASSPATH_FIRST=true
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_HOME=/apache/spark
export LIVY_HOME=/apache/livy
export HIVE_HOME=/apache/hive
export YARN_HOME=/apache/hadoop
export SCALA_HOME=/apache/scala

export PATH=$PATH:$HIVE_HOME/bin:$HADOOP_HOME/bin:$SPARK_HOME/bin:$LIVY_HOME/bin:$SCALA_HOME/bin

以上保存后，控制台执行 source /etc/profile

再执行echo $HADOOP_HOME

如果打印出了/apache/hadoop就是配置环境变量成功了。这里只是挑选了其中一条环境变量，其他的也可以打印。

2.7 下载安装hadoop及配置

进入/apache/目录，通过wget命令，将软件包下载到虚拟机：

wget
https://mirrors.cloud.tencent.com/apache/hadoop/common/hadoop-2.10.1/hadoop-2.10.1.tar.gz

下载到/apache/

解压命令：tar -zxvf hadoop-2.10.1.tar.gz

解压会花费30秒到1分钟。

重命名文件夹命令：mv hadoop-2.10.1 hadoop

看一下java的安装路径。在我这里是/usr/lib/jvm/java-8-openjdk-amd64

进入/apache/hadoop/etc/hadoop，找到hadoop-env.sh，修改该文件。

vi /apache/software/hadoop/etc/hadoop/hadoop-env.sh

找到export
JAVA_HOME=${JAVA_HOME}这样一个地方，把等于号后边的内容修改为本机java绝对路径。既我们刚刚准备的/usr/lib/jvm/java-8-openjdk-amd64
修改完成后保存退出。

配置环节：

这部分官方教程地址是，此处与官方无差异

https://github.com/apache/griffin/blob/076c8d08abf9f825dde22213e35e1b24f50cb1f2/griffin-doc/deploy/deploy-guide.md#hadoop

编辑/apache/hadoop/etc/hadoop/core-site.xml

把以下内容放入core-site.xml







<configuration>
    <property>
        <name>fs.defaultFSname>
        <value>hdfs://127.0.0.1:9000value>
    property> 
configuration>

开启、关闭hadoop nodes相关命令，摘抄自官方

# format name node
# NOTE: if you already have executed namenode-format before, it'll change cluster ID in 
# name node's VERSION file after you run it again. so you need to guarantee same cluster ID
# in data node's VERSION file, otherwise data node will fail to start up.
# VERSION file resides in /apache/data/hadoop-data/nn, snn, dn denoted in previous config. 
/apache/hadoop/bin/hdfs namenode -format
# start namenode/secondarynamenode/datanode
# NOTE: you should use 'ps -ef|grep java' to check if namenode/secondary namenode/datanode
# are available after starting dfs service.
# if there is any error, please find clues from /apache/hadoop/logs/
/apache/hadoop/sbin/start-dfs.sh
# stop all nodes
/apache/hadoop/sbin/stop-dfs.sh

启动节点过程中可能会报一些授权问题， 都输入yes。还需要输入登录用户的密码。

启动完毕后，在浏览器打开 即可看到效果。注意部分hadoop版本有漏洞，安装后开放50070端口有机会导致服务器中招。

开启、关闭hadoop ResourceManager

    # manually clear the ResourceManager state store
    #编者认为该命令是首次使用时运行一次

    /apache/hadoop/bin/yarn resourcemanager -format-state-store

    # startup the ResourceManager 启动

    /apache/hadoop/sbin/yarn-daemon.sh start resourcemanager

    # stop the ResourceManager 关闭

    /apache/hadoop/sbin/yarn-daemon.sh stop resourcemanager

启动后可以到http://你的地址:8088/cluster 看到效果。

开启、关闭hadoop NodeManager

    # startup the NodeManager 开启

    /apache/hadoop/sbin/yarn-daemon.sh start nodemanager

    # stop the NodeManager 关闭

    /apache/hadoop/sbin/yarn-daemon.sh stop nodemanager

启动完毕后到http://你的地址:8088/cluster/nodes查看效果

开启、关闭hadoop HistoryServer是可选项目（官方说法），此处不再描述。

2.8 下载安装Hive及配置

进入/apache/目录，下载2.x版本的软件包到/apache/

wget
https://mirrors.cloud.tencent.com/apache/hive/hive-2.3.9/apache-hive-2.3.9-bin.tar.gz

解压：tar -zxvf apache-hive-2.3.9-bin.tar.gz

重命名： mv apache-hive-2.3.9-bin hive

配置：

首先把模板配置文件复制成一份正式配置文件

cp /apache/hive/conf/hive-default.xml.template /apache/hive/conf/hive-site.xml

编辑该hive-site.xml文件。以下根据官方指示修改。

https://github.com/apache/griffin/blob/076c8d08abf9f825dde22213e35e1b24f50cb1f2/griffin-doc/deploy/deploy-guide.md#hive
72行附近，找到

${system:java.io.tmpdir}/${system:user.name}

整行删去并改为

/apache/tmp/hive
前述修改下方不远处，找到

${system:java.io.tmpdir}/${hive.session.id}_resources

整行删去改为

/apache/tmp/hive/${hive.session.id}_resources
368行附近，找到

hive.metastore.uris下方的

整行删去改为

thrift://127.0.0.1:9083
527行附近，找到

javax.jdo.option.ConnectionPassword

下方的mine

整行删去改为

secret
542行附近，找到

javax.jdo.option.ConnectionURL

下方的

jdbc:derby:;databaseName=metastore_db;create=true

整行删去改为

jdbc:mysql://127.0.0.1:3306/hive?createDatabaseIfNotExist=true&useSSL=false

这里官方使用的是postgresql，本文使用MySQL作为元数据管理。注意&号需要用&代替。
1017行附近，找到

javax.jdo.option.ConnectionDriverName

下方的

org.apache.derby.jdbc.EmbeddedDriver

整行删去改为

com.mysql.jdbc.Driver
1042行附近，找到

javax.jdo.option.ConnectionUserName

下方的

APP

整行删去，改为

king
1682行附近，找到

${system:java.io.tmpdir}/${system:user.name}

整行删去，改为

/apache/tmp/hive
3973行附近，找到

${system:java.io.tmpdir}/${system:user.name}/operation_logs

整行删去，改为

/apache/tmp/hive/operation_logs
以上全部修改完成后保存。
在MySQL中创建名为king密码为secret的帐号

先用root帐号登录到Mysql

创建

CREATE USER ‘king’@‘localhost’ IDENTIFIED BY ‘secret’;

授权

GRANT ALL ON . TO ‘king’@‘localhost’;

刷新权限

flush privileges;

可选步骤，查看帐号

use mysql;

select user,host from mysql.user

退出mysql

quit;

如果这时候启动metastore服务会报错，因为hive没有mysql连接器jar包。先不要启动。

到mysql官网下载jar包

https://downloads.mysql.com/archives/c-j/

选择版本号是5.1.49，操作系统选platform independent（平台独立版本）

选中Platform Independent (Architecture Independent), ZIP
Archive，点击后边的下载按钮，等待下载后解压到mysql-connector-java-5.1.49.jar，上传到/apache/hive/lib/下。这个包就留着，以后出现找不到mysql的driver基本就是缺这个。
这时启动还会报错，MetaException(message:Version information not found in
metastore. )

做一点微小的初始化工作

控制台执行：schematool -dbType mysql -initSchema
启动 hive metastore service

# start hive metastore service

/apache/hive/bin/hive --service metastore &

上一句末尾加了个
&，既后台运行服务。应该不会报错了，此时可以看看9083端口有无活动

lsof –i:9083

会看到有一条进程，说明hive metastore service启动完毕。9083端口。

2.9 下载安装Spark及配置

进入/apache/目录，下载spark。官方要求的2.2.1版本在之前提到的腾讯mirror上不存在，改为去spark官网下载。

wget
https://archive.apache.org/dist/spark/spark-2.2.1/spark-2.2.1-bin-without-hadoop.tgz
解压和重命名

解压： tar -zxvf spark-2.2.1-bin-without-hadoop.tgz

重命名： mv spark-2.2.1-bin-without-hadoop spark
新建/apache/spark/conf/spark-default.conf 文件，粘贴以下内容

    spark.master yarn-cluster

    spark.serializer org.apache.spark.serializer.KryoSerializer

    spark.yarn.jars hdfs:///home/spark_lib/\*

    spark.yarn.dist.files hdfs:///home/spark_conf/hive-site.xml

    spark.sql.broadcastTimeout 500

新建/apache/spark/conf/spark-env.sh 粘贴以下

HADOOP_CONF_DIR= /apache/hadoop/etc/hadoop

SPARK_MASTER_HOST=localhost

SPARK_MASTER_PORT=7077

SPARK_MASTER_WEBUI_PORT=8082

SPARK_LOCAL_IP=localhost

SPARK_PID_DIR=/apache/pids

前述3、4两条在官方文档的地址是：

https://github.com/apache/griffin/blob/076c8d08abf9f825dde22213e35e1b24f50cb1f2/griffin-doc/deploy/deploy-guide.md#spark
到maven网站，https://mvnrepository.com/ 搜索slf4j
找到Binding的版本，例如https://mvnrepository.com/artifact/org.slf4j/slf4j-log4j12/1.7.32

点击进去找对应的版本，下载jar包。

最后把这些jar包上传到/apache/spark/jars/下
上传一些文件到hdfs（这里可能会让读者看到报错）

hdfs dfs -mkdir -p /home/spark_lib

hdfs dfs -mkdir -p /home/spark_conf

hdfs dfs -put $SPARK_HOME/jars/* hdfs:///home/spark_lib/

hdfs dfs -put $HIVE_HOME/conf/hive-site.xml hdfs:///home/spark_conf/

这里走到第3条时可能会报错，如果没报错直接看下一点。报错内容大概是could only be
replicated to 0 nodes instead of minReplication
(=1)。意思是现在有0个结点存活，我们的hadoop没启动成功。我们可以在

此时到/apache/Hadoop/logs/ 找到datanode的日志，发现50070端口被占用，使用

lsof –i:50070

发现，占用的进程是一个病毒，因为hadoop的漏洞导致公网开启50070端口会中招。先直接kill -9击杀之。重启服务。此时Live Nodes数量为1。

重新启动一遍hadoop

/apache/hadoop/sbin/stop-dfs.sh

/apache/hadoop/sbin/start-dfs.sh

启动、关闭spark（将会看到报错）

#复制文件

cp /apache/hive/conf/hive-site.xml /apache/spark/conf/

\# start master and slave nodes 启动主和从节点

/apache/spark/sbin/start-master.sh

/apache/spark/sbin/start-slave.sh spark://localhost:7077

\# stop master and slave nodes 停止主和从节点

/apache/spark/sbin/stop-slaves.sh

/apache/spark/sbin/stop-master.sh

\# stop all 停止全部

/apache/spark/sbin/stop-all.sh

前一步会看到报错，内容为

Exception in thread “main” java.lang.NoClassDefFoundError:

org/apache/hadoop/fs/FSDataInputStream

原因是从spark1.4以后，所有spark的编译都是没有将hadoop的classpath编译进去的，所以必须在spark-env.sh中指定hadoop中的所有jar包。

具体设置如下：

在/apache/spark/conf/spark-evn.sh中添加

# 这里实际上就是执行一条hadoop的命令，将hadoop的classpath引一下

export export SPARK_DIST_CLASSPATH=$(${HADOOP_HOME}/bin/hadoop classpath)

再启动就不报错了

2.10下载安装Livy及配置

Apache griffin需要依靠服务器启动spark jobs，我们使用Livy来提交我们的jobs。

进入/apache/目录，下载Livy软件包

wget
https://mirrors.cloud.tencent.com/apache/incubator/livy/0.7.1-incubating/apache-livy-0.7.1-incubating-bin.zip

安装解压软件：sudo apt-get install unzip

解压：unzip apache-livy-0.7.1-incubating-bin.zip

重命名： mv apache-livy-0.7.1-incubating-bin livy

创建目录：mkdir -p /apache/livy/logs

创建配置文件：vim $LIVY_HOME/conf/livy.conf

粘贴以下内容，保存：

# update /apache/livy/conf/livy.conf

livy.server.host = 127.0.0.1

livy.spark.master = yarn

livy.spark.deployMode = cluster

livy.repl.enableHiveContext = true

livy.server.port 8998

启动Livy: /apache/livy/bin/livy-server start

2.11 下载Elasticsearch及配置

安装

官方要求5.0以上版本，选用5.6.16，介绍页面为：

https://www.elastic.co/cn/downloads/past-releases/elasticsearch-5-6-16

下载zip软件包：

wget
https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-5.6.16.zip

解压：

unzip elasticsearch-5.6.16.zip

重命名：

mv elasticsearch-5.6.16 elastic

编辑配置文件：

vi /apache/elastic/config/elasticsearch.yml

把以下内容加入并保存：

network.host: 127.0.0.1

http.cors.enabled: true

http.cors.allow-origin: "\*"

增加一个ubuntu账号并运行elasticsearch。es不允许使用root运行。

adduser es

回车后我这直接让创建密码了

把文件夹授权给es账号

chown -R es:es /apache/elastic

切换到es账号

su es

运行elasticsearch服务

/apache/elastic/bin/elasticsearch -d

切换回root

su root

可以请求本地的9200端口看看是否启动成功

curl 127.0.0.1:9200

截图如下：

2.12 下载安装Scala及配置

软件包地址为：https://downloads.lightbend.com/scala/2.11.7/scala-2.11.7.tgz

如果失效，可以到scala官网重新找。

进入/apache/文件夹，下载软件包

cd /apache/

wget https://downloads.lightbend.com/scala/2.11.7/scala-2.11.7.tgz

解压：

tar -zxvf scala-2.11.7.tgz

重命名：

mv scala-2.11.7 scala

此时运行scala –version可以打印出版本号。

2.13下载安装griffin及配置

到griffin官网下载源码包。https://griffin.apache.org/docs/latest.html
进入虚拟机/apache/目录，下载

wget https://archive.apache.org/dist/griffin/0.6.0/griffin-0.6.0-source-release.zip

解压及重命名

unzip griffin-0.6.0-source-release.zip

mv griffin-0.6.0 griffin

进入/apache/griffin/service/src/main/resources/ application.properties

修改为：
注意此处我参考了GitHub上的配置和官方代码包里的配置，又加上了一点其他配置。我建议以官方代码包里的配置为主。我们编辑的也是代码包里的文件。

#
# Licensed to the Apache Software Foundation (ASF) under one
# or more contributor license agreements.  See the NOTICE file
# distributed with this work for additional information
# regarding copyright ownership.  The ASF licenses this file
# to you under the Apache License, Version 2.0 (the
# "License"); you may not use this file except in compliance
# with the License.  You may obtain a copy of the License at
#
#   http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing,
# software distributed under the License is distributed on an
# "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
# KIND, either express or implied.  See the License for the
# specific language governing permissions and limitations
# under the License.
#
spring.datasource.url=jdbc:mysql://127.0.0.1/myDB?useSSL=false&useUnicode=true&characterEncoding=utf-8&serverTimezone=Asia/Shanghai&allowPublicKeyRetrieval=true&createDatabaseIfNotExist=true
spring.datasource.username=king
spring.datasource.password=secret
spring.jpa.generate-ddl=true
spring.datasource.driver-class-name=com.mysql.jdbc.Driver
spring.jpa.show-sql=true
# Hive metastore
hive.metastore.uris=thrift://127.0.0.1:9083
hive.metastore.dbname=default
hive.hmshandler.retry.attempts=15
hive.hmshandler.retry.interval=2000ms
#Hive jdbc
hive.jdbc.className=org.apache.hive.jdbc.HiveDriver
hive.jdbc.url=jdbc:hive2://localhost:10000/
hive.need.kerberos=false
[email protected]
hive.keytab.path=/path/to/keytab/file
# Hive cache time
cache.evict.hive.fixedRate.in.milliseconds=900000
# Kafka schema registry
kafka.schema.registry.url=http://localhost:8081
# Update job instance state at regular intervals
jobInstance.fixedDelay.in.milliseconds=60000
# Expired time of job instance which is 7 days that is 604800000 milliseconds.Time unit only supports milliseconds
jobInstance.expired.milliseconds=604800000
# schedule predicate job every 5 minutes and repeat 12 times at most
#interval time unit s:second m:minute h:hour d:day,only support these four units
predicate.job.interval=5m
predicate.job.repeat.count=12
# external properties directory location
external.config.location=
# external BATCH or STREAMING env
external.env.location=
# login strategy ("default" or "ldap")
login.strategy=default
# ldap
ldap.url=ldap://hostname:port
[email protected]
ldap.searchBase=DC=org,DC=example
ldap.searchPattern=(sAMAccountName={0})
# hdfs default name
fs.defaultFS=
# elasticsearch
elasticsearch.host=localhost
elasticsearch.port=9200
elasticsearch.scheme=http
# elasticsearch.user = user
# elasticsearch.password = password
# livy
livy.uri=http://localhost:8998/batches
#--livy.need.queue=false
#--livy.task.max.concurrent.count=20
#--livy.task.submit.interval.second=3
#--livy.task.appId.retry.count=3
#这里官方文档没有，我阅读了griffin源码，必须得有。
livy.need.kerberos=false
#--livy.server.auth.kerberos.principal=livy/kerberos.principal
#--livy.server.auth.kerberos.keytab=/path/to/livy/keytab/file
# yarn url
yarn.uri=http://localhost:8088
# griffin event listener
internal.event.listeners=GriffinJobEventHook

logging.file=logs/griffin-service.log

修改/apache/griffin/service/src/main/resources/sparkProperties.json

{
  "file": "hdfs:///griffin/griffin-measure.jar",
  "className": "org.apache.griffin.measure.Application",
  "queue": "default",
  "numExecutors": 2,
  "executorCores": 1,
  "driverMemory": "1g",
  "executorMemory": "1g",
  "conf": {
    "spark.yarn.dist.files": "hdfs:///home/spark_conf/hive-site.xml"
  },
  "files": [
  ]
}

编辑/apache/griffin/service/src/main/resources/env/env_batch.json

{
  "spark": {
    "log.level": "WARN"
  },
  "sinks": [
    {
      "name": "console",
      "type": "CONSOLE",
      "config": {
        "max.log.lines": 10
      }
    },
    {
      "name": "hdfs",
      "type": "HDFS",
      "config": {
        "path": "hdfs:///griffin/persist",
        "max.persist.lines": 10000,
        "max.lines.per.file": 10000
      }
    },
    {
      "name": "elasticsearch",
      "type": "ELASTICSEARCH",
      "config": {
        "method": "post",
        "api": "http://127.0.0.1:9200/griffin/accuracy",
        "connection.timeout": "1m",
        "retry": 10
      }
    }
  ],
  "griffin.checkpoint": []
}

按需要修改3处依赖。其一，如果不修改打开griffin的网页时，有可能会报java.lang.ClassNotFoundException:
org.apache.geronimo.components.jaspi.AuthConfigFactoryImpl

这个是打开griffin网页（8080端口）时出现的，网页中就提示了这个错误。如果没出现就不改了。

解决方法：修改service模块的pom文件，在hive-jdbc 中将jaspic
排除掉，重新编译项目，并把旧的部署备份mysql-connector和配置文件等，再删掉，重新部署一遍新编译的这个。

geronimo-jaspic_1.0_spec

org.apache.geronimo.specs

其二，如果不修改，将会在运行时找不到spark
sql相关的包，既有些包没有被打包到jar里。修改方式是修改measure模块的pom文件，把开头的provided中provided改为compile。

其三，如果不修改，当在griffin的UI界面启动定时任务后，可能会在日志里追踪到Uncaught
exception: java.lang.SecurityException: Invalid signature file digest for
Manifest main
attributes。这个第二处修改，也可以在打包的measure的jar包META-INF中删除以SF、DSA、RSA为后缀的文件。在measure模块的pom中可以到标签下加入：

META-INF/*.SF

META-INF/*.DSA

META-INF/*.RSA

编译

进入/apache/griffin/

运行：mvn clean install
上传measure的jar包到hadoop文件夹

创建hadoop下的griffin文件夹：hdfs dfs -mkdir /griffin

进入：/apache/griffin/measure/target

重命名：mv measure-0.6.0.jar griffin-measure.jar

上传：hdfs dfs -put griffin-measure.jar /griffin/
运行启动（尝试）

编译后的griffin软件包在griffin的target目录下，我习惯给它复制出来。

复制到griffin/pkgs文件夹，pkgs是我新建的文件夹。

解压缩： tar -zxvf service-${你的版本号，我的是0.6.0}.tar.gz

进入文件夹：cd service-${你的版本号，我的是0.6.0}

启动任务： bash ./bin/griffin.sh start

这时会发现看不到什么有用的信息，因为它日志是在griffin/pkgs/service-0.6.0的logs文件夹。打开griffin-service.log看到了报错，提示没有mysql驱动器（Cannot
load driver class:
com.mysql.jdbc.Driver）。我们把之前下载到的mysql-connector放在griffin/pkgs/service-0.6.0的lib里。

再次，启动任务：bash ./bin/griffin.sh start

又报错，提示Unknown database ‘myDB’。

打开config文件夹，编辑application.properties，这是我们编译前写的配置文件，找到连接myBD的链接，在最后加上&createDatabaseIfNotExist=true并保存。

再次，启动任务：./bin/griffin.sh start

继续报错，提示找不到QRTZ_各种表。

这个坑要从官方教程的开头开始说。在Configuration的Create database ‘quartz’ in
MySQL这里，这里是创建了一个quartz的库，把定时任务相关表初始化了。而后期教程给的例子，QRTZ_各种表都是在myDB这个库里。所以运行服务前，或者其他认为方便的时候，去myDB这个库初始化定时任务表。这些初始化sql脚本也在griffin的config目录里。

方法是先登录mysql：mysql -uroot -p回车输入密码

使用myDB数据库： use myDB;

导入初始化QRTZ相关表的脚本：

 source /apache/griffin/pkgs/service-0.6.0/config/Init_quartz_mysql_innodb.sql

查看结果：show tables;

会看到很多QRTZ_开头的表，成功了。

退出mysql： quit;

这时，要先停止griffin：bash  ./bin/griffin.sh stop

再次启动：bash ./bin/griffin.sh start

如果依然启动失败，建议查看8080端口被哪个pid占用，接着kill掉该进程。

2.14 启动griffin demo

本节按照官方教程操作，部分有微调。

官方文档在此处分别做了把griffin-measure.jar和hive-site文件夹分布上传到了hdfs的/griffin和/home/spark_conf/文件夹，这些工作在之前的文档中已经做完了。
准备demo表

# login hive client登录到hive 客户端，运行

/apache/hive/bin/hive --database default

建2个表
其一

# create demo tables
hive> CREATE EXTERNAL TABLE `demo_src`(
  `id` bigint,
  `age` int,
  `desc` string) 
PARTITIONED BY (
  `dt` string,
  `hour` string)
ROW FORMAT DELIMITED
  FIELDS TERMINATED BY '|'
LOCATION
  'hdfs://127.0.0.1:9000/griffin/data/batch/demo_src';

其二

hive> CREATE EXTERNAL TABLE `demo_tgt`(
  `id` bigint,
  `age` int,
  `desc` string) 
PARTITIONED BY (
  `dt` string,
  `hour` string)
ROW FORMAT DELIMITED
  FIELDS TERMINATED BY '|'
LOCATION
  'hdfs://127.0.0.1:9000/griffin/data/batch/demo_tgt';

检查创建的表

# check tables created  
hive> show tables;
OK
demo_src
demo_tgt
Time taken: 0.04 seconds, Fetched: 2 row(s)

检查表定义

官方教程这里用show create table
demo_src;检查表定义是否正确，不正确要drop掉。编者这里正确，不再drop处理。
产生demo数据(这里完全摘抄官方GitHub文档)

使用官方提供的脚本来产生demo数据。进入/apache/data/demo文件夹（没有则创建）。下载各脚本。运行。因为是从github下载，会比较慢

/apache/data/demo$ wget http://griffin.apache.org/data/batch/gen_demo_data.sh
/apache/data/demo$ wget http://griffin.apache.org/data/batch/gen_delta_src.sh
/apache/data/demo$ wget http://griffin.apache.org/data/batch/demo_basic
/apache/data/demo$ wget http://griffin.apache.org/data/batch/delta_tgt
/apache/data/demo$ wget http://griffin.apache.org/data/batch/insert-data.hql.template
/apache/data/demo$ chmod 755 *.sh
/apache/data/demo$ ./gen_demo_data.sh

sh脚本执行之后没有什么提示。

创建gen-hive-data.sh(这里完全摘抄官方GitHub文档)

按照官方脚本创建即可，脚本如下：

#!/bin/bash

#create table
hive -f create-table.hql
echo "create table done"

#current hour
sudo ./gen_demo_data.sh
cur_date=`date +%Y%m%d%H`
dt=${cur_date:0:8}
hour=${cur_date:8:2}
partition_date="dt='$dt',hour='$hour'"
sed s/PARTITION_DATE/$partition_date/ ./insert-data.hql.template > insert-data.hql
hive -f insert-data.hql
src_done_path=/griffin/data/batch/demo_src/dt=${dt}/hour=${hour}/_DONE
tgt_done_path=/griffin/data/batch/demo_tgt/dt=${dt}/hour=${hour}/_DONE
hadoop fs -mkdir -p /griffin/data/batch/demo_src/dt=${dt}/hour=${hour}
hadoop fs -mkdir -p /griffin/data/batch/demo_tgt/dt=${dt}/hour=${hour}
hadoop fs -touchz ${src_done_path}
hadoop fs -touchz ${tgt_done_path}
echo "insert data [$partition_date] done"

#last hour
sudo ./gen_demo_data.sh
cur_date=`date -d '1 hour ago' +%Y%m%d%H`
dt=${cur_date:0:8}
hour=${cur_date:8:2}
partition_date="dt='$dt',hour='$hour'"
sed s/PARTITION_DATE/$partition_date/ ./insert-data.hql.template > insert-data.hql
hive -f insert-data.hql
src_done_path=/griffin/data/batch/demo_src/dt=${dt}/hour=${hour}/_DONE
tgt_done_path=/griffin/data/batch/demo_tgt/dt=${dt}/hour=${hour}/_DONE
hadoop fs -mkdir -p /griffin/data/batch/demo_src/dt=${dt}/hour=${hour}
hadoop fs -mkdir -p /griffin/data/batch/demo_tgt/dt=${dt}/hour=${hour}
hadoop fs -touchz ${src_done_path}
hadoop fs -touchz ${tgt_done_path}
echo "insert data [$partition_date] done"

#next hours
set +e
while true
do
  sudo ./gen_demo_data.sh
  cur_date=`date +%Y%m%d%H`
  next_date=`date -d "+1hour" '+%Y%m%d%H'`
  dt=${next_date:0:8}
  hour=${next_date:8:2}
  partition_date="dt='$dt',hour='$hour'"
  sed s/PARTITION_DATE/$partition_date/ ./insert-data.hql.template > insert-data.hql
  hive -f insert-data.hql
  src_done_path=/griffin/data/batch/demo_src/dt=${dt}/hour=${hour}/_DONE
  tgt_done_path=/griffin/data/batch/demo_tgt/dt=${dt}/hour=${hour}/_DONE
  hadoop fs -mkdir -p /griffin/data/batch/demo_src/dt=${dt}/hour=${hour}
  hadoop fs -mkdir -p /griffin/data/batch/demo_tgt/dt=${dt}/hour=${hour}
  hadoop fs -touchz ${src_done_path}
  hadoop fs -touchz ${tgt_done_path}
  echo "insert data [$partition_date] done"
  sleep 3600
done
set -e

保存好以后执行一次。

#这一行官方没写
/apache/data/demo\$ chmod 755 \*.sh

/apache/data/demo\$ ./gen-hive-data.sh &

在后台运行该脚本，它会每小时向2个hive表生成数据。

过一会儿后，可以在hive中查询数据。

hive> select * from demo_src;

会输出很多很多…看到数据后执行quit;即可
查看在hdfs上创建的相关数据目录

执行hdfs dfs -ls /griffin/data/batch

执行hdfs dfs -ls /griffin/data/batch/demo_src/

创建elasticsearch索引

在控制台用curl命令请求es的接口进行该操作。

curl -k -H "Content-Type: application/json" -X PUT http://127.0.0.1:9200/griffin \
 -d '{
    "aliases": {},
    "mappings": {
        "accuracy": {
            "properties": {
                "name": {
                    "fields": {
                        "keyword": {
                            "ignore_above": 256,
                            "type": "keyword"
                        }
                    },
                    "type": "text"
                },
                "tmst": {
                    "type": "date"
                }
            }
        }
    },
    "settings": {
        "index": {
            "number_of_replicas": "2",
            "number_of_shards": "5"
        }
    }
}'

成功后再请求curl 

看到index已经创建成功了。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WKZKuuXF-1642471681762)(media/f7f5c7d8136d6f888ea998a860cbe0fa.png)]

三、基于Griffin UI界面功能操作

3.1 查看数据资产

点击界面右上方的Data Assets可以看到当前数据资产。

3.2 创建指标

点击导航栏“measures”，再点击“create
measure”，可以通过指标（measure）来处理数据，得到想要的结果。

指标有4种，目前UI界面只提供了2种指标的创建，分别是：

如果你想测算源表和目标表的匹配率，选择accuracy（精确度）
如果你想要检查数据里的特定值（例如null列的数量），选择profiling（分析）

3.3 精确度指标

定义：以这些值与已确定的、事实的源表一致程度来衡量。

步骤：

创建measure，选择accuracy，选出source。这里选择demo_src的id列作为source。点next。

选择target。这里选择demo_tgt的3个列。

映射源表source和目标表target。首先选择映射方式（Map
To），来设定源到目标的规则。系统提供了6种规则。分别是：
= 等号：两个表的对应列数据应该全等。
!= 不等：两个表的对应列数据应该不同。
> 大于：target表列数据大于source表对应的列数据。
>= 大于等于：target表列数据大于等于source表对应的列数据。
< 小于：target列数据小于source表对应的列数据。
<=小于等于：target表列数据小于等于source表对应的列数据。

再选择“source fields”，选定与target列做比较的source列数据。

分区设置

为源数据集和目标数据集设置分区配置。

分区大小是hive数据库最小数据单元，用来分割你要计算的数据。

这里Where都填写dt=#yyyyMMdd# AND hour=#HH#

Partition size填写1，时间单位选择hour，timezone时区留空。

设置指标的基本信息。这里写中文会无法保存。写完提交即可。

3.4 创建作业任务（Job）

通过点击“Job”中的“create job”，可以提交一个作业任务，定期执行指标（measure）。

填写圈中的3项，其他的默认。点击submit提交。

提交后，griffin将会在后台驱动作业，且在计算完毕后，可以在UI界面中的dashboard监控到结果。此处在日志中可能会遇到的相关错误，在2.13章都有提到，解决方案基本是调整pom文件相关依赖，调整application.properties中的参数。总的来说，该部署文档，对于0大数据基础的新手来说，不是十分友好。

附上最终运行demo后的系统截图。

你可能感兴趣的:(大数据)

使用LangGraph迁移MapReduceDocumentsChain进行长文档的摘要 dgay_hua python
在大数据处理和文本分析领域，MapReduce是一种非常重要的策略，用于处理和分析大型数据集。具体到文本处理方面，MapReduceDocumentsChain구현了一种map-reduce策略，可以有效地处理长文本。本文将介绍如何从MapReduceDocumentsChain迁移到LangGraph，并探讨LangGraph在流处理、检查点恢复等方面的优势。技术背景介绍MapReduceDoc
Python用Bokeh处理大规模数据可视化的最佳实践一键难忘 Bokeh python 开发语言
用Bokeh处理大规模数据可视化的最佳实践在大规模数据处理和分析中，数据可视化是一个至关重要的环节。Bokeh是一个在Python生态中广泛使用的交互式数据可视化库，它具有强大的可扩展性和灵活性。本文将介绍如何使用Bokeh处理大规模数据可视化，并提供一些最佳实践和代码实例，帮助你高效地展示大数据集中的重要信息。1.为什么选择Bokeh？Bokeh是一个专为浏览器呈现而设计的可视化库，它支持高效渲
分页优化之——游标分页 PhilipJ0303 Java面试 java 数据库优化游标分页分页查询
游标分页（Cursor-basedPagination）是一种高效的分页方式，特别适用于大数据集和无限滚动的场景。与传统的基于页码的分页（如page=1&size=10）不同，游标分页通过一个唯一的游标（通常是时间戳或唯一ID）来标记分页的位置，避免了传统分页在数据变动时的重复或遗漏问题。以下是游标分页在前后端的实现方式：1.游标分页的核心概念游标（Cursor）：游标是一个唯一标识符，通常是数据
轻松入门Apache SeaTunnel：数据集成利器窝窝和牛牛 SeaTunnel ETL 数据集成
文章目录轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnel基本原理运行流程SeaTunnelvsDataX：两大数据集成工具对比实战场景：MySQL数据同步至ElasticsearchSeaTunnel实现方案DataX实现方案实现原理对比底层依赖环境方案优缺点分析快速上手环境准备简单示例总结轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnelAp
探索数据安全新境界：Apache Spark SQL Ranger Security插件深度揭秘乌昱有Melanie
探索数据安全新境界：ApacheSparkSQLRangerSecurity插件深度揭秘项目地址:https://gitcode.com/gh_mirrors/sp/spark-ranger随着大数据的爆炸性增长，数据安全性成为了企业不可忽视的核心议题。在这一背景下，【ApacheSparkSQLRangerSecurityPlugin】以其强大的数据访问控制能力脱颖而出，成为数据处理领域的明星级
Java 大视界 -- Java 大数据在智能医疗远程会诊与专家协作中的技术支持（146）青云交大数据新视界 Java 大视界 java 大数据智能医疗远程会诊专家协作数据安全病例诊断
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Flink相关面试题努力的搬砖人. 面试 java 后端 flink
以下是150道ApacheFlink面试题及其详细回答，涵盖了Flink的基础知识、核心架构、API使用、性能调优等多个方面，每道题目都尽量详细且简单易懂：Flink基础概念类1.什么是ApacheFlink？ApacheFlink是一个开源的流处理和批处理框架，能够实现快速、可靠、可扩展的大数据处理。它既可以处理无界的数据流，也可以处理有界的数据批，提供了低延迟和高吞吐量的实时数据处理能力。Fl
2017安全之势：云、大数据、IoT、人工智能 weixin_34392906 人工智能大数据嵌入式
“新技术让信息系统变成了孙悟空，开始无所不能，但安全仍是它的‘紧箍咒’！怎样解开这个‘紧箍咒’？各路安全厂商各显其能，但似乎路漫漫兮离目标还很遥远。”三未信安董事长张岳公在ZD至顶网《百位意见领袖寄语2017》中说出了这样一句话，我觉着很有道理。安全是一个永恒的话题，如果说它与新的信息技术相生相克也不过分。即便如此，我们更要尽可能的减少安全带来的束缚。2017已经到来，不妨来看看至顶网与业界大咖总
直方图梯度提升：大数据时代的极速决策引擎万事可爱^ 大数据机器学习深度学习直方图梯度提升 GBDT 算法
一、为什么需要直方图梯度提升？在Kaggle竞赛的冠军解决方案中，超过70%的获奖方案都使用了梯度提升算法。但当数据量突破百万级时，传统梯度提升树（GBDT）面临三大致命瓶颈：训练耗时剧增：每个特征的分割点计算都需要全量数据排序内存消耗爆炸：存储排序后的特征值需要额外空间处理效率低下：无法有效利用现代CPU的多核特性而梯度提升决策树（GBDT）作为集成学习的代表算法，通过迭代构建决策树实现预测能力
从原理到实践：Go 语言内存优化策略深度解析叶间清风1998 服务器 linux 网络
目录一、引言二、Go语言内存管理基础原理2.1栈与堆内存分配2.2垃圾回收机制剖析三、内存优化策略与实践3.1合理使用指针传递3.2避免不必要的内存分配3.3优化切片与映射的使用3.4控制变量作用域3.5减少闭包导致的变量逃逸四、内存优化工具与性能分析4.1pprof工具的使用4.2其他性能分析辅助手段五、不同场景下的内存优化案例分析5.1高并发Web服务场景5.2大数据处理与分析场景六、总结与展
硅谷企业的大数据平台架构什么样？看看Twitter、Airbnb、Uber的实践大数据v 分布式数据库大数据编程语言 hadoop
导读：本文分析一下典型硅谷互联网企业的大数据平台架构。作者：彭锋宋文欣孙浩峰来源：大数据DT（ID：hzdashuju）01Twitter的大数据平台架构Twitter是最早一批推进数字化运营的硅谷企业之一，其公司运营和产品迭代的很多功能是由其底层的大数据平台提供的。图7-2所示为Twitter大数据平台的基本示意图。▲图7-2Twitter大数据平台架构Twitter的大数据平台开发比较早，很多
【图像预处理】瞬间记忆深度学习 python
(4条消息)图像预处理方法总结_AI强仔的博客-CSDN博客对图像进行预处理的一些常见方法包括：调整图像大小和分辨率，以便适应模型的输入要求。对图像进行裁剪或填充，以使其大小和比例符合要求。调整图像的亮度、对比度和饱和度等图像属性。进行图像平滑或锐化操作，以去除噪声或增强图像特征。进行图像归一化或标准化，以确保各个特征在相同的尺度上。应用数据增强技术，如旋转、平移、缩放、翻转等，以扩大数据集，提高
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
大数据点燃智能制造变革之火——从数据到价值的跃迁 Echo_Wish 大数据高阶实战秘籍大数据制造
大数据点燃智能制造变革之火——从数据到价值的跃迁在全球制造业向智能化转型的浪潮中，大数据已然成为点燃变革的关键火种。从车间到供应链，从设备到产品生命周期，制造业正通过大数据分析找到隐形的效率优化机会，打破传统生产模式的桎梏。作为Echo_Wish，今天我将和大家探讨大数据如何融入智能制造，助力实现生产效率和业务价值的双重飞跃。一、智能制造的核心诉求：数据驱动的决策与执行智能制造的目标是通过数据驱动
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
Zynq PL端IP核之AXI DMA Mazy.v fpga开发嵌入式硬件 arm开发单片机
1.AXIDMA简介Zynq提供了两种DMA，一种是PS中的DMA控制器，通过GP口与PL端连接，另一种是PL中的AXIDMAIP核（软核），通过HP口与PS端连接。Zynq有4个HP接口，每一个HP接口都包含控制和数据FIFO，这些FIFO为大数据量突发传输提供缓冲，让HP接口成为理想的高速数据传输接口。AXIDMAIP内核在AXI4内存映射和AXI4StreamIP接口之间提供高带宽直接储存访
揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
LakeHouse湖仓一体成为下一站灯塔，数仓、数据湖架构即将退出群聊科杰科技大数据数据仓库
摘要：当前的大数据技术应用趋势表明，客户对单一的数据湖和数仓架构并不满意。近年来几乎所有的数据仓库都增加了对Parquet和ORC格式的外部表支持，这使数仓用户可以从相同的SQL引擎查询数据湖表，但它不会使数据湖表更易于管理，也不会消除仓库中数据的ETL复杂性、陈旧性和高级分析挑战。KeenDataLakeHouse（湖仓一体）作为新一代大数据技术架构，将逐渐取代单一数据湖和数仓架构，成为大数据架
数据让农业更聪明——用大数据激活田间地头 Echo_Wish 大数据大数据
数据让农业更聪明——用大数据激活田间地头在农业领域，随着人口增长和气候变化的影响，如何提升生产力始终是个关键话题。大数据，这个曾经只属于科技领域的概念，如今已悄然进入田间地头。今天，我以Echo_Wish的视角，和大家聊聊大数据如何赋能农业生产力，帮农民在阳光下也能掌握“科技的钥匙”。认识农业中的大数据什么是农业中的“大数据”？简单来说，就是收集和分析有关土地、气候、作物、病虫害以及市场需求等方面
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
从 0 到 1 构建 Python 分布式爬虫，实现搜索引擎全攻略七七知享 Python python 分布式爬虫搜索引擎算法程序人生网络爬虫
从0到1构建Python分布式爬虫，实现搜索引擎全攻略在大数据与信息爆炸的时代，搜索引擎已然成为人们获取信息的关键入口。你是否好奇，像百度、谷歌这般强大的搜索引擎，背后是如何精准且高效地抓取海量网页数据的？本文将带你一探究竟，以Python为工具，打造属于自己的分布式爬虫，进而搭建一个简易搜索引擎，完整呈现从底层代码编写到系统搭建的全过程。通过本文的实践，我们成功打造了Python分布式爬虫，并以
第三十篇维度建模：从理论到落地的企业级实践随缘而动，随遇而安数据库 sql 数据仓库大数据数据库架构
目录一、维度建模核心理论体系1.1Kimball方法论四大支柱1.2关键概念对比矩阵二、四步建模法全流程解析2.1选择业务过程（以电商为例）2.2声明原子粒度（订单案例）2.3维度设计规范时间维度（含财年逻辑）SCDType2完整实现（Hudi）2.4事实表类型与设计三、企业级建模实战：电商用户分析3.1业务矩阵分析3.2模型实现代码四、高级建模技巧4.1多星型模式关联4.2大数据场景优化五、性能
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
深陷“大数据杀熟”漩涡的飞猪，庄卓然如何力挽狂澜？财经三剑客大数据
在线旅游市场（OTA）的蓬勃发展为消费者带来了诸多便利，然而，在这股数字化浪潮中，飞猪旅行却因其频繁陷入“大数据杀熟”的争议而备受瞩目。这一行为不仅损害了消费者的合法权益，更让飞猪的品牌形象蒙上了一层阴影。近年来，飞猪平台上关于价格乱象的投诉屡禁不止。在黑猫投诉平台上，与“飞猪”相关的投诉累计已超9万条，其中直接以“飞猪杀熟”为关键词的投诉便达数百条。消费者们纷纷反映，在飞猪平台上预订机票、酒店等
API item_get 在电商平台的核心作用以及如何测试 index_all 数据供应商京东api java 大数据开发语言
在电商行业蓬勃发展的今天，跨平台运营已成为众多商家的必然选择。然而，随之而来的数据孤岛问题却成为了制约电商企业进一步发展的瓶颈。为了解决这一问题，电商大数据平台应运而生，而item_getAPI作为获取商品详情的关键接口，在其中扮演着至关重要的角色。本文将深入探讨item_getAPI在跨平台电商数据整合中的应用与优势，为电商企业在数据驱动的道路上提供有力支持。一、跨平台电商数据整合的挑战在跨平台
“四预”驱动数字孪生水利：让智慧治水守护山河安澜 GeoSaaS 实景三维智慧城市人工智能 gis 大数据安全
近年来，从黄河秋汛到海河特大洪水，从珠江流域性洪灾到长江罕见骤旱，极端天气频发让水安全问题备受关注。如何实现“治水于未发”？数字孪生水利以“预报、预警、预演、预案”（四预）为核心，正在掀起一场水利治理的智慧革命。一、数字孪生水利：从物理世界到虚拟镜像的跃迁数字孪生水利并非简单的“数字建模”，而是通过高精度传感器、大数据、人工智能等技术，在虚拟空间构建与物理流域完全映射的“数字分身”，实现水情、工情
数智读书笔记系列021《大数据医疗》：探索医疗行业的智能变革 Allen_Lyb 数智读书笔记大数据健康医疗人工智能 python
一、书籍介绍《大数据医疗》由徐曼、沈江、余海燕合著，由机械工业出版社出版。徐曼是南开大学商学院副教授，在大数据驱动的智能决策研究领域颇有建树，尤其在大数据驱动的医疗与健康决策方面有着深入研究，曾获天津优秀博士论文、教育部博士研究生新人奖。沈江等作者也在相关学术和实践领域有着丰富的经验和深厚的专业知识。这本书系统且深入地探讨了大数据技术在医疗领域的应用与变革，对推动医疗行业的智能化发展具有重要的理论
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户