upward337

尚硅谷大数据项目《在线教育之采集系统》笔记005

视频地址：尚硅谷大数据项目《在线教育之采集系统》_哔哩哔哩_bilibili

P057

P058

P059

P060

P061

P062

P063

P064

P065

P066

P067

P068

P069

P070

P071

P072

P073

P057

#!/bin/bash

MAXWELL_HOME=/opt/module/maxwell/maxwell-1.29.2

status_maxwell() {
    result=`ps -ef | grep com.zendesk.maxwell.Maxwell | grep -v grep | wc -l`
    return $result
}


start_maxwell() {
    status_maxwell
    if [[ $? -lt 1 ]]; then
        echo "启动Maxwell！"
        $MAXWELL_HOME/bin/maxwell --config $MAXWELL_HOME/config.properties --daemon
    else
        echo "Maxwell正在运行！"
    fi
}


stop_maxwell() {
    status_maxwell
    if [[ $? -gt 0 ]]; then
        echo "停止Maxwell！"
        ps -ef | grep com.zendesk.maxwell.Maxwell | grep -v grep | awk '{print $2}' | xargs kill -9
    else
        echo "Maxwell未在运行！"
    fi
}


case $1 in
    start )
        start_maxwell
    ;;
    stop )
        stop_maxwell
    ;;
    restart )
       stop_maxwell
       start_maxwell
    ;;
esac

P058

[atguigu@node001 maxwell-1.29.2]$ bin/maxwell-bootstrap --database edu --table base_province --config /opt/module/maxwell/maxwell-1.29.2/config.properties
connecting to jdbc:mysql://node001:3306/maxwell?allowPublicKeyRetrieval=true&connectTimeout=5000&serverTimezone=Asia%2FShanghai&zeroDateTimeBehavior=convertToNull&useSSL=false
[atguigu@node001 maxwell-1.29.2]$

[atguigu@node002 ~]$ kafka-console-consumer.sh --bootstrap-server node001:9092 --topic maxwell

P059

P060

P061

方便起见，此处提供了DataX配置文件批量生成脚本，脚本内容及使用方式如下。

# coding=utf-8
import json
import getopt
import os
import sys
import MySQLdb

#MySQL相关配置，需根据实际情况作出修改
mysql_host = "hadoop102"
mysql_port = "3306"
mysql_user = "root"
mysql_passwd = "000000"

#HDFS NameNode相关配置，需根据实际情况作出修改
hdfs_nn_host = "hadoop102"
hdfs_nn_port = "8020"

#生成配置文件的目标路径，可根据实际情况作出修改
output_path = "/opt/module/datax/job/import"


def get_connection():
    return MySQLdb.connect(host=mysql_host, port=int(mysql_port), user=mysql_user, passwd=mysql_passwd)


def get_mysql_meta(database, table):
    connection = get_connection()
    cursor = connection.cursor()
    sql = "SELECT COLUMN_NAME,DATA_TYPE from information_schema.COLUMNS WHERE TABLE_SCHEMA=%s AND TABLE_NAME=%s ORDER BY ORDINAL_POSITION"
    cursor.execute(sql, [database, table])
    fetchall = cursor.fetchall()
    cursor.close()
    connection.close()
    return fetchall


def get_mysql_columns(database, table):
    return map(lambda x: x[0], get_mysql_meta(database, table))


def get_hive_columns(database, table):
    def type_mapping(mysql_type):
        mappings = {
            "bigint": "bigint",
            "int": "bigint",
            "smallint": "bigint",
            "tinyint": "bigint",
            "decimal": "string",
            "double": "double",
            "float": "float",
            "binary": "string",
            "char": "string",
            "varchar": "string",
            "datetime": "string",
            "time": "string",
            "timestamp": "string",
            "date": "string",
            "text": "string"
        }
        return mappings[mysql_type]

    meta = get_mysql_meta(database, table)
    return map(lambda x: {"name": x[0], "type": type_mapping(x[1].lower())}, meta)


def generate_json(source_database, source_table):
    job = {
        "job": {
            "setting": {
                "speed": {
                    "channel": 3
                },
                "errorLimit": {
                    "record": 0,
                    "percentage": 0.02
                }
            },
            "content": [{
                "reader": {
                    "name": "mysqlreader",
                    "parameter": {
                        "username": mysql_user,
                        "password": mysql_passwd,
                        "column": get_mysql_columns(source_database, source_table),
                        "splitPk": "",
                        "connection": [{
                            "table": [source_table],
                            "jdbcUrl": ["jdbc:mysql://" + mysql_host + ":" + mysql_port + "/" + source_database]
                        }]
                    }
                },
                "writer": {
                    "name": "hdfswriter",
                    "parameter": {
                        "defaultFS": "hdfs://" + hdfs_nn_host + ":" + hdfs_nn_port,
                        "fileType": "text",
                        "path": "${targetdir}",
                        "fileName": source_table,
                        "column": get_hive_columns(source_database, source_table),
                        "writeMode": "append",
                        "fieldDelimiter": "\t",
                        "compress": "gzip"
                    }
                }
            }]
        }
    }
    if not os.path.exists(output_path):
        os.makedirs(output_path)
    with open(os.path.join(output_path, ".".join([source_database, source_table, "json"])), "w") as f:
        json.dump(job, f)


def main(args):
    source_database = ""
    source_table = ""

    options, arguments = getopt.getopt(args, '-d:-t:', ['sourcedb=', 'sourcetbl='])
    for opt_name, opt_value in options:
        if opt_name in ('-d', '--sourcedb'):
            source_database = opt_value
        if opt_name in ('-t', '--sourcetbl'):
            source_table = opt_value

    generate_json(source_database, source_table)


if __name__ == '__main__':
    main(sys.argv[1:])

P062

源“ySQL 8.0 Community Server”的GPG密钥已安装，但是不适用于此软件包。请检查源的公钥URL是否配置正确。_mysql 5.7 community server" 的 gpg 密钥已安装,但是不适用于此软件包_轶拾柒.的博客-CSDN博客

[atguigu@node001 ~]$ cd bin
[atguigu@node001 bin]$ python gen_import_config.py -d edu -t base_province
[atguigu@node001 bin]$ cd /opt/module/datax/job/import
[atguigu@node001 import]$ ls
database.table.json  edu.base_province.json
[atguigu@node001 import]$

[atguigu@node001 import]$ cd /opt/module/datax/
[atguigu@node001 datax]$ bin/datax.py -p"-Dtargetdir=/base_province/2022-02-22" job/import/edu.base_province.json

2023-08-11 11:43:14.962 [job-0] ERROR RetryUtil - Exception when calling callable, 即将尝试执行第1次重试.本次重试计划等待[1000]ms,实际等待[1003]ms, 异常Msg:[DataX无法连接对应的数据库，可能原因是：1) 配置的ip/port/database/jdbc错误，无法连接。2) 配置的username/password错误，鉴权失败。请和DBA确认该数据库的连接信息是否正确。]
2023-08-11 11:43:14.970 [job-0] WARN  DBUtil - test connection of [jdbc:mysql://node001:3306/edu] failed, for Code:[DBUtilErrorCode-10], Description:[连接数据库失败. 请检查您的 账号、密码、数据库名称、IP、Port或者向 DBA 寻求帮助(注意网络环境).].  -  具体错误信息为：com.mysql.jdbc.exceptions.jdbc4.MySQLNonTransientConnectionException: Could not create connection to database server..

2023-08-11 11:43:14.962 [job-0] ERROR RetryUtil - Exception when calling callable, 即将尝试执行第1次重试.本次重试计划等待[1000]ms,实际等待[1003]ms, 异常Msg:[DataX无法连接对应的数据库，可能原因是：1) 配置的ip/port/database/jdbc错误，无法连接。2) 配置的username/password错误，鉴权失败。请和DBA确认该数据库的连接信息是否正确。]
2023-08-11 11:43:14.970 [job-0] WARN DBUtil - test connection of [jdbc:mysql://node001:3306/edu] failed, for Code:[DBUtilErrorCode-10], Description:[连接数据库失败. 请检查您的账号、密码、数据库名称、IP、Port或者向 DBA 寻求帮助(注意网络环境).]. - 具体错误信息为：com.mysql.jdbc.exceptions.jdbc4.MySQLNonTransientConnectionException: Could not create connection to database server..

解决方法：https://www.cnblogs.com/aluna/p/17115485.html

P063

#!/bin/bash

python ~/bin/gen_import_config.py -d edu -t base_category_info
python ~/bin/gen_import_config.py -d edu -t base_source
python ~/bin/gen_import_config.py -d edu -t base_province
python ~/bin/gen_import_config.py -d edu -t base_subject_info
python ~/bin/gen_import_config.py -d edu -t cart_info
python ~/bin/gen_import_config.py -d edu -t chapter_info
python ~/bin/gen_import_config.py -d edu -t course_info
python ~/bin/gen_import_config.py -d edu -t knowledge_point
python ~/bin/gen_import_config.py -d edu -t test_paper
python ~/bin/gen_import_config.py -d edu -t test_paper_question
python ~/bin/gen_import_config.py -d edu -t test_point_question
python ~/bin/gen_import_config.py -d edu -t test_question_info
python ~/bin/gen_import_config.py -d edu -t user_chapter_process
python ~/bin/gen_import_config.py -d edu -t test_question_option
python ~/bin/gen_import_config.py -d edu -t video_info

P064

[atguigu@node001 bin]$ date -d "-1 day" +%F # 获取系统时间
2023-08-10
[atguigu@node001 bin]$

[atguigu@hadoop102 bin]$ vim ~/bin/mysql_to_hdfs_full.sh 
-----------------------------------------------------------------
#!/bin/bash

DATAX_HOME=/opt/module/datax
DATAX_DATA=/opt/module/datax/job

#清理脏数据
handle_targetdir() {
  hadoop fs -rm -r $1 >/dev/null 2>&1
  hadoop fs -mkdir -p $1
}

#数据同步
import_data() {
  local datax_config=$1
  local target_dir=$2

  handle_targetdir "$target_dir"
  echo "正在处理$1"
  python $DATAX_HOME/bin/datax.py -p"-Dtargetdir=$target_dir" $datax_config >/tmp/datax_run.log 2>&1
  if [ $? -ne 0 ]
  then
    echo "处理失败, 日志如下:"
    cat /tmp/datax_run.log 
  fi
  rm /tmp/datax_run.log 
}

#接收表名变量
tab=$1
# 如果传入日期则do_date等于传入的日期，否则等于前一天日期
if [ -n "$2" ] ;then
    do_date=$2
else
    do_date=$(date -d "-1 day" +%F)
fi


case ${tab} in
base_category_info | base_province | base_source | base_subject_info | cart_info | chapter_info | course_info | knowledge_point | test_paper | test_paper_question | test_point_question | test_question_info | test_question_option | user_chapter_process | video_info)
  import_data $DATAX_DATA/import/edu2077.${tab}.json /origin_data/edu/db/${tab}_full/$do_date
  ;;
"all")
  for tmp in base_category_info base_province base_source base_subject_info cart_info chapter_info course_info knowledge_point test_paper test_paper_question test_point_question test_question_info test_question_option user_chapter_process video_info
  do
    import_data $DATAX_DATA/import/edu2077.${tmp}.json /origin_data/edu/db/${tmp}_full/$do_date
  done
  ;;
esac

[atguigu@node001 bin]$ jpsall 
================ node001 ================
3441 DataNode
4882 Jps
4706 Maxwell
3862 NodeManager
4214 QuorumPeerMain
4632 Kafka
3275 NameNode
4079 JobHistoryServer
================ node002 ================
2064 DataNode
2290 ResourceManager
3315 Jps
3172 Kafka
2781 QuorumPeerMain
2413 NodeManager
================ node003 ================
2162 SecondaryNameNode
3003 Jps
2317 NodeManager
2861 Kafka
2062 DataNode
2479 QuorumPeerMain
[atguigu@node001 bin]$ mysql_to_hdfs_full.sh all 2022-02-22
正在处理/opt/module/datax/job/import/edu.base_category_info.json...
正在处理/opt/module/datax/job/import/edu.base_province.json...
正在处理/opt/module/datax/job/import/edu.base_source.json...
正在处理/opt/module/datax/job/import/edu.base_subject_info.json...
正在处理/opt/module/datax/job/import/edu.cart_info.json...
正在处理/opt/module/datax/job/import/edu.chapter_info.json...
正在处理/opt/module/datax/job/import/edu.course_info.json...
正在处理/opt/module/datax/job/import/edu.knowledge_point.json...
正在处理/opt/module/datax/job/import/edu.test_paper.json...
正在处理/opt/module/datax/job/import/edu.test_paper_question.json...
正在处理/opt/module/datax/job/import/edu.test_point_question.json...
正在处理/opt/module/datax/job/import/edu.test_question_info.json...
正在处理/opt/module/datax/job/import/edu.test_question_option.json...
正在处理/opt/module/datax/job/import/edu.user_chapter_process.json...
正在处理/opt/module/datax/job/import/edu.video_info.json...
[atguigu@node001 bin]$

P065

2.4 增量表数据同步

2.4.1 数据通道

P066

[atguigu@node001 bin]$ jpsall 
================ node001 ================
3441 DataNode
7491 Maxwell
3862 NodeManager
4214 QuorumPeerMain
7559 Jps
4632 Kafka
3275 NameNode
4079 JobHistoryServer
================ node002 ================
2064 DataNode
2290 ResourceManager
3172 Kafka
4252 Jps
3917 ConsoleConsumer
2781 QuorumPeerMain
2413 NodeManager
================ node003 ================
2162 SecondaryNameNode
3318 Jps
2317 NodeManager
2861 Kafka
2062 DataNode
2479 QuorumPeerMain
[atguigu@node001 bin]$ mock.sh
[atguigu@node001 bin]$

[atguigu@node002 ~]$ kafka-console-consumer.sh --bootstrap-server node001:9092 --topic topic_db

P067

/opt/module/flume/flume-1.9.0/job/kafka_to_hdfs_db.conf


## 1、定义组件
a1.sources = r1
a1.channels = c1
a1.sinks = k1


## 2、配置sources
a1.sources.r1.type = org.apache.flume.source.kafka.KafkaSource
a1.sources.r1.kafka.bootstrap.servers = node001:9092,node002:9092
a1.sources.r1.kafka.topics = topic_db
a1.sources.r1.kafka.consumer.group.id = topic_db
a1.sources.r1.batchSize = 1000
a1.sources.r1.batchDurationMillis = 1000
a1.sources.r1.useFlumeEventFormat = false

a1.sources.r1.setTopicHeader = true
a1.sources.r1.topicHeader = topic
a1.sources.r1.interceptors = i1
a1.sources.r1.interceptors.i1.type = com.atguigu.flume.interceptors.TimestampAndTableNameInterceptor$Builder


## 3、配置channels
a1.channels.c1.type = file
a1.channels.c1.checkpointDir = /opt/module/flume/flume-1.9.0/checkpoint/behavior2
a1.channels.c1.dataDirs = /opt/module/flume/flume-1.9.0/data/behavior2
a1.channels.c1.maxFileSize = 2146435071
a1.channels.c1.capacity = 1000000
a1.channels.c1.keep-alive = 6


## 4、配置sinks
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = /origin_data/edu/db/%{tableName}_inc/%Y-%m-%d
a1.sinks.k1.hdfs.filePrefix = db
a1.sinks.k1.hdfs.round = false

a1.sinks.k1.hdfs.rollInterval = 10
a1.sinks.k1.hdfs.rollSize = 134217728
a1.sinks.k1.hdfs.rollCount = 0

a1.sinks.k1.hdfs.fileType = CompressedStream
a1.sinks.k1.hdfs.codeC = gzip


## 5、组装拼装
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

P068

package com.atguigu.flume.interceptor;

import com.alibaba.fastjson.JSONObject;
import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.interceptor.Interceptor;

import java.nio.charset.StandardCharsets;
import java.util.List;
import java.util.Map;

public class TimestampAndTableNameInterceptor implements Interceptor {
    @Override
    public void initialize() {
    }

    /**
     * 拦截器任务
     * 1.将body当中的ts放到header当中的timestamp
     * 2.将body当中的table放到header当中的tableName
     */
    @Override
    public Event intercept(Event event) {
        // 1、获取header 和body当中的数据
        Map headers = event.getHeaders();
        byte[] body = event.getBody();
        String log = new String(body, StandardCharsets.UTF_8);

        // 2、解析body当中的ts和table
        JSONObject jsonObject = JSONObject.parseObject(log);
        String table = jsonObject.getString("table");
        // Maxwell输出的数据中的ts字段时间戳单位为秒，Flume HDFSSink要求单位为毫秒
        String ts = jsonObject.getString("ts");

        // 将body当中的ts放到header当中的timestamp
        // 将body当中的table放到header当中的tableName
        headers.put("tableName", table);
        headers.put("timestamp", ts + "000");

        return event;
    }

    @Override
    public List intercept(List list) {
        for (Event event : list) {
            intercept(event);
        }
        return list;
    }

    @Override
    public void close() {
    }

    public static class Builder implements Interceptor.Builder {
        @Override
        public Interceptor build() {
            return new TimestampAndTableNameInterceptor();
        }

        @Override
        public void configure(Context context) {
        }
    }
}

P069

[atguigu@node003 ~]$ cd /opt/module/flume/flume-1.9.0/
[atguigu@node003 flume-1.9.0]$ bin/flume-ng agent -n a1 -c conf/ -f job/kafka_to_hdfs_db.conf

[atguigu@node002 ~]$ kafka-console-consumer.sh --bootstrap-server node001:9092 --topic topic_db

[atguigu@node001 bin]$ jpsall 
================ node001 ================
3441 DataNode
7491 Maxwell
3862 NodeManager
4214 QuorumPeerMain
4632 Kafka
8682 Jps
3275 NameNode
4079 JobHistoryServer
================ node002 ================
2064 DataNode
5026 Jps
2290 ResourceManager
3172 Kafka
2781 QuorumPeerMain
2413 NodeManager
================ node003 ================
2162 SecondaryNameNode
4115 Application
4234 Jps
2317 NodeManager
2861 Kafka
2062 DataNode
2479 QuorumPeerMain
[atguigu@node001 bin]$ mock.sh

P070

P071

#!/bin/bash

case $1 in
"start")
        echo " --------启动 node003 业务数据flume-------"
        ssh node003 "nohup /opt/module/flume/flume-1.9.0/bin/flume-ng agent -n a1 -c /opt/module/flume/flume-1.9.0/conf -f /opt/module/flume/flume-1.9.0/job/kafka_to_hdfs_db.conf >/dev/null 2>&1 &"
;;
"stop")

        echo " --------停止 node003 业务数据flume-------"
        ssh node003 "ps -ef | grep kafka_to_hdfs_db | grep -v grep |awk '{print \$2}' | xargs -n1 kill"
;;
esac

P072

[atguigu@node001 bin]$ mysql_to_kafka_inc_init.sh all
connecting to jdbc:mysql://node001:3306/maxwell?allowPublicKeyRetrieval=true&connectTimeout=5000&serverTimezone=Asia%2FShanghai&zeroDateTimeBehavior=convertToNull&useSSL=false
connecting to jdbc:mysql://node001:3306/maxwell?allowPublicKeyRetrieval=true&connectTimeout=5000&serverTimezone=Asia%2FShanghai&zeroDateTimeBehavior=convertToNull&useSSL=false
connecting to jdbc:mysql://node001:3306/maxwell?allowPublicKeyRetrieval=true&connectTimeout=5000&serverTimezone=Asia%2FShanghai&zeroDateTimeBehavior=convertToNull&useSSL=false
connecting to jdbc:mysql://node001:3306/maxwell?allowPublicKeyRetrieval=true&connectTimeout=5000&serverTimezone=Asia%2FShanghai&zeroDateTimeBehavior=convertToNull&useSSL=false
connecting to jdbc:mysql://node001:3306/maxwell?allowPublicKeyRetrieval=true&connectTimeout=5000&serverTimezone=Asia%2FShanghai&zeroDateTimeBehavior=convertToNull&useSSL=false
connecting to jdbc:mysql://node001:3306/maxwell?allowPublicKeyRetrieval=true&connectTimeout=5000&serverTimezone=Asia%2FShanghai&zeroDateTimeBehavior=convertToNull&useSSL=false
connecting to jdbc:mysql://node001:3306/maxwell?allowPublicKeyRetrieval=true&connectTimeout=5000&serverTimezone=Asia%2FShanghai&zeroDateTimeBehavior=convertToNull&useSSL=false
connecting to jdbc:mysql://node001:3306/maxwell?allowPublicKeyRetrieval=true&connectTimeout=5000&serverTimezone=Asia%2FShanghai&zeroDateTimeBehavior=convertToNull&useSSL=false
connecting to jdbc:mysql://node001:3306/maxwell?allowPublicKeyRetrieval=true&connectTimeout=5000&serverTimezone=Asia%2FShanghai&zeroDateTimeBehavior=convertToNull&useSSL=false
connecting to jdbc:mysql://node001:3306/maxwell?allowPublicKeyRetrieval=true&connectTimeout=5000&serverTimezone=Asia%2FShanghai&zeroDateTimeBehavior=convertToNull&useSSL=false
connecting to jdbc:mysql://node001:3306/maxwell?allowPublicKeyRetrieval=true&connectTimeout=5000&serverTimezone=Asia%2FShanghai&zeroDateTimeBehavior=convertToNull&useSSL=false
[atguigu@node001 bin]$

P073

实战：用Spring Boot构建电商系统中的API接口 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介1998年，在经历了无数的创新革命之后，互联网成为科技界最重要的分支之一。随着时间的推移，互联网已经成为人类信息化革命的源头。如今的电子商务网站数量达到数百亿，这些网站都具有大规模的用户群体、丰富的内容、高频的交易、海量数据等特征。电商行业近几年有了很多变革，比如大数据分析、物流管理、供应链管理、订单评价、信用卡支付等等。其中API接口开发对于电商系统而言尤其重
Linux云计算运维有前景吗? 老男孩IT教育 linux 服务器
伴随着云计算技术的发展，越来越多的企业和组织开始使用云服务来部署和运行他们的应用程序和服务，因此对云计算技术人才的需求量也持续增长，那么Linux云计算运维有前景吗?这应该是很多人关心的问题，我们来探讨一下。综合情况来讲，Linux云计算运维的前景非常广阔。随着云计算和大数据技术的快速发展，Linux作为云计算领域的主流操作系统，其重要性日益凸显，越来越多的企业和组织将其IT基础设施迁移上云，以提
【软考高项】【英语知识】- 21 - 单词积累 oo寻梦in记软考高项（信息系统项目管理师）软考
目录一、常见计算机技术词汇二、项目管理词汇2.1十大知识域2.2五大过程组2.349个子过程2.4工具和技术汇总2.5输入和输出汇总一、常见计算机技术词汇序号中文英文1云计算Cloudcomputing2云存储Cloudstorage3云服务Cloudservice4软件即服务SaaS5平台即服务PaaS6基础设施即服务laaS7虚拟资源Virtualresources8大数据bigdata9大数
Linux在云计算和大数据的应用有哪些 coder_wwwdy Linux linux 云计算大数据
Linux在云计算和大数据领域的应用非常广泛，主要体现在以下几个方面：1.**云计算基础设施**：-Linux操作系统因其开源、稳定和高度可定制的特性，成为云计算平台的首选操作系统。例如，AmazonWebServices(AWS)、GoogleCloudPlatform(GCP)和MicrosoftAzure等主要云服务提供商都使用Linux作为其云基础设施的基础。-Linux提供了多种发行版，
Linux 在云计算中的应用有哪些？我们的五年游戏实现 linux 云计算运维
目录Linux在云计算中的应用1.云计算基础设施的核心2.虚拟化技术的基础3.容器化与微服务4.大数据与人工智能5.开源生态与社区支持6.在GoogleCloud上运行Linux的优势7.边缘计算与物联网总结Linux在云计算中的应用Linux作为开源操作系统的代表，在云计算领域扮演着至关重要的角色。其灵活性、稳定性和强大的社区支持使其成为云计算基础设施的理想选择。以下是Linux在云计算中的主要
Python+Spark地铁客流数据分析与预测系统地铁大数据地铁流量预测 qq_79856539 javaweb 大数据 python spark
本系统基于大数据设计并实现成都地铁客流量分析系统，使用网络爬虫爬取并收集成都地铁客流量数据，运用机器学习和时间序列分析等方法，对客流量数据进行预处理和特征选择，构建客流量预测模型，利用历史数据对模型进行训练和优化，实现客流量预测模型的部署和应用，通过系统界面展示预测结果。对预测模型进行评估和验证，并提出改进方案。设计步骤使用Python语言编写爬虫程序采集数据，并对原始数据集进行预处理；使用Pyt
PHP爬虫实战：如何抓取网页表格数据数据小爬虫.网站开发-Brad php 爬虫开发语言
随着互联网和大数据时代的到来，越来越多的数据可以被收集和利用。而在众多从网页上获取数据的方法中，爬虫技术可以说是最为强大和高效的一种。在实际的应用场景中，我们经常需要从网页中抓取特定的数据，尤其是网页中的表格数据。因此，本文将介绍如何使用PHP爬虫技术来获取并解析网页中的表格数据。1、安装和配置PHP爬虫库在开始编写爬虫代码之前，我们需要先安装和配置一个PHP爬虫库。这里我们选择使用PHPSimp
研发IT规划与实施监理咨询_IPD研发项目体系管理咨询深圳科新咨询经验分享
咨询内容概览：从PDM到PLMPLM是一种技术辅助策略，它把跨越业务流程和不同用户群体的那些单点应用集成起来➢PDM（产品数据管理）➢CPD（协同产品设计）➢PPM（产品组合管理）➢CNM（客户需求管理）IT规划参考模型比较看点01引言伴随社会信息化进程加快、社会化媒体涌现、大数据时代来临及IT技术进步，各类组织逐步意识到IT技术及信息资源重要性并将其作为核心竞争力和重要资产，纷纷加大信息化投资并
多线程处理大数据量数据码代码的小仙女 java知识
最近公司需要一个新的需求，需要一个接口去跑数据。数据量还蛮大的，大约50-60万数据（一条一条执行），其中还涉及到与其他接口的交互，因此这些数据跑下来要耗时很久，因此设计了一个方案，使用多线程的方式进行处理。方案1每次重数据库表中取一定量的数据（自己按实际情况定义）放在线程池缓存队列里，启动10个线程去线程池里去取数据。（相当于生产者和消费者的关系），这里需要有一个触发点，当我缓存里没有数据时，需
pg使用 archive_cleanup_command 自动清理归档日志 eaglesstone postgresql数据库数据库 postgresql
在PostgreSQL主从复制设置中，主服务器生成的归档日志（WAL日志）对于复制非常重要，然而过多的归档日志会占用大量磁盘空间。因此，设置自动清理主服务器的归档日志非常重要，以防止磁盘空间被占满。清理归档日志的方式1.使用archive_cleanup_command自动清理归档日志PostgreSQL提供了archive_cleanup_command参数，用于自动清理归档日志。此参数指定了一
Python的那些事第三十篇：并行计算库在大数据分析中的应用Dask 暮雨哀尘 Python的那些事 python 数据分析开发语言运维服务器数据挖掘
Dask：并行计算库在大数据分析中的应用摘要随着数据量的爆炸性增长，传统的数据分析工具（如Pandas和NumPy）在处理大规模数据集时面临内存限制和计算效率低下的问题。Dask作为一种开源的并行计算库，通过动态任务调度和分布式计算，能够高效处理超出内存容量的大数据集，并与Python生态系统中的Pandas、NumPy和scikit-learn等库无缝集成。本文将详细介绍Dask的架构、功能、优
革新之力：数字科技——重塑未来的超越想象之旅不会写代码的女程序猿科技
在21世纪的科技浪潮中，数字科技如同一股不可阻挡的洪流，正以前所未有的速度和广度改变着我们的生活、工作乃至整个社会的结构。它不仅是技术的简单迭代，更是对人类社会认知边界的拓宽，对经济模式、社会治理、文化形态等多方面的深刻重塑。本文旨在探讨数字科技的重要性，揭示其超越我们日常想象的深远影响。一、数字科技：新时代的驱动力1.数字经济引领全球增长数字科技是数字经济的核心引擎。通过大数据、云计算、人工智能
LINUX 安装mysql5.6.50 RPM a21768541 数据库 mysql
今天要做一个MySql数据库的主从备份，由于现有的数据库，是使用宝塔安装的5.6.50版本，因此需要在新购买的服务器上安装MySql5.6.50版本，记录一下安装过程的碰见的各种问题1.下载安装包抖店云上的系统是CentOS7.964位，因此下载Redhat7系统下面的安装包下载地址：https://downloads.mysql.com/archives/community/只需要下载这两个安装
基于Hadoop的天气数据分析系统的设计与实现-计算机毕业设计源码+LW文档 qq_375279829 hadoop 课程设计 eclipse 毕业设计毕设
摘要随着全球气候变化的日益严峻，精准的天气数据分析和预测变得至关重要。Hadoop作为大数据处理领域的领军技术，其分布式计算框架和海量数据存储能力为天气数据分析提供了强大的支持。该系统能够收集、整合并分析来自全球各地的气象数据，通过挖掘数据中的潜在规律，提高天气预报的准确性和时效性。此外，该系统还有助于发现气候变化的趋势，为政府决策、农业生产、交通运输等领域提供科学依据。因此，基于Hadoop的天
Hive排序函数源码解密：字节跳动面试官的底层三连问数据大包哥 #Hive #大厂SQL面试指南 hive hadoop 数据仓库
Hive排序函数源码解密：字节跳动面试官的底层三连问作为数据工程师，理解Hive排序函数的源码就像掌握汽车的发动机原理。本文通过字节跳动内部技术文档，为你揭示三大排序函数的源码级实现差异。一、分布式执行框架Hive中ROW_NUMBER、RANK和DENSE_RANK的底层实现差异主要体现在相同排序键值的处理逻辑上，其核心流程可分为两个阶段：数据分区（Shuffle阶段）根据PARTITIONBY
傻傻分不清？云存储、云计算与分布式存储、分布式计算是一回事吗？ IPFS星际无限 IPFS星际无限分布式分布式计算
随着互联网的蓬勃兴起，大数据、人工智能、物联网、云计算与云存储等这些专业词汇在大众视野内出现的频率越来越高，再加上近几年分布式技术异军突起，更使得分布式存储、分布式计算等成为热词。然而，很多人对这些名词都一知半解，所以本文将主要和大家聊一聊，云存储、云计算与分布式存储、分布式计算的联系与区别。一、云存储与云计算1、云存储云存储（CloudStorage）是一种网上在线存储的模式，也就是把数据存放在
笔记-Ubuntu本地镜像源配置丶花落谁家笔记 ubuntu apt
背景需要内网部署JitsiMeet，不用docker，用离线包进行安装，由于安装包需要的依赖比较多，因此需要在本地进行镜像源配置，保证依赖的正确安装。操作1、先在外网拿到安装包cd/var/cache/apt/archives2、复制至内网将所有deb复制至内网根目录下mkdir/ak/downloadchmod777-R/ak/download/3、依赖打包dpkg-scanpackages/a
数据分析与挖掘方向毕业设计选题推荐：大数据 Python 微光DeepLearning 毕设选题大数据 python 数据挖掘
亲爱的同学们，转眼间我们已经迎来了大四，这一年充满了挑战与机遇。大家忙着备考研究生、公务员、教师资格证，或是寻找实习机会，同时还要面对毕业设计的重任。对于毕业设计，很多同学可能会感到陌生，不知道从何下手，也不确定自己适合哪些方向的课题。为此，我整理了一个毕业设计选题专栏，希望能为大家提供一些灵感和建议。无论你对毕业设计有任何疑问，欢迎随时来问我哦！对毕设有任何疑问都可以问学长哦!前言在计算机专业的
大数据MaxCompute教程（阿里云离线数仓项目）学习笔记20231127 多刷亿点题⑧ 云原生数据仓库
1数据仓库概念数据仓库定义（DataWarehouse），是为企业所有决策制定过程，提供所有系统数据支持的战略集合。AI：数据仓库是一个大型、集中、主题导向的数据库系统，用于支持企业决策制定、分析和报告的需要。它统一了来自不同数据源的数据，并将其在一个可查询的数据模型中进行了整合和转换，以便于分析和报告。数据仓库还包括数据清洗、抽取、转换和加载（ETL）的过程，以保证数据的准确性、一致性和完整性。
基于 JavaWeb 的 SSM+Maven 微信小程序快递柜管理系统设计和实现(源码+文档+部署讲解）秋野酱 java 课程设计前端 maven 微信小程序 java 课程设计
技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论文降重、长期答辩答疑辅导、腾讯会议一对一专业讲解辅导答辩、模拟答辩演练、和理解代码逻辑思路。文末获取源码联系文末获取源码联
大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构 m0_74823705 面试学习路线阿里巴巴大数据架构
点一下关注吧！！！非常感谢！！持续更新！！！Java篇开始了！目前开始更新MyBatis，一起深入浅出！目前已经更新到了：Hadoop（已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis（已更完）Kafka（已更完）Spark（已更完）Flink（已更完）ClickHouse（已
spark sql随记 cxy1991xm spark
1、sparksql访问hive将hive-site.xml放入到${SPARK_HOME}/conf下如果是sparkonyarn的cluster模式，由于driver是运行于哪个executor未知，因此在spark-defaults.conf中指定参数spark.yarn.dist.filesxxx/hive-site.xml
Web Worker终极优化指南：4秒卡顿→0延迟的实战蜕变前端御书房 JavaScript 前端性能优化 javascript
导读：从4秒卡顿到丝滑响应真实痛点场景：当斐波那契数列计算量达10亿次时，页面完全冻结4.2秒！通过WebWorker优化后，UI响应时间降至16ms以内。本文手把手带您实现性能蜕变！一、WebWorker核心原理剖析1.浏览器线程架构解密主线程：UI渲染→事件监听→JS执行→网络请求→定时器↓WebWorker线程：纯计算任务→文件IO→大数据处理2.多线程通信机制//主线程constworke
聊聊AI幻觉这件事，清华团队出品---DeepSeek与AI幻觉（文末有链接）知白读书人工智能深度学习 ai 大数据虚幻计算机视觉
咱们聊聊“AI幻觉”这事儿吧。相信你可能已经听说过这个词，但要是你还不知道，简单来说，就是AI（特别是像DeepSeek这种大数据生成模型）很“有逻辑”地胡说八道。它们的输出看似条理清晰，语言流畅得让人信服，甚至不乏引经据典——这种效果让我有时怀疑，它们是不是在偷偷做“伪学术”呢？最关键的就是，你一不小心就会被它们唬住，觉得它说的都对，其实全是空话。今天分享的是清华研究团队出品的新作：《DeepS
数据飞轮：激活数据中台的数据驱动引擎 Earth explosion kafka
在数字化转型的浪潮中，企业面临着如何有效利用海量数据驱动业务增长的挑战。数据中台，作为企业数据集成和分析的关键基础设施，往往未能充分发挥其潜力，成为数据的沉睡之地。数据飞轮作为一种新兴的数据驱动模型，提供了唤醒数据中台并实现数据流动的新思路。本文将探讨数据飞轮的概念、构建方法以及如何通过数据飞轮实现数据中台的活力焕发。随着人工智能和大数据技术的发展，企业拥有了收集和处理前所未有的数据量的能力。然而
开源 AI 模型助力“智能提取“提取全攻略黑金IT AI智能知识图谱开源人工智能
在当今数字化浪潮汹涌澎湃的时代，信息如潮水般涌来，从浩如烟海的文本里快速又精准地提取人名，已然成为诸多领域的刚需。无论是让办公软件化身智能助手帮我们高效整理资料，助力大数据分析挖掘隐藏在字里行间的价值，还是赋能智能客服瞬间洞察客户身份，亦或是为构建庞大复杂、互联互通的知识图谱添砖加瓦，人名提取技术都宛如一颗关键的螺丝钉，紧紧铆住各个环节。今天，就带大家深入探寻那些超给力的支持从文本中提取人名的开源
apk文件放到Linux服务器 nginx不支持apk ipa文件下载设置云上上云服务器 linux nginx
修改/usr/local/nginx/conf目录下的mime.types增加如下配置，重启nginx生效application/vnd.android.package-archiveapk;//安卓application/iphonepxlipa;//ios
深入浅出数据中台：概念、架构与应用小四的快乐生活架构大数据
一、数据中台概念（一）定义数据中台是一套可持续“让企业的数据用起来”的机制，是一种战略选择和组织形式。它借助数据技术，对海量数据进行采集、计算、存储、加工，同时统一标准和口径，形成大数据资产，并提供服务化的数据接口，以满足前台应用和业务创新的需求。简单来说，数据中台就像是企业的数据“中央厨房”，将各类数据原材料进行清洗、切配、加工，制作成一道道“数据菜肴”，供前台业务部门随时取用。（二）与传统数据
DeepSeek：为医疗数智化注入新动能数澜悠客数字化转型人工智能 deepseek
DeepSeek掀起企业数智化浪潮在数字化与智能化深度融合的时代背景下，企业数智化转型已从一种趋势演变为关乎生存与发展的必然选择。随着云计算、大数据、人工智能等前沿技术的迅猛发展，数智化转型成为企业提升竞争力、创新业务模式、优化客户体验的关键路径。在这场波澜壮阔的转型浪潮中，DeepSeek以其卓越的技术实力和创新能力，成为众多企业实现数智化飞跃的强大助推器。DeepSeek作为人工智能领域的佼佼
零工市场小程序的未来发展趋势汇匠源小程序
随着经济的发展，越来越多的人们选择了灵活就业的方式来工作，零工市场小程序作为灵活就业一个重要的媒介，未来的发展趋势如何呢？其实在零工市场小程序中，有着大数据的分析、算法，可以精准的匹配到自由职业者们的需求，以此来提高找兼职地效率；其次，就业者可在零工市场小程序上直接进行考勤打卡、工资结算，这样就避免了很多纠纷隐患。并且近年来政府也越来越重视零工市场，相关的规定也越来越完善，为零工市场小程序的发展奠
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出

尚硅谷大数据项目《在线教育之采集系统》笔记005

P057

P058

P059

P060

P061

P062

P063

P064

P065

P066

P067

P068

P069

P070

P071

P072

P073

你可能感兴趣的:(#,大数据数仓,大数据,数仓,hive)