小柒心得

cento7 spark3 安装 anaconda安装

一、Spark部署安装

1. Spark Local 模式搭建文档

在本地使用单机多线程模拟Spark集群中的各个角色

1.1 安装包下载

目前Spark最新稳定版本：课程中使用目前Spark最新稳定版本：3.1.x系列
https://spark.apache.org/docs/3.1.2/index.html
注意1:
Spark3.0+基于Scala2.12
http://spark.apache.org/downloads.html

注意2:
目前企业中使用较多的Spark版本还是Spark2.x,如Spark2.2.0、Spark2.4.5都使用较多，但未来Spark3.X肯定是主流，毕竟官方高版本是对低版本的兼容以及提升
http://spark.apache.org/releases/spark-release-3-0-0.html

1.2 将安装包上传并解压

说明: 只需要上传至node1即可, 以下操作都是在node1执行的

cd /export/software

上传

解压:

tar -zxf spark-3.1.2-bin-hadoop3.2.tgz  -C /export/server/

更名: (两种方式二选一即可, 推荐软连接方案)
直接重命名:

mv spark-3.1.2-bin-hadoop3.2 spark

软连接方案:

 ln -s spark-3.1.2-bin-hadoop3.2 spark

目录结构说明:

1.3 测试

Spark的local模式, 开箱即用, 直接启动bin目录下的spark-shell脚本

cd /export/server/spark/bin
./spark-shell

说明:
sc：SparkContext实例对象：
spark：SparkSession实例对象
4040：Web监控页面端口号

Spark-shell说明：
1.直接使用./spark-shell
表示使用local 模式启动，在本机启动一个SparkSubmit进程
2.还可指定参数 --master，如：
spark-shell --master local[N] 表示在本地模拟N个线程来运行当前任务
spark-shell --master local[] 表示使用当前机器上所有可用的资源
3.不携带参数默认就是
spark-shell --master local[]
4.后续还可以使用–master指定集群地址，表示把任务提交到集群上运行，如
./spark-shell --master spark://node01:7077,node02:7077
5.退出spark-shell
使用 :quit

2. PySpark环境安装

这里简单说明一下:
PySpark: 是Python的库, 由Spark官方提供. 专供Python语言使用. 类似Pandas一样,是一个库
Spark: 是一个独立的框架, 包含PySpark的全部功能, 除此之外, Spark框架还包含了对R语言\ Java语言\ Scala语言的支持. 功能更全. 可以认为是通用Spark。

2.1 下载Anaconda环境包

安装版本：https://www.anaconda.com/distribution/#download-section
Python3.8.8版本：Anaconda3-2021.05-Linux-x86_64.sh

2.2 安装Anaconda环境

此环境三台节点都是需要安装的, 以下演示在node1安装, 其余两台也是需要安装的

cd /export/software

上传Anaconda脚本环境

执行脚本:

bash Anaconda3-2021.05-Linux-x86_64.sh

不断输入空格, 直至出现以下解压, 然后输入yes

此时, anaconda需要下载相关的依赖包, 时间比较长, 耐心等待即可…

配置anaconda的环境变量:

vim /etc/profile

增加如下配置

export ANACONDA_HOME=/root/anaconda3/bin
export PATH=$PATH:$ANACONDA_HOME/bin

重新加载环境变量:

source /etc/profile

修改bashrc文件

sudo vim ~/.bashrc

添加如下内容: 直接在第二行空行添加即可

export PATH=~/anaconda3/bin:$PATH

2.3 启动anaconda并测试

注意: 请将当前连接node1的节点窗口关闭,然后重新打开,否则无法识别
输入 python -V启动:

base：是anaconda的默认的初始环境, 后续我们还可以构建更多的虚拟环境, 用于隔离各个Python环境操作, 如果不想看到base的字样, 也可以选择直接退出即可
执行:
conda deactivate

但是当大家重新访问的时候, 会发现又重新进入了base,如何让其默认不进去呢, 可以选择修改.bashrc这个文件

vim ~/.bashrc

在文件的末尾添加:
conda deactivate

保存退出后, 重新打开会话窗口, 发现就不会在直接进入base了

2.4 Anaconda相关组件介绍[了解]

Anaconda（水蟒）：是一个科学计算软件发行版，集成了大量常用扩展包的环境，包含了 conda、Python 等 180 多个科学计算包及其依赖项，并且支持所有操作系统平台。下载地址：https://www.continuum.io/downloads

安装包：pip install xxx,conda install xxx
卸载包：pip uninstall xxx,conda uninstall xxx
升级包：pip install upgrade xxx,conda update xxx
Jupyter Notebook：启动命令

jupyter notebook

功能如下：

Anaconda自带，无需单独安装
实时查看运行过程
基本的web编辑器（本地）
ipynb 文件分享
可交互式
记录历史运行结果
修改jupyter显示的文件路径：
通过jupyter notebook --generate-config命令创建配置文件，之后在进入用户文件夹下面查看.jupyter隐藏文件夹，修改其中文件jupyter_notebook_config.py的202行为计算机本地存在的路径。

Spyder：
下面就Anaconda中的conda命令做详细介绍和配置。
（1）conda命令及pip命令
conda管理数据科学环境，conda和pip类似均为安装、卸载或管理Python第三方包。

conda install 包名 pip install 包名
conda uninstall 包名 pip uninstall 包名
conda install -U 包名 pip install -U 包名

（2） Anaconda设置为国内下载镜像

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --set show_channel_urls yes

（3）conda创建虚拟环境

conda env list
conda create py_env python=3.8.8 #创建python3.8.8环境
activate py_env #激活环境
deactivate py_env #退出环境

2.5 PySpark安装

三个节点也是都需要安装pySpark的

2.5.1 方式1：直接安装PySpark

安装如下：

使用PyPI安装PySpark如下：也可以指定版本安装
pip install pyspark
或者指定清华镜像(对于网络较差的情况)：
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark # 指定清华镜像源
如果要为特定组件安装额外的依赖项，可以按如下方式安装(此步骤暂不执行，后面Sparksql部分会执行)：
pip install pyspark[sql]

截图如下：

2.5.2 创建Conda环境安装PySpark

从终端创建新的虚拟环境，如下所示

conda create -n pyspark_env python=3.8

创建虚拟环境后，它应该在 Conda 环境列表下可见，可以使用以下命令查看

conda env list

2.6 初体验-PySpark shell方式

前面的Spark Shell实际上使用的是Scala交互式Shell，实际上 Spark 也提供了一个用 Python 交互式Shell，即Pyspark。

bin/pyspark --master local[*]

3. Spark on YARN 环境搭建

3.1 修改spark-env.sh

cd /export/server/spark/conf
vim /export/server/spark/conf/spark-env.sh

添加以下内容:
HADOOP_CONF_DIR=/export/server/hadoop/etc/hadoop
YARN_CONF_DIR=/export/server/hadoop/etc/hadoop

同步到其他两台
cd /export/server/spark/conf
scp -r spark-env.sh node2:$PWD
scp -r spark-env.sh node3:$PWD

3.2 修改hadoop的yarn-site.xml

node1修改

cd /export/server/hadoop/etc/hadoop/
vim /export/server/hadoop/etc/hadoop/yarn-site.xml

添加以下内容:

    <!-- 配置yarn主节点的位置 -->
    
        yarn.resourcemanager.hostname</name>
        node1.itcast.cn</value>
    </property>
    
        yarn.nodemanager.aux-services</name>
        mapreduce_shuffle</value>
    </property>
    <!-- 设置yarn集群的内存分配方案 -->
    
        yarn.nodemanager.resource.memory-mb</name>
        20480</value>
    </property>
    
        yarn.scheduler.minimum-allocation-mb</name>
        2048</value>
    </property>
    
        yarn.nodemanager.vmem-pmem-ratio</name>
        2.1</value>
    </property>
    <!-- 开启日志聚合功能 -->
    
        yarn.log-aggregation-enable</name>
        true</value>
    </property>
    <!-- 设置聚合日志在hdfs上的保存时间 -->
    
        yarn.log-aggregation.retain-seconds</name>
        604800</value>
    </property>
    <!-- 设置yarn历史服务器地址 -->
    
        yarn.log.server.url</name>
        http://node1.itcast.cn:19888/jobhistory/logs</value>
    </property>
    <!-- 关闭yarn内存检查 -->
    
        yarn.nodemanager.pmem-check-enabled</name>
        false</value>
    </property>
    
        yarn.nodemanager.vmem-check-enabled</name>
        false</value>
    </property>
</configuration>

将其同步到其他两台

cd /export/server/hadoop/etc/hadoop
scp -r yarn-site.xml node2:$PWD
scp -r yarn-site.xml node3:$PWD

3.3 Spark设置历史服务地址

cd /export/server/spark/conf
vim spark-defaults.conf

添加以下内容:
spark.eventLog.enabled                  true
spark.eventLog.dir                      hdfs://node1:9820/sparklog/
spark.eventLog.compress                 true
spark.yarn.historyServer.address        node1.itcast.cn:18080

设置日志级别:

cd /export/server/spark/conf
vim log4j.properties

修改以下内容:

同步到其他节点

cd /export/server/spark/conf
scp -r spark-defaults.conf log4j.properties node2:$PWD
scp -r spark-defaults.conf log4j.properties node3:$PWD

3.4 配置依赖spark jar包

当Spark Application应用提交运行在YARN上时，默认情况下，每次提交应用都需要将依赖Spark相关jar包上传到YARN 集群中，为了节省提交时间和存储空间，将Spark相关jar包上传到HDFS目录中，设置属性告知Spark Application应用。

hadoop fs -mkdir -p /spark/jars/
hadoop fs -put /export/server/spark/jars/* /spark/jars/

修改spark-defaults.conf

cd /export/server/spark/conf
vim spark-defaults.conf
添加以下内容:
spark.yarn.jars  hdfs://node1.itcast.cn:8020/spark/jars/*

同步到其他节点

cd /export/server/spark/conf
scp -r spark-defaults.conf root@node2:$PWD
scp -r spark-defaults.conf root@node3:$PWD

3.5 启动服务

Spark Application运行在YARN上时，上述配置完成
启动服务：HDFS、YARN、MRHistoryServer和Spark HistoryServer，命令如下：

## 启动HDFS和YARN服务，在node1执行命令
start-dfs.sh
start-yarn.sh
或
start-all.sh
注意：在onyarn模式下不需要启动start-all.sh（jps查看一下看不到worker和master）
## 启动MRHistoryServer服务，在node1执行命令
mapred --daemon start historyserver
## 启动Spark HistoryServer服务，，在node1执行命令
/export/server/spark/sbin/start-history-server.sh

Spark HistoryServer服务WEB UI页面地址：
http://node1:18080/

3.6 提交测试

先将圆周率PI程序提交运行在YARN上，命令如下：

/export/server/spark/bin/spark-submit \
--master yarn \
--conf "spark.pyspark.driver.python=/root/anaconda3/bin/python3" \
--conf "spark.pyspark.python=/root/anaconda3/bin/python3" \
/export/server/spark/examples/src/main/python/pi.py \
10

运行完成在YARN 监控页面截图如下：

设置资源信息，提交运行pi程序至YARN上，命令如下：

/export/server/spark/bin/spark-submit \
--master yarn \
--driver-memory 512m \
--executor-memory 512m \
--executor-cores 1 \
--num-executors 2 \
--queue default \
--conf "spark.pyspark.driver.python=/root/anaconda3/bin/python3" \
--conf "spark.pyspark.python=/root/anaconda3/bin/python3" \
/export/server/spark/examples/src/main/python/pi.py \
10

当pi应用运行YARN上完成以后，从8080 WEB 页面点击应用历史服务连接，查看应用运行状态信息。

4. SparkSQL与Hive整合

4.1SparkSQL整合Hive步骤

4.1.1 第一步：将hive-site.xml拷贝到spark安装路径conf目录

node1执行以下命令来拷贝hive-site.xml到所有的spark安装服务器上面去

cd /export/server/hive/conf
cp hive-site.xml /export/server/spark/conf/
scp hive-site.xml root@node2:/export/server/spark/conf/
scp hive-site.xml root@node3:/export/server/spark/conf/

4.1.2 第二步：将mysql的连接驱动包拷贝到spark的jars目录下

node1执行以下命令将连接驱动包拷贝到spark的jars目录下，三台机器都要进行拷贝

cd /export/server/hive/lib
cp mysql-connector-java-5.1.32.jar  /export/server/spark/jars/
scp mysql-connector-java-5.1.32.jar  root@node2:/export/server/spark/jars/
scp mysql-connector-java-5.1.32.jar  root@node3:/export/server/spark/jars/

4.1.3 第三步：Hive开启MetaStore服务

(1)修改 hive/conf/hive-site.xml新增如下配置

远程模式部署metastore 服务地址
"1.0"?>
type="text/xsl" href="configuration.xsl"?>

    
        hive.metastore.uris</name>
        thrift://node1.itcast.cn:9083</value>
    </property>
</configuration>

2: 后台启动 Hive MetaStore服务
前台启动：

bin/hive --service metastore

后台启动：

nohup /export/server/hive/bin/hive --service metastore 2>&1 >> /var/log.log &

完整的hive-site.xml文件


    <!-- 存储元数据mysql相关配置 -->
    
        javax.jdo.option.ConnectionURL</name>
         jdbc:mysql://node1:3306/hive?createDatabaseIfNotExist=true&;useSSL=false&;useUnicode=true&;characterEncoding=UTF-8</value>
    </property>

    
        javax.jdo.option.ConnectionDriverName</name>
        com.mysql.jdbc.Driver</value>
    </property>

    
        javax.jdo.option.ConnectionUserName</name>
        root</value>
    </property>

    
        javax.jdo.option.ConnectionPassword</name>
        123456</value>
    </property>
 <!-- H2S运行绑定host -->
    
        hive.server2.thrift.bind.host</name>
        node1</value>
    </property>

    <!-- 远程模式部署metastore 服务地址 -->
    
        hive.metastore.uris</name>
        thrift://node1:9083</value>
    </property>

    <!-- 关闭元数据存储授权  -->
    
        hive.metastore.event.db.notification.api.auth</name>
        false</value>
    </property>

    <!-- 关闭元数据存储版本的验证 -->
    
        hive.metastore.schema.verification</name>
        false</value>
    </property>
</configuration>

4.1.4 第四步：测试Sparksql整合Hive是否成功

[方式1]Spark-sql方式测试
先启动hadoop集群，在启动spark集群，确保启动成功之后node1执行命令，指明master地址、每一个executor的内存大小、一共所需要的核数、mysql数据库连接驱动：

cd /export/server/spark
bin/spark-sql --master local[2] --executor-memory 512m --total-executor-cores 1
或
bin/spark-sql --master spark://node1.itcast.cn:7077 --executor-memory 512m --total-executor-cores 1

执行成功后的界面：进入到spark-sql 客户端命令行界面
查看当前有哪些数据库，并创建数据库

show databases;
create database sparkhive;

看到数据的结果，说明sparksql整合hive成功！

注意：日志太多，我们可以修改spark的日志输出级别(conf/log4j.properties)

注意：
在spark2.0版本后由于出现了sparkSession，在初始化sqlContext的时候，会设置默认的spark.sql.warehouse.dir=spark-warehouse,
此时将hive与sparksql整合完成之后，在通过spark-sql脚本启动的时候，还是会在那里启动spark-sql脚本，就会在当前目录下创建一个spark.sql.warehouse.dir为spark-warehouse的目录，存放由spark-sql创建数据库和创建表的数据信息，与之前hive的数据息不是放在同一个路径下（可以互相访问）。但是此时spark-sql中表的数据在本地，不利于操作，也不安全。
所有在启动的时候需要加上这样一个参数：
–conf spark.sql.warehouse.dir=hdfs://node1:9820/user/hive/warehouse
保证spark-sql启动时不在产生新的存放数据的目录，sparksql与hive最终使用的是hive同一存放数据的目录。如果使用的是spark2.0之前的版本，由于没有sparkSession，不会出现spark.sql.warehouse.dir配置项，不会出现上述问题。
Spark2之后最后的执行脚本，node1执行以下命令重新进去spark-sql

cd /export/server/spark
bin/spark-sql \
 --master spark://node1:7077 \
 --executor-memory 512m --total-executor-cores 1 \
 --conf spark.sql.warehouse.dir=hdfs://node1:9820/user/hive/warehouse

Spark-Shell方式启动：

bin/spark-shell --master local[3]
spark.sql("show databases").show

如下图：

PySpark-Shell方式启动：

bin/pyspark --master local[2]
spark.sql("show databases").show

融合网络实训室初步建设方案设想武汉唯众智创网络融合网络实训室融合网络融合网络实验室网络融合实训室网络融合实验室
一、引言在数字化浪潮席卷全球的当下，网络技术已然成为推动社会发展和经济增长的关键力量。从日常的生活购物到企业的运营管理，从便捷的社交沟通到前沿的科研探索，网络技术无处不在，深刻地改变着人们的生活与工作方式。随着5G、物联网、云计算、大数据等新兴技术的迅猛发展，网络技术领域对于专业人才的需求呈现出爆发式增长。据权威机构预测，未来几年，网络技术相关岗位的人才缺口将持续扩大。这些岗位不仅要求从业者具备扎
hive-进阶版-1 数据牧马人 hive hadoop 数据仓库
第6章hive内部表与外部表的区别Hive是一个基于Hadoop的数据仓库工具，用于对大规模数据集进行数据存储、查询和分析。Hive支持内部表（ManagedTable）和外部表（ExternalTable）两种表类型，它们在数据存储、管理方式和生命周期等方面存在显著区别。以下是内部表和外部表的主要区别：1.数据存储位置内部表：数据存储在Hive的默认存储目录下，通常位于HDFS（HadoopDi
嵌入式SDIO 总线面试题及参考答案大模型大数据攻城狮 fpga开发嵌入式面经 SPI USB接口 SD总线 SDIO总线牛客网
目录SDIO总线与SD总线的核心区别是什么？(附框架图）简述SDIO总线物理接口的组成及其功能（CLK、CMD、DAT0-DAT3）。SDIO总线支持的最大数据传输位宽是多少？如何配置？解释SDIO总线中的主从模式架构及通信流程。SDIO卡的功能类型有哪些（如Wi-Fi、蓝牙、GPS）？SDIO总线时钟信号（CLK）的作用及典型频率范围SDIO协议中的OCR寄存器作用是什么？如何通过CMD5获取卡
大模型和数据要素赋能实体零售行业数字化转型建设和实施方案优享智库大模型数据要素数据治理数据仓库主数据零售
大模型和数据要素赋能实体零售行业数字化转型建设和实施方案更多参考公众号：优享智库引言项目背景与意义数字化转型目标与期望实施方案概述零售行业现状及挑战实体零售行业现状数字化转型面临的挑战市场需求与趋势分析大模型与数据要素赋能策略大模型技术及应用场景数据要素采集、整合与治理赋能策略制定与实施路径数字化转型关键技术与解决方案人工智能技术及应用大数据分析与挖掘技术云计算、物联网等技术支持定制化解决方案设计
京准电钟分享：医院网络内NTP时间同步服务器作用是什么？北京华人开创公司北斗卫星授时 NTP时间同步 GPS对时装置 NTP 时间同步服务器网络时间服务器 NTP时间服务器网络系统时钟同步
京准电钟分享：医院网络内NTP时间同步服务器作用是什么？京准电钟分享：医院网络内NTP时间同步服务器作用是什么？时间同步技术必定将是整个大数据处理系统的重要支撑和保障。时间同步技术使数据产生与处理系统的所有节点具有全局的、统一的标准时间，从而使系统中的所有各种消息、事件、节点、数据等具备正确的逻辑性、协调性以及可追溯性。大数据产生与处理系统是各种计算设备集群的，计算设备将统一、同步的标准时间用于记
204页数字化转型：集团企业信息化规划方案公众号：智慧方案文库精选解决方案（附下载）大数据 database
建立统一共享的信息平台，集团总部能实时监控下属单位的库存、产量、成本、资金流等关键信息，有效利用大数据技术平台为管理层提供全面、及时、准确的决策信息支持。n推动生产、销售、新业务领域的自动化、数字化、网络化、信息化、集成化，为今后打造智能制造、智慧农业奠定坚实基础；n推进IT基础设施建设与提升，采用全新的架构设计理念，建成组件化、集中化、服务化、协同化的统一云平台，提供高质量、可重用的平台服务，营
Java 大视界 -- Java 大数据在智慧交通自动驾驶仿真与测试数据处理中的应用（136）青云交大数据新视界 Java 大视界 java 大数据自动驾驶智慧交通仿真测试数据处理数据存储
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
大数据手册(Spark)--Spark安装配置 WilenWu 数据分析(Data Analysis)大数据 spark 分布式
本文默认在zsh终端安装配置，若使用bash终端，环境变量的配置文件相应变化。若安装包下载缓慢，可复制链接到迅雷下载，亲测极速～准备工作Spark的安装过程较为简单，在已安装好Hadoop的前提下，经过简单配置即可使用。假设已经安装好了hadoop（伪分布式）和hive，环境变量如下JAVA_HOME=/usr/opt/jdkHADOOP_HOME=/usr/local/hadoopHIVE_HO
《java性能调优》2.Stream如何提高遍历集合效率 just_one_wk java性能调优
在Java8中，Collection新增了两个流方法，分别是Stream()和parallelStream()。什么是Stream？在Java8之前，我们通常是通过for循环或者Iterator迭代来重新排序合并数据，又或者通过重新定义Collections.sorts的Comparator方法来实现，这两种方式对于大数据量系统来说，效率并不是很理想。Java8中添加了一个新的接口类Stream，
uni-app App 端分段导出 JSON 数据为文件 _虾仁不眨眼_ uni-app
在开发过程中，我们经常需要将大量数据导出为JSON文件，尤其是在处理长列表或大数据集时。然而，直接将所有数据写入一个文件可能会导致性能问题，尤其是在移动设备上。为了优化性能并提高用户体验，我们可以将数据分段导出到多个文件中。实现思路分段处理数据：将长JSON数据分段，每段包含固定数量的数据。使用plus.io写入文件：利用uni-app的plus.ioAPI，将每段数据写入单独的文件。提示用户导出
智慧运维与物联网技术在地铁车辆段的应用项目罗博深
本文还有配套的精品资源，点击获取简介：随着物联网技术的广泛应用，智慧运维系统通过传感器、大数据分析、云计算等技术集成，提升了地铁车辆段的运维效率和安全性。该系统可以实时监控设备状态、预测故障、提供智能决策支持、优化维护策略，并降低运营成本，同时提高乘客安全。其应用拓展至整个地铁线路，乃至与城市交通系统协同，展现了智慧运维对公共交通系统现代化的贡献。1.物联网技术基础与应用物联网（Interneto
Java多线程与并发编程实战——从基础到进阶 AI天才研究院 Python实战 Java实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介互联网企业都在大力拓展自己的业务，而新的技术革命也带来了海量的数据量，因此，单机并发处理能力已经无法满足现代信息时代对高速数据的需求。大数据和云计算带来的分布式系统架构，让单台计算机不仅能够执行单个任务，而且可以横向扩展处理大量任务。在这种情况下，如何充分利用多核CPU、共享内存等资源并发地处理多项任务就成为现代系统设计者们必备技能之一。本书将以实操为导向，全面
国内外AI搜索产品盘点 Suee2020 人工智能
序号AISearch产品名简介网站开发者1Perplexity强大的对话式AI搜索引擎https://www.perplexity.aiPerplexity2GensparkAIAgent搜索引擎https://www.genspark.aiMainFunc（景鲲、朱凯华）3Kimi.ai智能助手https://kimi.moonshot.cn/月之暗面（杨植麟）4秘塔AI搜索AI搜索引擎http
深入解析LTE-A到5G的系统消息架构与功能演进罗博深
本文还有配套的精品资源，点击获取简介：系统消息是移动通信网络中，UE与网络间信息交换的核心，涵盖了网络状态、服务信息与系统配置。文章深入分析了4GLTE-A到5G网络中系统消息的组成、作用及其演进，包括MIB和SIBs的功能与内容，以及5G对系统消息的优化和新技术的引入，如动态调度、网络切片和针对物联网设备的特定参数配置。5G系统消息还通过机器学习和大数据分析实现智能化分发，增强了网络灵活性、智能
机器学习算法实战——天气数据分析（主页有源码）喵了个AI 机器学习实战机器学习算法数据分析
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.引言天气数据分析是气象学和数据科学交叉领域的一个重要研究方向。随着大数据技术的发展，气象数据的采集、存储和分析能力得到了显著提升。机器学习算法在天气数据分析中的应用，不仅能够提高天气预报的准确性，还能为气候研究、灾害预警等提供有力支持。本文将介绍机器学习在天气数据分析中的应用，探讨
多线程到底重不重要？ Vic2334 JAVA java 开发语言
我们先说一下为什么要讲多线程和高并发？原因是，你想拿到一个更高的薪水，在面试的时候呈现出了两个方向的现象：第一个是上天项目经验高并发缓存大流量大数据量的架构设计第二个是入地各种基础算法，各种基础的数据结构JVMOS线程IO等内容多线程和高并发，就是入地里面的内容。基本概念我们先从线程的基本概念开始，给大家复习一下，不知道有多少同学是基础不太好，说什么是线程都不知道的，如果这样的话，花时间去补初级内
Assembly语言的自然语言处理花韵婷包罗万象 golang 开发语言后端
Assembly语言在自然语言处理中的应用引言自然语言处理（NaturalLanguageProcessing,NLP）作为人工智能的一个重要分支，致力于实现计算机与人类语言之间的互动。随着计算能力的提升以及大数据的蓬勃发展，NLP在各个领域的应用如火如荼。从语音识别、机器翻译到情感分析等，NLP正在改变我们与信息之间的互动方式。不过，当前主流的NLP研究通常是用高级编程语言（如Python、Ja
提出机器人自主学习新范式，深大团队最新顶会论文，刷新6大复杂任务SOTA 量子位
关注前沿科技量子位让机器人轻松学习复杂技能有新框架了！深圳大学大数据系统计算技术国家工程实验室李坚强教授团队联合鹏城国家实验室、北京理工莫斯科大学，提出了奖励函数与策略协同进化框架ROSKA。在多个高维度机器人任务上，在仅使用89%训练样本的情况下，比现有SOTA方法平均性能提升95.3%。众所周知，随着机器人技术的快速发展，其应用已渗透至日常生活和工业生产场景。然而在多自由度机器人控制领域，传统
基于Asp.net的汽车租赁管理系统计算机学姐 Asp精选实战项目源码 asp.net 汽车后端 mysql sqlserver vue.js c#
作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码精品专栏：Java精选实战项目源码、Python精选实战项目源码、大数据精选实战项目源码系统展示【2025最新】基于Asp.net的汽车租赁管理系统开发
HIVE开窗函数 Cciccd sql hive
ETL,SQL面试高频考点——HIVE开窗函数（基础篇）目录标题ETL,SQL面试高频考点——HIVE开窗函数（基础篇）一，窗口函数介绍二，开窗函数三，分析函数分类1，排序分析函数：实列解析对比总结2.聚合分析函数3.用spark自定义HIVE用户自定义函数后续更新中~一，窗口函数介绍窗口函数，也叫OLAP函数（OnlineAnallyticalProcessing,联机分析处理），可以对数据库数
Hive MR & Spark & Yarn参数优化总结大数据侠客 hive相关问题汇总及解决 hive spark mr yarn 参数优化
一、hivemr参数调优：sethive.optimize.ppd=true;--开启谓词下推。--动态分区参数sethive.exec.mode.local.auto=true;sethive.exec.dynamic.partition.mode=nonstrict;--默认是strict，表示至少有一个静态分区，nonstri
虚拟机中Hadoop集群NameNode进程缺失问题解析与解决申朝先生 hadoop 大数据分布式 linux
目录问题概述问题分析解决办法总结问题概述在虚拟机中运行Hadoop集群时，通过执行jps命令检查进程时，发现NameNode进程缺失。这通常会导致Hadoop集群无法正常运行，影响数据的存储和访问。问题分析导致NameNode进程缺失的原因可能有以下几点：集群未正确停止：在关闭虚拟机或重启Hadoop集群之前，未执行stop-all.sh命令正确停止集群，导致Hadoop服务异常退出，留下残留数据
TDengine 使用教程：从入门到实践遇见伯灵说 tdengine 大数据时序数据库
TDengine是一款专为物联网（IoT）和大数据实时分析设计的时序数据库。它能够高效地处理海量的时序数据，并提供低延迟、高吞吐量的性能表现。在本文中，我们将带领大家从TDengine的安装、基本操作到一些高级功能，帮助你快速上手。1.TDengine简介TDengine是一个高效的时序数据存储解决方案，支持高并发写入和快速的实时分析。它适用于各种物联网应用场景，如传感器数据监控、日志数据处理等。
Spark 中创建 DataFrame 的2种方式对比闯闯桑 spark 大数据分布式 scala
spark.createDataFrame(data).toDF("name","age")和spark.createDataFrame(spark.sparkContext.parallelize(data),schema)创建df的方式有什么区别？在Spark中，创建DataFrame的方式有多种，其中两种常见的方式是：spark.createDataFrame(data).toDF("nam
Java：AI 浪潮中的隐形支柱 —— 探秘 Java 在人工智能领域的独特地位琢磨先生David 人工智能
引言在人工智能技术席卷全球的今天，当人们谈论AI开发时，Python、R语言、C++等工具总是最先被提及。然而在这个充满创新的领域，有一个"老兵"正悄然发挥着不可替代的作用——自1995年诞生至今的Java语言，凭借其独特的工程化基因，正在构建起AI世界的底层基础设施。本文将揭示Java如何在大数据、机器学习、企业级AI系统等领域持续创造价值。一、Java的AI基因解码跨平台优势的现代意义"一次编
掌握大数据时代的心跳：实时数据处理的崛起 Echo_Wish 大数据大数据
掌握大数据时代的心跳：实时数据处理的崛起在大数据时代，我们每天都在生成海量的数据——从社交媒体上的点赞到物联网设备上传的传感器数据，数据无处不在。然而，仅仅存储这些数据已经无法满足现代业务的需求，“实时数据处理”已经从一项可选技术跃升为业务成功的关键所在。如何让数据在其生成的瞬间就能被分析、处理并驱动决策，这是我们今天要探讨的重点。为什么实时数据处理如此重要？想象一下这样两个场景：在线交易平台：当
老板既要又要还要......我用Doris+Hudi把不可能变成了日常一臻数据大数据 Doris 大数据数据分析数据库
老板既要又要还要......我用Doris+Hudi把不可能变成了日常探索Doris与Hudi的完美融合智能查询优化华丽转身-不止于快的进化Doris+Hudi湖仓一体的"艺术之美"大数据江湖中流传着这样一个传说：有一位数据科学家，整日为查询性能发愁，夜夜加班优化SQL。直到有一天，他发现了Doris与Hudi的"天作之合"，顿时开启了"飞毛腿"模式——查询速度快得连老板都不敢相信！如今，这个传说
六月份阶段性大总结之Doris/Clickhouse/Hudi一网打尽王知无(import_bigdata) 大数据编程语言人工智能 java 数据分析
点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜全网最全大数据面试提升手册！这是个阶段性小总结，后面会持续更新。ClickHouse「Clickhouse系列」分布式表&本地表详解「ClickHouse系列」ClickHouse之MergeTree原理「ClickHouse系列」Replication机制详解「ClickHouse系列」ClickHouseSQL基本语法和导入导出实战「C
使用 Doris 和 Iceberg 向阳1218 大数据 doris
作为一种全新的开放式的数据管理架构，湖仓一体（DataLakehouse）融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势，帮助用户更加便捷地满足各种数据处理分析的需求，在企业的大数据体系中已经得到越来越多的应用。在过去多个版本中，ApacheDoris持续加深与数据湖的融合，当前已演进出一套成熟的湖仓一体解决方案。自0.15版本起，ApacheDoris引入Hive和Iceberg
使用 Doris 和 LakeSoul 向阳1218 大数据 doris
作为一种全新的开放式的数据管理架构，湖仓一体（DataLakehouse）融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势，帮助用户更加便捷地满足各种数据处理分析的需求，在企业的大数据体系中已经得到越来越多的应用。在过去多个版本中，ApacheDoris持续加深与数据湖的融合，当前已演进出一套成熟的湖仓一体解决方案。自0.15版本起，ApacheDoris引入Hive和Iceberg
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite