小胖纸liuhui

apache iceberg 查询效率_最强指南！数据湖Apache Hudi、Iceberg、Delta环境搭建

1. 引入

作为依赖Spark的三个数据湖开源框架Delta，Hudi和Iceberg，本篇文章为这三个框架准备环境，并从Apache Spark、Hive和Presto的查询角度进行比较。主要分为三部分

准备单节点集群，包括：Hadoop，Spark，Hive，Presto和所有依赖项。
测试Delta，Hudi，Iceberg在更新，删除，时间旅行，Schema合并中的行为方式。还会检查事务日志，以及默认配置和相同数据量的大小差异。
使用Apache Hive和Presto查询。

2. 环境准备

2.1 单节点集群

版本如下

ubuntu-18.04.3-live-server-amd64

openjdk-8-jdk

scala-2.11.12

spark-2.4.4-bin-hadoop2.7

hadoop-2.7.7

apache-hive-2.3.6-bin

presto-server-329.tar

org.apache.iceberg:iceberg-spark-runtime:0.7.0-incubating

org.apache.hudi:hudi-spark-bundle:0.5.0-incubating

io.delta:delta-core_2.11:0.5.0

在Ubuntu中，我使用的是超级用户spuser，并为该用户生成hadoop所需的授权密钥。

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

chmod 0600 ~/.ssh/authorized_keys

为Spark安装Java 1.8

#1.

sudo add-apt-repository ppa:openjdk-r/ppa

sudo apt-get update

sudo apt-get install openjdk-8-jdk

sudo update-alternatives --config java

sudo update-alternatives --config javac

确认版本为Java 1.8

#2.

spuser@acid:~$ java -version

openjdk version "1.8.0_232"

OpenJDK Runtime Environment (build 1.8.0_232-8u232-b09-0ubuntu1~16.04.1-b09)

OpenJDK 64-Bit Server VM (build 25.232-b09, mixed mode)

下载所有的依赖包

#3.

mkdir downloads

cd downloads/

wget https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.deb

wget http://apache.mirror.vu.lt/apache/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz

wget http://apache.mirror.vu.lt/apache/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop2.7.tgz

wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.7/hadoop-2.7.7.tar.gz

wget http://apache.mirror.vu.lt/apache/hive/hive-2.3.6/apache-hive-2.3.6-bin.tar.gz

wget https://repo1.maven.org/maven2/io/prestosql/presto-cli/329/presto-cli-329-executable.jar

wget https://repo1.maven.org/maven2/io/prestosql/presto-server/329/presto-server-329.tar.gz

检查下载项

#4.

spuser@acid:~/downloads$ ll -h

安装Scala

#5.

sudo dpkg -i scala-2.11.12.deb

安装至/usr/local目录，对于特定版本，创建符号链接，以便将来进行更轻松的迁移

#6.

sudo tar -xzf apache-hive-2.3.6-bin.tar.gz -C /usr/local/

sudo tar -xzf hadoop-2.7.7.tar.gz -C /usr/local/

sudo tar -xzf spark-2.4.4-bin-hadoop2.7.tgz -C /usr/local/

sudo tar -xzf spark-3.0.0-preview2-bin-hadoop2.7.tgz -C /usr/local/

sudo tar -xzf presto-server-329.tar.gz -C /usr/local

sudo chown -R spuser /usr/local/apache-hive-2.3.6-bin/

sudo chown -R spuser /usr/local/hadoop-2.7.7/

sudo chown -R spuser /usr/local/spark-2.4.4-bin-hadoop2.7/

sudo chown -R spuser /usr/local/spark-3.0.0-preview2-bin-hadoop2.7/

sudo chown -R spuser /usr/local/presto-server-329/

cd /usr/local/

sudo ln -s /usr/local/apache-hive-2.3.6-bin/ /usr/local/hive

sudo chown -h spuser:spuser /usr/local/hive

sudo ln -s /usr/local/hadoop-2.7.7/ /usr/local/hadoop

sudo chown -h spuser:spuser /usr/local/hadoop

sudo ln -s /usr/local/spark-2.4.4-bin-hadoop2.7 /usr/local/spark

sudo chown -h spuser:spuser /usr/local/spark

sudo ln -s /usr/local/spark-3.0.0-preview2-bin-hadoop2.7 /usr/local/spark3

sudo chown -h spuser:spuser /usr/local/spark3

sudo ln -s /usr/local/presto-server-329 /usr/local/presto

sudo chown -h spuser:spuser /usr/local/presto

为日志和HDFS创建几个文件夹。在根目录下创建一些文件夹并不是最佳做法，但可起到沙盒作用

#7.

sudo mkdir /logs

sudo chown -R spuser /logs

mkdir /logs/hadoop

#Add dir for data

sudo mkdir /hadoop

sudo chown -R spuser /hadoop

mkdir -p /hadoop/hdfs/namenode

mkdir -p /hadoop/hdfs/datanode

#create tmp hadoop dir:

mkdir -p /tmp/hadoop

更新环境变量，.bashrc

#8.

sudo nano ~/.bashrc

#Add entries in existing file:

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

export PATH=$PATH:$JAVA_HOME/bin

export HADOOP_HOME=/usr/local/hadoop

export HIVE_HOME=/usr/local/hive

export PATH=$PATH:$HADOOP_HOME/bin

export PATH=$PATH:$HADOOP_HOME/sbin

export PATH=$PATH:$HIVE_HOME/bin

export HADOOP_MAPRED_HOME=$HADOOP_HOME

export HADOOP_COMMON_HOME=$HADOOP_HOME

export HADOOP_HDFS_HOME=$HADOOP_HOME

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export YARN_HOME=$HADOOP_HOME

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

export HADOOP_LOG_DIR=/logs/hadoop

export SPARK_HOME=/usr/local/spark

export PATH=$PATH:$SPARK_HOME/bin

#Save it!

#Source it:

source ~/.bashrc

2.2 Hadoop配置

更改Hadoop配置，切换至目录

#9.

cd /usr/local/hadoop/etc/hadoop

hadoop-env.sh

#10.

#Comment existing JAVA_HOME and add new one:

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

core-site.xml

#11.

hadoop.tmp.dir

/tmp/hadoop

A base for other temporary directories.

fs.defaultFS

hdfs://localhost:9000

mapred-site.xml

#12.

mapreduce.framework.name

yarn

hdfs-site.xml

#13.

dfs.replication

1

dfs.namenode.name.dir

file:/hadoop/hdfs/namenode

dfs.datanode.data.dir

file:/hadoop/hdfs/datanode

yarn-site.xml

#14.

yarn.nodemanager.aux-services

mapreduce_shuffle

准备好HDFS之后，格式化并启动服务

#15.

hdfs namenode -format

start-all.sh

检查运行情况

#16.

spuser@acid:/usr/local/hadoop/etc/hadoop$ jps

9890 DataNode

10275 ResourceManager

10115 SecondaryNameNode

10613 NodeManager

9705 NameNode

10732 Jps

2.3 Hive配置

为Hive创建Hdfs目录

#17.

#Create HDFS dirs:

hdfs dfs -mkdir -p /user/hive/warehouse

hdfs dfs -mkdir /tmp

hdfs dfs -chmod g+w /user/hive/warehouse

hdfs dfs -chmod g+w /tmp

切换至Hive conf目录

#18.

cd /usr/local/hive/conf

hive-site.xml

#19.

javax.jdo.option.ConnectionURL

jdbc:derby:;databaseName=/usr/local/hive/metastore_db;create=true

JDBC connect string for a JDBC metastore.

To use SSL to encrypt/authenticate the connection, provide database-specific SSL flag in the connection URL.

For example, jdbc:postgresql://myhost/db?ssl=true for postgres database.

hive.metastore.warehouse.dir

/user/hive/warehouse

location of default database for the warehouse

hive.metastore.uris

Thrift URI for the remote metastore. Used by metastore client to connect to remote metastore.

javax.jdo.option.ConnectionDriverName

org.apache.derby.jdbc.EmbeddedDriver

Driver class name for a JDBC metastore

javax.jdo.PersistenceManagerFactoryClass

org.datanucleus.api.jdo.JDOPersistenceManagerFactory

class implementing the jdo persistence

hive.metastore.schema.verification

false

hive-env.sh

#20.

# The heap size of the jvm stared by hive shell script can be controlled via:

#

export HADOOP_HEAPSIZE=512

#

# Larger heap size may be required when running queries over large number of files or partitions.

# By default hive shell scripts use a heap size of 256 (MB). Larger heap size would also be

# appropriate for hive server (hwi etc).

# Set HADOOP_HOME to point to a specific hadoop install directory

export HADOOP_HOME=/usr/local/hadoop

# Hive Configuration Directory can be controlled by:

export HIVE_CONF_DIR=/usr/local/hive/conf

# Folder containing extra ibraries required for hive compilation/execution can be controlled by:

export HIVE_AUX_JARS_PATH=/usr/local/hive/lib/*.jar

在创建Hive metastore之前请更新hive-schema-2.3.0.derby.sql，否则iceberg将无法创建表，会有如下错误

#21.

ERROR metastore.RetryingHMSHandler: Retrying HMSHandler after 2000 ms (attempt 8 of 10) with error: javax.jdo.JDODataStoreException: Insert of object "org.apache.hadoop.hive.metastore.model.MTable@604201a0" using statement "INSERT INTO TBLS (TBL_ID,OWNER,CREATE_TIME,SD_ID,TBL_NAME,VIEW_EXPANDED_TEXT,LAST_ACCESS_TIME,DB_ID,RETENTION,VIEW_ORIGINAL_TEXT,TBL_TYPE) VALUES (?,?,?,?,?,?,?,?,?,?,?)" failed : Column 'IS_REWRITE_ENABLED' cannot accept a NULL value.

更新hive-schema-2.3.0.derby.sql

#22.

nano /usr/local/hive/scripts/metastore/upgrade/derby/hive-schema-2.3.0.derby.sql

#update statement: "APP"."TBLS"

CREATE TABLE "APP"."TBLS" ("TBL_ID" BIGINT NOT NULL, "CREATE_TIME" INTEGER NOT NULL, "DB_ID" BIGINT, "LAST_ACCESS_TIME" INTEGER NOT NULL, "OWNER" VARCHAR(767), "RETENTION" INTEGER NOT NULL, "SD_ID" BIGINT, "TBL_NAME" VARCHAR(256), "TBL_TYPE" VARCHAR(128), "VIEW_EXPANDED_TEXT" LONG VARCHAR, "VIEW_ORIGINAL_TEXT" LONG VARCHAR, "IS_REWRITE_ENABLED" CHAR(1) NOT NULL DEFAULT 'N');

更新后创建Hive metastore

#23.

schematool -initSchema -dbType derby --verbose

检查schema是否创建成功

#24.

...

beeline> Initialization script completed

schemaTool completed

通过CLI创建Hive

#25.

hive -e "show databases"

2.4 Presto配置

创建config目录

#26.

mkdir -p /usr/local/presto/etc

创建配置文件 /usr/local/presto/etc/config.properties

#27.

coordinator=true

node-scheduler.include-coordinator=true

http-server.http.port=8080

query.max-memory=5GB

query.max-memory-per-node=1GB

query.max-total-memory-per-node=2GB

discovery-server.enabled=true

discovery.uri=http://localhost:8080

创建JVM配置文件/usr/local/presto/etc/jvm.properties

#28.

-server

-Xmx16G

-XX:+UseG1GC

-XX:G1HeapRegionSize=32M

-XX:+UseGCOverheadLimit

-XX:+ExplicitGCInvokesConcurrent

-XX:+HeapDumpOnOutOfMemoryError

-XX:+ExitOnOutOfMemoryError

创建节点配置文件 /usr/local/presto/etc/node.properties

#29.

node.environment=production

node.id=ffffffff-ffff-ffff-ffff-ffffffffffff

node.data-dir=/var/presto/data

创建相关目录

#30.

sudo mkdir -p /var/presto/data

sudo chown spuser:spuser -h /var/presto

sudo chown spuser:spuser -h /var/presto/data

创建catalog和hive配置文件 /usr/local/presto/etc/catalog/hive.properties

#31.

connector.name=hive-hadoop2

hive.metastore.uri=thrift://localhost:9083

2.5 Spark相关配置

检查scala版本

#32.

scala -version

#make sure that you can see something like:

#otherwise get back to step #5.

切换至Spark conf目录

#33.

cd /usr/local/spark/conf

spark-env.sh

#34.

#add

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export SPARK_CONF_DIR=/usr/local/spark/conf

export SPARK_LOCAL_IP=127.0.0.1

拷贝hive-site.xml，以便使用Hive和Presto测试delta，hudl，iceberg行为

#35.

cp /usr/local/hive/conf/hive-site.xml /usr/local/spark/conf/

下载所有的依赖

#36.

spark-shell --packages org.apache.iceberg:iceberg-spark-runtime:0.7.0-incubating,org.apache.hudi:hudi-spark-bundle:0.5.0-incubating,io.delta:delta-core_2.11:0.5.0 --conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer'

2.6 测试三个框架

Delta

#37.

import org.apache.spark.sql.SaveMode._

spark.range(1000).toDF.write.format("delta").mode(Overwrite).save("/tmp/delta_tab01")

Hudi

#38.

import org.apache.spark.sql.SaveMode._

import org.apache.hudi.DataSourceWriteOptions._

import org.apache.hudi.config.HoodieWriteConfig._

spark.range(1000).write.format("org.apache.hudi").option(TABLE_NAME, "hudi_tab01").option(PRECOMBINE_FIELD_OPT_KEY, "id").option(RECORDKEY_FIELD_OPT_KEY, "id").mode(Overwrite).save("/tmp/hudi_tab01")

Iceberg

#39.

import org.apache.iceberg.hive.HiveCatalog

import org.apache.iceberg.catalog._

import org.apache.iceberg.Schema

import org.apache.iceberg.types.Types._

import org.apache.iceberg.PartitionSpec

import org.apache.iceberg.spark.SparkSchemaUtil

import org.apache.iceberg.hadoop.HadoopTables

val name = TableIdentifier.of("default","iceberg_tab01");

val df1=spark.range(1000).toDF.withColumn("level",lit("1"))

val df1_schema = SparkSchemaUtil.convert(df1.schema)

val partition_spec=PartitionSpec.builderFor(df1_schema).identity("level").build

val tables = new HadoopTables(spark.sessionState.newHadoopConf())

val table = tables.create(df1_schema, partition_spec, "hdfs:/tmp/iceberg_tab01")

df1.write.format("iceberg").mode("append").save("hdfs:/tmp/iceberg_tab01")

检查HDFS上结果

#40.

hdfs dfs -ls -h -R /tmp/delta* && hdfs dfs -ls -h -R /tmp/hudi* && hdfs dfs -ls -h -R /tmp/iceberg*

3. 总结

本篇文章展示了如何搭建测试三个数据湖环境所依赖的所有环境，以及进行了简单的测试，希望这对你有用。

你可能感兴趣的:(apache,iceberg,查询效率)

Apache Doris 3.0.4 版本正式发布
亲爱的社区小伙伴们，ApacheDoris3.0.4版本已于2025年02月28日正式发布。该版本持续在存算分离、湖仓一体、异步物化视图等方面进行改进提升与问题修复，进一步加强系统的性能和稳定性，欢迎大家下载体验。官网下载：https://doris.apache.org/downloadGitHub下载：https://github.com/apache/doris/releases/tag/3
组件化/Kotlin Ice_Lemon_dc android kotlin 开发语言
七、组件化组件化原理引入组件化的原因：项目随着需求的增加规模变得越来越大，规模的增大导致了各种业务错中复杂的交织在一起,每个业务模块之间，代码没有约束，带来了代码边界的模糊，代码冲突时有发生,更改一个小问题可能引起一些新的问题,牵一发而动全身，增加一个新需求，需要熟悉相关的代码逻辑，增加开发时间避免重复造轮子，可以节省开发和维护的成本。可以通过组件和模块为业务基准合理地安排人力，提高开发效率。不同
Python学习第十九天 Leo来编程 Python学习学习 python
Django-分页后端分页Django提供了Paginator类来实现后端分页。Paginator类可以将一个查询集（QuerySet）分成多个页面，每个页面包含指定数量的对象。fromdjango.shortcutsimportrender,redirect,get_object_or_404from.modelsimportUserfrom.formsimportUserFormfromdja
【时间复杂度常见的计算】 xihongshi547 算法 leetcode 数据结构
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档时间复杂度的简单介绍前言一、时间复杂度是什么？二、时间复杂度的计算1.基本步骤2.常见的时间复杂度总结前言对于判断一段代码的好坏，取决于该代码运行的时间与占用的空间，也就是时间复杂度与空间复杂度，本章就先讲一下时间复杂度，主要包含常见的时间复杂度的计算。一、时间复杂度是什么？时间复杂度是衡量算法运行效率的一个重要指标，它表示随着输入规
HarmonyOS Next ohpm-repo 自动化运维——批量管理与数据迁移 SameX-4869 运维 harmonyos 自动化
在企业级HarmonyOSNext开发中，ohpm-repo私有仓库的自动化运维是提升开发效率、保障项目稳定运行的关键。通过实现批量管理和数据迁移等功能，可以极大地提高运维效率，降低人工操作成本。下面我们就来详细探讨如何实现这些自动化运维目标。如何导出与迁移已有仓库数据？使用ohpm-repoexport_pkginfo导出已上架的包信息ohpm-repo提供了export_pkginfo命令，可
基于发明的电容电感的新型热力梯度耦合电容电感lc谐振储能可行性热爱电气数学建模
热梯度双层LC谐振储能结构可行性分析设计一种结合热力梯度、电容层（C层）、电感层（L层）及中间耦合层的双层LC谐振储能系统，需从物理原理、材料选择、热管理、能量耦合效率等方面进行综合评估。以下是详细分析：1.设计原理与理论模型（1）结构示意图[高温区]┌───────────────┐│电容层（C层）│→温度梯度ΔT├───────────────┤│热-电耦合层│→热传导/电磁耦合├──────
使用python3批量查询ip9000.txt的9000端口标题 longerxin2020 Linux 脚本集合 python 开发语言
fromseleniumimportwebdriverfromselenium.webdriver.chrome.optionsimportOptionsfromselenium.common.exceptionsimportWebDriverException#配置chromium浏览器选项options=Options()options.binary_location="/usr/bin/ch
（十一）CSharp-LINQ-标准查询运算符（3） CRongQ CSharp linq c#
一、标准查询运算符1、概念标准查询运算符由一系列API方法组成，API能让我们查询任何.NET数组或集合。标准运算符的要点：标准查询运算符使用方法语法。一些运算符返回Ienumerable对象（或其他序列），而其他运算符返回标量。返回标量的运算符立即执行查询，并返回一个值，而不是一个可枚举类型对象。ToArray()、ToList()等ToCollection运算符也会立即执行。很多操作都以一个谓
Linq的理解 It_sharp C#Linq 匿名类型
前面的话这篇文章主要是在工具书中linq的基础上，我做了一些归纳。目录什么是Linq方法语法和查询语法查询表达式的结构标准查询运算符什么是Linq?Linq（link）代表语言集成查询（LanguageIntegratedQuery）Linq是.NET框架的扩展，它允许我们以使用SQL查询数据库的方式来查询数据集合。使用Linq，你可以从数据库、程序对象的集合以及XML文档中查询数据。一个例子st
初见SpringCloud ing Camellia0212 重生之我要做开发 spring spring cloud
Consul服务注册与发现服务注册与发现服务注册：微服务在启动时，会将自己的信息（如IP地址、端口、服务名称等）注册到Consul。服务发现：其他微服务可以通过Consul查询到已注册的服务，并通过这些信息进行通信。分布式配置管理Consul可以作为配置中心，管理分布式系统的配置。SpringCloudConsul可以将配置信息存储在Consul中，并在应用启动时或者运行时动态获取和更新这些配置信
地理数据中的分辨率转换木叶清风666 地理信息数据处理 matlab python 开发语言
数据分辨率问题气象海洋数据在实际应用中，常常涉及到重采样，即分辨率的提高或降低等操作。本文提供了matlab以及python的样例程序，以降低（网格平均）或提高（线性插值）数据的分辨率。1.高分辨率——>低分辨率可以使用循环逐个网格进行操作,但循环次数过多,存在效率低下的问题。%---需要的分辨率0.25°,以及经纬度网格点deg=0.25;lat_era=16:deg:47.75;lon_era
Spring Data JDBC 详解 m0_74823933 面试学习路线阿里巴巴 spring java 数据库
目录一、JPA背景?二、SpringBoot整合SpringdataJDBC??1.配置数据源?2.配置Druid的admin后台??3.Spring-data-jdbc常用接口查询策略1)?CrudRepository增删改查2)PagingAndSortingRepository分页排序一、JPA背景早期的JPA的特性是懒加载和关联查询，一下能查出所有的关联信息，但我们开发者在查询SQL的时候
MyBatis 传递多个参数的方式总是学不会. Mybatis mybatis 开发后端 java
文章目录1️⃣使用`@Param`注解（推荐）2️⃣使用`Map`传递参数3️⃣使用实体类封装参数4️⃣直接使用`List`或`Array`5️⃣XML方式处理多个参数（`parameterType`）6️⃣对比总结7️⃣总结在MyBatis中，我们经常需要向mapper传递多个参数，比如查询条件、分页参数等。然而，由于MyBatis的参数处理方式较为特殊，直接传递多个参数可能会导致无法识别。本文
托盘四向车与子母车对比骞途笔记人工智能经验分享
在同等仓库面积和建筑高度的条件下，托盘四向穿梭车与托盘子母车在存储托盘数量、作业效率、性价比等方面存在显著差异。以下从多个维度进行对比分析：1.存储托盘数量四向穿梭车：四向穿梭车可在货架平面内任意方向行驶（前后、左右、换轨），无需额外转弯空间，货架布局更紧凑，存储密度更高。其支持交叉轨道设计，且可灵活到达任意货位，空间利用率可达80%-90%。例如，在多层货架系统中，通过提升机配合，四向车可覆盖全
电子科技大学2021计算机考研复试科目,2021西安电子科技大学考研复试时间_西安交通大学考研复试科目... 写手一条城
2021考研初试已经落下帷幕，现在就是等待考研成绩及复试的环节了，大家可以预约2021考研成绩查询，一经发布立马提醒，现在同学只需要调整好状态继续前进，准备复试啦！陕西研招网跟大家分享“2021西安电子科技大学考研复试时间_西安电子科技大学考研复试科目”，大家可以参考一下~12月26-28日西安电子科技大学考研初试。预计2月中旬，西安电子科技大学公布初试成绩。3月上旬，34所自划线公布。高分过线的
国央企AI落地：以智能客服系统为突破口的详细实施方案探讨数商云网络 B2B系统数字化电商平台人工智能大数据架构 java 微服务 spring
一、引言随着人工智能（AI）技术的飞速发展和广泛应用，国央企作为国民经济的重要支柱，正积极探索AI技术在企业管理、业务运营等方面的应用。智能客服系统作为AI技术的一个重要应用领域，具有提升服务效率、增强用户体验、降低运营成本等显著优势，成为国央企AI落地的重要突破口。本文将详细探讨国央企如何以智能客服系统为突破口，实施AI技术的落地应用，并结合数商云在智能客服系统领域的实践经验，为国央企提供一套切
软件测试工程师面试题（含答案）美团程序员自动化测试软件测试软件测试面试软件测试软件测试面试面试职场和发展
面试题列表1、自我介绍，涉及工作经历答：基本信息+擅长测试方向+个人突出亮点+以往工作经历等等。2、在公司中测试的流程是什么答：测试流程：需求评审>测试计划>测试计划>测试方案>编写用例>执行用例>回归测试>提交缺陷报告>提交测试报告3、举例一个项目，在项目中做了什么答：可以聊聊做了性能、自动化、工具开发，测试平台开发、功能等自己擅长的地方。4、如何提升测试效率，如何保障测试质量答：测试人员应该从
【2025年春季】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽子凯哥 web安全学习安全 CTF夺旗赛网络安全
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15
CVE-2017-5645(使用 docker 搭建) JM丫网络安全
介绍:是一个与ApacheLog4j2相关的安全漏洞,属于远程代码执行,它可能允许攻击者通过构造恶意的日志信息在目标系统上执行任意代码Log4j2介绍Log4j2是Apache的一个日志记录工具,属于Java应用的日志框架,它是Log4j的升级版,性能更好,功能更多.它被广泛的适用于Java应用程序中,帮助开发者记录程序运行的时候的日子信息,是Java生态系统中最重要的一个日志框架之一漏洞编号:C
浩方wms:什么是海外仓WMS系统?作用是什么？ haofang_software 大数据个人开发 sass 数据库科技
浩方动力科技认为，海外仓作为连接卖家与海外消费者的关键节点，其重要性愈发凸显。海外仓WMS系统（WarehouseManagementSystem），作为一种专门针对海外仓运营的信息化管理系统，正成为提升海外仓运营效率和服务水平的得力助手。什么是海外仓WMS系统呢？海外仓管理系统又有什么作用？浩方WMS，今天来为大家讲解一下海外仓WMS的作用和意义。海外仓WMS系统，顾名思义，是专为海外仓储业务设
软件测试面试题 bobob_ Testing
您所熟悉的测试用例设计方法都有哪些？请分别以具体的例子来说明这些方法在测试用例设计工作中的应用。答：有黑盒和白盒两种测试种类，黑盒有等价类划分法，边界分析法，因果图法和错误猜测法。白盒有逻辑覆盖法，循环测试路径选择，基本路径测试。例子：在一次输入多个条件的完整性查询中。利用等价类划分法则和边界分析法则，首先利用等价划分法，可以一个或多个结果是OK的测试用例，然后确认多个NG的测试用例，然后利用边界
Python（1）Python全方位指南：定义、应用与零基础入门实战一个天蝎座白勺程序猿 Python入门到精通 python 开发语言
背景：为什么Python成为开发者必备技能？‌Python自1991年发布以来，凭借‌“简单高效”‌的设计理念，成为全球增长最快的编程语言。根据TIOBE2023年榜单，Python稳居前三，其核心竞争力包括：‌开发效率高‌：代码量仅为Java的1/5，C++的1/10。‌跨领域通吃‌：从Web开发到AI训练，覆盖90%以上技术场景。‌企业级应用‌：YouTube用Python处理视频推荐，NAS
CSDN社区，到底该不该用DeepSeek AI生成文章？ Small踢倒coffee_氕氘氚 python 经验分享
##引言在当今数字化时代，人工智能（AI）技术正以惊人的速度发展，逐渐渗透到各个行业和领域。作为AI技术的一个重要分支，自然语言处理（NLP）在内容创作、文本生成等方面展现出了巨大的潜力。DeepSeekAI作为一款先进的AI写作工具，能够自动生成高质量的文章，极大地提高了内容创作的效率。然而，随着AI生成内容的普及，CSDN社区中的开发者、技术爱好者和内容创作者们开始思考一个问题：我们到底该不该
hive-进阶版-1 数据牧马人 hive hadoop 数据仓库
第6章hive内部表与外部表的区别Hive是一个基于Hadoop的数据仓库工具，用于对大规模数据集进行数据存储、查询和分析。Hive支持内部表（ManagedTable）和外部表（ExternalTable）两种表类型，它们在数据存储、管理方式和生命周期等方面存在显著区别。以下是内部表和外部表的主要区别：1.数据存储位置内部表：数据存储在Hive的默认存储目录下，通常位于HDFS（HadoopDi
如何利用 AI 技术快速定位和修复生产环境问题 pytorch人工智能
摘要生产环境的问题往往难以复现，排查成本高，直接影响用户体验。传统的日志分析、异常监控、APM（应用性能监控）等方法已经被广泛使用，但随着AI技术的发展，我们可以进一步自动化问题检测、智能日志分析、异常根因分析，极大提高生产问题的排查效率。本文将探讨如何利用AI技术优化生产环境的排查流程，并提供实际可运行的示例代码，帮助开发者掌握AI赋能下的智能问题诊断方法。引言生产环境的稳定性是衡量一个系统可靠
基于HarmonyNext的ArkTS实战：构建跨平台企业级任务管理系统 harmonyos-next
基于HarmonyNext的ArkTS实战：构建跨平台企业级任务管理系统引言在现代企业中，任务管理系统是提升团队协作效率的重要工具。随着HarmonyNext的推出，ArkTS作为其核心开发语言，为开发者提供了强大的跨平台能力和高效的性能支持。本文将深入探讨如何利用ArkTS构建一个跨平台的企业级任务管理系统，涵盖从任务创建、分配到跟踪的完整流程。通过实战案例，我们将展示ArkTS在Harmony
苹果签名的战略价值：解析六大核心优势与商业赋能逻辑 ios
苹果签名的战略价值：解析六大核心优势与商业赋能逻辑（因篇幅过长所以分为两篇帖子发~）在iOS应用生态中，签名机制既是技术护城河，也是开发者突破分发限制的关键武器。本文将从开发效率、商业变现、安全管控等维度，深度剖析苹果签名体系带来的独特价值。一、突破AppStore审核壁垒，加速产品验证苹果签名最核心的优势在于规避冗长审核流程。根据2023年统计，AppStore平均审核周期为24小时，首次提交通
HarmonyOS Next ohpm-repo实战案例——搭建企业级私有仓库 harmonyos
在企业级开发环境中，搭建一个稳定、高效且安全的HarmonyOSNextohpm-repo私有仓库至关重要。它不仅能集中管理项目依赖的三方库，还能提升开发效率、保障代码安全。接下来，我们将从部署架构设计、包管理优化以及访问控制等方面，详细介绍企业级ohpm-repo私有仓库的搭建指南。企业级ohpm-repo部署架构设计（私有仓库+反向代理+多实例高可用架构）私有仓库ohpm-repo作为私有仓库
如何减少跨团队交付摩擦？——基于 DevOps 与敏捷的最佳实践 pythonyaml
摘要在现代软件开发中，跨团队协作的挑战主要体现在需求变更、测试环境不匹配、沟通不畅，这些问题往往导致交付延迟。本文将探讨如何通过DevOps、Scrum以及协作文档来提升跨团队协作效率，并提供可运行的Demo代码模块，帮助读者落地最佳实践。引言在企业软件开发中，产品、开发、测试、运维、设计团队之间的交付摩擦是常见问题。造成这些摩擦的核心原因包括：需求变更频繁：需求文档未同步，开发与产品理解偏差。测
ICC2 高效进阶：set_host_options 命令精解，数字后端设计必备！数字后端物理设计知识库 icc2命令每日精要后端性能优化
在数字后端物理设计的战场中，效率就是生命，而ICC2的set_host_options命令就是助力各位工程师和学子们快速提升效率的神器！今天就带大家深入探索这个命令的奥秘，让复杂的配置变得轻松简单。一、set_host_options的核心价值这个命令专注于多核处理的灵活配置，无论是多线程、分布式处理还是并行任务执行，它都能轻松驾驭。通过精准定义主机资源、核心数以及提交协议等关键参数，工程师们可以
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include