最笨的羊羊

Iceberg从入门到精通系列之二十二：Spark DDL

一、Spark DDL
二、Spark DDL-创建表
三、Spark DDL-PARTITIONED BY
四、Spark DDL-CREATE TABLE ... AS SELECT
五、Spark DDL-REPLACE TABLE ... AS SELECT
六、Spark DDL-DROP TABLE
七、Spark DDL-ALTER TABLE
- 1.ALTER TABLE ... RENAME TO
- 2.ALTER TABLE ... SET TBLPROPERTIES
- 3.ALTER TABLE ... ADD COLUMN
- 4.ALTER TABLE ... RENAME COLUMN
- 5.ALTER TABLE ... ALTER COLUMN
- 6.ALTER TABLE ... DROP COLUMN
- 7.ALTER TABLE ... ADD PARTITION FIELD
- 8.ALTER TABLE ... DROP PARTITION FIELD
- 9.ALTER TABLE ... REPLACE PARTITION FIELD
- 10.ALTER TABLE ... WRITE ORDERED BY
- 11.ALTER TABLE ... WRITE DISTRIBUTED BY PARTITION
- 12.ALTER TABLE ... SET IDENTIFIER FIELDS
- 13.ALTER TABLE ... DROP IDENTIFIER FIELDS
- 14.ALTER TABLE ... CREATE BRANCH
- 15.ALTER TABLE ... CREATE TAG
- 16.ALTER TABLE ... REPLACE BRANCH
- 17.ALTER TABLE ... REPLACE TAG
- 18.ALTER TABLE ... DROP BRANCH
- 19.ALTER TABLE ... DROP TAG

一、Spark DDL

要在 Spark 中使用 Iceberg，请首先配置 Spark 目录。 Iceberg 使用 Apache Spark 的 DataSourceV2 API 来实现数据源和目录。

二、Spark DDL-创建表

Spark 3 可以使用 USINGiceberg 子句在任何 Iceberg 目录中创建表：

CREATE TABLE prod.db.sample (
    id bigint COMMENT 'unique id',
    data string)
USING iceberg

Iceberg会将Spark中的列类型转换为对应的Iceberg类型。详细信息请查看创建表的类型兼容性部分。

PARTITIONED BY（分区表达式）来配置分区
LOCATION ‘(完全限定-uri)’ 设置表位置
COMMENT ‘表文档’ 设置表描述
TBLPROPERTIES(‘key’=‘value’, …) 设置表配置

创建命令还可以使用 USING 子句设置默认格式。仅 SparkCatalog 支持此功能，因为 Spark 对内置目录的 USING 子句的处理方式不同。

三、Spark DDL-PARTITIONED BY

要创建分区表，请使用 PARTITIONED BY：

CREATE TABLE prod.db.sample (
    id bigint,
    data string,
    category string)
USING iceberg
PARTITIONED BY (category)

PARTITIONED BY 子句支持转换表达式来创建隐藏分区。

CREATE TABLE prod.db.sample (
    id bigint,
    data string,
    category string,
    ts timestamp)
USING iceberg
PARTITIONED BY (bucket(16, id), days(ts), category)

支持的转换有：

Year(ts)：按年份分区
Month(ts)：按月分区
day(ts) 或 date(ts)：相当于 dateint 分区
hour(ts) 或 date_hour(ts)：相当于 dateint 和 hour 分区
bucket(N, col)：按哈希值 mod N 个桶进行分区
truncate(L, col)：按截断为 L 的值进行分区
- 字符串被截断为给定长度
- 整数和长整型截断为 bin： truncate(10, i) 生成分区 0, 10, 20, 30,

注意：为了兼容性，还支持年（ts）、月（ts）、日（ts）和小时（ts）的旧语法。

四、Spark DDL-CREATE TABLE … AS SELECT

使用 SparkCatalog 时，Iceberg 支持 CTAS 作为原子操作。支持 CTAS，但在使用 SparkSessionCatalog 时不是原子的。

CREATE TABLE prod.db.sample
USING iceberg
AS SELECT ...

新创建的表不会继承 SELECT 中源表的分区规范和表属性，您可以使用 CTAS 中的 PARTITIONED BY 和 TBLPROPERTIES 来声明新表的分区规范和表属性。

CREATE TABLE prod.db.sample
USING iceberg
PARTITIONED BY (part)
TBLPROPERTIES ('key'='value')
AS SELECT ...

五、Spark DDL-REPLACE TABLE … AS SELECT

使用 SparkCatalog 时，Iceberg 支持 RTAS 作为原子操作。支持 RTAS，但在使用 SparkSessionCatalog 时不是原子的。

原子表替换使用 SELECT 查询的结果创建新快照，但保留表历史记录。

REPLACE TABLE prod.db.sample
USING iceberg
AS SELECT ...

REPLACE TABLE prod.db.sample
USING iceberg
PARTITIONED BY (part)
TBLPROPERTIES ('key'='value')
AS SELECT ...

CREATE OR REPLACE TABLE prod.db.sample
USING iceberg
AS SELECT ...

六、Spark DDL-DROP TABLE

删除表行为在 0.14 中发生了变化。

在 0.14 之前，运行 DROP TABLE 将从目录中删除表并删除表内容。

从 0.14 开始，DROP TABLE 只会从目录中删除表。为了删除表内容，应使用 DROP TABLE PURGE。

DROP TABLE

要从目录中删除表，请运行：

DROP TABLE prod.db.sample

DROP TABLE PURGE
要从目录中删除表并删除表的内容，请运行：

DROP TABLE prod.db.sample PURGE

七、Spark DDL-ALTER TABLE

Iceberg 在 Spark 3 中拥有完整的 ALTER TABLE 支持，包括：

重命名表
设置或删除表属性
添加、删除和重命名列
添加、删除和重命名嵌套字段
重新排序顶级列和嵌套结构字段
扩大 int、float 和decimal 字段的类型
将必需的列设置为可选

此外，SQL 扩展可用于添加对分区演化和设置表的写入顺序的支持

1.ALTER TABLE … RENAME TO

ALTER TABLE prod.db.sample RENAME TO prod.db.new_name

2.ALTER TABLE … SET TBLPROPERTIES

ALTER TABLE prod.db.sample SET TBLPROPERTIES (
    'read.split.target-size'='268435456'
)

Iceberg 使用表属性来控制表行为。

UNSET 用于删除属性:

ALTER TABLE prod.db.sample UNSET TBLPROPERTIES ('read.split.target-size')

SET TBLPROPERTIES 还可以用来设置表注释（描述）：

ALTER TABLE prod.db.sample SET TBLPROPERTIES (
    'comment' = 'A table comment.'
)

3.ALTER TABLE … ADD COLUMN

要将列添加到 Iceberg，请使用 ADD COLUMNS 子句和 ALTER TABLE：

ALTER TABLE prod.db.sample
ADD COLUMNS (
    new_column string comment 'new_column docs'
  )

可以同时添加多列，以逗号分隔。

应使用完整的列名称来标识嵌套列：

-- create a struct column
ALTER TABLE prod.db.sample
ADD COLUMN point struct<x: double, y: double>;

-- add a field to the struct
ALTER TABLE prod.db.sample
ADD COLUMN point.z double

-- create a nested array column of struct
ALTER TABLE prod.db.sample
ADD COLUMN points array<struct<x: double, y: double>>;

-- add a field to the struct within an array. Using keyword 'element' to access the array's element column.
ALTER TABLE prod.db.sample
ADD COLUMN points.element.z double

-- create a map column of struct key and struct value
ALTER TABLE prod.db.sample
ADD COLUMN points map<struct<x: int>, struct<a: int>>;

-- add a field to the value struct in a map. Using keyword 'value' to access the map's value column.
ALTER TABLE prod.db.sample
ADD COLUMN points.value.b int

注意：不允许通过添加列来更改映射“键”列。只能更新地图值。

通过添加 FIRST 或 AFTER 子句在任意位置添加列：

ALTER TABLE prod.db.sample
ADD COLUMN new_column bigint AFTER other_column

ALTER TABLE prod.db.sample
ADD COLUMN nested.new_column bigint FIRST

4.ALTER TABLE … RENAME COLUMN

Iceberg 允许重命名任何字段。要重命名字段，请使用 RENAME COLUMN：

ALTER TABLE prod.db.sample RENAME COLUMN data TO payload
ALTER TABLE prod.db.sample RENAME COLUMN location.lat TO latitude

请注意，嵌套重命名命令仅重命名叶字段。上述命令将 location.lat 重命名为 location.latitude

5.ALTER TABLE … ALTER COLUMN

更改列用于扩大类型、使字段可选、设置注释以及重新排序字段。

如果更新是安全的，Iceberg 允许更新列类型。安全更新是：

int to bigint
float to double
decimal(P,S) to decimal(P2,S) when P2 > P (scale cannot change)

ALTER TABLE prod.db.sample ALTER COLUMN measurement TYPE double

要从结构中添加或删除列，请使用带有嵌套列名称的 ADD COLUMN 或 DROP COLUMN。

列注释也可以使用 ALTER COLUMN 进行更新：

ALTER TABLE prod.db.sample ALTER COLUMN measurement TYPE double COMMENT 'unit is bytes per second'
ALTER TABLE prod.db.sample ALTER COLUMN measurement COMMENT 'unit is kilobytes per second'

Iceberg 允许使用 FIRST 和 AFTER 子句对顶级列或结构中的列进行重新排序：

ALTER TABLE prod.db.sample ALTER COLUMN col FIRST
ALTER TABLE prod.db.sample ALTER COLUMN nested.col AFTER other_col

可以使用 DROP NOT NULL 更改不可为空列的可为空性：

ALTER TABLE prod.db.sample ALTER COLUMN id DROP NOT NULL

无法使用 SET NOT NULL 将可空列更改为不可空列，因为 Iceberg 不知道是否存在具有空值的现有数据。

ALTER COLUMN 不用于更新结构类型。使用 ADD COLUMN 和 DROP COLUMN 添加或删除结构字段。

6.ALTER TABLE … DROP COLUMN

要删除列，请使用 ALTER TABLE … DROP COLUMN：

ALTER TABLE prod.db.sample DROP COLUMN id
ALTER TABLE prod.db.sample DROP COLUMN point.z

ALTER TABLE SQL extensions

使用 Iceberg SQL 扩展时，这些命令在 Spark 3 中可用。

7.ALTER TABLE … ADD PARTITION FIELD

Iceberg 支持使用 ADD PARTITION FIELD 将新的分区字段添加到规范中：

ALTER TABLE prod.db.sample ADD PARTITION FIELD catalog

还支持分区转换：

ALTER TABLE prod.db.sample ADD PARTITION FIELD bucket(16, id)
ALTER TABLE prod.db.sample ADD PARTITION FIELD truncate(4, data)
ALTER TABLE prod.db.sample ADD PARTITION FIELD year(ts)
-- use optional AS keyword to specify a custom name for the partition field 
ALTER TABLE prod.db.sample ADD PARTITION FIELD bucket(16, id) AS shard

添加分区字段是元数据操作，不会更改任何现有表数据。新数据将使用新分区写入，但现有数据将保留在旧分区布局中。旧数据文件的元数据表中的新分区字段将为空值。

当表的分区发生变化时，动态分区覆盖行为也会发生变化，因为动态覆盖会隐式替换分区。要显式覆盖，请使用新的 DataFrameWriterV2 API。

要通过转换从每日分区迁移到每小时分区，无需删除每日分区字段。保留该字段可确保现有元数据表查询继续工作。
当分区发生变化时，动态分区覆盖行为也会发生变化。例如，如果您按天分区并改为按小时分区，则覆盖将覆盖每小时分区，但不再覆盖天分区。

8.ALTER TABLE … DROP PARTITION FIELD

可以使用 DROP PARTITION FIELD 删除分区字段：

ALTER TABLE prod.db.sample DROP PARTITION FIELD catalog
ALTER TABLE prod.db.sample DROP PARTITION FIELD bucket(16, id)
ALTER TABLE prod.db.sample DROP PARTITION FIELD truncate(4, data)
ALTER TABLE prod.db.sample DROP PARTITION FIELD year(ts)
ALTER TABLE prod.db.sample DROP PARTITION FIELD shard

请注意，尽管删除了分区，但该列仍将存在于表模式中。

删除分区字段是元数据操作，不会更改任何现有表数据。新数据将使用新分区写入，但现有数据将保留在旧分区布局中。

当分区更改时，动态分区覆盖行为将会改变。例如，如果您按天分区并转为按小时分区，则覆盖将覆盖每小时分区，但不再覆盖天分区。
删除分区字段时要小心，因为它会更改元数据表（如文件）的架构，并可能导致元数据查询失败或产生不同的结果。

9.ALTER TABLE … REPLACE PARTITION FIELD

通过使用 REPLACE PARTITION FIELD，可以在单个元数据更新中将分区字段替换为新的分区字段：

ALTER TABLE prod.db.sample REPLACE PARTITION FIELD ts_day WITH day(ts)
-- use optional AS keyword to specify a custom name for the new partition field 
ALTER TABLE prod.db.sample REPLACE PARTITION FIELD ts_day WITH day(ts) AS day_of_ts

10.ALTER TABLE … WRITE ORDERED BY

Iceberg 表可以配置排序顺序，用于自动对某些引擎中写入表的数据进行排序。例如，Spark 中的 MERGE INTO 将使用表排序。

要设置表的写入顺序，请使用 WRITE ORDERED BY：

ALTER TABLE prod.db.sample WRITE ORDERED BY category, id
-- use optional ASC/DEC keyword to specify sort order of each field (default ASC)
ALTER TABLE prod.db.sample WRITE ORDERED BY category ASC, id DESC
-- use optional NULLS FIRST/NULLS LAST keyword to specify null order of each field (default FIRST)
ALTER TABLE prod.db.sample WRITE ORDERED BY category ASC NULLS LAST, id DESC NULLS FIRST

表写入顺序不保证查询的数据顺序。它仅影响数据写入表的方式。

WRITE ORDERED BY 设置全局排序，其中行跨任务排序，就像在 INSERT 命令中使用 ORDER BY 一样：

INSERT INTO prod.db.sample
SELECT id, data, category, ts FROM another_table
ORDER BY ts, category

要在每个任务内而不是跨任务排序，请使用 LOCALLY ORDERED BY：

ALTER TABLE prod.db.sample WRITE LOCALLY ORDERED BY category, id

11.ALTER TABLE … WRITE DISTRIBUTED BY PARTITION

WRITE DISTRIBUTED BY PARTITION 会要求每个分区由一个 writer 处理，默认实现是哈希分布。

ALTER TABLE prod.db.sample WRITE DISTRIBUTED BY PARTITION

DISTRIBUTED BY PARTITION 和 LOCALLY ORDERED BY 可以一起使用，以按分区分布并在每个任务中本地排序行。

ALTER TABLE prod.db.sample WRITE DISTRIBUTED BY PARTITION LOCALLY ORDERED BY category, id

12.ALTER TABLE … SET IDENTIFIER FIELDS

Iceberg 支持使用 SET IDENTIFIER FIELDS 将标识符字段设置为规范：

ALTER TABLE prod.db.sample SET IDENTIFIER FIELDS id
-- single column
ALTER TABLE prod.db.sample SET IDENTIFIER FIELDS id, data
-- multiple columns

标识符字段必须为 NOT NULL，后面的 ALTER 语句将覆盖之前的设置。

13.ALTER TABLE … DROP IDENTIFIER FIELDS

可以使用 DROP IDENTIFIER FIELDS 删除标识符字段：

ALTER TABLE prod.db.sample DROP IDENTIFIER FIELDS id
-- single column
ALTER TABLE prod.db.sample DROP IDENTIFIER FIELDS id, data
-- multiple columns

请注意，尽管标识符已被删除，但该列仍将存在于表架构中。

分支和标记 DDL

14.ALTER TABLE … CREATE BRANCH

可以通过 CREATE BRANCH 语句使用以下选项创建分支：

如果分支已经存在且 IF NOT EXISTS 则不会失败
如果分支已存在，则使用 CREATE OR REPLACE 更新分支
在快照上创建
创造并保留

-- CREATE audit-branch at current snapshot with default retention.
ALTER TABLE prod.db.sample CREATE BRANCH `audit-branch`

-- CREATE audit-branch at current snapshot with default retention if it doesn't exist.
ALTER TABLE prod.db.sample CREATE BRANCH IF NOT EXISTS `audit-branch`

-- CREATE audit-branch at current snapshot with default retention or REPLACE it if it already exists.
ALTER TABLE prod.db.sample CREATE OR REPLACE BRANCH `audit-branch`

-- CREATE audit-branch at snapshot 1234 with default retention.
ALTER TABLE prod.db.sample CREATE BRANCH `audit-branch`
AS OF VERSION 1234

-- CREATE audit-branch at snapshot 1234, retain audit-branch for 31 days, and retain the latest 31 days. The latest 3 snapshot snapshots, and 2 days worth of snapshots. 
ALTER TABLE prod.db.sample CREATE BRANCH `audit-branch`
AS OF VERSION 1234 RETAIN 30 DAYS 
WITH SNAPSHOT RETENTION 3 SNAPSHOTS 2 DAYS

15.ALTER TABLE … CREATE TAG

可以通过 CREATE TAG 语句使用以下选项创建标签：

如果标签已经存在并且使用 IF NOT EXISTS 则不会失败
如果标签已存在，请使用 CREATE OR REPLACE 更新标签
在快照上创建
创造并保留

-- CREATE historical-tag at current snapshot with default retention.
ALTER TABLE prod.db.sample CREATE TAG `historical-tag`

-- CREATE historical-tag at current snapshot with default retention if it doesn't exist.
ALTER TABLE prod.db.sample CREATE TAG IF NOT EXISTS `historical-tag`

-- CREATE historical-tag at current snapshot with default retention or REPLACE it if it already exists.
ALTER TABLE prod.db.sample CREATE OR REPLACE TAG `historical-tag`

-- CREATE historical-tag at snapshot 1234 with default retention.
ALTER TABLE prod.db.sample CREATE TAG `historical-tag` AS OF VERSION 1234

-- CREATE historical-tag at snapshot 1234 and retain it for 1 year. 
ALTER TABLE prod.db.sample CREATE TAG `historical-tag` 
AS OF VERSION 1234 RETAIN 365 DAYS

16.ALTER TABLE … REPLACE BRANCH

分支引用的快照可以通过 REPLACE BRANCH sql 进行更新。保留也可以在此声明中更新。

-- REPLACE audit-branch to reference snapshot 4567 and update the retention to 60 days.
ALTER TABLE prod.db.sample REPLACE BRANCH `audit-branch`
AS OF VERSION 4567 RETAIN 60 DAYS

17.ALTER TABLE … REPLACE TAG

标签引用的快照可以通过 REPLACE TAG sql 进行更新。保留也可以在此声明中更新。

-- REPLACE historical-tag to reference snapshot 4567 and update the retention to 60 days.
ALTER TABLE prod.db.sample REPLACE TAG `historical-tag`
AS OF VERSION 4567 RETAIN 60 DAYS

18.ALTER TABLE … DROP BRANCH

可以通过 DROP BRANCH sql 删除分支

ALTER TABLE prod.db.sample DROP BRANCH `audit-branch`

19.ALTER TABLE … DROP TAG

可以通过 DROP TAG sql 删除标签

ALTER TABLE prod.db.sample DROP TAG `historical-tag`

Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
ARM嵌入式可编程控制器技术开发拉勾科研工作室 arm开发
PLC自动化设计|毕业设计指导|工业自动化解决方案✨专业领域：PLC程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列PLC编程三菱/欧姆龙PLC应用触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：PLC控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
C++ 设计模式：抽象工厂（Abstract Factory）冀晓武 C++设计模式 c++设计模式抽象工厂模式
链接：C++设计模式链接：C++设计模式-工厂方法链接：C++设计模式-原型模式链接：C++设计模式-建造者模式抽象工厂（AbstractFactory）是一种创建型设计模式，它提供一个接口，用于创建一系列相关或相互依赖的对象，而无需指定它们的具体类。抽象工厂模式通常用于创建一组相关的产品对象，例如不同类型的机器人和它们的配件。1.问题分析在某些情况下，我们需要创建一组相关或相互依赖的对象，但我们
MySQL Explain 详解：从入门到精通，让你的 SQL 飞起来
引言：为什么Explain是SQL优化的“照妖镜”？在Java开发中，我们常常会遇到数据库性能瓶颈的问题。一条看似简单的SQL语句，在数据量增长到一定规模后，可能会从毫秒级响应变成秒级甚至分钟级响应，直接拖慢整个应用的性能。此时，你是否曾困惑于：为什么这条SQL突然变慢了？索引明明建了，为什么没生效？到底是哪里出了问题？答案就藏在MySQL的EXPLAIN命令里。EXPLAIN就像一面“照妖镜”，
cesium添加原生MVT矢量瓦片方案 zhu_zhu_xia cesium vue arcgis cesium webgl javascript
项目中需要基于cesium接入mvt格式的服务并支持属性拾取查询，通过一系列预研测试，最后选择cesium-mvt-imagery-provider开源插件完成，关键源码信息如下：npmicesiumcesium-mvt-imagery-provider//安装依赖包//加载图层importCesiumMVTImageryProviderfrom"cesium-mvt-imagery-provid
Kafka系列之：Dead Letter Queue死信队列DLQ 快乐骑行^_^ Kafka Kafka系列 Dead Letter Queue 死信队列 DLQ
Kafka系列之：DeadLetterQueue死信队列DLQ一、死信队列二、参数errors.tolerance三、创建死信队列主题四、在启用安全性的情况下使用死信队列更多内容请阅读博主这篇博客：Kafka系列之：KafkaConnect深入探讨-错误处理和死信队列一、死信队列死信队列（DLQ）仅适用于接收器连接器。当一条记录以JSON格式到达接收器连接器时，但接收器连接器配置期望另一种格式，如
[特殊字符] 实时数据洪流突围战：Flink+Paimon实现毫秒级分析的架构革命（附压测报告）——日均百亿级数据处理成本降低60%的工业级方案 Lucas55555555 flink 大数据
引言：流批一体的时代拐点据阿里云2025白皮书显示，实时数据处理需求年增速达240%，但传统Lambda架构资源消耗占比超运维成本的70%。某电商平台借助Flink+Paimon重构实时数仓后，端到端延迟从分钟级压缩至800ms，计算资源节省5.6万核/月。技术红利窗口期：2025年ApachePaimon1.0正式发布，支持秒级快照与湖仓一体，成为替代Iceberg的新范式一、痛点深挖：实时数仓
深入了解 Vim 编辑器：从入门到精通誰能久伴不乏编辑器 vim linux
文章目录深入了解Vim编辑器：从入门到精通一、Vim的三个基本模式1.普通模式（NormalMode）2.插入模式（InsertMode）3.命令模式（CommandMode）二、常用快捷键光标移动删除操作复制和粘贴撤销和重做三、文件操作与搜索文件操作搜索文本替换文本四、Vim的进阶功能多文件编辑分屏功能标签页查看帮助五、总结深入了解Vim编辑器：从入门到精通Vim是一个强大的文本编辑器，广泛应用
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法深度学习人工智能
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？在大语言模型（LLM）中，最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息，这是由LLM的核心架构（以Transformer为基础）决定的，具体可以从以下角度理解：1.核心机制：自注意力（Self-Attention）的作用现代LLM（如GPT系列、Qwen等）均基于Transformer架构，其核心是自注意力机制。在
flutter redux状态管理 liao277218962 Flutter flutter state redux
Flutter状态管理系列文章目录Flutter状态管理(setState、InheritedWidget、Provider、Riverpod、BLoC/Cubit、GetX、MobX、Redux)setState()使用详解：原理及注意事项InheritedWidget组件使用及原理Flutter中Provider的使用、注意事项与原理解析（含代码实战）GetX用法详细解析以及注意事项Flutt
AI Agent开发学习系列 - langchain之Chains的使用(7)：用四种处理文档的预制链轻松实现文档对话 alex100 AI Agent 学习人工智能 langchain prompt 语言模型 python
在LangChain中，四种文档处理预制链（stuff、refine、mapreduce、mapre-rank）是实现文档问答、摘要等任务的常用高阶工具。它们的核心作用是：将长文档切分为块，分步处理，再整合结果，极大提升大模型处理长文档的能力。stuff直接拼接所有文档内容到prompt，一次性交给大模型处理。适合文档较短、token不超限的场景。refine递进式摘要。先对第一块文档生成初步答案
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
2025.07.09华为机考真题解析-第一题100分春秋招笔试突围最新互联网春秋招试题合集华为
点击直达笔试专栏《大厂笔试突围》春秋招笔试突围在线OJ笔试突围OJ01.花园灯具照明设计问题描述K小姐正在为她的私人花园设计照明系统。花园是一条长廊，由nnn
《Python星球日记》第35天：全栈开发（综合项目） Code_流苏 Python星球日记编程项目实战 Python全栈开发 Django Flask 后端开发博客系统
名人说：路漫漫其修远兮，吾将上下而求索。——屈原《离骚》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder）专栏：《Python星球日记》，限时特价订阅中ing目录一、全栈开发概述1.全栈开发的优势2.全栈开发技能组合二、博客系统项目需求分析1.功能需求2.技术栈选择3.项目结构规划三、数据库设计1.实体关系分析2.Django模型设计四、后端开发1.Django项目创建2.视图
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
模型训练与部署注意事项篇---resize Atticus-Orion 图像处理篇深度学习篇模型训练与部署注意事项篇深度学习计算机视觉人工智能
图像大小的影响在YOLOv系列模型的训练和推理部署过程中，图像大小的选择是影响模型性能（精度、速度、泛化能力）的关键因素之一。两者的关系既相互关联，又存在一定的灵活性，具体可从以下几个方面详细分析：一、核心关系：训练与推理图像大小的“基准一致性”YOLOv模型（如YOLOv5、v7、v8等）的训练和推理图像大小通常以**“基准尺寸”**为核心关联，即训练时设定的图像尺寸会作为模型设计的基础，而推理
上位机知识篇---常见的文件系统
文件系统是操作系统用于管理和组织存储设备上文件的机制，它决定了文件的存储方式、命名规则、访问权限、数据结构等。以下是常见的文件系统及其应用场景、优势和劣势的详细介绍：一、Windows常用文件系统1.FAT32（FileAllocationTable32）基本特点：采用32位文件分配表，是FAT系列的升级版，支持最大单文件4GB，最大分区容量理论上为8TB（实际常用2TB以内）。应用场景：U盘、存
400多个免费在线编程与计算机科学课程 zhufafa 基础理论课程理论计算机基础免费
来源：medium作者：DhawalShah五年前，麻省理工学院和斯坦福大学等学校首先向公众开放免费的在线课程。如今，全球有700多所学校创造了数以千计的免费在线课程。从入门到精通系列，是作者通过ClassCentral的课程数据库整理的400多个免费在线课程的简介和链接（来源于ClassCentral，一个在线课程搜索引擎），根据课程难度分为入门、进阶和高阶三大类，每门课程还有星级评分（统计自C
如何在 Linux 上安装 RTX 5090 / 5080 /5070 Ti / 5070 驱动程序 — 详细指南知识大胖 NVIDIA GPU和大语言模型开发教程 linux 运维服务器
简介为了获得最佳性能，您需要在Linux上运行5090/5080/5070Ti/5070或其他50系列GPU（或Windows上的WSL）。这篇文章将包含有关如何操作的详细指南。主线内核和驱动程序怪癖之旅Nvidia50系列GPU拥有最新的Nvidia技术。但是，新硬件需要一些新软件或更新，这需要一些耐心。如果您在这里，您可能会遇到Ubuntu默认设置的障碍。不要害怕！我最近自己摸索了这个迷宫，结
AI MCP教程之什么是 MCP？利用本地 LLM 、MCP、DeepSeek 集成构建您自己的 AI 驱动工具知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 mcp deepseek
介绍利用模型上下文协议(MCP)的工具吸引了我们的注意力—将AI变成触手可及的生产力引擎。它们巧妙、高效，让人难以抗拒。但如果您可以将这样的功能添加到自己的工具中，会怎么样呢？在本指南中，我将引导您构建一个具有本地运行的大型语言模型(LLM)和MCP集成的AI工具-让您以类似的方式自动执行利用MCP的工具您喜欢的任务。推荐文章《AnythingLLM教程系列之12AnythingLLM上的Olla
使用 Deepseek Zero Coding Experience 创建类似飞扬的小鸟游戏知识大胖 NVIDIA GPU和大语言模型开发教程游戏 deepseek ollama janus pro
简介Flappybird在苹果商店推出后，每天大约能赚5000美元，但后来被苹果故意下架。现在我正尝试使用Deepseek制作这样一款游戏。技术在不断变化，编码知识也在不断变化，只需修改代码即可获得结果。让我们在Deepseek上试试这款游戏：推荐文章《如何在本地电脑上安装和使用DeepSeekR-1》权重1，DeepSeek《Nvidia系列之使用NVIDIAIsaacSim和ROS2的命令行控
NVIDIA 系列之使用生成式 AI 增强 ROS2 机器人技术：使用 BLIP 和 Isaac Sim 进行实时图像字幕制作知识大胖 NVIDIA GPU和大语言模型开发教程人工智能机器人
简介在快速发展的机器人领域，集成先进的AI模型可以显著增强机器人系统的功能。在本博客中，我们将探讨如何在ROS2（机器人操作系统2）环境中利用BLIP（引导语言图像预训练）模型进行实时图像字幕制作，并使用NVIDIAIsaacSim进行模拟。我们将介绍如何实现一个ROS2节点，该节点订阅摄像头源、应用BLIP模型进行图像字幕制作，并实时显示结果。这种集成展示了生成式AI在增强人机交互方面的强大功能
卫星分析系列之使用卫星图像量化野火烧毁面积在 Google Colab 中使用 Python 使用 Sentinel-2 图像确定森林火灾烧毁面积知识大胖 NVIDIA GPU和大语言模型开发教程 python sentinel 开发语言
简介几年前，当大多数气候模型预测如果我们不采取必要措施，洪水、热浪和野火将会发生更多时，我没想到这些不寻常的灾难现象会成为常见事件。其中，野火每年摧毁大量森林面积。如果你搜索不同地方的重大野火表格，你会发现令人震惊的统计数据，显示由于野火，地球上有多少森林面积正在消失。在本教程中，我将结合我已经发表过的关于下载、处理卫星图像和可视化野火的故事，量化加州发生的其中一场重大野火的烧毁面积。与之前的帖子
OpenWebUI系列之如何通过docker自动将其更新到OpenWebUI最新版本知识大胖 NVIDIA GPU和大语言模型开发教程 docker llm openwebui
实战需求OpenWebUI是一个可扩展、功能丰富且用户友好的自托管WebUI，旨在完全离线运行。它支持各种LLM运行器，包括Ollama和OpenAI兼容API。如何通过docker自动将其更新到OpenWebUI最新版本？系列文章《OpenWebUI系列之如何通过docker更新到OpenWebUI的最新版本》权重0，本地类、opewebui类《OpenWebUI系列之如何通过docker自动将
AnythingLLM教程系列之 12 AnythingLLM 上的 Ollama 与 MySQL+PostgreSQL 知识大胖 NVIDIA GPU和大语言模型开发教程 mysql postgresql 数据库 anythingllm ollama
简介一款全栈应用程序，可让您将任何文档、资源或内容转换为上下文，任何LLM都可以在聊天期间将其用作参考。此应用程序允许您选择要使用的LLM或矢量数据库，并支持多用户管理和权限。本文将介绍如何在AnythingLLM上将Ollama与MySQL+PostgreSQL连接起来。系列文章如何安装《无需任何代码构建自己的大模型知识库：AnythingLLM最易于使用的一体化AI应用程序，可以执行RAG、A
AnythingLLM教程系列之 09 AnythingLLM 支持自定义音频转录提供程序知识大胖 NVIDIA GPU和大语言模型开发教程 llama3 anythingllm llm
什么是AnythingLLM?AnythingLLM是最易于使用的一体化AI应用程序，可以执行RAG、AI代理等操作，且无需任何代码或基础设施难题。您需要为您的企业或组织提供一款完全可定制、私有且一体化的AI应用程序，该应用程序基本上是一个具有许可的完整ChatGPT，但具有任何LLM、嵌入模型或矢量数据库。如何安装《无需任何代码构建自己的大模型知识库：AnythingLLM最易于使用的一体化AI
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs

Iceberg从入门到精通系列之二十二：Spark DDL

Iceberg从入门到精通系列之二十二：Spark DDL

一、Spark DDL

二、Spark DDL-创建表

三、Spark DDL-PARTITIONED BY

四、Spark DDL-CREATE TABLE … AS SELECT

五、Spark DDL-REPLACE TABLE … AS SELECT

六、Spark DDL-DROP TABLE

七、Spark DDL-ALTER TABLE

1.ALTER TABLE … RENAME TO

2.ALTER TABLE … SET TBLPROPERTIES

3.ALTER TABLE … ADD COLUMN

4.ALTER TABLE … RENAME COLUMN

5.ALTER TABLE … ALTER COLUMN

6.ALTER TABLE … DROP COLUMN

7.ALTER TABLE … ADD PARTITION FIELD

8.ALTER TABLE … DROP PARTITION FIELD

9.ALTER TABLE … REPLACE PARTITION FIELD

10.ALTER TABLE … WRITE ORDERED BY

11.ALTER TABLE … WRITE DISTRIBUTED BY PARTITION

12.ALTER TABLE … SET IDENTIFIER FIELDS

13.ALTER TABLE … DROP IDENTIFIER FIELDS

14.ALTER TABLE … CREATE BRANCH

15.ALTER TABLE … CREATE TAG

16.ALTER TABLE … REPLACE BRANCH

17.ALTER TABLE … REPLACE TAG

18.ALTER TABLE … DROP BRANCH

19.ALTER TABLE … DROP TAG

你可能感兴趣的:(日常分享专栏,Iceberg,从入门到精通系列之二十二,Spark,DDL)