DaMeng999

机器学习实战笔记——第十三章

一、数据 API

使用 tf.data.Dataset.from_tensor_slices 创建一个数据集：

dataset = tf.data.Dataset.from_tensor_slices(tf.range(10))

print(dataset, tf.range(10))
for item in dataset:
    print(item)

结果如下：

from_tensor_slices

该函数创建一个给定张量的切片（沿第一个维度）。给定的张量沿它们的第一维进行切片。此操作保留输入张量的结构，删除每个张量的第一个维度并将其用作数据集维度。所有输入张量的第一维必须具有相同的大小。

from_tensor_slices(
    tensors
)

1.1 链式转换

dataset = dataset.repeat(3).batch(7, drop_remainder=True)

for item in dataset:
    print("repeat(3).batch: ", item)

dataset = dataset.map(lambda x: x * 2)

for item in dataset:
    print("map: ", item)

dataset = dataset.apply(tf.data.experimental.unbatch())

for item in dataset:
    print("apply: ", item)

dataset = dataset.filter(lambda x: x < 10)

for item in dataset:
    print("filter: ", item)

for item in dataset.take(3):
    print("take: ", item)

可以对数据集进行转换，每个方法都会返回一个新的数据集而不是对原有数据集改动。所以需要新的变量来保存新数据集。Dateset 的方法如下

1.1.1 repeat

重复数据集 count 次。

repeat(
    count=None
)

参数	注释
count	一个 tf.int64，表示数据集应该重复的次数。默认行为（如果 `count`是`None`或`-1`）是无限期重复数据集。

1.1.2 batch

将此数据集的连续元素组合成批。

batch(
    batch_size, drop_remainder=False, num_parallel_calls=None, deterministic=None
)

参数	注释
batch_size	在单个批次中组合的此数据集的连续元素的数量
drop_remainder	表示在最后一批少于元素的情况下是否应该删除它；
其它	tf.data.Dataset \| TensorFlow Core v2.6.0

1.1.3 map

映射数据集的元素。

map(
    map_func, num_parallel_calls=None, deterministic=None
)

参数	注释
map_func	映射函数
其它	tf.data.Dataset \| TensorFlow Core v2.6.0

1.1.4 apply

转换整个数据集

apply(
    transformation_func
)

参数	注释
transformation_func	接受一个 Dataset 参数并返回一个 Dataset 的函数

示例如下：

dataset = tf.data.Dataset.range(100)

def dataset_fn(ds):
  return ds.filter(lambda x: x < 5)

dataset = dataset.apply(dataset_fn)
print(list(dataset.as_numpy_iterator()))

1.1.5 filter

过滤数据集。

filter(
    predicate
)

参数	注释
predicate	将数据集元素映射到布尔值的函数

1.2 乱序数据

当训练数据集独立且均匀分布时，梯度下降效果最佳，可以通过 shuffle 方法对实例进行乱序，该函数会创建一个新的数据集，首先将源数据集的第一个元素填充到缓冲区中，并用源数据集中的新元素替换它，需要指定缓冲区的大小，并且可以提供随机种子。

dataset = tf.data.Dataset.range(10).repeat(3)
dataset = dataset.shuffle(buffer_size=5, seed=42).batch(7)

for item in dataset:
    print("shuffle：", item)

如果在经过乱序的数据集上调用 repeat 函数，默认情况下会在每次迭代生成一个新次序；如果希望每次迭代重用相同的顺序，可以设置 reshuffle_each_iteration = False 。

但是对于不适合内存的大型数据集，缓冲区会很小，上述方法的作用很小。可以将源数据拆分成多个文件，在训练过程中以随机顺序读取它们，由于同一文件中的实例接近，可以同时读取多个文件并交错读取记录。

# 设 train_filepaths 为文件匹配集合
filepath_datasets = tf.data.Dataset.list_files(train_filepaths, seed=42)

接下来可以调用 interleave 方法一次读取多个文件：

dataset = filepath_datasets.interleave(lambda filepath: tf.data.TextLineDataset(filepath).skip(1), cycle_length=5)

默认情况下，interleave 不使用并行，它顺序的从每个文件中一次读取一行，若希望并行读取，可以将 num_parallel_calls 参数设置为所需的线程数。

1.2.1 shuffle

shuffle(
    buffer_size, seed=None, reshuffle_each_iteration=None
)

参数	注释
buffer_size	新数据集的取样数量
其它	tf.data.Dataset \| TensorFlow Core v2.6.0

1.2.2 list_files

list_files(
    file_pattern, shuffle=None, seed=None
)

参数	注释
file_pattern	表示将匹配的文件名全局模式。
shuffle	文件是否被打乱
seed	随机种子

1.2.3 interleave

interleave(
    map_func, cycle_length=None, block_length=None, num_parallel_calls=None,
    deterministic=None
)

参数	注释
map_func	映射数据集的函数
cycle_length	同时输入的数量
其它	tf.data.Dataset \| TensorFlow Core v2.6.0

1.2.4 tf.data.TextLineDataset

加载文本文件，并创建一个数据集，其中文件的每一行成为数据集的元素。

tf.data.TextLineDataset(
    filenames, compression_type=None, buffer_size=None, num_parallel_reads=None
)

参数	注释
filenames	一个或多个文件名。
其它	tf.data.TextLineDataset \| TensorFlow Core v2.6.0

1.3 预处理数据

1.4 预取

1.4.1 prefetch

创建从该数据集预取元素的数据集。这允许在处理当前元素时准备后面的元素。这通常会提高延迟和吞吐量，但代价是使用额外的内存来存储预取的元素。

prefetch(
    buffer_size
)

二、TFRecord

TFRecord 格式是 Tensorflow 的首选格式，用于存储大量数据并有效读取数据，它只包含大小不同的二进制记录序列（一个长度、一个用于检查长度是否损坏的 CRC 校验、实际数据和最后一个 CRC 校验和）。使用方式如下：

with tf.io.TFRecordWriter('tfr.tfrecord') as f:
    f.write(b"the first")
    f.write(b"the second")

filepaths = ["tfr.tfrecord"]
dataset = tf.data.TFRecordDataset(filepaths)
for item in dataset:
    print(item)

tf.io.TFRecordWriter

tf.io.TFRecordWriter(
    path, options=None
)

tf.io.TFRecordWriter | TensorFlow Core v2.6.0

tf.data.TFRecordDataset

tf.data.TFRecordDataset(
    filenames, compression_type=None, buffer_size=None, num_parallel_reads=None
)

参数	注释
filenames	一个或多个文件名
num_parallel_reads	表示要并行读取的文件数。如果大于1，则并行读取的文件记录以交错顺序输出。
其它	tf.data.TFRecordDataset \| TensorFlow Core v2.6.0

2.1 压缩文件

有时候压缩文件会很有用，可以通过设置 options 参数来创建压缩的 TFRecord 文件：

options = tf.io.TFRecordOptions(compression_type="GZIP")
with tf.io.TFRecordWriter('tfr2.tfrecord', options=options) as f:
    f.write(b"the first")
    f.write(b"the second")

2.1.1 tf.io.TFRecordOptions

用于操作 TFRecord 文件的选项。

tf.io.TFRecordOptions(
    compression_type=None, flush_mode=None, input_buffer_size=None,
    output_buffer_size=None, window_bits=None, compression_level=None,
    compression_method=None, mem_level=None, compression_strategy=None
)

参数	注释
compression_type	`"GZIP"`, `"ZLIB"`, 或`""`（无压缩）
其它	tf.io.TFRecordOptions \| TensorFlow Core v2.6.0

2.2 Tensorflow 协议

Tensorflow 文件通常使用 Example protobuf ，这表示一个数据集的实例，可以通过 tf.train.Example 来创建一个实例。

person_example = tf.train.Example(
    features=tf.train.Features(
        feature={
            "name": tf.train.Feature(bytes_list=tf.train.BytesList(value=[b"Alice"])),
            "id": tf.train.Feature(int64_list=tf.train.Int64List(value=[123])),
            "emails": tf.train.Feature(tf.train.Feature(bytes_list=tf.train.BytesList(value=[b"[email protected]", b"[email protected]"])))
        }
    )
)

然后可以调用 SerializeToString 方法对其序列化并将记录写入 TFRecord 文件中。

with tf.io.TFRecordWriter('tfr3.tfrecord') as f:
    f.write(person_example.SerializeToString())

可以创建一个转换脚本，从当前格式如 CSV 中读取记录，为每个记录创建一个 Example protobuf 并序列化，然后保存的 TFRecord 文件中，最好处理过程乱序。

2.3 加载和解析 Example

要加载序列化的 Example protobuf ，需要使用 tf.io.parse_single_example 来解析每个 Example ，它需要两个参数，一个是包含序列化数据的字符串标量张量，另一个是关于特征的描述，对上节的 Example 的特征描述如下：

feature_description = {
    "name": tf.io.FixedLenFeature([], tf.string, default_value=""),
    "id": tf.io.FixedLenFeature([], tf.int64, default_value=0),
    "emails": tf.io.VarLenFeature(tf.string)
}

然后遍历 TFRecord Dataset 并解析序列化的 Example protobuf ：

for example in tf.data.TFRecordDataset(['tfr3.tfrecord']):
    print(tf.io.parse_single_example(example, feature_description))

固定长度特征被解析为规则张量，可变长度则解析为稀疏张量，可以通过 tf.sparse.to_dense 来将稀疏张量转换为密集张量。

可以在 BytesList 中包含任何需要的二进制数据，如对一个 JPEG 格式的图像采用 tf.io.encode_jgp 编码，并将编码得到的二进制数据放入 ByteList 中，在解析后调用 tf.io.decode_jpeg 来获取原始图像（或者通过 tf.io.decode_image 来解码任何图像）。也可以通过 tf.io.serialize_tensor() 来序列化张量并存储在 ByteList 中，然后调用 tf.io.parse_tensor 来解析。

除此之外可以通过使用 tf.io.parse_example 一个批次地解析。

2.3.1 tf.io.FixedLenFeature

用于解析固定长度输入特征的配置

tf.io.FixedLenFeature(
    shape, dtype, default_value=None
)

shape：输入数据的形状。
dtype: 输入的数据类型。
default_value：如果示例缺少此功能时使用的值。它必须与dtype指定的和兼容shape

tf.io.FixedLenFeature | TensorFlow Core v2.6.0

2.3.2 tf.io.VarLenFeature

用于解析可变长度输入特征的配置

tf.io.VarLenFeature(
    dtype
)

tf.io.VarLenFeature | TensorFlow Core v2.6.0

2.3.3 tf.io.parse_single_example

解析单个Exampleproto

tf.io.parse_single_example(
    serialized, features, example_names=None, name=None
)

tf.io.parse_single_example | TensorFlow Core v2.6.0

2.3.4 tf.io.parse_example

将Exampleprotos解析dict为张量。

tf.io.parse_example(
    serialized, features, example_names=None, name=None
)

tf.io.parse_example | TensorFlow Core v2.6.0

2.4 使用 SequenceExample Protobuf 处理列表的列表

2.4.1 tf.io.parse_single_sequence_example

tf.io.parse_single_sequence_example(
    serialized, context_features=None, sequence_features=None, example_name=None,
    name=None
)

tf.io.parse_single_sequence_example | TensorFlow Core v2.6.0

2.4.2 tf.io.parse_sequence_example

tf.io.parse_sequence_example(
    serialized, context_features=None, sequence_features=None, example_names=None,
    name=None
)

tf.io.parse_sequence_example | TensorFlow Core v2.6.0

三、预处理输入特征

为神经网络准备的数据需要全转化为数值特征（归一化等），对于分类特征或文本特征，需要将其转化为数字，其中一种方法就是在模型中包含预处理层。可以使用 Lambda 层实现标准下，代码参考如下：

model = keras.Sequential([
    keras.layers.Lambda(lambda inputs: (inputs - means) / (std + eps))
])

但更倾向一个自包含自定义层，首先需要创建一个继承 keas.layers.Layer 类：

class Standardization(keras.layers.Layer):
    def adapt(self, data):
        self.means_ = np.mean(data, axis=0, keepdims=True)
        self.stds_ = np.std(data, axis=0, keepdims=True)

    def call(self, inputs):
        return (inputs - self.means) / (self.stds_ + keras.backend.epsilon())

首先创建一个该类的对象，并通过调用 adapt 方法来创建均值和方差，然后可以通过 model.add 方法将该层添加到模型中。现在可以使用 tf.keras.layers.Normalization 代替上述过程。

tf.keras.layers.Lambda

将任意表达式包装为Layer对象

tf.keras.layers.Lambda(
    function, output_shape=None, mask=None, arguments=None, **kwargs
)

参数	注释
function	函数表达式
其它	tf.keras.layers.Lambda \| TensorFlow Core v2.6.0

tf.keras.layers.Normalization

tf.keras.layers.Normalization(
    axis=-1, mean=None, variance=None, **kwargs
)

tf.keras.layers.Normalization | TensorFlow Core v2.6.0

3.1 使用独热向量编码分类特征

vocab = ['1H OCEAN', 'INLAND', 'NEAR OCEAN', 'NEAR BAY', 'ISLAND']
indices = tf.range(len(vocab), dtype=tf.int64)
table_init = tf.lookup.KeyValueTensorInitializer(vocab, indices)
table = tf.lookup.StaticVocabularyTable(table_init, 2)

上述代码中首先定义词汇表，然后创建带有相应索引的张量，为每个查找表创建一个初始化程序并将类别列表及索引传递给它，最后创建查找表，为其提供了初始化程序并制定了词汇表外桶的数量。如果查找词汇表中不存在的类别则查找表将计算该类的哈希并将这个未知类别分配给 oov 桶中的一个，计算出的索引从已知类别开始。

然后就可以根据查找表将一小批分类特征编码为独热向量。

categories = tf.constant(['NEAR BAY', 'DESERT', 'INLAND', 'INLAND'])
cat_indices = table.lookup(categories)
cat_one_hot = tf.one_hot(cat_indices, depth=len(vocab) + 2)

如果想将上述程序封装到一个类中，也需要一个 adapt 方法提取样本类别，并调用 call 方法建立映射。现在可以通过 tf.keras.layers.TextVectorization 实现。

3.1.1 tf.keras.layers.TextVectorization

tf.keras.layers.TextVectorization(
    max_tokens=None, standardize='lower_and_strip_punctuation',
    split='whitespace', ngrams=None, output_mode='int',
    output_sequence_length=None, pad_to_max_tokens=False, vocabulary=None, **kwargs
)

tf.keras.layers.TextVectorization | TensorFlow Core v2.6.0

使用CrewAI创建一个研究团队 AI量化投资 php 开发语言多智能体智能体人工智能
本指导文档将带你一步步完成使用CrewAI框架创建你的第一个AI代理团队的过程。通过这个简单的示例，你将学习如何构建一个研究团队，用于研究和分析指定主题，并生成一份综合报告。本教程基于CrewAI官方文档，适合初学者快速上手。前提条件在开始之前，请确保你已完成以下准备工作：安装Python：确保你的系统安装了Python版本在3.10到3.13之间。你可以通过以下命令检查Python版本：pyth
Python成第四个支持CUDA的编程语言
Python成第四个支持CUDA的编程语言3月19日NVIDIA的GTC2013图形技术大会将开幕，在此之前会有很多宣传造势内容，其中最重大也是最主要的就是NVIDIA老总黄仁勋的开幕词了，其他合作伙伴也会发布各自的演讲。ContinuumAnalytics联合NVIDIA宣布将会引入新的PythonCUDA编译器——NumbaPro，Python也成为继C、C++以及Fortan之后的第四个支持
Python FastMCP：让你的AI工具链飞起来
PythonFastMCP：让你的AI工具链飞起来FastMCPFastMCP是什么？1.工具(Tools)：赋予LLM执行能力2.Resources（资源）：安全数据通道3.Prompts（提示模板）：标准化LLM交互4.组件协同：构建项目AI工具链5.部署架构与性能优化博主热门文章推荐：官方文档：FastMCP官方文档：https://gofastmcp.com/MCP协议规范：https:/
Python 解析 PDF 文件的基础方法电脑维修员xy python pdf 前端
```htmlPython解析PDF文件的基础方法Python解析PDF文件的基础方法在现代数据处理和信息提取任务中，PDF文件是一种常见的文档格式。然而，PDF文件的结构复杂且难以直接解析，尤其是当需要从中提取文本或数据时。幸运的是，Python提供了多种强大的库来帮助我们轻松地解析PDF文件。1.PyPDF2库PyPDF2是一个功能强大的Python库，用于处理PDF文件。它可以读取、分割、合
socket网络通信TCP与UDP原理及代码实现（c++、python）
目录Socket原理通信协议原理TCPUDP代码实现TCPC++pythonUDPC++pythonSocket原理Socket（套接字）是计算机网络中用于实现进程间通信的一种机制，特别是在不同主机之间通过网络进行数据传输时。它是网络编程的核心概念之一，为应用程序提供了统一的接口，使得开发者可以通过网络发送和接收数据。可以将Socket类比为电话系统中的“电话机”。两台设备通过Socket建立连接
【Qt Designer使用快捷键】
QtDesigner简介QtDesigner是Qt框架提供的可视化界面设计工具，用于快速创建GUI（图形用户界面）。用户可通过拖拽控件（如按钮、文本框等）设计界面，无需手动编写布局代码。生成的界面文件（.ui）可通过pyuic或uic工具转换为代码（如Python或C++），与业务逻辑集成。常用快捷键及用途通用操作Ctrl+N：新建界面文件。Ctrl+O：打开现有.ui文件。Ctrl+S：保存当前
车辆云端威胁情报共享系统的多维解析与发展路径百态老人大数据人工智能
第一部分：内容本质提取原始内容描述了一个闭环网络安全体系：“车辆实时上传异常行为日志至安全运营中心（VSOC），云端通过机器学习分析攻击模式并下发全局防御策略”。其核心架构包含：数据采集层：车辆端持续收集异常行为日志数据，包含CAN总线通信模式、网络流量特征及驾驶行为数据传输层：通过V2X通信协议和OTA更新通道实现车云双向通信分析层：安全运营中心(VSOC)采用CNN-BiSRU等深度学习模型进
“重复”定义函数的睿智(Python/与ai助手“智普清言”深度交流) 梦幻精灵_cq 笔记学习
镜像双胞谬重复，定制便捷巧活工。笔记模板由python脚本于2025-07-1612:16:30创建，本篇笔记适合至少通晓一门语言，熟悉基本编程范式的coder翻阅。学习的细节是欢悦的历程博客的核心价值：在于输出思考与经验，而不仅仅是知识的简单复述。Python官网：这里，才python前沿。英文原版，原汁原味，才是寻根溯源的正统。地址：https://www.python.org/F
偶拾《退让》，一阙仿七律带出的文化思考(中文诗创作) 梦幻精灵_cq 笔记学习
礼貌温言沐春风，谦让理解通彼此。笔记模板由python脚本于2025-07-0111:29:03创建，本篇笔记适合喜欢中文仿古七言诗的coder翻阅。学习的细节是欢悦的历程博客的核心价值：在于输出思考与经验，而不仅仅是知识的简单复述。Python官网：这里，才python前沿。英文原版，原汁原味，才是寻根溯源的正统。地址：https://www.python.org/Free：大咖
008、Python+fastapi，第一个后台管理项目走向第8步：ubutun 20.04下配置远程桌面、安装vscode+python环境配置浪淘沙jkp 学习 fastapi
一、说明白飘了3个月无影云电脑，开始选了个windowsserver非常不好用，后台改为ubuntu想升级到22，没成功，那就20.04吧。今天先安装下开发环境，后续2个月就想把他当做开发服务器，不知道行不行，公网ip是否可以外部链接。本来想装个宝塔面板直接管理，不过那玩意用了一次，决定说方便也不方便，还是放弃，要用也搞个掏钱的，你懂的，免费的不放心啊那我们就一个一个安装好了，大概要安装mysql
过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶 Ryan_sz1
1、过拟合、欠拟合及其解决方案过拟合、欠拟合机器学习或者训练深度神经网络的时候经常会出现欠拟合和过拟合这两个问题，但是，一开始我们的模型往往是欠拟合的，也正是因为如此才有了优化的空间，我们需要不断的调整算法来使得模型的表达能拿更强。但是优化到了一定程度就需要解决过拟合的问题了。也就是说欠拟合是模型表达能力不够，达不到很好的表达效果。而过拟合是在训练集的范围内表达能力过强，导致完全拟合了训练集。解决
python爬大学生就业信息报告_Python语言爬虫——Python 岗位分析报告 weixin_39578457
本文主要向大家介绍了Python语言爬虫——Python岗位分析报告，通过具体的内容向大家展示，希望对大家学习Python语言有所帮助。前两篇我们分别爬取了糗事百科和妹子图网站，学习了Requests,BeautifulSoup的基本使用。不过前两篇都是从静态HTML页面中来筛选出我们需要的信息。这一篇我们来学习下如何来获取Ajax请求返回的结果。本篇以拉勾网为例来说明一下如何获取Ajax请求内容
快速入门Robocorp：用Python构建和操作工作流 jaioyfpo python 开发语言
快速入门Robocorp：用Python构建和操作工作流引言在现代开发环境中，自动化是提高效率和降低成本的关键。Robocorp作为一个强大的平台，它帮助您使用Python构建和操作工作流，无论在何地运行都可以保持无缝连接和高扩展性。本文将带领您快速入门Robocorp的基本安装和设置，并展示如何使用ActionServer进行项目的创建和管理。主要内容1.安装和设置要开始使用Robocorp，首
Python关于pandas的基础知识 WeiJingYu. python pandas 开发语言
一.扫盲（一）、pandas是什么pandas是Python的一个第三方数据处理库，它提供了高效、灵活的数据结构（如Series和DataFrame），能方便地对结构化数据进行清洗、转换、分析和处理。（二）、pandas与NumPy的关系NumPy是Python中用于科学计算的基础库，主要用于存储和处理数值型数组。但它有一个局限，就是不能直接存储和处理字符串等非数值类型的数据。而pandas是在N
Python 爬虫——Pyppeteer
Python爬虫——PyppeteerPythonSpider——Pyppeteer一、爬虫的两种方式二、Pyppeteer三、爬虫实现PythonSpider——Pyppeteer爬虫具有时效性，该文产生于2023年末一、爬虫的两种方式爬虫大致可以分为两类方式：直接请求直接请求的方式一般是使用python的HTTP请求库发起HTTP请求，然后接收返回的数据再进行解析，这种方式存在很大的局限性。当
Python关于numpy的基础知识数组的升维 WeiJingYu. python numpy 开发语言
在Python数据处理中，numpy是常用的科学计算库，数组操作是其核心内容之一。下面通过代码示例，展示如何从Python自带列表构建numpy一维数组，再进一步升维构建二维数组。\importnumpyasnp#一维数组构建：从Python列表到numpy一维数组list1=[1,2,3,4,5]#Python自带的列表数据类型print("Python列表list1:",list1)v=np.
Selenium Python 代码之打开网页自动填充内容并搜索 iCloudEnd
SeleniumPython代码之打开网页自动填充内容并搜索流程通过id找到文本框inputElement.send_keys(Keys.BACK_SPACE)发送删除键，清除一下之前文字inputElement.send_keys(Keys.BACK_SPACE)发送需要查询对内容并送个回车inputElement=driver1.find_element_by_id("TextBox1")in
python双引号打不出来_在python 3中使用单引号和双引号时出错 - python weixin_39897749 python双引号打不出来
使用os.system（）函数时，我在python中遇到了EOL错误。以下是代码行生成错误：os.system("catsubdomains.txt|cut-d'"'-f1")基本上，我试图使用分号[“]修改输出字符串（双引号）参考方案如果需要在带"的字符串中编写"，则可以将其写为\""catsubdomains.txt|cut-d'\"'-f1"在PythonCloudFunction中使用错误
python办自动化--读取邮箱中特定的邮件，并下载特定的附件宝山哥哥 python办公自动化 python 自动化信息可视化
系列文章目录python办公自动化–数据可视化（pandas+matplotlib）–生成条形图和饼状图python办公自动化–数据可视化（pandas+matplotlib）–生成折线图python办公自动化–数据可视化（pandas读取excel文件，matplotlib生成可视化图表）python办公自动化-openpyxl学习-工资表生成工资条python办公自动化–使用将csv大文件分割
Here-Document的`＜＜` 与 `＜＜-` 与 `＜＜＜` 多解说笔记250722 kfepiza #Linux #控制台命令行 Shell bash cmd 等笔记 linux bash
Here-Document的poem.txt静夜思床前明月光疑是地上霜FORMATTED#2.空格敏感的配置catconfig.ymlindentation:level:4#必须4空格SPACE何时用tabs.txt重要制表符:→这里Tab会被保留但行首Tab会被移除TABS#2.空格缩进的环境#（如Python脚本）技术原理图解HereDocumentquery.sqlSELECT*FROM${
数字人系统：AI界的超级巨星，你准备好了吗？优秘智能UMI 数字人人工智能深度学习计算机视觉机器学习自然语言处理语言模型图像处理
在这个日新月异的科技时代，每一个创新的火花都可能点燃一场变革的燎原之火。今天，我们要聊的，正是那颗在AI领域熠熠生辉的璀璨新星——优秘数字人系统。它不仅仅是技术的飞跃，更是对未来生活方式的深刻重塑，一场关于人机交互、智能共生的美好预演。技术原理：深度解析与智能构建的奥秘1.深度学习：智能的基石数字人系统的核心技术之一在于深度学习。深度学习是一种模仿人脑神经网络结构和功能的机器学习技术，通过构建多层
第二阶段-第二章—8天Python从入门到精通【itheima】-133节（SQL——DQL——基础查询） Patrick_kafka sql python 数据库开发语言学习 android 程序人生
目录133节——DQL：基础查询1.学习目标2.基础数据查询：select3.进行过滤的基础数据查询：where4.代码演练5.小节总结6.关于MySQL和SQL的DDL、DML、DCL、DQL的最底层逻辑MySQL与SQL的底层逻辑：从磁盘到内存的数据流解析一、DDL（数据定义语言）：构建数据大厦的蓝图二、DML（数据操作语言）：数据流动的三重关卡三、DCL（数据控制语言）：权限的多维管控四、D
Python爬虫教程：抓取地方政府网站的公开文件与政策信息 Python爬虫项目 python 爬虫开发语言数据分析 mysql
1.引言在信息化时代，政府网站已成为信息公开的重要渠道。各级地方政府网站上发布的政策、公告和公开文件，通常包含了政府决策、法律法规等关键信息。爬取这些公开数据，可以为研究人员、政策分析师、企业决策者等提供有价值的数据支持。本文将通过Python爬虫技术，展示如何抓取地方政府网站上的公开文件、政策等信息。我们将使用最新的爬虫技术，如requests、BeautifulSoup、Selenium等工具
Python 库手册：xml.etree.ElementTree 处理 XML 数据模块
xml.etree.ElementTree（简称ElementTree）是Python标准库中用于解析、创建和操作XML数据的模块。它提供了一种轻量、易用的方式来读取、修改和写入XML文件，适用于配置文件处理、数据交换、网络通信等应用场景。常见应用场景：（1）读取XML配置文件并提取参数。（2）修改XML数据结构（如节点属性、内容）。（3）创建新的XML文档并保存。（4）从WebAPI获取的XML
[学习] 笛卡尔坐标系的任意移动与旋转详解极客不孤独学习算法信号处理
笛卡尔坐标系的任意移动与旋转详解文章目录笛卡尔坐标系的任意移动与旋转详解**1.笛卡尔坐标系基础****2.坐标变换原理****2.1平移变换****2.2旋转变换****3.组合变换**Python仿真与动态展示**动画说明**：**关键数学原理**：1.笛卡尔坐标系基础笛卡尔坐标系用(x,y)(x,y)(x,y)表示平面内任意点的位置，原点为(0,0)(0,0)(0,0)。几何图形可视为点的集
第二阶段-第二章—8天Python从入门到精通【itheima】-134节（SQL——DQL——分组聚合） Patrick_kafka sql 数据库 mysql 大数据开发语言 python pycharm
目录134节——DQL：分组聚合1.学习目标2.分组聚合3.论MySQL中GROUPBY和WHERE的异同MySQL中GROUPBY和WHERE的异同：一、相同点：都是“筛数据”的工具二、不同点：筛的时机和对象完全不一样1.作用时机不同：先筛行，再分组2.作用对象不同：筛单行vs筛分组3.不能混搭的“规矩”三、一句话总结4.小节总结编辑好了，又一篇博客和代码写完了，励志一下吧，下一小节等等继续：1
python库下载超时_Python pip使用超时问题解决方案 weixin_39597318 python库下载超时
Pythonpip使用超时问题解决方案引言之前有位群友在群里发了个问题，说使用pip安装第三方包遇到"Readtimeout"。我相信很多时候，大家在使用pip都会遇到这个问题，所以，我想有必要写一遍文章来总结一下。具体如下：解决方案在这之前，你要明白一点，直接使用pip安装超时，绝大多数原因是pip源在外国，所以国内使用，网络就算稳定，也有一定超时。要想解决pip安装软件包超时问题，目前只有两种
python基础变量之---集合暴龙胡乱写博客 python基础 python chrome 开发语言
python基础变量之—集合文章目录python基础变量之---集合一、集合1.集合介绍2.集合创建3.集合操作4.集合常见API二，可变与不可变类型1.可变2.不可变3.二者区别三，类型转换一、集合1.集合介绍在Python中，集合（set）是一种无序的、不重复的数据结构，用于存储唯一的元素，支持数学集合的一些操作，如交集、并集、差集等。集合中的元素是无序的，即不记录元素的插入顺序，且每个元素只
聚焦基础研究突破，北电数智联合复旦大学等团队提出“AI安全”DDPA方法入选ICML CSDN资讯人工智能安全数据要素大数据
近日，由北电数智首席科学家窦德景教授牵头，联合复旦大学和美国奥本大学等科研团队共同研发，提出一种DDPA（DynamicDelayedPoisoningAttack）新型对抗性攻击方法，为机器学习领域的安全研究提供新视角与工具，相关论文已被国际机器学习大会（ICML2025）收录。ICML由国际机器学习学会（IMLS）主办，聚焦深度学习、强化学习、自然语言处理等机器学习前沿方向，是机器学习与人工智
解决pip指令超时问题好学近乎知o pip python
用pip指令，在安装Django3.2时报错，询问ChatGpt后得到的解决方案pip下载超时——是当前网络连接到PyPI官方源太慢或不稳定，甚至可能连不上了，而pip默认的超时时间又太短，就导致了中途失败：ReadTimeoutError:HTTPSConnectionPool(host='files.pythonhosted.org',port=443):Readtimedout.解决方案：换
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo