Triumph19

第6章数据结构化与数据存储（6.1数据结构化神器——pandas库，读取网页中的表格数据）

通过pandas库可以方便地爬取网页中的表格数据，对数据进行结构化处理，并导出为Excel工作簿等文件。

6.1.1用read_html()函数快速爬取网页表格数据

使用pandas库中的read_html()函数可以快速爬取网页中的表格数据。用搜索引擎搜索并打开“新浪财经数据中心”，然后选择“投资参考”中的“大宗交易”，如下图所示。下面就以爬取该页面（http://vip.stock.finance.sina.com.cn/q/go.php/vInvestConsult/kind/dzjy/index.phtml）中的表格为例，讲解read_html()函数的用法。
如果用传统方法解析每一个表格数据，会非常繁琐，而用read_html（）函数来完成则会非常方便快捷，代码如下：

import pandas as pd
url = 'http://vip.stock.finance.sina.com.cn/q/go.php/vInvestConsult/kind/dzjy/index.phtml'
table = pd.read_html(url)[0] #核心代码
table #这是Jup中打印输出变量的方法

第3行代码用read_html（）函数通过访问网址来爬取网页，它会自动提取网页上所有表格，并以列表的形式返回，网页中有几个表格，列表中就有几个元素。这里虽然只有一个表格，但是仍需要通过[0]的方式提取列表中的第1个元素。
最终的爬取结果如下图所示，可以看到成功爬取到表格。
上面这个例子中的网页没有反爬措施，相对容易爬取。实战中还有很多网页是动态渲染的，通过read_html（）函数访问网址的方式无法爬取，需要先用Selenium库获取网页源代码，再用read_html()函数从源代码中提取表格数据。将read_html()函数的这两种用法总结于下表，6.2节会讲解具体案例。

6.1.2 pandas库在爬虫领域的核心代码知识

read_html()函数只是pandas库强大功能的冰山一角，本节将讲解pandas库在爬虫领域更多核心代码知识。

1.创建DataFrame

DataFrame是pandas库用于组织和管理数据的一种二维表格数据结构，可以将其看成一个Excel表。创建DataFrame常用的方法有两种：通过列表创建和通过字典创建。

（1）通过列表创建DataFrame

通过列表创建DataFrame有两种方法。第1中方法的代码如下：

import pandas as pd
a = pd.DataFrame([[1,2],[3,4],[5,6]])
a

在jup中打印输出a，结果如下，该二维表格会自动创建数字序号形式（从0开始）的行索引和列索引。
我们还可以在创建DataFrame时自定义列索引和行索引，代码如下：

import pandas as pd
a = pd.DataFrame([[1,2],[3,4],[5,6]],columns=['date','score'],index=['A','B','C'])
a

通过DataFrame代表列索引，index代码行索引，此时a的打印输出结果如下：
通过DataFrame的columns属性可以查看和修改列索引，代码如下：

print(a.columns) #查看列索引
a.columns = ['日期','分数'] #修改列索引，在6.2节会用到

第二种方法较为灵活，无须知道数据的具体数量，直接将列表拼接成列即可。该方法在实战中很常用（在6.3节会用到），演示代码如下：

a = pd.DataFrame() #创建一个空DataFrame,用于存储之后要拼接的列数据
date = [1,3,5]
score = [2,4,6]
a['日期'] = date
a['分数'] = score
a

（2）通过字典创建DataFrame

通过字典创建DataFrame的代码如下：

# 通过字典创建DataFrame
b = pd.DataFrame({'date':[1,2,3],'score':[2,4,6]})
b

b的打印输出结果如下，可以看到以字典的键名作为列索引。

2.数据文件的读取和写入

pandas库可以从多种类型的数据文件中读取数据，并且可以将数据写入这些文件中。本节以Excel工作簿和CSV文件为例进行讲解。

（1）文件读取

用read_excel()函数可以读取Excel工作簿中的数据，代码如下：

import pandas as pd
data = pd.read_excel('data.xlsx') #data为DataFrame结构

这里读取的Excel工作簿扩展名为“.xlsx”,如果是2003版或更早版本的Excel工作簿，其扩展名为“.xls”。这里使用的文件路径为相对路径，也可以使用绝对路径，相关知识点点见3.3.2节的“补充知识点1”。通过打印输出data便可查看读取的表格内容。如果只想查看查看表格的前5行数据，可以使用如下代码：

data.head() #这里协程head(10)则可查看前10行数据，一次类推

read_excel()函数还可以设定参数，演示代码如下：

data = pd.read_excel('data.xlsx',sheet_name=0)

这里的参数sheet_name用于指定要读取的工作表，其值可以工作表名称，也可以是数字（默认为0，即第1个工作表）。此外，还可用参数index_col来指定某一列作为行索引。
CSV文件也是一种常见的数据格式文件格式，它在本质上是一个文本文件，可以用Excel或文本编辑器（如“记事本”）打开。CSV文件中存储的是用逗号分隔的数据，但不包含格式、公式、宏等，因而占用的存储空间通常较小。用read_csv()函数可以读取CSV文件中的数据，代码如下：

data = pd.read_csv('data.csv')

read_csv()函数也可以指定参数，代码如下：

data = pd.read_csv('data.csv',delimiter=',',encoding='utf-8')

其中参数delimiter用于指定数据的分隔符，默认为逗号；参数encoding用于设置编码格式，如果出现中文乱码，则需要设置为’utf-8’或’gbk’。此外，还可以通过参数index_col设置索引列。

（2）文件写入

用to_excel()函数可以将DataFrame中的数据写入Excel工作簿，代码如下：

data = pd.DataFrame([[1,2],[3,4],[5,6]],columns=['A列','B列'])
data.to_excel('data_new.xlsx') #这里使用相对路径，也可使用绝对路径

运行之后，将在代码文件所在的文件夹下生成一个Excel工作簿“data_new.xlsx”,其内容如下图所示。
从上图可以看出，工作表的第1列还保留了行索引信息，如果想在写入数据时不保留行索引信息，可以将to_excel()函数的参数index设置为False(设置为True则表示保留行索引信息)，代码如下：

data.to_excel('data_new.xlsx',index=False)

to_excel()函数还有一些常用的参数：sheet_name用于指定工作表名称；columns用于指定要写入的列。
用to_csv()函数可以将DataFrame中的数据写入CSV文件，代码如下：

data.to_csv('data_new.csv')

与to_excel()函数类似，to_csv()函数也可以设置index、columns、encoding等参数。如果导出的CSV文件出现了中文乱码现象，可尝试encoding设置为’utf-8’，如果还是无效，则需要设置成’utf_8_sig’，代码如下：

data.to_csv('演示.csv',index=False,encoding='utf_8_sig')

3.DataFrame 中数据的常用操作

创建了DataFrame之后，就可以根据需要操作其中的数据。首先创建一个3行3列的DataFrame用于演示，行索引设定为r1、r2、r3，列索引设定为c1、c2、c3，代码如下：

import pandas as pd
data = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]],index=['r1','r2','r3'],columns=['c1','c2','c3'])
data

下面讲解数据的选取、筛选、整体情况查看等常用操作。

（1）按列选取数据

先从简单的选取单列数据入手，代码如下：

a = data['c1']
a

a的打印输出结果如下：
可以看到返回的结果不包含列索引信息，这是因为通过data[‘c1’]选取单列时返回的是一个一维的Series格式的数据。如果要返回二维的DataFrame格式的数据，可以使用如下代码：

b = data[['c1']]
b

如果要选取多列，则需要在中括号[]中以列表的形式给出列索引值。例如，选取c1和c3列的代码如下：

c = data[['c1','c3']] #不能写成data['c1','c3']
c

c的打印输出结果如下：

（2）按行选取数据

可以根据行序号选取数据，代码如下：

#%%
# 选取第2行和第3行的数据，注意序号从0开始，左闭右开
a = data[1:3]
a

a的打印结果如下：
而pandas库的官方文档推荐使用iloc方法来根据行序号选取数据，这样更直观，而且不像data[1:3]可能会引起混淆报错。代码如下:

b = data.iloc[1:3]
b

而且如果要选取单行，就必须使用iloc方法。例如，选取倒数第1行，代码如下：

c = data.iloc[-1]
c

如果使用data[-1],那么pandas库可能会认为-1是列索引，导致混淆报错。
除了根据行序号选取数据外，还可以根据loc方法根据行索引选取数据，代码如下：

d = data.loc[['r2','r3']]
d

如果行数很多，可以用head()函数选取前5行数据，代码如下：

e = data.head()

这里因为data中只有3行数据，所以data.head()会选取所有数据。如果只想选取前两行数据，可以写成data.head(2)。

（3）按区块选取数据

按区块选取是指选取某几行的某几列数据。例如，选取c1和c3列的前两列的前两行数据，代码如下：

a = data[['c1','c3']][0:2] #也可以写成data[0:2][['c1','c3']]
a

在实战中选取区块链数据时，通常先用iloc方法选取行，再选取列，代码如下：

b = data.iloc[0:2][['c1','c3']]
b

两种方法的选取效果是一样的，但第二种方法逻辑更清晰，不容易出现混淆报错，它也是pandas库的官方文档推荐的方法。
如果要选取单个值，该方法就更有优势。例如，选取c3列第1行数据，就不能写成data['c3'][0]或data[0]['c3'],而要先用iloc[0]选取第1行，在选取c3列，代码如下：

c = data.iloc[0]['c3']
c

也可以使用iloc和loc方法同时选取行和列，代码如下：

d = data.loc[['r1','r2'],['c1','c3']]
d
e = data.iloc[0:2,[0,2]]
e

loc方法使用字符串作为索引，iloc方法使用数字作为索引。这里介绍一个简单的记忆方法：loc是location（定位、位置）的缩写，所以是用字符串作为索引；iloc中多了一个字母i，而i有经常代表数字，所以用数字作为索引。

d和e的打印结果如下：

（4）数据筛选

通过在中括号里设置条件可以对行数进行筛选。例如，选取c1列中数字大于1的行，代码如下：

a = data[data['c1'] > 1]
a

如果有多个筛选条件，可用“&”（表示“且”）或“|”（表示“或”）连接。例如，筛选c1列中数字大于1且c2列中数字等于5的行，代码如下（在筛选条件两侧要加上小括号）：

b = data[(data['c1'] > 1) & (data['c2'] == 5)] # 用 “==” 而不是"="来判断是否相等
b

b的打印输出结果如下：

（5）数据整体情况查看

通过DataFrame的shape属性可以获取表格的行数和列数，从而快速了解表格的数据量大小，代码如下：

data.shape

运行结果如下，其中第1个数字为行数，第2个数字为列数。因此，通过data.shape[0]和data.shape[1]可分别获取行数和列数。此外，通过len(data)也可以获取行数。

(3, 3)

（6）数据运算

通过数据运算可利用已有的列创建新的一列，代码如下：

data['c4'] = data['c3'] - data['c1']
data.head()

（7）数据排序

用sort_values()函数可以将数据按列排序。例如，按c2列进行降序排序的代码如下：

a = data.sort_values(by='c2',ascending=False)
a

参数by用于指定哪一列来排序；参数ascending默认为True，表示升序排序，若设置为False则表示降序排序。a的打印结果如下。

（8）数据删除

用drop()函数可以删除指定的列和行，其常用语法格式如下：
DataFrame.drop(index=None,columns=None,inplace=False)
这里列出的几个常用参数的含义：index用于指定要删除的行；columns用于指定要删除的列；inplace默认为False，表示该删除操作不改变原DataFrame,而是返回一个执行删除操作后的新DataFrame,如果为True,则会直接在原DataFrame中执行删除操作。
删除单列，如c1列，代码如下：

a = data.drop(columns='c1')

删除多列，如c1和c3列，可以通过列表的方式声明，代码如下：

b = data.drop(columns=['c1','c3'])
b

注意：删除行时要输入行索引而不是行序号，除非行索引本来就是数字，才可以输入对应的数字。

用drop_duplicates()函数删除内容重复的行，代码如下：

d = data.drop_duplicates() #默认保留首次出现的行，删除之后的重复的行
d

dropna()函数可以删除空行（含有空值的行），代码如下：

e = data.dropna()

这种删除方法是只要含有空值的行都会被删除。如果只想删除全为空值的行，可以写成：

data.dropna(how='all')

还可以用参数thresh来限定非空值的个数，代码如下：

data.dropna(thresh=2) #表示行内至少要有两个非空值，否则删除该行

上面的代码都是删除数据后又赋给新的变量，不会改变data的内容。如果想改变data的内容，可以删除数据后重新赋值给data，或者将参数inplace设置为True,代码如下：

#%%
data = data.dropna()
data.drop(inplace=True)

4. DataFrame 拼接

pandas 库提供的数据合并与重塑功能极大方便了两个DataFrame的拼接，主要涉及merge()、concat()、append()等函数。这里主要介绍append()函数，它可以方便地将结构相同的DataFrame拼接起来，在爬虫任务中经常会用到。
先创建两个DataFrame用于演示，代码如下：

import pandas as pd
df1 = pd.DataFrame({'公司':['万科','阿里'],'分数':[90,95]})
df2 = pd.DataFrame({'公司':['百度','京东'],'分数':[80,90]})

现在需要对df1和df2进行上下合并，核心代码如下：

df3 = df1.append(df2)
df3

可以看到行索引还是原DataFrame的行索引，如果想忽略原DataFrame的行索引，可以将参数ignore_index设置为True,代码如下：

df3 = df1.append(df2,ignore_index=True)
df3

也可以不设置ignore_index，在用to_excel()函数导出Excel工作簿设置index=False来忽略行索引。爬虫实战中，通常是创建一个空的DataFrame,然后用append()函数一次添加每个表格的数据（参见6.3.2节的具体应用）。
实际上，排序、删除、拼接等操作都不会改变元DataFrame的内容，笔者推荐重新赋值的方式来获取修改后的DataFrame。

chokidar - chokidar 初识（初识案例演示、初识案例解读、初识案例测试）我命由我12345 Node.js 简化库编程 node.js js javascript 前端框架前端 npm html5
一、chokidar1、chokidar概述chokidar是一个用于监视文件系统变化的Node.js库chokidar提供了一种简单、高效的方式来监视文件和目录的创建、修改、删除等操作chokidar是是fs.watch和fs.watchFile方法的增强版，解决了它们在一些平台上的不一致性和局限性2、chokidar的特点跨平台的支持：chokidar在Windows、Linux、macOS上
探索Python中的集成方法：Stacking Echo_Wish Python 笔记 Python 算法 python 开发语言
在机器学习领域，Stacking是一种高级的集成学习方法，它通过将多个基本模型的预测结果作为新的特征输入到一个元模型中，从而提高整体模型的性能和鲁棒性。本文将深入介绍Stacking的原理、实现方式以及如何在Python中应用。什么是Stacking？Stacking，又称为堆叠泛化（StackedGeneralization），是一种模型集成方法，与Bagging和Boosting不同，它并不直
【Python】 Stacking: 强大的集成学习方法音乐学家方大刚 Python python 集成学习开发语言
我们都找到天使了说好了心事不能偷藏着什么都一起做幸福得没话说把坏脾气变成了好沟通我们都找到天使了约好了负责对方的快乐阳光下的山坡你素描的以后怎么抄袭我脑袋想的薛凯琪《找到天使了》在机器学习中，单一模型的性能可能会受到其局限性和数据的影响。为了解决这个问题，我们可以使用集成学习（EnsembleLearning）方法。集成学习通过结合多个基模型的预测结果，来提高整体模型的准确性和稳健性。Stacki
llama源码学习·model.py[3]ROPE旋转位置编码(2)旋转角度生成代码小杜不吃糖 llama
一、源码注释defprecompute_freqs_cis(dim:int,end:int,theta:float=1000.0):'''预先计算频率和复数的cosine和sine值，用于后续的PositionalEncodingdim:维度end:一个序列的最大长度或位置的最大值theta:用于计算频率的超参数，默认值为1000.0'''#生成一个等比数列，即频率（frequencies），这种
minimind2学习：（1）训练溯源006 minimind学习学习深度学习生成模型
1、数据下载参考：https://github.com/jingyaogong/minimind/tree/master2、预训练训练6个epochspythontrain_pretrain.py--epochs6训练过程：LLM总参数量：25.830百万Epoch:[1/6](0/11040)loss:8.940lr:0.000550000000epoch_Time:106.0min:Epoch
使用Seaborn库中的`violinplot`函数绘制水平小提琴图（Violin Plot）是一种常见的数据可视化方法 code_welike 信息可视化数据分析数据挖掘 Python
使用Seaborn库中的violinplot函数绘制水平小提琴图（ViolinPlot）是一种常见的数据可视化方法。水平小提琴图可以展示数据的分布特征，并可以对比不同组别之间的差异。本文将介绍如何使用Python和Seaborn库绘制水平小提琴图，并提供相应的源代码示例。首先，我们需要确保已经安装了Seaborn库。可以使用以下命令在Python中安装Seaborn：pipinstallseabo
Android 车联网——汽车系统介绍（附2） c小旭 Android 车联网 android 车联网
汽车系统指的是由多个模块或组件组成的系统，如发动机系统、制动系统、空调系统等，这些系统通常由多个ECU协同工作来完成特定的任务。一、汽车系统1、防抱死制动系统ABS（Anti-lockBrakingSystem，防抱死制动系统）是一项重要的汽车安全技术，其主要功能是在车辆紧急制动时防止车轮完全锁死（抱死）。ABS系统通过自动控制制动力，使得车轮在制动过程中仍然能够保持一定的转动，从而避免因车轮抱死
集成学习（上）：Bagging集成方法万事可爱^ 机器学习修仙之旅 #监督学习集成学习机器学习人工智能 Bagging 随机森林
一、什么是集成学习？在机器学习的世界里，没有哪个模型是完美无缺的。就像古希腊神话中的"盲人摸象"，单个模型往往只能捕捉到数据特征的某个侧面。但当我们把多个模型的智慧集合起来，就能像拼图一样还原出完整的真相，接下来我们就来介绍一种“拼图”算法——集成学习。集成学习是一种机器学习技术，它通过组合多个模型（通常称为“弱学习器”或“基础模型”）的预测结果，构建出更强、更准确的学习算法。这种方法的主要思想是
【集成学习】：Stacking原理以及Python代码实现 Geeksongs 机器学习 python 机器学习深度学习人工智能算法
Stacking集成学习在各类机器学习竞赛当中得到了广泛的应用，尤其是在结构化的机器学习竞赛当中表现非常好。今天我们就来介绍下stacking这个在机器学习模型融合当中的大杀器的原理。并在博文的后面附有相关代码实现。总体来说，stacking集成算法主要是一种基于“标签”的学习，有以下的特点：用法：模型利用交叉验证，对训练集进行预测，从而实现二次学习优点：可以结合不同的模型缺点：增加了时间开销，容
使用Seaborn绘制水平小提琴图 YOUFDJ python 开发语言 Python
使用Seaborn绘制水平小提琴图水平小提琴图是一种常用的数据可视化工具，可以用于展示不同类别之间的分布情况。在Python中，我们可以使用Seaborn库的catplot函数来轻松地绘制水平小提琴图。本文将介绍如何使用Seaborn绘制水平小提琴图，并附带相应的源代码示例。首先，确保你已经安装了Seaborn库。如果没有安装，可以使用以下命令在命令行中安装：pipinstallseaborn安装
Python文件与格式化：编程世界的“读写之道“（技术深挖版）被窝妄想家 python进阶指南 python 数据库开发语言
一、文件操作：Python的"读写之眼"1.1文件基础哲学在计算机世界中，文件就像一本本等待翻阅的典籍。Python的open()函数如同手持放大镜，让我们能精确控制阅读和书写：#经典打开模式组合withopen("data.txt","r+",encoding="utf-8")asf:#r+模式：可读可写，文件指针初始位置在开头content=f.read(10)#读取前10个字节f.seek(
使用Seaborn绘制小提琴图 CodeWG python 开发语言
使用Seaborn绘制小提琴图在数据分析与可视化中，小提琴图是一种常用的图表类型。它能够展示数据的分布情况，同时还能显示中位数、四分位数和异常值等统计指标。在Python中，我们可以使用Seaborn库来轻松地绘制小提琴图。下面就来详细介绍一下如何使用Seaborn来创建小提琴图。首先，我们需要导入必要的库和数据集。这里我们使用Seaborn自带的数据集tips作为例子。importseaborn
(BS ISO 11898-1:2015）CAN_FD 总线协议详解5- MAC子层描述4 s多情公子s CAN_FD协议详解信息与通信网络协议
5.5帧编码帧中的比特流应按照不归零（NRZ,Non-Return-to-Zero）方法进行编码。这意味着在整个比特时间内生成的比特电平是恒定不变的。为了限制可用于同步的最大边沿（即信号波形的上升沿或下降沿）间距，帧的不同部分如起始边界（SOF,StartofFrame）、仲裁字段、控制字段、数据字段以及CRC序列应当采用比特填充的方法进行编码。每当发送器检测到连续五个相同值的比特（包括填充比特）
Linux系统之cal命令详解门前灯 linux 运维服务器 cal
cal命令详解cal是一个用于显示日历的简单工具。默认情况下，它会显示当前月份的日历，但可以通过参数和选项显示特定月份、年份或自定义格式的日历。基本语法cal[options][[[day]month]year]无参数：显示当前月份的日历。单参数：显示指定年份的日历。双参数：显示指定月份和年份的日历。三参数：显示指定日、月和年份的日历，并在终端上高亮显示该日期。常用选项选项描述-1,--one显示
初级：数组与字符串面试题深度剖析佩奇的技术笔记 Java面试小册 java
一、引言在Java开发中，数组和字符串是最常用的数据结构之一。面试官通过相关问题考察候选人对数组和字符串的理解和运用能力，以及在实际开发中解决相关问题的经验。本文将深入剖析常见的数组与字符串面试题，结合实际开发场景，帮助读者全面掌握这些知识点。二、数组面试题：如何对数组进行初始化和遍历？答案：数组的初始化可以使用直接初始化、动态初始化等方式。遍历数组可以使用传统的for循环、增强型for循环（fo
windows使用ssh-copy-id命令的解决方案爱编程的喵喵 Windows实用技巧 windows ssh ssh-copy-id 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了windows使用ssh-copy-
关于swoole的初步了解记录 snacy swoole php 服务器
今天初步了解了一下关于swoole的相关知识，在这里记录一下。关于swoole的初步了解记录安装swoole扩展swoole扩展需要在Linux环境下安装，目前还不支持在Windows环境下安装，当前操作系统为centOS系统安装swoole需要：PHP、php-pear(这个是为了稍后可以使用pecl来安装swoole)、php-devel、gcc先执行更新操作：yumupdate(已更新过的可
鸿蒙NEXT版实战开发：使用WebRTC进行Web视频会议那只斑马不睡觉鸿蒙5.0 ArkWeb OpenHarmony harmonyos 华为前端 android ArkWeb
往期鸿蒙全套实战精彩文章必看内容：鸿蒙开发核心知识点，看这篇文章就够了最新版！鸿蒙HarmonyOSNext应用开发实战学习路线鸿蒙HarmonyOSNEXT开发技术最全学习路线指南鸿蒙应用开发实战项目，看这一篇文章就够了（部分项目附源码）使用WebRTC进行Web视频会议Web组件可以通过W3C标准协议接口拉起摄像头和麦克风。开发者在使用该功能时，需配置ohos.permission.CAMER
Django系列教程（15）——上传文件 l软件定制开发工作室 Django教程 django okhttp python
目录Django文件上传需要考虑的重要事项Django文件上传的3种常见方式项目创建与设置创建模型URLConf配置使用一般表单上传文件使用ModelForm上传文件Django文件上传需要考虑的重要事项文件或图片一般通过表单进行。用户在前端点击文件上传，然后以POST方式将数据和文件提交到服务器。服务器在接收到POST请求后需要将其存储在服务器上的某个地方。Django默认的存储地址是相对于根目
关于AI OS那点事大囚长科普天地大模型人工智能
AIOS（人工智能操作系统）作为面向智能时代的操作系统，其功能定位和架构设计与传统操作系统（如Linux、Windows、iOS等）存在显著差异。一、AIOS需具备的核心功能智能体全生命周期管理智能体调度与并发：需支持多智能体任务的优先级排序、资源分配及并发执行，例如通过轮询调度或动态优先级算法优化LLM资源利用率。上下文感知与切换：通过上下文管理器实现智能体交互状态的快照保存与恢复，解决LLM生
C# 的 bool 关键字 visual-studio
bool是System.Boolean结构类型的别名（外号），使用两者作用一致。bool是二值结构，仅具有true和false两个值，表示Boolean运算的结果或比较运算、相等（不等）运算的结果。bool表达式可以是if、do、while和for语句中以及条件运算符?:中的控制条件表达式。初始化可以使用true或者false文本（不是字符串）来初始化bool变量或传递bool值：boolZD=t
python实际应用场景代码 yzx991013 python 前端服务器
1.自动化文件整理importosimportshutildeforganize_downloads_folder():download_path="/Users/YourName/Downloads"#修改为你的下载路径file_types={"Images":[".jpg",".png",".gif"],"Documents":[".pdf",".docx",".txt"],"Videos":
跨境出海必看：IPv6代理平台访问限制？如何解决？跨境一哥跨境电商网络
一、跨境业务为何频繁遭遇IPv6访问限制？尽管IPv6协议自1998年诞生以来已逐步普及，但截至2023年全球IPv6采用率仅约40%。部分海外平台由于以下原因尚未完全支持IPv6：基础设施升级成本高：改造整套网络架构需数百万美元投入，部分云服务、支付平台等未适配IPv6，无法通过IPv6访问。网络配置管理层面：IPv6地址分配管理复杂，跨境业务涉及多方，易出现地址冲突或错误配置。复杂拓扑下，设备
【贪心算法】1、分发饼干念奕玥【Java】数据结构与算法 java leetcode 贪心算法
贪心算法或贪心思想采用贪心的策略，保证每次操作都是局部最优的，从而使最后得到的结果是全局最优的。可用于解决分配问题e.g.leetcode455分发饼干解题思路：目标：尽可能满足越多数量的孩子。根据目标，可以容易想到，先去满足胃口值小的孩子。为了尽量使饼干可以满足更多的孩子，所以要把饼干尺寸大于等于孩子胃口值的饼干中挑尺寸最小的饼干给孩子。满足了这个孩子之后，再采取同样的策略去考虑剩下的孩子，直到
强化学习 Reward 百态老人算法
在强化学习中，奖励（Reward）是智能体（Agent）与环境（Environment）交互过程中获得的重要反馈信号。奖励机制在强化学习中扮演着至关重要的角色，因为它不仅指导智能体如何在环境中行动，还影响其策略的优化和最终的学习效果。奖励是智能体在执行某个动作后从环境中获得的即时反馈，用于评估该动作的好坏。这种反馈帮助智能体调整其行为策略，以期在未来获得更多的奖励。奖励可以是正数、负数或零，其或负
python大赛对名_用100行Python爬虫代码抓取公开的足球数据玩（一）司马各 python大赛对名
在《用Python模拟2018世界杯夺冠之路》一文中，我选择从公开的足球网站用爬虫抓取数据，从而建模并模拟比赛，但是略过了爬虫的实施细节。虽然爬虫并不难做，但希望可以让更多感兴趣的朋友自己动手抓数据下来玩，提供便利，今天就把我抓取球探网的方法和Python源码拿出来分享给大家，不超过100行代码。希望球友们能快速get爬虫的技能。#-*-coding:utf-8-*-from__future__i
鸿蒙开发：ArkTs字符串string
前言本文代码案例基于Api13。字符串在实际的开发中还是非常重要的，牵扯到的用法也是比较多的，比如字符串中的查找，替换，切割等等。字符串（String）是由零个或多个字符组成的有限序列，在计算机编程和数据处理中广泛使用。字符串可以包含字母、数字、标点符号、空格，甚至可以是空字符串（即不包含任何字符的字符串）。字符串是文本信息的基本表示形式，在几乎所有编程语言中都有专门的字符串数据类型或类来处理它们
基于 Redis 的分布式锁实现与优化 Blossom.118 分布式系统与高性能计算领域 redis 分布式数据库 python3.11 算法数据结构推荐算法
在分布式系统中，锁机制是保障数据一致性和并发控制的关键技术之一。Redis作为一种高性能的内存数据库，常被用于实现分布式锁。本文将详细介绍基于Redis的分布式锁的实现原理、代码示例以及优化策略，帮助读者更好地理解和应用这一技术。一、分布式锁的概念与需求在单机系统中，锁的实现相对简单，可以通过操作系统的同步机制或编程语言提供的锁机制来完成。然而，在分布式系统中，多个进程或线程可能运行在不同的机器上
从入门到进阶：Python数据可视化实战技巧 Blossom.118 分布式系统与高性能计算领域信息可视化 python 开发语言网络协议 spring boot java 后端
在数据分析和数据科学领域，数据可视化是将复杂数据以直观图形展示的重要手段。Python作为数据科学领域的首选语言之一，提供了强大的数据可视化库，如Matplotlib、Seaborn、Plotly等。本文将从入门到进阶，逐步介绍Python数据可视化的实战技巧，帮助读者快速提升数据可视化能力。一、入门：Matplotlib基础Matplotlib是Python中最基础、最强大的数据可视化库之一。它
【二、DeepSeek应用场景与案例】10.农业智能化：DeepSeek如何助力精准种植与养殖？代码世界的浪客人工智能 DeepSeek
一、引言1.1农业智能化的时代背景在全球人口持续增长的大趋势下，粮食需求正以前所未有的速度攀升。据联合国相关预测，到2050年，全球人口有望突破90亿，这无疑给本就压力重重的农业生产带来了更为艰巨的挑战，保障充足的粮食供应成为了迫在眉睫的任务。与此同时，资源短缺问题日益尖锐，耕地面积因城市化进程、土地退化等因素不断缩减，水资源分布不均且浪费严重，进一步加剧了农业生产的困境。根据世界银行的数据，过去
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

第6章 数据结构化与数据存储（6.1数据结构化神器——pandas库，读取网页中的表格数据）

6.1.1用read_html()函数快速爬取网页表格数据

6.1.2 pandas库在爬虫领域的核心代码知识

1.创建DataFrame

（1）通过列表创建DataFrame

（2）通过字典创建DataFrame

2.数据文件的读取和写入

（1）文件读取

（2）文件写入

3.DataFrame 中数据的常用操作

（1）按列选取数据

（2）按行选取数据

（3）按区块选取数据

（4）数据筛选

（5）数据整体情况查看

（6）数据运算

（7）数据排序

（8）数据删除

4. DataFrame 拼接

你可能感兴趣的:(爬虫相关案例或知识,python,爬虫)

第6章数据结构化与数据存储（6.1数据结构化神器——pandas库，读取网页中的表格数据）