弓.长.

Python文件处理(IO 技术)

文章目录

Python文件处理
- 一、文本文件和二进制文件
- - - 1. 文本文件
    - 2. 二进制文件
- 二、文件操作相关模块概述
- 三、创建文件对象 open()
- 四、文本文件的写入
- - - 1. 基本的文件写入操作
    - 2. 常用编码介绍
    - 3. 中文乱码问题
    - 4. close()关闭文件流
    - 5. 文本文件的读取
    - 6. 二进制文件的读取和写入
- 五、文件对象的常用属性和方法
- - - 文件对象的属性
    - 文件对象的打开模式
    - 文件对象的常用方法
- 六、文件任意位置操作
- 七、CSV 文件的操作
- - - 1. csv.reader 对象和 csv 文件读取
    - csv.writer 对象和 csv 文件写入
pickle 序列化
os 和 os.path 模块
- - - os 模块-调用操作系统命令
    - os.startfile：直接调用可执行文件
    - os 模块-文件和目录操作
    - os.path 模块
    - walk()递归遍历所有文件和目录
shutil 模块(拷贝和压缩)
递归算法

Python文件处理

一、文本文件和二进制文件

按文件中数据组织形式，我们把文件分为文本文件和二进制文件两大类。

1. 文本文件

文本文件存储的是普通“字符”文本，python 默认为 unicode 字符集（两个字节表示
一个字符，最多可以表示：65536 个），可以使用记事本程序打开。注意:像 word 软件编辑的文档不是文本文件。

2. 二进制文件

二进制文件把数据内容用“字节”进行存储，无法用记事本打开。必须使用专用的软件
解码。常见的有：MP4 视频文件、MP3 音频文件、JPG 图片、doc 文档等等。

二、文件操作相关模块概述

在 Python 中，有几个常用的文件操作相关模块可以帮助你进行文件的创建、读取、写入、复制、移动等操作。

这些模块为 Python 中文件操作提供了强大的功能和灵活性，可以根据需求选择合适的模块来进行文件处理操作。

三、创建文件对象 open()

open() 函数用于打开一个文件，并返回一个文件对象，可以对该文件对象进行读取、写入等操作。
语法格式如下：

open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)

其中：

file: 要打开的文件的路径。

mode: 打开文件的模式，常用的模式包括：
‘r’: 以只读方式打开文件（默认）。
‘w’: 以写入方式打开文件，会覆盖已存在的文件。
‘a’: 以追加模式打开文件，如果文件存在，数据将被写入到文件末尾。
‘b’: 以二进制模式打开文件。
‘t’: 以文本模式打开文件（默认）。

buffering: 缓冲策略，0 表示不缓冲，1 表示行缓冲，大于 1 表示缓冲区大小。

encoding: 文件编码（例如 ‘utf-8’），只适用于文本模式。

errors: 指定编解码错误时的处理方式。

newline: 控制换行模式。

closefd: 是否关闭底层文件描述符。

opener: 用于打开文件的自定义函数。

如果只是文件名，代表在当前目录下的文件。文件名可以录入全路径，比如：D:\a\b.txt。
为了减少“\”的输入，可以使用原始字符串：r“d:\b.txt”。
【示例】

f = open(r"d:\b.txt","w")

打开方式有如下几种：

文本文件对象和二进制文件对象的创建：
如果我们没有增加模式“b”，则默认创建的是文本文件对象，处理的基本单元是“字符”。如果是二进制模式“b”，则创建的是二进制文件对象，处理的基本单元是“字节”。

四、文本文件的写入

1. 基本的文件写入操作

文本文件的写入一般就是三个步骤：

创建文件对象
写入数据
关闭文件对象

【示例】 文本写入操作简单测试

f = open(r'文件对象.txt', 'a')
s = 'hello world!'
f.write(s)
f.close()

执行结果：

2. 常用编码介绍

(1). ASCII码
全称为 American Standard Code for Information Interchange，美国信
息交换标准代码，这是世界上最早最通用的单字节编码系统，主要用来显示现代英语及其他西欧语言。
ASCII 码用 7 位表示，只能表示 128 个字符。只定义了 2
7=128 个字符，用7bit 即可完全编码，而一字节 8bit 的容量是 256，所以一字节 ASCII 的编码最高位总是 0。
0～31 表示控制字符如回车、退格、删除等；32～126 表示打印字符即可以
通过键盘输入并且能显示出来的字符；其中 48～57 为 0 到 9 十个阿拉伯数字，65～90 为 26 个大写英文字母，97～122 号为 26 个小写英文字母，其余为一些标点符号、运算符号等，具体可以参考 ASCII 标准表。

(2). Unicode
Unicode是一种字符集，它定义了全球范围内几乎所有的字符，并为每个字符分配了一个唯一的码点（code point）。Unicode中的码点用十六进制表示，例如U+0041表示拉丁字母"A"。
Unicode的目标是为世界上每个字符提供一个唯一的标识，并且不受特定的编码限制。这样就能够实现不同语言、不同文化背景的字符在计算机系统中的互通和共享。
Unicode采用不同的编码方式来表示这些码点，常见的编码方式有UTF-8、UTF-16和UTF-32等。其中，UTF-8是最常用的编码方式之一，它使用可变长度的方式来表示字符，能够兼容ASCII码，并且对于常用的字符使用较少的字节表示，提高了存储效率。

(3). UTF-8
UTF-8（Unicode Transformation Format-8）是一种可变长度的编码方式，能够表示Unicode字符集中的任意字符。它是互联网上最常用的字符编码之一，也是现代编程语言中的标准字符编码方式。
UTF-8采用1到4个字节来表示一个字符，具体长度根据字符的不同而变化。对于ASCII码的字符，UTF-8使用1个字节来表示，因此在存储英文文本时，UTF-8和ASCII码是兼容的。而对于非ASCII字符，UTF-8使用不同长度的字节序列来表示，确保了所有Unicode字符都能够被表示。

特点：

可变长度：UTF-8使用不定长编码，对于不同的字符使用不同长度的字节来表示。这样可以节省存储空间，并且方便了Unicode字符在不同系统之间的传输和处理。

兼容ASCII码：对于ASCII码的字符，UTF-8使用1个字节来表示。这使得ASCII文本可以直接在UTF-8系统中使用，而不需要进行转换。

自我同步性：UTF-8编码方式具有自我同步性，即任何一个字节都可以作为起始字节。这样能够确保在传输和处理过程中不会出现数据混乱和解码错误。

国际化支持：UTF-8能够支持全球范围内几乎所有的字符，包括中文、日文、韩文等亚洲语言，以及西方语言和其他一些少数民族语言。

(4). GBK
GBK编码是一种中文字符集编码方式，它是中国国家标准GB 2312的扩展形式。GBK编码能够表示中文字符以及包括繁体字在内的一些其他字符。

GBK编码使用双字节表示一个字符，每个字节使用8位二进制数表示。第一个字节的范围是0x81-0xFE，第二个字节的范围是0x40-0xFE（不包括0x7F），因此GBK编码总共可以表示(94+33)×(94+33)=30,664个字符。

GBK编码兼容ASCII码，即对于ASCII字符，使用单字节表示，与标准的ASCII编码一致。而对于中文字符和其他非ASCII字符，使用双字节表示。

注意: GBK编码是一种中文字符集编码方式，不同于Unicode编码。Unicode是一个统一的全球字符集，而GBK编码只是其中的一种特定编码方式，主要用于中文字符的表示。

3. 中文乱码问题

windows 操作系统默认的编码是 GBK，Linux 操作系统默认的编码是 UTF-8。当我们用 open()时，调用的是操作系统打开的文件，默认的编码是GBK。

【示例】 中文字符文件，乱码出现测试

f = open(r'中文乱码.txt', 'w')
s = '你好！\n'
f.write(s)  # 把字符串 s 写入到文件中
f.close()

运行结果（Linux 环境中不存在这个问题）：

**【示例】**通过指定文件编码解决中文乱码问题

f = open(r'中文乱码.txt', 'w', encoding='utf-8')
s = '你好！\n'
f.write(s)  # 把字符串 s 写入到文件中
f.close()

运行结果：

4. close()关闭文件流

由于文件底层是由操作系统控制，所以我们打开的文件对象必须显式调用 close()方法关闭文件对象。当调用 close()方法时，首先会把缓冲区数据写入文件(也可以直接调用 flush()方法)，再关闭文件，释放文件对象。

为了确保打开的文件对象正常关闭，一般结合异常机制的 finally 或者 with 关键字实现无论何种情况都能关闭打开的文件对象。

【示例】 结合异常机制 finally 确保关闭文件对象

# 结合异常机制 finally 确保关闭文件对象
try:
    f = open('close关闭流.txt', 'w')
    str1 = 'hello'
    f.write(str1)
except BaseException as e:
    print(e)
finally:
    f.close()

运行结果：

5. 文本文件的读取

文件的读取一般使用如下三个方法：

read([size])：从文件中读取 size 个字符，并作为结果返回。如果没有 size 参数，则读取整个文件。读取到文件末尾，会返回空字符串。

readline()：读取一行内容作为结果返回。读取到文件末尾，会返回空字符串。

readlines()：文本文件中，每一行作为一个字符串存入列表中，返回该列表

【示例】 读取一个文件前 3 个字符

with open('with语句(上下文管理器).txt', 'r', encoding='utf-8') as f:
    str1 = f.read(3)
    print(str1)

运行结果：

【示例】 文件较小，一次将文件内容读入到程序中

# 文件较小，一次将文件内容读入到程序中
with open('with语句(上下文管理器).txt', 'r', encoding='utf-8') as f:
    str1 = f.read()
    print(str1)

运行结果：

【示例】 为文本文件每一行的末尾增加行号

with open('中文乱码.txt', 'r', encoding='utf-8') as f:
    lines = f.readlines()
    lines = [line.rstrip() + '  # ' + str(index + 1) + '\n' for index, line in enumerate(lines)]

with open('文本文件每一行的末尾增加行号.txt', 'w', encoding='utf-8') as f:
    f.writelines(lines)

运行结果：

6. 二进制文件的读取和写入

二进制文件的处理流程和文本文件流程一致。首先还是要创建文件对象，不过，我们需要指定二进制模式，从而创建出二进制文件对象。

创建好二进制文件对象后，仍然可以使用 write()、read()实现文件的读写操作。
【示例】 读取图片文件，实现文件的拷贝

# 二进制文件的读取
with open('aa.gif', 'rb') as f:
    line = f.read()

# 二进制文件的写入
with open('copy_aa.gif', 'wb') as f:
    f.write(line)

运行结果：

五、文件对象的常用属性和方法

文件对象的属性

属性	说明
name	返回文件的名字
mode	返回文件的打开模式
closed	若文件被关闭则返回 True

文件对象的打开模式

文件对象的常用方法

六、文件任意位置操作

【示例】 seek()移动文件指针示例

with open('中文乱码.txt', 'r', encoding='utf-8') as f:
    print('文件名：{0}'.format(f.name))
    print(f.tell())
    print('读取的内容：{0}'.format(str(f.readline())))
    print(f.tell())
    f.seek(0, 0)
    print('读取的内容：{0}'.format(str(f.readline())))

运行结果：

七、CSV 文件的操作

csv(Comma Separated Values)是逗号分隔符文本格式，常用于数据交换、Excel文件和数据库数据的导入和导出。
与 Excel 文件不同，CSV 文件中：

值没有类型，所有值都是字符串

不能指定字体颜色等样式

不能指定单元格的宽高，不能合并单元格

没有多个工作表

不能嵌入图像图表

Python 标准库的模块 csv 提供了读取和写入 csv 格式文件的对象。

1. csv.reader 对象和 csv 文件读取

【示例】 csv.reader 对象于从 csv 文件读取数据

import csv
with open('豆瓣.csv', 'r', encoding='utf-8') as f:
    read = csv.reader(f)
    for row in read:
        print(row)

运行结果：

csv.writer 对象和 csv 文件写入

【示例】 csv.writer 对象写一个 csv 文件

import csv
headers = ['标题', '类型', '评分', '引言']
rows = [('当幸福来敲门', '剧情 传记 家庭', 9.2, '平民励志片。'),
        ('寻梦环游记', '喜剧 动画 奇幻 音乐', 9.1, '死亡不是真的逝去，遗忘才是永恒的消亡。'),
        ('末代皇帝', '剧情 传记 历史', 9.3, '“不要跟我比惨，我比你更惨”再适合这部电影不过了。')]
with open('豆瓣.csv', 'w', encoding='utf-8', newline='') as f:
    write = csv.writer(f)
    write.writerow(headers)
    write.writerows(rows)

运行结果：

pickle 序列化

Python 中，一切皆对象，对象本质上就是一个“存储数据的内存块”。有时候，我们需要将“内存块的数据”保存到硬盘上，或者通过网络传输到其他的计算机上。这时候，就需要“对象的序列化和反序列化”。对象的序列化机制广泛的应用在分布式、并行系统上。
序列化指的是：将对象转化成“串行化”数据形式，存储到硬盘或通过网络传输到其他地方。反序列化是指相反的过程，将读取到的“串行化数据”转化成对象。

【示例】 将对象序列化到文件中

import pickle

with open(r"data.dat", "wb") as f:
    a1 = ['ZX', [123], {'age': 18}]
    pickle.dump(a1, f)

【示例】 将获得的数据反序列化成对象

import pickle

with open('data.dat', 'rb') as f:
    a = pickle.load(f)
print(a)

运行结果：

os 和 os.path 模块

os 模块可以帮助我们直接对操作系统进行操作。我们可以直接调用操作系统的可执行文件、命令，直接操作文件、目录等等。在系统运维的核心基础。

os 模块-调用操作系统命令

os.system 可以帮助我们直接调用系统的命令
【示例】 os.system 调用 windows 系统的记事本程序

import os
os.system('cmd')
os.system('regedit')

【示例】 os.system 调用 windows 系统中 ping 命令

import os
os.system("ping www.baidu.com")

运行结果：

os.startfile：直接调用可执行文件

【示例】 运行安装好的微信

import os
os.startfile('D:\软件\微信\WeChat\WeChat.exe')

运行结果：

os 模块-文件和目录操作

os 模块下常用操作文件的方法

os 模块下关于目录操作的相关方法

【示例】 os 模块：创建、删除目录、获取文件信息等

import os
# 获取文件和文件夹相关的信息
print(os.name)  # windows->nt; linux 和 unix->posix
print(os.sep)  # windows->\; linux 和 unix->/
print(repr(os.linesep))  # windows->\r\n;linux-->\n\
print(os.stat('os模块-文件和目录操作.py'))

# 关于工作目录的操作
print(os.getcwd())  # 返回当前工作目录
# os.chdir('d:')  # 改变当前的工作目录为：d:盘根目录

# 创建目录、创建多级目录、删除
os.mkdir('电影')  # 创建目录
os.makedirs('音乐/周杰伦/稻香')  # 创建多级目录
os.makedirs('../电影1')  # ../表示上一级

print(os.listdir('电影'))

os.path 模块

os.path 模块提供了目录相关（路径判断、路径切分、路径连接、文件夹遍历）的操作。

方法	描述
isabs(path)	判断 path 是否绝对路径
isdir(path)	判断 path 是否为目录
isfile(path)	判断 path 是否为文件
exists(path)	判断指定路径的文件是否存在
getsize(filename)	返回文件的大小
abspath(path)	返回绝对路径
dirname§	返回目录的路径
getatime(filename)	返回文件的最后访问时间
getmtime(filename)	返回文件的最后修改时间
walk(top,func,arg)	递归方式遍历目录
join(path,*paths)	连接多个 path
split(path)	对路径进行分割，以列表形式返回
splitext(path)	从路径中分割文件的扩展名

【示例】 测试 os.path 中常用方法

import os.path
# 是否为绝对路径
print(os.path.isabs('d:/a1.txt'))
# 是否为目录
print(os.path.isdir('d:/a1.txt'))
# 是否为文件
print(os.path.isfile('d:/a1.txt'))
# 文件是否存在
print(os.path.exists('d:/a1.txt'))
# 文件大小
print(os.path.getsize('d:/a1.txt'))
# 输出所在目录
print(os.path.dirname('d:/a1.txt'))
# 返回创建时间
print(os.path.getctime('d:/a1.txt'))
# 返回最后访问时间
print(os.path.getatime('d:/a1.txt'))
# 返回最后修改时间
print(os.path.getmtime('d:/a1.txt'))
# 输出绝对路径
print(os.path.abspath('d:/a1.txt'))
# 返回元组：目录、文件
print(os.path.split('d:/a1.txt'))
# 返回元组：路径、扩展名
print(os.path.splitext('d:/a1.txt'))
# 路径连接
print(os.path.join('d: ', 'python', 'a.txt'))

运行结果：

【示例】 列出指定目录下所有的.py 文件，并输出文件名

# 方法一
import os.path
path = os.getcwd()
file_list = os.listdir(path)
for filename in file_list:
    if filename.endswith('py'):
        print(filename)

# 方法二
import os.path
path = os.getcwd()
file_list = os.listdir(path)
filename = [filename for filename in file_list if filename.endswith('py')]
for f in filename:
    print(f)

walk()递归遍历所有文件和目录

os.walk()方法：
返回一个 3 个元素的元组，(dirpath, dirnames, filenames),

dirpath：要列出指定目录的路径

dirnames：目录下的所有文件夹

filenames：目录下的所有文件

【示例】 使用 walk()递归遍历所有文件和目录

import os

all_files = []
path = os.getcwd()
list_files = os.walk(path)
for dirpath, dirnames, filenames in list_files:
    for dir in dirnames:
        all_files.append(os.path.join(dirpath, dir))
    for name in filenames:
        all_files.append(os.path.join(dirpath, name))
# 打印子目录和子文件
for file in all_files:
    print(file)

运行结果：

shutil 模块(拷贝和压缩)

shutil 模块是 python 标准库中提供的，主要用来做文件和文件夹的拷贝、移动、删除等；还可以做文件和文件夹的压缩、解压缩操作。
os 模块提供了对目录或文件的一般操作。shutil 模块作为补充，提供了移动、复制、压缩、解压等操作，这些 os 模块都没有提供。

【示例】 实现文件的拷贝

import shutil
# copy 文件内容
shutil.copy('1.txt', '1_copy.txt')

【示例】 实现递归的拷贝文件夹内容(使用 shutil 模块)

import shutil
#"音乐"文件夹不存在才能用。
shutil.copytree("电影/学习","音乐",ignore=shutil.ignore_patterns("*.html","*.htm"))

【示例】 实现将文件夹所有内容压缩

import shutil
# 将"电影/学习"文件夹下所有内容压缩到"音乐 2"文件夹下生成 movie.zip
# shutil.make_archive("音乐 2/movie", "zip", "电影/学习")


# 压缩:将指定的多个文件压缩到一个 zip 文件
import zipfile
z = zipfile.ZipFile("a.zip","w")
z.write("1.txt")
z.write("2.txt")
z.close()

运行结果：

【示例】 实现将压缩包解压缩到指定文件夹

import zipfile
# 解压缩：
z2 = zipfile.ZipFile("a.zip", "r")
z2.extractall("d:/")  # 设置解压的地址
z2.close()

运行结果：

递归算法

递归是一种常见的解决问题的方法，即把问题逐渐简单化。递归的基本思想就是“自己调用自己”，一个使用递归技术的方法将会直接或者间接的调用自己。
利用递归可以用简单的程序来解决一些复杂的问题。比如：斐波那契数列的计算、汉诺塔、快排等问题。

递归结构包括两个部分：

定义递归头。

递归体。

【示例】 使用递归求 n!

def factorial(n):
    if n == 1:
        return 1
    else:
        return n * factorial(n - 1)

a = factorial(5)
print(a)

运行结果：

【示例】 使用递归算法遍历目录下所有文件

import os
allfile = []

def getFiles(path, level):
    childFiles = os.listdir(path)
    for file in childFiles:
        filepath = os.path.join(path, file)
        if os.path.isdir(filepath):
            getFiles(filepath, level + 1)
        allfile.append("\t" * level + filepath)

getFiles(os.getcwd(), 0)
for f in reversed(allfile):
    print(f)

运行结果：

你可能感兴趣的:(python,开发语言)

用 Python 打造立体数据世界：3D 堆叠条形图绘制全解析 Code_Verse python 科研绘图
在数据可视化的工具箱里，3D图表总能带来眼前一亮的效果——它突破了二维平面的限制，用立体空间展示多维度数据关系，让复杂的数据层级一目了然。今天我们要解锁的「3D堆叠条形图」，就是一种能同时呈现类别、子类别、数值大小的强大可视化工具，特别适合展示具有分层结构的数据。无论是商业报表中的多维度业绩分析，还是科研数据中的多指标对比，它都能让你的数据呈现瞬间高级起来～为什么选择3D堆叠条形图？先聊聊这种图表
python爬取京东图片通信小小白 python 爬虫 python 爬虫图片
网上的淘宝爬取图片的代码一般都已经不能实际运行了，在查看淘宝网源代码是找不到图片源地址，估计采取了反爬技术。又去京东看了下，发现很容易爬取。根据下面网址构建urlhttps://list.jd.com/list.html?cat=670%2C671%2C1105&go=0https://list.jd.com/list.html?cat=670,671,1105&page=2&sort=sort_
数据图的类型以及如何在 Python 中创建和自定义唐城唐城奇妙之旅-GIS python 信息可视化数据分析
有人说：一个人从1岁活到80岁很平凡，但如果从80岁倒着活，那么一半以上的人都可能不凡。生活没有捷径，我们踩过的坑都成为了生活的经验，这些经验越早知道࿰
探索PyRDP：远程桌面协议的瑞士军刀彭宏彬
探索PyRDP：远程桌面协议的瑞士军刀pyrdpRDPmonster-in-the-middle(mitm)andlibraryforPythonwiththeabilitytowatchconnectionsliveorafterthefact项目地址:https://gitcode.com/gh_mirrors/py/pyrdp在网络安全领域，攻防两端的对决不断推动着工具的创新。今天，让我们聚
python采集淘宝评论，API接口丨json数据示例参考 ID_18007905473 API python 大数据 json python
在Python中采集淘宝商品评论数据，通常需要通过淘宝开放平台提供的API接口来实现。然而，淘宝开放平台并没有直接提供公开的评论API接口，因此需要通过其他方式间接获取评论数据。以下是一个使用Python通过网页爬虫技术获取淘宝商品评论数据的示例。请注意，这个示例仅用于学习和研究目的，请确保遵守淘宝的使用条款和相关法律法规。示例代码importrequestsfrombs4importBeauti
Python采集京东商品详情数据API接口概述及JSON数据格式参考 ID_18007905473 API python 前端服务器 json
前言一、京东商品详情API接口概述京东开放平台提供了多种API接口，允许开发者通过编程方式获取商品详情数据。以下是常见的接口类型及功能：商品基础信息接口接口名称：jd.union.open.goods.query功能：获取商品标题、价格、图片、库存等基础信息。适用场景：商品列表展示、价格监控等。商品详情接口接口名称：jd.union.open.goods.detail.query功能：获取商品详细
Python采集京东商品详情API接口概述 ID_18007905473 python PHP 数据库 python 开发语言
前言京东开放平台提供了多种API接口用于获取商品详情信息，以下是主要的API接口概述及Python采集示例。一、主要商品详情API接口1.商品基础信息接口接口名称:jd.union.open.goods.query功能:获取商品标题、价格、图片、库存等基础信息2.商品详情接口接口名称:jd.union.open.goods.detail.query功能:获取商品详细描述、规格参数、售后政策等丰富信
Python采集淘宝商品评论API接口概述，json格式数据参考 ID_18007905473 python API python json 前端
一、淘宝商品评论API接口概述淘宝开放平台提供了taobao.item.reviews.get接口，用于获取指定商品的评论数据。该接口支持分页查询、多条件筛选（如时间范围、评分等级）和自定义返回字段，适用于电商数据分析、竞品研究和用户行为洞察等场景。核心功能：分页获取评论：支持通过page_no和page_size参数控制返回数据的分页。多维度筛选：可按时间范围（start_date、end_da
基于Python的京东商品信息采集实战：用Playwright+Pandas打造高效数据抓取工具 Python爬虫项目 2025年爬虫实战项目 python pandas 开发语言爬虫游戏笔记
一、项目背景与目标在当今电商生态中，价格、销量、评论等商品信息对用户和商家来说至关重要。无论是做数据分析、电商监控，还是构建商品推荐系统，第一步都是：获取真实的商品数据。本项目以京东商城搜索结果页为目标，通过构建一个高效、可复用的商品信息采集爬虫系统，实现对商品名称、价格、店铺、评论数、链接等核心信息的提取。二、技术路线概述我们采用如下技术架构：模块技术选型浏览器自动化Playwright（现代、
Python爬虫：爬取物流公司运输数据与包裹跟踪信息 Python爬虫项目 python 爬虫开发语言数据挖掘旅游
一、前言随着电商行业的蓬勃发展，物流服务已成为不可或缺的一部分。消费者对物流运输状态的关注越来越高，实时查询包裹的运输进度成为日常生活的一部分。物流公司爬虫正是为了自动化获取物流公司的运输数据和包裹的跟踪信息，帮助消费者、商家以及物流公司本身进行数据分析、优化物流链条和提高客户体验。本文将详细介绍如何使用Python爬虫从多个物流公司网站或API接口中抓取运输数据、包裹跟踪信息以及相关的统计分析数
Python采集京东商品API接口概述及JSON格式数据参考 ID_18007905473 python API 数据库 python 开发语言
前言一、接口概述京东商品详情API接口是京东开放平台为开发者提供的服务，用于获取京东平台上商品的详细信息。通过调用该接口，开发者可以获取商品的名称、价格、库存、图片、规格参数、用户评价等结构化数据，适用于电商应用、价格监控、数据分析等场景。二、接口特点数据全面性接口返回的数据涵盖多个维度，包括：商品基本信息：名称、品牌、型号、分类等。价格信息：当前售价、原价、促销价、折扣信息等。库存信息：库存数量
【Python】科研代码学习：十三 Accelerate 溢流眼泪【科研代码】python 学习开发语言
【Python】科研代码学习：十三AccelerateAccelerate统一的加速接口修改训练代码(torch.nn)更简单的使用Accelerate【HF官网-Doc-Accelerate：API】HFAccelerate是一个库，能够让PyTorch代码添加几行代码之后，就能在分布式配置中运行（比如多Gpus卡）前言：建议Python3.8+pipinstallaccelerate统一的加速
【python】2.set集合一个玉米栗 python python
Set集合创建一个空集合使用set(),若创建的集合内元素有值可以使用creatset={'tom','arry','张三','李四'}集合内重复的元素会被自动去掉集合是无序的，可变类型的数据集合添加元素set.add('addname')-addname为要添加的元素set.remove():删除集合的元素set.update('添加元素包含字典，列表，集合'):向集合中更新元素set.clea
pip install accelerate后accelerate命令无法执行的问题轩轩的学习之路 pip linux windows
这是因为默认使用的是.local/bin/accelerate而不是conda环境里的accelerate查看accelerate路径与python是否一致whichpythonwhichaccelerate打印输出果然accelerate路径有问题（python）/home/ubuntu/.conda/envs/Emb/bin/python（accelerate）/home/ubuntu/.lo
Python小知识感情谁不曾无奈 #Python笔记 python
文章目录一、技巧二、错误解决办法三、Pycharm3.1添加安装包python知识点梳理AI股票可以读取指数一、技巧1.1镜像元安装指令：pipinstall-ihttps://pypi.doubanio.com/simple/--trusted-hostpypi.doubanio.comxxxx1.2唤醒虚拟环境.\venv\Scripts\activate1.3解决包不兼容问题pipinsta
统一认证、限流、Mock 一网打尽！用 APISIX/Kong 让低代码平台更清爽网罗开发实战源码前端 kong 低代码
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
LeetCode题解：30.串联所有单词的子串【Python题解超详细，KMP搜索、滑动窗口法】，知识拓展：Python中的排列组合
题目描述给定一个字符串s和一个字符串数组words。words中所有字符串长度相同。s中的串联子串是指一个包含words中所有字符串以任意顺序排列连接起来的子串。例如，如果words=["ab","cd","ef"]，那么"abcdef"，"abefcd"，"cdabef"，"cdefab"，"efabcd"和"efcdab"都是串联子串。"acdbef"不是串联子串，因为他不是任何words排列
python udsoncan 详解车载testing 智能汽车测试 python
pythonudsoncan详解udsoncan是一个Python库，用于实现汽车统一诊断服务（UnifiedDiagnosticServices，UDS）协议。UDS是一种用于汽车诊断的标准化通信协议，它定义了一系列的服务和流程，用于ECU（电子控制单元）的诊断和通信。udsoncan库支持通过CAN（ControllerAreaNetwork）和DoIP（DiagnosticoverIP）等不
HarmonyOS（OHOS）引擎编译常见问题 harmonyos
ohos引擎产物编译相关问题flutter_engine环境编译配置参考FlutterOpenHarmony化引擎编译环境推荐配置版本python3.8-3.11,3.12版本会出现报错java17DevEco-Studio/command-line-tools,5.0.3.300+包含了ohpm,hvigorw,node,OpenHarmonySDKXcode14.3如何生成flutter.ha
python-can + can-isotp + udsoncan 实现基础的UDS诊断功能；附代码 dujunqiu python python 开发语言
1：功能说明在网上搜了一下python-can+udsoncan的使用说明，发现都是很笼统的介绍，没有详细的使用说明；下面根据我自己的使用经验，来给大家介绍一下;2：源代码介绍这里主要修改的配置是“bus1=can.interface.Bus(interface=‘canalystii’,channel=0,bitrate=500000)”这一行代码，需要根据实际使用的CAN盒进行配置；详细的代码
Python打卡训练营-Day41-简单CNN traMpo1ine cnn python 深度学习
@浙大疏锦行知识回顾数据增强卷积神经网络定义的写法batch归一化：调整一个批次的分布，常用与图像数据特征图：只有卷积操作输出的才叫特征图调度器：直接修改基础学习率卷积操作常见流程如下：1.输入→卷积层→Batch归一化层（可选）→池化层→激活函数→下一层Flatten->Dense(withDropout，可选)->Dense(Output)这里相关的概念比较多，如果之前没有学习过复试班强化班中
__init__.py 是个啥，为什么深受大厂程序员偏爱？程序员CC_ Python入门学python Python零基础 python 人工智能开发语言
朋友们，今天我们来聊聊Python里一个低调却至关重要的文件——__init__.py。说实话，这玩意儿刚开始学Python时，很多人（包括当年的我）都是一脸懵：“这啥？删了会咋样？”有些人可能听说过它是“包的标志”，也有人觉得它“没啥大用，可以忽略”，更有甚者以为它“只是个装样子的文件”。今天，我们就来彻底搞清楚__init__.py到底是干啥的，以及它如何影响Python项目的结构和运行。️先
Github 2025-06-24Python开源项目日报 Top10 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2025-06-24统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目10Swift项目1C++项目1yt-dlp:一个增强版的youtube-dl分支创建周期：1184天开发语言：Python协议类型：TheUnlicenseStar数量：64607个Fork数量：5309次关注人数：64607人贡献
Python接口测试之接口关键字封装测试老哥 python 软件测试自动化测试职场和发展测试用例接口测试测试工具
点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快我们使用RF做UI自动化测试的时候，使用的是关键字驱动。同样，Python做接口自动化测试的时候，也可以使用关键字驱动。但是这里并不是叫关键字驱动，而是叫数据驱动。而接口测试的关键字是什么呢？我们数据驱动的载体是Excel，那么excel里存放的数据是接口测试用例数据，一个接口数据里有常量和变量。变量就是一些参数对应的值，而常量就是接口的
假如你从现在开始学习软件测试，需要多久才能学会呢？ AIZHINAN 学习
首先，不要去网上找那些零零碎碎的教程，很难学懂！你可以根据这个学习大纲定计划只要3-6个月就可以掌握软件测试，升职涨薪不在话下：1.基础阶段：先搞懂测试理论、用例设计，会用Jira写Bug；2.中级阶段：学SQL查数据、Linux看日志，Postman测接口，再用Selenium玩自动化；3.进阶阶段：搭Pytest框架、用JMeter压测，安全测试搞BurpSuite；4.扩展技能：Python
Python网安-zip文件暴力破解（仅供学习） Whoisshutiao python网安 python 开发语言网络安全
目录源码在这里需要的模块准备一个密码本和需要破解的ZIP文件一行一行地从密码文件中读取每个密码。核心部分注意，需要修改上段代码注释里的这段具有编码问题的代码：源码在这里https://github.com/Wist-fully/Attack/tree/cracker需要的模块fromtqdmimporttqdmimportzipfileimportpyzipper准备一个密码本和需要破解的ZIP文
【力扣hot100】python刷题笔记之哈希 Animato. 哈希算法 leetcode 笔记
1.两数之和（简单）题目描述：给定一个整数数组nums和一个整数目标值target，请你在该数组中找出和为目标值target的那两个整数，并返回它们的数组下标。你可以假设每种输入只会对应一个答案，并且你不能使用两次相同的元素。你可以按任意顺序返回答案。示例：解法一：暴力解法：双层循环（这里就不给代码了）解法二：哈希表（时间复杂度O(n)）算法思路：（1）先创建一个空字典当做哈希表来存储已经遍历过的
python 爬虫 selenium作用_详解python爬虫利器Selenium使用方法 weixin_39585974 python 爬虫 selenium作用
简介：用pyhon爬取动态页面时普通的urllib2无法实现，例如下面的京东首页，随着滚动条的下拉会加载新的内容，而urllib2就无法抓取这些内容，此时就需要今天的主角selenium。Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE、MozillaFirefox、MozillaSuite等。使用它爬取页面
矩阵（二维数组）局部极大/小值-python实现银河系渐入佳境编程指南算法 python 算法矩阵
题目来源：某为面试/算法第四版：Algs4-1.4.19矩阵的局部最小元素参考思路：传送CODE：importnumpyasnp'''deffindMin():arr=np.random.rand(10,10)index_arr=np.zeros((10,10))foriinrange(arr.shape[0]):forjinrange(arr.shape[1]):ifi>0andi0andj
Python网安-ftp服务暴力破解（仅供学习） Whoisshutiao python 网络安全开发语言
目录源码在这里需要导入的模块连接ftp，并设置密码本和线程核心代码设置线程源码在这里https://github.com/Wist-fully/Attack/tree/cracker需要导入的模块importftplibfromthreadingimportThreadimportqueue连接ftp，并设置密码本和线程host="192.168.6.6"user="student"port=21
java观察者模式 3213213333332132 java 设计模式游戏观察者模式
观察者模式——顾名思义，就是一个对象观察另一个对象，当被观察的对象发生变化时，观察者也会跟着变化。在日常中，我们配java环境变量时，设置一个JAVAHOME变量,这就是被观察者，使用了JAVAHOME变量的对象都是观察者，一旦JAVAHOME的路径改动，其他的也会跟着改动。这样的例子很多，我想用小时候玩的老鹰捉小鸡游戏来简单的描绘观察者模式。老鹰会变成观察者，母鸡和小鸡是
TFS RESTful API 模拟上传测试 ronin47
TFS RESTful API 模拟上传测试。　　细节参看这里：https://github.com/alibaba/nginx-tfs/blob/master/TFS_RESTful_API.markdown 模拟POST上传一个图片： curl --data-binary @/opt/tfs.png http
PHP常用设计模式单例, 工厂, 观察者, 责任链, 装饰, 策略,适配,桥接模式 dcj3sjt126com 设计模式 PHP
// 多态, 在JAVA中是这样用的, 其实在PHP当中可以自然消除, 因为参数是动态的, 你传什么过来都可以, 不限制类型, 直接调用类的方法 abstract class Tiger { public abstract function climb(); } class XTiger extends Tiger { public function climb()
hibernate 171815164 Hibernate
main,save Configuration conf =new Configuration().configure(); SessionFactory sf=conf.buildSessionFactory(); Session sess=sf.openSession(); Transaction tx=sess.beginTransaction(); News a=new
Ant实例分析 g21121 ant
下面是一个Ant构建文件的实例，通过这个实例我们可以很清楚的理顺构建一个项目的顺序及依赖关系，从而编写出更加合理的构建文件。下面是build.xml的代码： <?xml version="1
[简单]工作记录_接口返回405原因 53873039oycg 工作
最近调接口时候一直报错，错误信息是: responseCode:405 responseMsg:Method Not Allowed 接口请求方式Post.
关于java.lang.ClassNotFoundException 和 java.lang.NoClassDefFoundError 的区别程序员是怎么炼成的
真正完成类的加载工作是通过调用 defineClass来实现的；而启动类的加载过程是通过调用 loadClass来实现的；就是类加载器分为加载和定义 protected Class<?> findClass(String name) throws ClassNotFoundExcept
JDBC学习笔记-JDBC详细的操作流程 aijuans jdbc
所有的JDBC应用程序都具有下面的基本流程：　　1、加载数据库驱动并建立到数据库的连接。　　2、执行SQL语句。　　3、处理结果。　　4、从数据库断开连接释放资源。下面我们就来仔细看一看每一个步骤：其实按照上面所说每个阶段都可得单独拿出来写成一个独立的类方法文件。共别的应用来调用。 1、加载数据库驱动并建立到数据库的连接： Html代码 St
rome创建rss antonyup_2006 tomcat cms xml struts Opera
引用 1.RSS标准 RSS标准比较混乱，主要有以下3个系列 RSS 0.9x / 2.0 : RSS技术诞生于1999年的网景公司(Netscape)，其发布了一个0.9版本的规范。2001年，RSS技术标准的发展工作被Userland Software公司的戴夫温那(Dave Winer)所接手。陆续发布了0.9x的系列版本。当W3C小组发布RSS 1.0后，Dave W
html表格和表单基础百合不是茶 html 表格表单 meta 锚点
第一次用html来写东西,感觉压力山大,每次看见别人发的都是比较牛逼的再看看自己什么都还不会, html是一种标记语言,其实很简单都是固定的格式 _----------------------------------------表格和表单表格是html的重要组成部分,表格用在body里面的主要用法如下; <table> &
ibatis如何传入完整的sql语句 bijian1013 java sql ibatis
ibatis如何传入完整的sql语句？进一步说，String str ="select * from test_table"，我想把str传入ibatis中执行，是传递整条sql语句。解决办法： <
精通Oracle10编程SQL(14)开发动态SQL bijian1013 oracle 数据库 plsql
/* *开发动态SQL */ --使用EXECUTE IMMEDIATE处理DDL操作 CREATE OR REPLACE PROCEDURE drop_table(table_name varchar2) is sql_statement varchar2(100); begin sql_statement:='DROP TABLE '||table_name;
【Linux命令】Linux工作中常用命令 bit1129 linux命令
不断的总结工作中常用的Linux命令 1.查看端口被哪个进程占用通过这个命令可以得到占用8085端口的进程号，然后通过ps -ef|grep 进程号得到进程的详细信息 netstat -anp | grep 8085 察看进程ID对应的进程占用的端口号 netstat -anp | grep 进程ID &
优秀网站和文档收集白糖_ 网站
集成 Flex, Spring, Hibernate 构建应用程序性能测试工具-JMeter Hmtl5-IOCN网站 Oracle精简版教程网站鸟哥的linux私房菜 Jetty中文文档 50个jquery必备代码片段 swfobject.js检测flash版本号工具
angular.extend boyitech AngularJS angular.extend AngularJS API
angular.extend 复制src对象中的属性去dst对象中. 支持多个src对象. 如果你不想改变一个对象，你可以把dst设为空对象{}: var object = angular.extend({}, object1, object2). 注意: angular.extend不支持递归复制. 使用方法: angular.extend(dst, src); 参数:
java-谷歌面试题-设计方便提取中数的数据结构 bylijinnan java
网上找了一下这道题的解答，但都是提供思路，没有提供具体实现。其中使用大小堆这个思路看似简单，但实现起来要考虑很多。以下分别用排序数组和大小堆来实现。使用大小堆： import java.util.Arrays; public class MedianInHeap { /** * 题目：设计方便提取中数的数据结构 * 设计一个数据结构，其中包含两个函数，1.插
ajaxFileUpload 针对 ie jquery 1.7+不能使用问题修复版本 Chen.H ajaxFileUpload ie6 ie7 ie8 ie9
jQuery.extend({ handleError: function( s, xhr, status, e ) { // If a local callback was specified, fire it if ( s.error ) { s.error.call( s.context || s, xhr, status, e ); }
[机器人制造原则]机器人的电池和存储器必须可以替换 comsci 制造
机器人的身体随时随地可能被外来力量所破坏,但是如果机器人的存储器和电池可以更换,那么这个机器人的思维和记忆力就可以保存下来,即使身体受到伤害,在把存储器取下来安装到一个新的身体上之后,原有的性格和能力都可以继续维持..... 另外,如果一
Oracle Multitable INSERT 的用法 daizj oracle
转载Oracle笔记-Multitable INSERT 的用法 http://blog.chinaunix.net/uid-8504518-id-3310531.html 一、Insert基础用法语法： Insert Into 表名 (字段1,字段2,字段3...） Values (值1,
专访黑客历史学家George Dyson datamachine on
20世纪最具威力的两项发明——核弹和计算机出自同一时代、同一群年青人。可是，与大名鼎鼎的曼哈顿计划（第二次世界大战中美国原子弹研究计划）相比，计算机的起源显得默默无闻。出身计算机世家的历史学家George Dyson在其新书《图灵大教堂》（Turing’s Cathedral）中讲述了阿兰·图灵、约翰·冯·诺依曼等一帮子天才小子创造计算机及预见计算机未来
小学6年级英语单词背诵第一课 dcj3sjt126com english word
always 总是 rice 水稻，米饭 before 在...之前 live 生活，居住 usual 通常的 early 早的 begin 开始 month 月份 year 年 last 最后的 east 东方的 high 高的 far 远的 window 窗户 world 世界 than 比...更
在线IT教育和在线IT高端教育 dcj3sjt126com 教育
codecademy http://www.codecademy.com codeschool https://www.codeschool.com teamtreehouse http://teamtreehouse.com lynda http://www.lynda.com/ Coursera https://www.coursera.
Struts2 xml校验框架所定义的校验文件蕃薯耀 Struts2 xml校验 Struts2 xml校验框架 Struts2校验
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 15:54:59 星期六 http://fa
mac下安装rar和unrar命令 hanqunfeng mac
1.下载：http://www.rarlab.com/download.htm 选择 RAR 5.21 for Mac OS X 2.解压下载后的文件 tar -zxvf rarosx-5.2.1.tar 3.cd rar sudo install -c -o $USER unrar /bin #输入当前用户登录密码 sudo install -c -o $USER rar
三种将list转换为map的方法 jackyrong list
在本文中，介绍三种将list转换为map的方法： 1）传统方法假设有某个类如下 class Movie { private Integer rank; private String description; public Movie(Integer rank, String des
年轻程序员需要学习的5大经验 lampcy 工作 PHP 程序员
在过去的7年半时间里，我带过的软件实习生超过一打，也看到过数以百计的学生和毕业生的档案。我发现很多事情他们都需要学习。或许你会说，我说的不就是某种特定的技术、算法、数学，或者其他特定形式的知识吗？没错，这的确是需要学习的，但却并不是最重要的事情。他们需要学习的最重要的东西是“自我规范”。这些规范就是：尽可能地写出最简洁的代码；如果代码后期会因为改动而变得凌乱不堪就得重构；尽量删除没用的代码，并添加
评“女孩遭野蛮引产致终身不育 60万赔偿款1分未得”医腐深入骨髓 nannan408
先来看南方网的一则报道：再正常不过的结婚、生子，对于29岁的郑畅来说，却是一个永远也无法实现的梦想。从2010年到2015年，从24岁到29岁，一张张新旧不一的诊断书记录了她病情的同时，也清晰地记下了她人生的悲哀。　　粗暴手术让人发寒　　2010年7月，在酒店做服务员的郑畅发现自己怀孕了，可男朋友却联系不上。在没有和家人商量的情况下，她决定堕胎。　　12月5日，
使用jQuery为input输入框绑定回车键事件 VS 为a标签绑定click事件 Everyday都不同 jsp input 回车键绑定 click enter
假设如题所示的事件为同一个，必须先把该js函数抽离出来，该函数定义了监听的处理： function search() { //监听函数略...... } 为input框绑定回车事件，当用户在文本框中输入搜索关键字时，按回车键，即可触发search(): //回车绑定 $(".search").keydown(fun
EXT学习记录 tntxia ext
1. 准备（1）官网：http://www.sencha.com/ 里面有源代码和API文档下载。 EXT的域名已经从www.extjs.com改成了www.sencha.com ，但extjs这个域名会自动转到sencha上。（2）帮助文档：想要查看EXT的官方文档的话，可以去这里h
mybatis3的mapper文件报Referenced file contains errors xingguangsixian mybatis
最近使用mybatis.3.1.0时无意中碰到一个问题： The errors below were detected when validating the file "mybatis-3-mapper.dtd" via the file "account-mapper.xml". In most cases these errors can be d