为梦而生~

【Python爬虫开发基础③】Python基础（文件操作方法汇总）

友情提示：由于本专栏的文章偏向于爬虫，所以对于python的介绍不可能面面俱到，在这里只讲重点。如果大家觉得有没讲到的地方，欢迎补充~

往期推荐：
【Python爬虫开发基础①】Python基础（变量及其命名规范）
【Python爬虫开发基础②】Python基础（正则表达式）
上一篇文章已经讲了Python的正则表达式，Python在爬虫开发时不免要涉及到数据的读写，今天来看一下一系列的文件操作！

文章目录

1 文件的编码
2 文件的打开、关闭以及读写和追加
- 2.1 操作汇总
3 文件操作常用模块—os模块
4 文件操作常用模块—json模块
5 文件操作及数据处理常用模块—pandas模块
- 5.1 pandas提供的数据类型
- 5.2 pandas提供的强大数据处理功能
6 处理CSV文件专用模块—csv模块

1 文件的编码

什么是文件编码？

文件编码是指将文本或二进制数据存储在计算机文件中的方式，以便在读取和写入文件时能够正确地识别数据类型、字符集和格式。

对于文本文件来说，文件编码决定了如何将字符编码成字节序列。常见的文本文件编码包括ASCII、UTF-8、GB2312、GBK、BIG-5 等等。

对于二进制文件来说，文件编码定义了用于表示特定格式数据的规则和约定。例如，PNG图像文件使用基于「非压缩的位图」编码规范保存像素数据，而PDF文件则采用 Adobe 公司开发的 PDF 语言进行编码。

为什么要使用文件编码？

文件编码可以确保数据的正确性：不同的字符集和格式可能采用不同的编码方式，如果不进行编码，则可能会导致文本内容或二进制数据的损坏和格式化错误。

文件编码可以提高可移植性：不同的操作系统和软件对字符集和编码的支持存在差异，在存储、读取和处理相同文件时，正确的文件编码可以确保数据在不同平台和应用程序之间的兼容性和互通性。

文件编码可以节省存储空间：一些编码方案具有压缩特性，可以将数据在硬盘及网络传输过程中占用的空间降至最小，从而提高工作效率并节约存储成本。

2 文件的打开、关闭以及读写和追加

在Python中，要进行文件操作，需要使用内置的open()函数来打开文件，并返回一个文件对象。同时，为了避免资源浪费和数据损坏，还需要使用close()方法显式地关闭文件。读取和写入文件内容，则可以使用相关的读写操作符。

打开文件：
使用open()函数打开文件，它接受两个参数：文件路径和打开模式（"r"表示读，"w"表示写，"a"表示追加），例如：

f = open("file.txt", "r") # 以只读模式打开指定文件

关闭文件：
使用close()方法关闭已经打开的文件，例如：

f.close() # 关闭文件

读取文件：
使用read()、readline()或readlines()方法读取文件内容，例如：

text = f.read() # 一次性读取整个文件内容到字符串中
line = f.readline() # 逐行读取文件内容(每次读取一行)
lines = f.readlines() # 返回所有行的列表

readlines()方法多用于for或者while循环中

写入文件：
使用write()方法向文件写入内容，例如：

f.write("hello world")

完成文件读写操作后，需要及时释放已占用的资源并将内存对象保存到磁盘。因此，建议对文件操作都使用with语句结构，在代码执行完毕后自动关闭文件，例如：

# 自动关闭文件并将文件内容写入到磁盘中
with open("file.txt", "w") as f:
    f.write("hello world")

追加操作：
通过a模式打开即可，例如：

f = open('python.txt', 'a')

文件不存在会创建文件
件存在会在最后，追加写入文件

2.1 操作汇总

操作	功能
文件对象 = open(file, mode, encoding)	打开文件获得文件对象（'r’代表读，'w’代表写，'a’代表追加）
文件对象.read(num)	读取指定长度字节（不指定num读取文件全部）
文件对象.readline()	读取一行
文件对象.readlines()	读取全部行，得到列表
for line in 文件对象	for循环文件行，一次循环得到一行数据
文件对象.close()	关闭文件对象
with open() as f	通过with open语法打开文件，可以自动关闭

3 文件操作常用模块—os模块

Python内置的os模块提供了一些与操作系统交互和操作相关文件和目录的函数

常用的包括以下几个：

os.chdir(path)：
将当前工作目录改变为指定目录，例如：

import os

# 改变当前工作目录到 /user/newdir
os.chdir("/user/newdir")

os.getcwd()：
返回当前工作目录的字符串名称，例如：

import os

# 输出当前工作目录
print(os.getcwd())

os.listdir([path])：
返回指定路径下所有文件夹和文件名的列表，例如：

import os

# 返回当前工作目录下的所有文件夹和文件
print(os.listdir())

os.mkdir(path)：
创建单层目录。如果已经存在，则抛出异常，例如：

import os

# 创建/创建目录
os.mkdir("newdir")

os.makedirs(path)：
递归地创建目录树。如果已经存在，则抛出异常，例如：

import os

# 递归创建新目录if it doesn't already exist
os.makedirs("newdir/subdir")

os.remove(path)：
删除文件，例如：

import os

# 删除一个文件
os.remove("file.txt")

os.rmdir(path)：
删除单层目录。如果目录非空，则无法删除，例如：

import os

# 删除目录"dirname"（注：目录必须是空的，否则无法删除）
os.rmdir("dirname")

os.rename(src, dst)：
重命名/移动文件或目录，例如：

import os

# 将文件重命名（可用于移动文件）
os.rename("oldname.txt", "newname.txt")

4 文件操作常用模块—json模块

什么是json及其在python网络爬虫中的应用

json模块是Python中的一个内置模块，提供了一种简单的方式来处理JSON数据。JSON（JavaScript Object Notation）是一种轻量级的数据格式，常用于将数据从服务器发送到网页中，或者将数据从一个程序传递到另一个程序。
JSON在网络爬虫中应用广泛。网络爬虫可以从网站上爬取数据，将这些数据转换为JSON格式，然后进行分析和处理。JSON格式简单明了、易于解析、处理和传输，因此非常适合在网络爬虫中使用。

json.dumps()：

该函数用于将Python对象转换为JSON格式的字符串。obj参数可以是字典、列表、元组、整数、浮点数、布尔值和None等Python对象。skipkeys、ensure_ascii、check_circular、allow_nan、cls、default、indent、separators和sort_keys等参数可以用于设置转换时的各种选项和参数。

json.dumps(obj, skipkeys=False, ensure_ascii=True, check_circular=True, allow_nan=True, cls=None, indent=None, separators=None, default=None, sort_keys=False)

该函数的定义如上述所示，下面用一个例子来演示一下这个函数的用法：

import requests
import json

url = 'https://jsonplaceholder.typicode.com/todos/1'
r = requests.get(url)
data = r.json()

# 将字典转化为JSON字符串并输出
data_json = json.dumps(data)
print(data_json)

# 将JSON字符串写入文件
with open('data.json', 'w') as f:
    json.dump(data, f)

输出：

{"userId": 1, "id": 1, "title": "delectus aut autem", "completed": false}

上面的例子，我们请求了一个todolist API 的数据，并将其转化为 JSON格式的字符串，并输出到了终端。然后我们使用json.dump()将字典数据写入data.json文件中，以实现数据的持久化。

json.loads()：

该函数用于将JSON格式的字符串转换为Python对象。s参数是需要解析的JSON格式的字符串，encoding参数用于设置字符串的编码方式，cls、object_hook、parse_float、parse_int、parse_constant和object_pairs_hook等参数可以用于设置解析时的各种选项和参数。

json.loads(s, encoding=None, cls=None, object_hook=None, parse_float=None, parse_int=None, parse_constant=None, object_pairs_hook=None)

该函数的定义如上述所示，下面用一个例子来演示一下这个函数的用法：

# 定义如下 JSON 格式字符串
json_str = '{"name": "Alice", "age": 25, "isStudent": true}'
# 把这个字符串转成 Python 字典类型
data = json.loads(json_str)
print(type(data))
print(data)

输出：

<class 'dict'>
{'name': 'Alice', 'age': 25, 'isStudent': True}

在这个例子中，json_str 是一个 JSON 格式字符串，我们使用 json.loads() 将其解析成了 Python 字典类型 data。这样，就可以方便地对 JSON 数据进行处理和操作了。

需要注意的是，如果 JSON 数据格式不正确或无法解析，则 json.loads() 方法会抛出异常，需要进行异常处理。同时，在使用json.loads()方法时，也需要确保JSON数据是合法的，否则会导致数据解析失败、程序崩溃等问题发生。

5 文件操作及数据处理常用模块—pandas模块

Pandas库是一个开源的，易于使用的数据处理工具，它是Python编程语言的扩展库，为Python编程语言提供了快速，灵活和富有表现力的数据结构，简单而强大，是数据科学和数据分析中常用的库之一。

5.1 pandas提供的数据类型

Series

Series是一个一维数组对象，类似于带有索引的numpy数组。它可以包含任何数据类型，例如整数、浮点数、字符串、Python对象等。Series是面向标签的，可以使用标签进行检索。

代码示例1：

import pandas as pd
#Series创建方式1：
#由列表或numpy数组创建
s1 = pd.Series(data = np.random.randint(0,10,size=5), index = list('abcde'), name = 'str1')
print(s1)

输出：

a    4
b    2
c    6
d    8
e    7
Name: str1, dtype: int32

代码示例2：

#方式2：
#由字典创建
s2 = pd.Series({'A':80,'B':30})
print(s2)
#key:行索引，value：数值

输出：

A    80
B    30
dtype: int64

DataFrame

DataFrame是一个二维表格型数据结构，具有轴标签（行和列）。DataFrame可以看作是由多个Series组成的字典，它们共享相同的索引，融合了类似SQL表格上的操作。

代码示例：

import pandas as pd

# 创建DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'gender': ['female', 'male', 'male']
}
df = pd.DataFrame(data)
# 显示前几行数据
print(df.head())
# 筛选特定列
print(df['name'])
# 根据条件筛选行
print(df[df['age'] > 30])
# 添加新列
df['income'] = [5000, 6000, 7000]
print(df)

输出：

      name  age  gender
0    Alice   25  female
1      Bob   30    male
2  Charlie   35    male
0      Alice
1        Bob
2    Charlie
Name: name, dtype: object
      name  age gender
2  Charlie   35   male
      name  age  gender  income
0    Alice   25  female    5000
1      Bob   30    male    6000
2  Charlie   35    male    7000

5.2 pandas提供的强大数据处理功能

Pandas也提供了强大的数据预处理、分析和建模功能

多种数据输入输出格式支持，如CSV、Excel、SQL数据库等：

首先演示一下如何读取并操作CSV文件：

'''
假定我们有一个名为“data.csv”的CSV文件，
其中包含有关城市、日期、天气和温度的数据。
'''
import pandas as pd

# 从CSV文件中读取数据
df = pd.read_csv('data.csv')
# 查看数据前5行
print(df.head())
# 查看数据信息
print(df.info())
# 对数据进行聚合
mean_temp = df.groupby('city')['temperature'].mean()
print(mean_temp)

pd.read_csv()是用于读取CSV文件的函数
head()函数用于查看CSV文件的前5行
info()函数用于显示数据类型和缺失值等详细信息
groupby()函数根据指定的列对数据进行分组
mean()函数计算每一组数据的平均值

这里展示如何使用Pandas读取并操作Exccel文件：

'''
以读取一个名为“data.xlsx”的Excel文件为例，
里面包含“Sheet1”工作表，
其中记录了城市、日期、天气和温度的信息。
'''
import pandas as pd

# 从Excel文件中读取工作表数据
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')

# 查看数据前5行
print(df.head())
# 查看数据信息
print(df.info())
# 对数据进行聚合
mean_temp = df.groupby('city')['temperature'].mean()
print(mean_temp)

pd.read_excel()是用于读取Excel文件的函数，并且必须指定工作表名称或索引。
其他部分与CSV文件操作相同。

以下是处理SQL数据库的实例代码：

'''
假设我们有一个MySQL数据库，
其中包含一个名为“weather”的表，
该表记录了城市、日期、天气和温度等信息。
'''
import pandas as pd
import mysql.connector

# 连接到 MySQL 数据库
con = mysql.connector.connect(user='root', password='password123',
                              host='localhost',
                              database='mydatabase')

# 从 MySQL 中选择对应表中的数据
query = "SELECT city, date, weather, temperature FROM weather"
df = pd.read_sql(query, con)

# 查看数据前5行
print(df.head())
# 查看数据信息
print(df.info())
# 对数据进行聚合
mean_temp = df.groupby('city')['temperature'].mean()
print(mean_temp)

# 关闭连接
con.close()

mysql.connector.connect()是用于连接MySQL数据库的函数，需要提供数据库的用户名、密码、主机地址和数据库名称等参数。
pd.read_sql()方法接受一个SQL查询并返回一个DataFrame。
其他部分与CSV文件操作相同。

数据清洗，包括处理缺失值、异常值等:

使用Pandas库可以方便地对数据进行清洗。下面将介绍如何使用Pandas库处理数据缺失值和异常值的常用方法。
在现实生活中，数据中经常会存在缺失值。这些缺失值有可能是由于人为操作出错，或者因为某些原因无法获得相应的数据等。

代码示例：

'''
假设我们有一个DataFrame包含以下三列：
日期、城市和温度，其中部分数据是缺失的：
'''
import numpy as np
import pandas as pd

# 创建 DataFrame，模拟数据中存在缺失值
dates = pd.date_range('2023-01-01', '2023-01-10')
df = pd.DataFrame({'date': dates,
                   'city': ['Beijing']*5 + ['Shanghai']*5,
                   'temperature': [np.nan, 20, 21, np.nan, 22, np.nan, np.nan, 19, 23, 24]})
print(df)

输出：

        date      city  temperature
0 2023-01-01   Beijing          NaN
1 2023-01-02   Beijing         20.0
2 2023-01-03   Beijing         21.0
3 2023-01-04   Beijing          NaN
4 2023-01-05   Beijing         22.0
5 2023-01-06  Shanghai          NaN
6 2023-01-07  Shanghai          NaN
7 2023-01-08  Shanghai         19.0
8 2023-01-09  Shanghai         23.0
9 2023-01-10  Shanghai         24.0

可见，数据中涉及到多个缺失值。下面是使用Pandas库来处理数据缺失值的方法:

首先检查缺失值

# 检查数据是否存在缺失值
print(df.isnull().sum())

输出结果：

date           0
city           0
temperature    4
dtype: int64

其中.isnull()函数用于检查DataFrame中的缺失值，若该位置的值为空，则返回True；否则返回False。而.sum()函数用于统计每列中缺失值个数。

其次，删除缺失值

# 删除 DataFrame 中含有缺失值的行
df_dropna = df.dropna()
print(df_dropna)

输出：

        date     city  temperature
1 2023-01-02  Beijing         20.0
2 2023-01-03  Beijing         21.0
4 2023-01-05  Beijing         22.0
8 2023-01-09  Shanghai         23.0
9 2023-01-10  Shanghai         24.0

此处使用了.dropna()函数来删除DataFrame中含有缺失值的行。.dropna()函数默认只要有缺失值就删除对应行，同时也可以通过参数来设定删除的方式，例如按列删除、保留至少有N个非空值等。

除此之外，pandas库还有强大的数据变换功能，包括重采样、聚合、合并、分组、填充等；时间序列分析与处理功能；数据可视化，支持通过Matplotlib库绘图。

例如：使用pandas库结合matplotlib以及sklearn，得到的K-Means聚类算法的结果图

6 处理CSV文件专用模块—csv模块

在Python中处理CSV文件是一种常见的任务。CSV文件是以逗号分隔值（Comma-Separated Values）的格式存储数据。除了上面介绍的pandas模块，csv模块也是一个比较合适的模块，下面来介绍一下csv模块的简单用法

读取CSV文件：

要读取CSV文件，可以使用Python内置的csv模块。首先需要将CSV文件打开并将其作为文件对象传递给csv.reader()函数。

代码示例：

import csv

with open('filename.csv', newline='') as csvfile:
    reader = csv.reader(csvfile, delimiter=',', quotechar='"')
    for row in reader:
        print(', '.join(row))

上述代码中，我们用Python内置的with open()来打开CSV文件，指定参数newline=''解决防止出现多余的空行。然后,我们使用csv.reader()方法并传递CSV文件对象。此执行将会返回一个可迭代的活动列表(list)。您可以通过循环语句来访问每一行，或者逐行读取文本（最后一行是空的），并使用delimited和quote characters等选项控制行的分隔符和引号字符。

写入CSV文件:

要写入CSV文件，可以使用Python内置的csv模块中的csv.writer类。该类提供了writerow()方法，它允许您一次写入一行。

代码示例1：

import csv

with open('filename.csv', mode='w', newline='') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['John Smith', 'Accounting', 'November'])

上述代码中，我们用Python内置的with open()打开文件，并指定了参数'Mode'，并将其传递给csv.writer()函数。接下来，我们将需要写入CSV文件的数据传递为一个列表，并使用writerow()方法向CSV文件写入该行数据。

代码示例2（以字典写入）：

import csv

data = [
    {'Name': 'John', 'Age': 29, 'Country': 'USA'},
    {'Name': 'Mary', 'Age': 22, 'Country': 'Canada'},
    {'Name': 'Tom', 'Age': 31, 'Country': 'UK'}
]

with open('people.csv', mode='w', newline='') as file:
    fieldnames = ['Name', 'Age', 'Country']
    writer = csv.DictWriter(file, fieldnames=fieldnames)

    writer.writeheader()
    for person in data:
        writer.writerow(person)

在这个例子中，我们创建了一个包含3个人员详细信息的字典列表。然后我们打开并创建一个名为"people.csv"的CSV文件，并使用DictWriter()函数和fieldnames参数指定要写入CSV文件的字段。最后，我们通过writerow()函数将每个字典写入CSV文件。函数writeheader()会自动写入表头。

注：除此之外，我们也可以利用一开始介绍的文件读写操作，选择’a’进行追加写入。

你可能感兴趣的:(python,爬虫,json,pandas,csv)

自学 python 中的异步编程 asyncio (五)：asyncio 与线程thread Eaton5959 python
自学python中的异步编程asyncio(一)：学习基本概念自学python中的异步编程asyncio(二)：asyncio模块与核心组件自学python中的异步编程asyncio(三)：asyncio实现基本异步编程自学python中的异步编程asyncio(四)：基本的异步IO编程自学python中的异步编程asyncio(五)：asyncio与线程thread自学python中的异步编程a
在 Python 异步协程中使用同步队列土谷祠房客 python 协程阻塞
在Python异步协程中使用同步队列使用Pythonasyncio进行异步编程时，可以使用异步队列asyncio.Queue在并发的协程间进行数据交互。不过，asyncio.Queue不是线程安全的，如果需要在不同线程的异步程序之间或者不同线程的异步程序和同步程序间交换数据，就需要使用queue模块中的Queue这个队列，因为它是线程安全的。在asyncio异步协程中使用queue.Queue
探索泰坦尼克号生存分类数据集：机器学习与数据分析的完美起点岑童嵘
探索泰坦尼克号生存分类数据集：机器学习与数据分析的完美起点【下载地址】泰坦尼克号生存分类数据集本仓库提供了一个经典的机器学习数据集——泰坦尼克号生存分类数据集。该数据集包含两个CSV文件：训练集和测试集。数据集主要用于训练和评估机器学习模型，以预测泰坦尼克号乘客的生存情况项目地址:https://gitcode.com/open-source-toolkit/35561项目介绍泰坦尼克号生存分类数
2024华为OD机试E卷-数大雁-（C++/Java/Python） 2024剑指offer python 华为od c++java
2024华为OD机试最新E卷题库-(C卷+D卷+E卷)-(JAVA、Python、C++)目录题目描述输入描述输出描述用例1用例2用例3用例4考点题目解析代码c++python题目描述一群大雁往南飞，给定一个字符串记录地面上的游客听到的大雁叫声，请给出叫声最少由几只大雁发出。具体的：大雁发出的完整叫声为”quack“，因为有多只大雁同一时间嘎嘎作响，所以字符串中可能会混合多个”quack”。大雁会
OpenDRG/DRG_Datas 项目使用教程咎宁准Karena
OpenDRG/DRG_Datas项目使用教程项目地址:https://gitcode.com/gh_mirrors/dr/DRG_Datas1.项目目录结构及介绍DRG_Datas/├──ICD/│├──ICD诊断、手术操作编码.csv│├──基础数据.csv│├──版本对照关系.csv│└──手术操作类别属性.csv├──Payment/│├──各地DRG病组清单.csv│└──医保支付标准.
华为OD机试 - 数大雁（Java & Python& JS & C++ & C ）算法大师最新华为OD机试 c++java 华为OD 华为od机试 python 华为od javascript
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述一群大雁往南飞，给定一个字符串记录地面上的游客听到的大雁叫声，请给出叫声最少由几只大雁发出。具体的:1.大雁发出的完整叫声为”quack“，因为有多只大雁同一时间嘎嘎作响，所以字符串中可能会混合多个”quack”。2.大雁会依次完整发出”quack”，即字符串中’q’,‘u’,‘a’,‘c’,‘k’这5个字母按顺序完整
【Python】Tkinter电器销售有限公司销售数据分析（源码）【独一无二】不争不抢不显不露 python 数据分析开发语言
一、设计要求该项目创建一个数据分析软件，利用Tkinter和Matplotlib构建图形用户界面（GUI），读取和分析美迪电器销售有限公司销售数据。用户可以通过界面选择月份查看数据详情、生成销量图表并计算月总销量和年总销量。二、设计思路2.模块引入首先引入了所需的模块，包括Tkinter（用于GUI创建和管理）、ttk（Tkinter主题化控件）、messagebox（用于弹出消息框）、panda
【Python】super() 函数和 MRO 顺序的实例剖析彭彭不吃虫子 python 开发语言
1.构造函数（__init__(self[,...])）在类中定义__init__()方法，可以实现在实例化对象的时候进行个性化定制：>>>classC:... def__init__(self,x,y):... self.x=x... self.y=y... defadd(self):... returnself.x+self.y... defmu
【Python】类与对象:self在其中的作用，面向对象的优势，函数和方法的区别彭彭不吃虫子 python 开发语言
1.self在类和对象中的功能与用处在面向对象编程（OOP）中，self是类中方法的第一个参数，它指向当前实例（对象）。每个类的方法第一个参数通常是self，它用于引用当前对象本身，这使得我们能够访问类中的属性和其他方法。功能与用处：访问实例属性：self允许在类的方法中引用对象的属性。例如，如果类中有一个实例属性name，你可以通过self.name来访问它。修改实例属性：通过self，方法可以
Python在WRF模型自动化运行及前后处理中实践技术应用-包括数据处理、模型运行、结果可视化等步骤。 KY_chenzhao python 自动化开发语言
1.背景与目标WRF（WeatherResearchandForecasting）模型是中尺度气象数值模式的佼佼者，广泛应用于气象预报和气候研究。Python在WRF模型中的应用主要体现在前后处理、自动化运行和数据可视化等方面。本文将以风速预测为例，详细说明Python在WRF模型中的具体应用，包括数据处理、模型运行、结果可视化等步骤。2.数据准备数据来源包括WRF模型的输出数据和实际观测数据。这
基于Python机器学习、深度学习技术提升气象、海洋、水文领域实践应用 KY_chenzhao python 机器学习深度学习气象
1.背景与目标ENSO（ElNiño-SouthernOscillation）是全球气候系统中最显著的年际变率现象之一，对全球气候、农业、渔业等有着深远的影响。准确预测ENSO事件的发生和发展对于减灾防灾具有重要意义。近年来，深度学习技术在气象领域得到了广泛应用，其中长短期记忆网络（LSTM）因其在处理时间序列数据方面的优势，被广泛用于ENSO预测。2.数据准备数据来源包括NOAA（美国国家海洋和
PySide6 GUI 学习笔记——Python文件编译打包 Humbunklung PySide6 学习笔记 python
前面编写的软件工具都必须运行在Python环境中，且通过命令行的方式运行，通过Python打包工具，我们可以把.py文件封装成对应平台的运行文件，供用户执行。常见Python打包工具工具简介官网/文档地址py2exe将Python脚本转换为Windows可执行文件https://www.py2exe.orgcx_Freeze跨平台的Python打包工具，它可以将Python脚本打包为可执行文件或动
ChatGPT Canvas：开启AI编程新纪元——你的AI代码生成器来了！前端
OpenAI近日宣布ChatGPTCanvas全面开放，并带来了两项重磅更新：直接运行Python代码和整合GPTs生态系统。这意味着，即使你不是专业的程序员，也能轻松体验编程的乐趣，并利用AI的力量创造出更多可能性。这对于想要学习编程或提高工作效率的用户来说，无疑是一个巨大的福音。这篇文章将深入探讨这两项更新，并展望ChatGPTCanvas的未来发展。直接运行Python代码：降低编程门槛，释
华为OD机试E卷 --数大雁--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript python js c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码题目描述一群大雁往南飞，给定一个字符串记录地面上的游客听到的大雁叫声，请给出叫声最少由几只大雁发出。具体：1.大雁发出的完整叫声为”quack“，因为有多只大雁同一时间嘎嘎作响，所以字符串中可能会混合多个”quack”2.大雁会依次完整发出”quack”，即字符串中’q，u,a，c，k这5个字母按
Python中的Pipeline快速教学、 Coding Is Fun python 开发语言
在Python中，Pipeline通常指的是机器学习工作流中的流水线，尤其是在使用scikit-learn库时。Pipeline允许你将多个数据处理步骤和模型训练步骤串联起来，形成一个有序的工作流程。这不仅使代码更简洁，还能确保在训练和预测时一致的数据处理。以下是一个快速教学，帮助你掌握Python中Pipeline的核心概念和使用方法。目录安装和导入必要的库Pipeline的基本概念创建一个简单
Python实用记录(十五)：PyQt/PySide6打包成exe，精简版（nuitka/pyinstaller/auto-py-to-exe） ZZY_dl 实用操作总结 python pyqt 开发语言
文章目录Python打包工具：Nuitka、PyInstaller和Auto-py-to-exe详解方式一：Nuitka安装与使用方式二：PyInstaller安装环境打包方式使用spec文件打包打包后文件说明打包参数说明方式三：Auto-py-to-exe安装环境✅⚠️▶️➡️⭐❄️✅⚠️▶️➡️⭐❄️✅⚠️▶️➡️⭐❄️✅⚠️Python打包工具：Nuitka、PyInstaller和Auto
Python 操作二进制文件昱晏 Python 1024程序员节 python
在计算机中，文件可以分为两种类型：文本文件和二进制文件。文本文件包含人类可读的字符，而二进制文件包含计算机指令或数据，无法直接阅读。常见的二进制文件包括图片、音频、视频、可执行文件等。Python提供了处理二进制文件的工具，允许你读写任意类型的数据。1以二进制模式打开文件在Python中，操作二进制文件时，需要使用'b'作为文件模式的一部分。常见的二进制文件模式有：'rb'：以二进制读取文件。'w
第9章：Python TDD解决货币对象相等性比较难题 Tester_孙大壮测试驱动开发 python 驱动开发开发语言
写在前面这本书是我们老板推荐过的，我在《价值心法》的推荐书单里也看到了它。用了一段时间Cursor软件后，我突然思考，对于测试开发工程师来说，什么才更有价值呢？如何让AI工具更好地辅助自己写代码，或许优质的单元测试是一个切入点。就我个人而言，这本书确实很有帮助。第一次读的时候，很多细节我都不太懂，但将书中内容应用到工作中后，我受益匪浅。比如面对一些让人抓狂的代码设计时，书里的方法能让我逐步深入理解
Python input 怎么使用彭彭不吃虫子 windows 数据库服务器
一、input()函数简介Python的input()函数是一个内置函数，用于从用户接收输入。当程序运行到input()函数时，会暂停并等待用户输入一些文本，用户输入的文本将作为函数的返回值。这使得我们可以在程序中获取用户的输入，以便根据输入执行相应的操作。二、input()函数语法input()函数的基本语法如下：input(prompt=None)其中，prompt参数是可选的，它表示在等待用
实操数据预处理：从理论到实践的基础步骤炼丹侠 python 机器学习人工智能
在快速发展的人工智能领域，数据不仅是基础，更是推动技术创新的关键力量。高质量的数据集是构建高效、准确模型的前提。本文将全面深入探讨数据预处理的各个环节，从基础的数据清洗到复杂的数据增强，再到高效的Python应用实践，为你提供一站式的数据处理解决方案。无论你的经验如何，这篇文章都将成为你宝贵的资源。数据清洗：打好数据质量的基础数据清洗是提升数据质量的首要步骤，涵盖了如下几个关键操作：缺失值的智能处
【python】实用的文件操作-多个excel文件的两种合并方式匡虐文件操作 python
【python】实用的文件操作-excel文件两种合并方式工作中常遇到多个excel文件表的结构一样，只是内容不同，现需要将其合并在一起。有两种方式，一种是合并成一张表，将其他表中的数据追加到同一张表中。另外一种是存放成一个文件多张表，不同的文件放到一个excel文件的不同工作簿中。1、合成一张表importpandasaspdimportospath=r'C:\Users\lenovo\Docu
python-mysql-连接池 Xiaohuansong python笔记 python mysql 连接池
利用内部队列编写的简易的支持上下文的连接池，目前只支持多线程内的链接代码如下实现了最大最小连接池的限制，链接回收，dml封装，动态维护链接等操作importMySQLdbimportloggingimportQueuefromthreadingimportThreadfromcontextlibimportcontextmanagerimporttimeclassMysqlTool(object)
BUUCTF_Crypto_[WUSTCTF2020]B@se qq_58370970 经验分享
给了一个txt文件：从题目可以看出是与base64相关，不难发现是base64的变种，将base64的顺序改变了，但还有4个字符不知道可以写python脚本得到缺失的4个字符代码如下：importstrings='JASGBWcQPRXEFLbCDIlmnHUVKTYZdMovwipatNOefghq56rs****kxyz012789+/'j='ABCDEFGHIJKLMNOPQRSTUVWXY
Python mysql数据库连接池戴** Python
最近在写一个Python的文本分析,需要大量的读取数据库(千万级别mysql)并进行更新操作,运行着程序发现一个问题,过了一会儿程序就报错说链接已经满了,或者是端口不可重复使用,因此我在网上找到了一个连接池的代码用于解决这个问题,在此处贴出代码本身是有配置文件的,因为我觉得在我的项目中不必要所以就删除了#!/usr/bin/envpython#-*-coding:utf-8-*-importpym
Python的Selenium库中的模块、类和异常的汇总 qq_24654817 python selenium 开发语言
1.`selenium.common.exceptions`：包含了Selenium中可能出现的异常。2.`selenium.webdriver.chrome.options`：用于配置Chrome浏览器的选项。3.`selenium.webdriver.chrome.service`：用于管理Chrome浏览器的后台服务。4.`selenium.webdriver.chrome.webdrive
代码编写java代做c++程序代编程Python代c#设计C语言接单软件定制 matlabgoodboy java c++c#
您提到的服务涵盖了多种编程语言和软件开发需求，包括Java代码编写、C++程序代编、Python编程代做、C#设计、C语言编程，以及软件定制服务。这些服务在软件开发领域非常常见，且有着广泛的应用。以下是对这些服务更详细的解释和接单时的一些建议：服务详解Java代码编写Java以其跨平台性、面向对象和丰富的API而著称，广泛应用于企业级应用、Android应用开发、Web服务端开发等领域。您可以提供
10个方法：用Python执行SQL、Excel常见任务_python util 前端收割机程序员 python sql excel
使用Python的最大优点之一是能够从网络的巨大范围中获取数据的能力，而不是只能访问手动下载的文件。在Python的requests库可以帮助你分类不同的网站，并从它们获取数据，而BeautifulSoup库可以帮助你处理和过滤数据，那么你精确得到你所需要的。如果你要去这条路线，请小心使用权问题。（不用担心，如果你想跳过这个部分，可以的！原始的csv文件在这里，你可以随意下载，如果你宁愿开始这个练
基于Python爬虫的豆瓣电影影评数据可视化分析 wp_tao Python副业接单实战项目 python 爬虫信息可视化
文章目录前言一、数据抓取二、数据可视化1.绘制词云图2.读入数据总结前言本文以电影《你好，李焕英》在豆瓣上的影评数据为爬取和分析的目标，利用python爬虫技术对影评数据进行了爬取，使用pandas库进行了数据清洗，使用jieba库进行分词，使用collections库进行词频统计，使用wordcloud库绘制词云图，使用matplotlib库绘制了评论人所在城市占比饼状图，并使用matplotl
BP神经网络及其Python和MATLAB实现预测陈辰学长神经网络 python matlab
BP神经网络及其Python和MATLAB实现预测引言BP神经网络（BackPropagationNeuralNetwork），即反向传播神经网络，是一种通过反向传播算法进行监督学习的多层前馈网络。这种网络能够通过不断地调整和改变神经元的连接权重，达到对特定任务的学习和优化。由于其高度的灵活性和适应性，BP神经网络在模式识别、函数逼近、优化问题等多个领域有着广泛的应用。本文将详细介绍BP神经网络的
C# 解析 HTML 实战指南 code_shenbing C#c#html 开发语言
在网页开发和数据处理的场景中，经常需要从HTML文档里提取有用的信息。C#作为一门强大的编程语言，提供了丰富的工具和库来实现HTML的解析。这篇博客就带你深入了解如何使用C#高效地解析HTML。一、为什么要在C#中解析HTML在实际项目中，无论是进行网页数据采集、网页内容分析，还是开发网页爬虫，都离不开对HTML的解析。例如，电商平台可能需要从竞品网站上采集商品价格和库存信息；新闻聚合应用可能需要
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。