PhoenixPeng-gxu

《利用Python进行数据分析》笔记记录第六章——数据载入、存储及文件格式

文章目录

前言
一、文本格式数据的读写
- 1.1 分块读入文件文本
- 1.2 将数据写入文件格式
- 1.3 使用分隔格式
- 1.4 JSON数据
- 1.5 XML和HTML:网络抓取
总结

前言

在上几篇文章中简单的了解了NumPy，pandas如何构建数组以及对数组的一些基本操作。接下来也是进行下面的学习记录。访问数据是使用各类工具所必需的第一步。我们将重点关注使用pandas进行数据输入和输出。

输出和输入通常有以下几种类型：读取文本文件及硬盘上其他更高效的格式文件、从数据库载入数据、与网络资源进行交互（比如Web API）。

下面将介绍文本文件的读取。

一、文本格式数据的读写

将表格型数据读取为DataFrame对象是pandas的重要特性。下表总结了部分实现该功能的函数，read_csv和read_table可能是后期我们使用最多的函数。

函数	描述
read_csv	从文件、URL或文件型对象读取分隔好的数据，逗号是默认分隔符
read_table	从文件、URL或文件型对象读取分隔好的数据，制表符（‘\t’）
read_fwf	从特定宽度格式的文件中读取数据（无分隔符）
read_clipboard	read_table的剪贴板版本，在将表格从Web页面上转换成数据时有用
read_excel	从Excel的XLS或XLSX文件中读取表格数据
read_ hdf	读取用pandas存储的HDF5文件
read_html	从HTML文件中读取所有表格数据
read_json	从JSON字符串中读取数据
read_msgpack	读取MessagePack二进制格式的pandas数据
read_pickle	读取以Python pickle格式存取的任意对象
read_sas	读取存储在SAS系统中定制存储格式的SAS数据集
read_sql	将SQL查询的结果（使用SQLAlchemy）读取为pandas的DataFrame
read_ stata	读取Stata格式的数据集
read_feather	读取Feather二进制格式

这些函数会将文本数据转换为DataFrame，这些函数的可选参数主要以下几种类型：

索引：可以将一或多个列作为返回的DataFrame，从文件或用户处获得列名，或者没有列名。
类型推断和数据转换：包括用户自定义的值转换和自定义的缺失值符号列表。
日期时间解析：包含组合功能，也包括将分散在多个列上的日期和时间信息组合成结果中的单个列。
迭代：支持对大型文件的分开迭代
未清洗数据问题：跳过行、页脚、注释以及其他次要数据，比如使用逗号分隔千位的数字。

注：一些数据载入函数，比如pandas.read_csv，会进行类型推断，因为列的数据类型并不是数据格式的一部分。那就意味着你不必指定哪一列是数值、整数、布尔值或字符串。其他的数据格式，比如HDF5、Feather和msgpack在格式中已经存储了数据类型。

让我们从一个小型的逗号分隔符文本文件（CSV）开始：

由于这个文件是逗号分隔符的，我们可以使用read_csv将它读入一个DataFrame。正常情况下，第一行作为列索引。：

df = pd.read_csv(r'D:\python project\aa.csv')
print(df)
---------------------------------------------------------
   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo

当然我们也可以使用read_table，并指定分隔符：

df1 = pd.read_table(r'D:\python project\aa.csv',sep=',')
print(df1)
---------------------------------------------------------
   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo

有的文件并不包含表头行。考虑以下文件：

要读取该文件。你可以允许pandas自动分配默认列名，也可以自己指定列名：

df2 = pd.read_csv(r'D:\python project\ab.csv', header=None)
print(df2)
df3 = pd.read_csv(r'D:\python project\ab.csv',names=['a','b','c','d','message'])
print(df3)
---------------------------------------------------------
   0   1   2   3      4
0  1   2   3   4  hello
1  5   6   7   8  world
2  9  10  11  12    foo

   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo

假设你想要message列成为返回DataFrame的索引，你可以指定位置4的列为索引，或将‘message’传给参数index_col:

df3 = pd.read_csv(r'D:\python project\ab.csv',names=['a','b','c','d','message'],index_col='message')
print(df3)
---------------------------------------------------------
         a   b   c   d
message               
hello    1   2   3   4
world    5   6   7   8
foo      9  10  11  12

当我们有一个这样的CSV文件：

当你想要从多个列中形成一个分层索引，需要传入一个包含列序号或列名的列表：

df4 = pd.read_csv(r'D:\python project\ac.csv',index_col=['key1','key2'])
print(df4)
---------------------------------------------------------
           value1  value2
key1 key2                
one  a          1       2
     b          3       4
     c          5       6
     d          7       8
two  a          9      10
     b         11      12
     c         13      14
     d         15      16

一张表的分隔符并不是固定的，使用空白或其他方式来分隔字段。考虑下列CSV文件:

当字段是以多种不同数量的空格分开时，可以向read_table传入一个正则表达式作为分隔符。正则表达式为\s+。

df5 = pd.read_table(r'D:\python project\ad.csv',sep='\s+')
print(df5)
---------------------------------------------------------
            A         B         C
aaa -0.264438 -1.026059 -0.619500
bbb  0.927272  0.302904 -0.032399
ccc -0.264273 -0.386314 -0.217601
ddd -0.871858 -0.348382  1.100491

在本例中，由于列名的数量比数据的列数少一个，因此read_table推断第一列应当作为DataFrame的索引。

解析函数有很多附加参数帮助你处理各种发生异常的文件格式。例如你可以使用skiprows来跳过第一行、第三行和第四行。

df6 = pd.read_csv(r'D:\python project\ae.csv',skiprows=[0,2,3])
print(df6)
---------------------------------------------------------
   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo

缺失值处理是文件解析过程中一个重要且常常的微妙的部分。通常情况下，缺失值要么不显示（空字符串），要么用一些标识值。默认情况下，pandas使用一些常见的标识，例如NA和NULL:

df7 = pd.read_csv(r'D:\python project\af.csv')
print(df7)
a = pd.isnull(df7)
print(a)
---------------------------------------------------------
  something  a   b     c   d message
0       one  1   2   3.0   4     NaN
1       two  5   6   NaN   8   world
2     three  9  10  11.0  12     foo

 something      a      b      c      d  message
0      False  False  False  False  False     True
1      False  False  False   True  False    False
2      False  False  False  False  False    False

na_values选项可以传入一个列表或一组字符串来处理缺失值：

df8 = pd.read_csv(r'D:\python project\af.csv',na_values=['1'])
print(df8)
---------------------------------------------------------
  something    a   b     c   d message
0       one  NaN   2   3.0   4     NaN
1       two  5.0   6   NaN   8   world
2     three  9.0  10  11.0  12     foo

在字典中，每列可以指定不同的缺失值标识：

sentinels = {'message': ['foo', 'NA'], 'something': ['two']}
df9 = pd.read_csv(r'D:\python project\af.csv', na_values=sentinels)
print(df9)
---------------------------------------------------------
  something  a   b     c   d message
0       one  1   2   3.0   4     NaN
1       NaN  5   6   NaN   8   world
2     three  9  10  11.0  12     NaN

下表列举了pandas.read_csv和pandas.read_table中常用的选项。

参数	描述
path	表明文件系统位置的字符串、URL或文件型对象
sep 或 delimiter	用于分隔每行字段的字符序列或正则表达式
header	用作列名的行号，默认是0（第一行），如果没有列名的话，应该为None
index_col	用作结果中行索行的列号或列名，可以是一个单一的名称/数字
names	结果的列名列表，和header=None一起用
skiprows	从文件开头处起，需要跳过的行数或行号列表
na_values	需要用NA替换的值序列
comment	在行结尾处分隔注释符
parse_dates	尝试将数据解析为datetime，默认为False。如果为True，将尝试解析所有的列。也可以指定列号或列名列表来进行解析。如果列表的元素是元组或列表，将会把多个列组合在一起进行解析
keep_date_col	如果连接列到解析日期上，保留被连接的列，默认是False
converters	包含列名称映射到函数的字典（例如{’foo‘：f}会把函数f应用到’foo‘列）
dayfirst	解析非明确日期时。按照国际格式处理（例如7/6/2012-> June 7,2012）,默认为False
date_parser	用于解析日期的函数
nrows	从文件开头处读入的行数
iterator	返回一个TextParser对象，用于零散地读入文件
chunksize	用于迭代的块大小
skip_footer	忽略文件尾部的行数
verbose	打印各种解析器输出的信息，比如位于非数值列中的缺失值数量
encoding	Unicode文本编码（例如’utf-8‘用于表示UTF-8编码的文本）
squeeze	如果解析数据只包含一列，返回一个Series
thousands	千位分隔符（例如’，‘或’.‘）

1.1 分块读入文件文本

当需要处理大型文件或找出正确的参数集来正确处理大文件时，你可能需要读入文件的一个小片段或者按小块遍历文件。

result = pd.read_csv(r'D:\python project\ag.csv')
print(result)
--------------------------------------------------------------
        one       two     three      four key
0  0.358904  1.847321 -1.254227  1.251241   L
1 -0.990574 -0.826405 -0.233157 -1.282877   B
2  1.920885  0.597549  0.646940 -1.928790   H
3  2.228516 -0.860897  0.383491 -0.456372   J
4 -1.157310 -0.269323  0.037063  0.859981   E
5 -0.590421  1.411186  1.325885  1.211605   T
6 -1.014570  1.437334  0.048242  1.331328   A
7  0.652341  0.382947  1.473874 -1.933292   D
8 -1.692246  0.403185  1.266175  0.905261   T
9  0.010318  0.940105 -2.015481 -0.822804   Y

如果你只想读取一部分（避免读取整个文件），可以指明nrows：

result1 = pd.read_csv(r'D:\python project\ag.csv', nrows=5)
print(result1)
--------------------------------------------------------------
        one       two     three      four key
0  0.358904  1.847321 -1.254227  1.251241   L
1 -0.990574 -0.826405 -0.233157 -1.282877   B
2  1.920885  0.597549  0.646940 -1.928790   H
3  2.228516 -0.860897  0.383491 -0.456372   J
4 -1.157310 -0.269323  0.037063  0.859981   E

为了分块读入文件，可以指定chunksize作为每一块的行数：

chunker = pd.read_csv(r'D:\python project\ag.csv',chunksize=10)
print(chunker)
--------------------------------------------------------------
<pandas.io.parsers.readers.TextFileReader object at 0x000001939AB89700>

read_csv返回的TextParser对象允许你根据chunksize遍历文件。例如我们可以遍历ag.csv，并对’key‘列聚合获得计数值：

chunker = pd.read_csv(r'D:\python project\ag.csv',chunksize=10)
print(chunker)
tot = pd.Series([])
for piece in chunker:
    tot = tot.add(piece['key'].value_counts(),fill_value=0 )
tot =tot.sort_values(ascending=False)

print(tot[:10])
---------------------------------------------------------
T    2.0
L    1.0
B    1.0
H    1.0
J    1.0
E    1.0
A    1.0
D    1.0
Y    1.0
dtype: float64

TextParser还具有get_chunk方法，允许你按照任意大小读取数据块。

1.2 将数据写入文件格式

数据可以导出为分隔的形式。让我们看下之前读取的CSV文件：

df = pd.read_csv(r'D:\python project\af.csv')
print(df)
---------------------------------------------------------
 something  a   b     c   d message
0       one  1   2   3.0   4     NaN
1       two  5   6   NaN   8   world
2     three  9  10  11.0  12     foo

使用DataFrame的to_csv方法，我们可以将数据导出为逗号分隔的文件：

df.to_csv(r'D:\python project\af1.csv')

输出结果：

当然，其他的分隔符也是可以的（写入到sys.stdout时，控制台中打印的文本结果）：

import sys
df.to_csv(sys.stdout,sep='|')
---------------------------------------------------------
|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo

缺失值在输出时以空字符串出现。可以使用其他标识值对缺失值进行标注：

df.to_csv(sys.stdout,na_rep='NULL')
---------------------------------------------------------
,something,a,b,c,d,message
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,world
2,three,9,10,11.0,12,foo

如果没有其他选项被指定的话，行和列的标签都会被写入。不过二者也都可以禁止写入：

df.to_csv(sys.stdout, index=False, header=False)
---------------------------------------------------------
one,1,2,3.0,4,
two,5,6,,8,world
three,9,10,11.0,12,foo

你也可以仅写入列的子集，并且按照你选择的顺序写入：

df.to_csv(sys.stdout, index=False, columns=list('abc'))
---------------------------------------------------------
a,b,c
1,2,3.0
5,6,
9,10,11.0

Series也有to_csv方法：

dates = pd.date_range('1/1/2000',periods=7)
ts = pd.Series(np.arange(7),index=dates)
ts.to_csv(r'D:\python project\time1.csv',header=False)

注意这里要header=False，否则会自动默认写入头列默认值为，0.

1.3 使用分隔格式

绝大多数的表型数据都可以使用函数pandas.read_table从硬盘中读取。然而，在某些情况下，一些手动操作可能是必不可少的。接收一个带有一个行或多行错误的文件并不少见，read_table也无法解决这种情况。为了介绍一些基础工具，考虑如下的小型CSV文件：

对于任何带有单字符分隔符的文件，你可以使用Python的内建csv模块。要使用它，需要将任一打开的文件或文件型对象传给csv.reader:

import csv
f = open(r'D:\python project\ah.csv')
reader = csv.reader(f)

像遍历文件那样遍历reader会产生元组，元组的值为删除了引号的字符：

for line in reader:
    print(line)
---------------------------------------------------------
["'a'", "'b'", "'c'"]
["'1'", "'2'", "'3'"]
["'1'", "'2'", "'3'"]

之后，你就可以自行做一些必要处理，以将数据整理为你需要的形式。让我们按部就班，首先将文件读取为行的列表：

with open(r'D:\python project\ah.csv') as f:
    lines = list(csv.reader(f))

然后，我们将数据拆分为列名行和数据行：

header, value = lines[0], lines[1:]

再然后，我们使用字典推导式和表达式zip(*value)生成一个包含数据列的字典，字典中行转置成列：

data_dict = {h: v for h ,v in zip(header,zip(*value))}
print(data_dict)
---------------------------------------------------------
{"'a'": ("'1'", "'1'"), "'b'": ("'2'", "'2'"), "'c'": ("'3'", "'3'")}

在这本书的前面章节中有提过，zip(*value)的作用，作为去“拆分”序列。将行的列表转换成列的列表。换句话就是说将列表中按列封装成元组。

print(list(zip(*value)))
---------------------------------------------------------
[("'1'", "'1'"), ("'2'", "'2'"), ("'3'", "'3'")]

CSV文件有多种不同风格。如需根据不同的分隔符、字符串引用约定或行终止符定义一种新的格式时，我们可以使用csv.Dialect定义一个简单的子类：

class my_dialect(csv.Dialect):
    lineterminator = '\n'
    delimiter = ';'
    quotechar = '"'
    quoting = csv.QUOTE_MINIMAL
    
f = open(r'D:\python project\ah.csv')
reader =csv.reader(f,dialect=my_dialect)
for lines in reader:
    print(lines)
---------------------------------------------------------
["'a','b','c'"]
["'1','2','3'"]
["'1','2','3'"]

我们也可以不必定义子类，直接将CSV方言参数传入csv.reader的关键字参数：

reader = csv.reader(f,delimiter='|')

下表中列出了csv.Dialect中的一些属性及其用途：

参数	描述
delimiter	一个用于分隔字段的字符，默认是’，‘
lineterminator	行终止符，默认是’\r\n’，读取器会忽略行终止符并识别跨平台行终止符
quotechar	用在含有特殊字符字段中的引号，默认是’"’
quoting	引用惯例。选项包括csv.QUOTE_ALL（引用所有的字段），csv.QUOTE_MINIMAL(只使用特殊字符，如分隔符)，csv.QUOTE_NONE（不引用）。默认是csv.QUOTE_MINIMAL
skipinitialspace	忽略每个分隔符后的空白，默认是False
doublequote	如何处理字段内部的引号。如果为True，则是双引号
escapecher	当引用设置为csv.QUOTE_NONE时用于转义分隔符的字符串，默认是禁用的

需要手动写入被分隔的文件时，你可以使用csv.writer。这个函数接收一个已经打开的可写入文件对象以及和csv.reader的相同方言、格式选项:

with open(r'D:\python project\ah1.csv', 'w') as f:
    writer = csv.writer(f, dialect=my_dialect)
    writer.writerow(('one', 'two', 'three'))
    writer.writerow(('1', '2', '3'))
    writer.writerow(('4', '5', '6'))
    writer.writerow(('7', '8', '9'))

1.4 JSON数据

JSON已经成为web浏览器和其他应用间通过HTTP请求发送数据的标准格式。它是一种比CSV等表格文本形式更为自由的数据形式。请看下面的例子：

obj = """
{"name":"Wes",
 "places_lived":["United States","Spain","Germany"],
 "pet" : null,
 "siblings :[{"name":"Scott","age":30,"pets":["Zeus","Zuko"]},
             {"name":"Katie","age":38,"pets":["Sixes","Stache","Cisco"]}]
             }
"""

JSON非常接近有效的Python代码，除了它的空值null和一些其他的细微差别（例如不允许列表末尾的逗号）之。基本类型是对象（字典）、数组（列表）、字符串、数字、布尔值和空值。对象中所有键都必须是字符串。有几个Python库用于读写JSON数据。我将在这里使用json，因为它是内置在Python标准库中的。将JSON字符串转换为Python形式时，使用json.loads方法：

JSON------>Python

import json
result = json.loads(obj)
print(result)
---------------------------------------------------------
{'name': 'Wes', 
'places_lived': ['United States', 'Spain', 'Germany'], 'pet': None, 
'siblings': [{'name': 'Scott', 'age': 30, 'pets': ['Zeus', 'Zuko']}, {'name': 'Katie', 'age': 38, 'pets': ['Sixes', 'Stache', 'Cisco']}]}

Python------>JSON

另一方，json.dumps可以将Python对象转换回JSON：

asjon = json.dumps(result)

如果你想将JSON对象或对象列表转换为DataFrame或其他数据结构。可以将字典构成的列表（之前是JSON对象）传入DataFrame构造函数，并选出数据字段的子集：

JSON ------>DataFrame

siblings = pd.DataFrame(result['siblings'],columns=['name','age'])
print(siblings)
---------------------------------------------------------
    name  age
0  Scott   30
1  Katie   38

pandas.read_json可以自动将JSON数据集按照指定次序转换为Series或DataFrame。

JSON ------>DataFrame和Series

pandas.read_json的默认选项是假设JSON数组中的每个对象是表里的一行：

data = pd.read_json(r'D:\python project\dsf.json')
print(data)
---------------------------------------------------------
   a  b  c
0  1  2  3
1  4  5  6
2  7  8  9

如果你需要从pandas中将数据导出为JSON，一种方法是对Series和DataFrame使用to_json方法：

DataFrame和Series------>JSON

print(data.to_json())
print(data.to_json(orient='records'))
---------------------------------------------------------
{"a":{"0":1,"1":4,"2":7},"b":{"0":2,"1":5,"2":8},
 "c":{"0":3,"1":6,"2":9}}

[{"a":1,"b":2,"c":3},{"a":4,"b":5,"c":6},{"a":7,"b":8,"c":9}]

1.5 XML和HTML:网络抓取

Python拥有很多可以对HTML和XML格式进行读取、写入数据的库，例如lxml（http://lxml.de）、Beautiful Soup 和 html5lib。尽管lxml是相对更快的库，但其他库可以更好地处理异常的HTML或XML文件。

pandas的内建函数read_html可以使用lxml和Beautiful Soup等库将HTML中的表自动解析为DataFrame对象。为了展示该功能我从某个网站的天气数据给大家演示：
详细的可以看这个文章进行阅读，感谢这个老哥的方法给我找到了示例。
示例也可以自己找，但是要带< table >标签的表格型数据。否则会报错：

ValueError: No tables found

还有就是在使用read_html前下载好两个库：beautifulsoup4 和 html5lib。

pandas.read_html 函数有很多选项，但是默认情况下，它会搜索并尝试解析所有包含在< table >标签中的表格型数据，返回的结果是DataFrame对象的列表：

ur1 = 'http://weather.sina.com.cn/china/shanghaishi/'
head = pd.read_html(ur1)
print(len(head))

failures = head[0]
print(failures.head())
---------------------------------------------------------
2

   0    1  ...                 6                 7
0  市  县/区  ...  今天周三 (01月22日) 夜间  今天周三 (01月22日) 夜间
1  市  县/区  ...              风力方向              最低温度
[2 rows x 8 columns]

XML是另一种常用的结构化数据格式，它使用元数据支持分层、嵌套数据。详情的示例可以看其他相关文章或者原著这里不做演示。

总结

例如：以上就是今天要讲的内容，本文介绍了如何使用各类工具去访问不同格式的文件数据。本文仅介绍了文本格式数据的读写常用的函数有read_csv和read_table。还介绍了我们在读入大型文本文件是可以进行分块读入，此外我们还学习了如何将数据写入文本格式中，并且在读取和写入时所采用到的分隔格式。还简单介绍了JSON数据，XML和HTML等。有关于其他类型将会在下次文章中学习。

你可能感兴趣的:(python,数据分析,pandas)

Python 爬虫实战：汽车电商平台价格波动监控与市场趋势洞察西攻城狮北 python 爬虫汽车实战案例
目录一、环境准备与依赖安装二、目标网站分析1.网站页面结构分析2.数据爬取策略三、代码实现1.数据抓取模块(1)爬取车型列表(2)爬取车型详情(3)主爬取函数2.数据存储模块3.数据分析模块四、完整工作流程(1)初始化爬虫(2)执行爬虫(3)数据存储(4)数据分析五、注意事项六、扩展功能在当今数字化时代，汽车电商平台为消费者提供了便捷的购车渠道。通过Python爬虫技术，我们可以监控汽车电商平台的
Python实现微博关键词爬虫才华是浅浅的耐心 python 新浪微博爬虫
1.背景介绍随着社交媒体的广泛应用，微博上的海量数据成为了很多研究和分析的重要信息源。为了方便获取微博的相关内容，本文将介绍如何使用Python编写一个简单的爬虫脚本，从微博中抓取指定关键词的相关数据，并将这些数据保存为Excel文件。本文将以关键词“樊振东”为例，展示从微博抓取该关键词相关数据的全过程。废话不多说，先上结果图。2.项目实现思路该爬虫通过向微博的搜索接口发送HTTP请求，获取与指定
使用 Python 实现批量发送电子邮件才华是浅浅的耐心 python 爬虫开发语言
引言：在日常工作中，我们可能会遇到需要批量发送邮件的场景，例如通知、营销邮件或测试邮件。如果手动发送，不仅效率低下，还容易出错。今天，我将分享一个使用Python实现的自动化邮件发送脚本，通过读取Excel文件中的发件人和收件人信息，轻松完成批量邮件发送任务。功能概述这个脚本的主要功能包括：从Excel文件中读取发件人信息（邮箱和授权码）和收件人信息（邮箱）。根据发件人邮箱的域名，自动匹配SMTP
python 之GUI设计：Entry组件时间之里 python-tkinter python python
说明：Entry（输入框）组件通常用于获取用户的输入文本。使用条件：Entry组件在GUI界面的设计中主要用于单行文本的键入（实际键入的内容可以比显示的空间更长，此种情况下结束鼠标和位移键能够产看自己输入的隐藏内容），通过几何外观图形属性设计可以改变实际的元素表现如果你希望接收多行文本的输入，可以使用Text组件（后面介绍）。常见用法：-普通输入框作为输入框最重要的属性是输入内容的获取：eg:pa
Python Tkinter库实战（用Entry和button控件做一个小型的浏览器） IT界小菜鸡笔记 python 开发语言
大家好，上一期我们大概了解了一下PythonTkinter库。这是一个方便快捷的GUI库；可以用短短几行代码生成出一个用户图形化接口的窗口。算是非常方便。既然前一期我们了解了tk库。那么我们今天就来做一个实战。今天这个实战项目源自于我一个奇奇怪怪的想法。当时打开浏览器的时候想着，既然我打开浏览器输入网址，搜索URL。既然别人可以，那我为什么不可以自己做一个呢？抱着这个想法，我就开始了这个实验。废话
珍藏！Java SpringBoot 精品源码合集约惠来袭，获取路径大公开秋野酱 java spring boot 开发语言
技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论文降重、长期答辩答疑辅导、腾讯会议一对一专业讲解辅导答辩、模拟答辩演练、和理解代码逻辑思路。文末获取源码联系文末获取源码联
python调用DeepSeek的API garfield_sun06 大模型 python 语言模型
1获取API获得deepseek开放平台的APIhttps://platform.deepseek.com/api_keys点击创建APIkey2调用方法方法一：采用openai的调用方法pipinstallopenai需要openai的包调用的代码框架fromopenaiimportOpenAIimportosclient=OpenAI(api_key='自己的APIkey',base_url=
Python GUI 开发：全面指南一休哥助手 python python 开发语言
1.PythonGUI开发简介GUI是指图形用户界面，它使用户可以通过图形元素（如按钮、文本框、下拉菜单等）与应用程序进行交互。与命令行界面相比，GUI更加直观易用。Python提供了多种库和框架，使开发者能够轻松创建功能丰富的桌面应用程序。1.1为什么选择Python进行GUI开发？简洁易读：Python的语法简洁，代码易于理解，开发者可以专注于应用程序的逻辑而不是语法。跨平台：Python是跨
基于Python+Django的可视化学习系统设计与实现（毕业设计源码+技术文档+系统部署）逐梦设计 Python毕业设计实战案例 python django 课程设计 vue.js 毕业设计源码
博主简介作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验，被多个学校常年聘为校外企业导师，指导学生毕业设计并参与学生毕业答辩指导，有较为丰富的相关经验。期待与各位高校教师、企业讲师以及同行交流合作主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、
Python图形界面(GUI)Tkinter笔记（十四）：Entry与Button的碰撞（1）小叶肥辉 tkinter python gui tkinter
用功能按钮(Button)、单行文本输入框(Entry)、文本框内容读取(get)实现一个极简易的加法运算，及与其他控件的交互，提高体验，主要体现其人机交互的意义。因为Entry()文本输入框没有限制输入内容属性的参数，它是把所有的输入都视作它特有的一个类属性，所以用get()方法读取出来是一个字符串而这字符串可包括字母或其它符号。因此我们必须对其进行判断后再计算，若直接计算可能会出现不可预料的错
python ppt转pdf macos_如何在 macOS 上一键批量把 PPT 和 Word 文件转成 PDF weixin_39857792 python ppt转pdf macos
原标题：如何在macOS上一键批量把PPT和Word文件转成PDF相信不少人都有或曾经有过需要将多个PPT/Word文件转为PDF的需求，可能是一堆PPT课件为了方便批注，也可能是一些Word文档为了方便阅读。每次只能打开一个文档，选择「另存为」，选「PDF」，点「保存」，关掉，再打开下一个文档，文档数目一多，整个过程就会变得很令人沮丧。最近我研究了一下这个磨人的问题，制作了一个动作可以在不到2秒
python智能合约编程_技术指南 | Python智能合约开发？看这一篇就够了 weixin_39897127 python智能合约编程
01前言在之前的技术视点文章中，我们介绍了目前本体主网支持的智能合约体系以及相应的智能合约开发工具SmartX。很多小伙伴都想上手练一练。在本期的技术视点中，我们将正式开始讲述智能合约语法部分。本体的智能合约API分为7个模块，分别是Blockchain&BlockAPI、RuntimeAPI、StorageAPI、NativeAPI、UpgradeAPI、ExecutionEngineAPI以及
langchain chroma 与 chromadb笔记 phynikesi langchain 笔记 chromadb
chromadb可独立使用也可搭配langchain框架使用。环境：python3.9langchain=0.2.16chromadb=0.5.3chromadb使用示例importchromadbfromchromadb.configimportSettingsfromchromadb.utilsimportembedding_functions#加载embedding模型en_embeddin
python电脑怎么打开任务管理器_利用Python调用Windows API，实现任务管理器功能 weixin_39778400
任务管理器具体功能有：1、列出系统当前所有进程。2、列出隶属于该进程的所有线程。3、如果进程有窗口，可以显示和隐藏窗口。4、强行结束指定进程。通过Python调用WindowsAPI还是很实用的，能够结合Python的简洁和WindowsAPI的强大，写出各种各样的脚本。编码中的几个难点有：1、API的入参是结构体时，怎么解决？答：Python内手动建立结构体。详见：https://baijiah
OpenCV 基础模块 Python 版 ice_junjun OpenCV opencv python 计算机视觉
OpenCV基础模块权威指南（Python版）一、模块全景图plaintextOpenCV架构(v4.x+)├─核心层│├─core：基础数据结构与操作（Mat/Scalar/Point）│└─imgproc：图像处理流水线（滤波→变换→检测）├─交互层│├─highgui：GUI与媒体I/O（显示/捕获/交互）│└─video：视频分析（运动检测/目标跟踪）├─3D视觉层│└─calib3d：相
Python入门(函数) 高育良00003 python 开发语言
一.基础认识一种映射关系1.1什么是函数呢？概念函数是可以重复执行的语句块，可以重复调用作用用于封装语句块，提高代码的重用性1.2函数的定义语法：deffunction():#def为关键字，function为函数名#语句想要执行的操作returnre#re为返回值二.函数的调用函数名后+小括号()表示函数的执行2.1基本用法语法：函数名(实际调用的参数)2.2调用传参2.2.1位置传参最为常见，
python本地连接minio 伶星37 python 网络服务器
在你浏览器能成功访问到你的minio网页，并且成功登录之后。接下来如果你想用python连接数据库，并且想用python连接minio，就可以用这个blog。连接代码client=Minio("localhost:9000",#9000是默认端口号access_key="admin",#你的账户secret_key="password",#你的密码secure=False,#这点我会详细说明)为什
头歌实践教学平台 Python程序设计实训答案（三）学习的锅头哥实践教学平台实训答案 python
第七阶段文件实验一文本文件的读取第1关：学习-Python文件之文本文件的读取任务描述本关任务：使用open函数以只写的方式打开文件，打印文件的打开方式。相关知识为了完成本关任务，你需要掌握：文本文件；open函数及其参数；文件打开模式；文件对象常用属性；关闭文件close函数。#请在下面的Begin-End之间按照注释中给出的提示编写正确的代码##########Begin###########
python基础之--面相对象--OOP基本特性暴龙胡乱写博客 python 开发语言人工智能
python基础之–面相对象–OOP基本特性文章目录python基础之--面相对象--OOP基本特性一，OOP基本特性1.1封装1.2继承/派生1.2.1基础概念1.2.3继承实现1.3多态1.4对象对成员的操作（补充）1.5私有属性1.6重写魔术方法二，super函数2.1基本使用2.2super().\__init__()一，OOP基本特性OOP的四大基本特性是封装、继承、多态和抽象。1.1封
Dify1.01版本vscode 本地环境搭建运行实践 hamish-wu vscode 编辑器 dify 大模型 python flask
dify是python编写的低代码AI开发平台，是常用的大模型开发平台。本文基于最新的1.0.1版本实践完成，有需要的可以私信交流。咨询免费，详细文档及视频需要一定成本，大概相当于节约的时间成本。搭建环境windows11开发工具vscode搭建步骤：1.Startthedocker-composestackwindow环境下运行docker命令，需要下载docker官网镜像，会遇到timeout
vscode python 入门教程(一) window 10 环境下安装pyenv hamish-wu Python python 开发语言 pyenv
python的环境配置方法很多，由于python有两个大版本，很多时候需要切换某个固定的版本才能运行三方包，所以推荐使用pyenv配置python环境变量pyenv的安装安装方法：Invoke-WebRequest-UseBasicParsing-Uri"https://raw.githubusercontent.com/pyenv-win/pyenv-win/master/pyenv-win/i
1-5 Python 入门之运算符的使用 Sa_sa_ki_Haise python
第1关：算术、比较、赋值运算符100任务要求参考答案评论201任务描述相关知识算术运算符比较(关系)运算符赋值运算符编程要求测试说明任务描述在编程时，我们常常需要对数值或对象进行算术、比较运算和赋值运算，以此来实现我们的功能需求。本关介绍Python中的一些基本运算符，并要求对给定的苹果和梨的数量进行算术运算、比较、赋值运算，然后输出相应的结果。相关知识要实现上述功能，需要用到Python中的各种
rabbitmq + minio +python 上传文件伶星37 rabbitmq python ruby
功能实现RabbitMq接收hello里面传来的消息根据消息在MobileFile里面新建文件新建文件上传到miniopython新建文件importospath='./MobileFile'file_path=os.path.join(path,"new_file.txt")withopen(file_path,"w")asfile:pass转换成函数格式importosdefcreatefil
vscode python 入门教程(二) vscode使用gti 管理代码 hamish-wu vscode ide 编辑器
vscode代码管理需要用管道git的命令，这点和idea的代码管理区别比较大。作为java开发需要自己熟悉适应一下。一、GitHub新建一个仓库过程略二、本地git项目初始化gitinitvscode中可以看到文件状态gitstatus使用gitremote命令吧本地git仓库和远程git仓库链接起来[email protected]提交代码gitcommit-m"评论
Python进阶之-加密库cryptography使用详解夏天Aileft Python python 网络加密
✨前言cryptography库是一个强大的Python加密库，提供了对加密算法和协议的高层和低层访问。它是用来实现数据加密、签名、密钥管理等功能的。以下是一些常见用法的详解，帮助你理解如何使用这个库。✨安装首先，你需要确保安装了cryptography库：pipinstallcryptography✨1.对称加密对称加密是指加密和解密使用相同的密钥。Fernet是cryptography库中提供
python列表添加元素的三种方法定义集合数据对象_python 学习第三天可迭代对象（列表，字典，元组和集合）... weixin_39852491
列表，字典，元组和集合列表list列表是由一系列特定元素组成的，元素和元素之间没有任何关联关系，但他们之间有先后顺序关系列表是一种容器列表是序列的一种列表是可以被改变的序列Python中的序列类型简介（sequence）字符串（str）列表（list）元组（tuple）字节串（bytes）字节数组（bytearray）创建空列表的字面值L=[]#L绑定空列表创建非空列表：L=[1,’two’,3,
python~集合详解鱼跃龙 python python集合详解 set集合
集合的基本操作首先需要明确的是：集合(set)是一个无序的不重复元素序列，多用来进行排重；不支持切片和索引取值！1.创建集合>>>a={1,2,4,4}>>>a{1,2,4}>>>type(a)**创建空集合时需要注意：不能直接用大括号，只能用set()；否则创建的是一个字典>>>b=set()>>>type(b)>>>c={}>>>type(c)2.添加元素add()方法是将要添加的元素作为一个
Python密码学：cryptography库零度° python python 密码学
在数字时代，确保数据的安全性和隐私至关重要。Python中的cryptography库是一个全面的包，为Python开发者提供了密码学原语和配方。它支持高级配方和常见密码学算法的低级接口。cryptography库概述cryptography库旨在易于使用且默认安全。它包括各种密码学操作的高级和低级API，如：对称加密非对称加密哈希函数消息认证码（MAC）数字签名密钥管理cryptography库
Python---frozenset集合爱听雨声的北方汉快快乐乐学Python Python
frozenset是set的不可变版本，因此set集合中所有能改变集合本身的方法（如add、remove、discard、xxx_update等），frozenset都不支持；set集合中不改变集合本身的方法，fronzenset都支持。frozenset的作用主要有以下两点：1、当集合元素不需要改变时，使用frozenset代替set更安全。2、当某些API需要不可变对象时，必须用frozens
(python)保障信息安全的加密库-cryptography Marst·Zhang 基础知识实用工具 python
前言cryptography是一个广泛使用的Python加密库，提供了各种加密、哈希和签名算法的实现。它支持多种加密算法，如AES、RSA、ECC等，以及哈希函数（如SHA-256、SHA-384等）和数字签名算法(如DSA、ECDSA等).目录常见用途密码学函数主要功能优点缺点总结常见用途数据加密使用对称加密算法（如AES）对数据进行加密，确保数据在传输或存储过程中的机密性。数字签名生成和验证数
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1