wespten

Python数据存取详解

一、表格类数据获取

pandas模块中的read_csv()函数和read_execl()函数分别读取csv文件和Excel工作簿中的表格类数据，read_html()函数可以从网页上读取表格类数据。

1、读写csv文件

CSV文件的规范：

使用回车换行（两个字符）作为行分隔符，最后一行数据可以没有这两个字符。
标题行是否需要，要双方显示约定
每行记录的字段数要相同，使用逗号分隔。逗号是默认使用的值，双方可以约定别的。
任何字段的值都可以使用双引号括起来. 为简单期间，可以要求都使用双引号。
字段值中如果有换行符，双引号，逗号的，必须要使用双引号括起来。这是必须的。
如果值中有双引号，使用一对双引号来表示原来的一个双引号

csv文件可以使用记事本或excel软件打开，excel软件会自动按照csv文件规则加载csv文件。

例如某一行如下：

12,aa,"12,aa"

它表示了3列，第1列为“12”字符串，第2列为“aa”字符串，第3列为“12,aa”字符串。

另外需要说明的是写入writer.writerow()函数接收的是列表参数，无论是什么数据都会先迭代转化为列表再一次打印输出。所以当传入字符串时。例如’aaaaa’，函数内部会先叠在成[‘a’,‘a’,‘a’,‘a’,‘a’]再打印输出，所以在csv中结果就会是’a’,‘a’,‘a’,‘a’,‘a’

csv模块读写csv文件

使用python3.6环境测试，python读写csv文件：

import csv



print("=============python操作csv文件=================")

#将要存储的数据
DATA = (
    (11, '12', '32——1'),
    (21, '22', '22——1, 22——2',),
    (31, '32', '32——1, 32——2,'),
)

#将数据写到csv
f = open('test.csv', mode='w',encoding='gbk',newline='')   #mode写入模式，采用b的方式处理可以省去很多问题。encoding编码。newline=''定义文档换行符
writer = csv.writer(f)  #获取输出数据流
for record in DATA:   #遍历写入每一行
#csv模块会将所有要写入的对象转化为字符串再写入。若转化后的字符串中不包含分割符（默认逗号）,则写入文件中字符串不包含""。若转化后的字符串中包含分割符（默认逗号），则写入文件中字符串包含""
    writer.writerow(record)  #按行写入文件，会自动将元素对象转化为字符串。写完一行就会添加一个newline换行符。若采用b模式写入，只能写入字节流。
f.close()

#读取csv
f = open('test.csv',mode='r',encoding='gbk')   #mode读取模式，采用b的方式处理可以省去很多问题，encoding编码方式
reader = csv.reader(f)  #获取输入数据。把每一行数据转化成了一个list，list中每个元素是一个字符串
for row in reader:  #按行读取文件。一行读取为字符串，在使用分割符（默认逗号）分割成字符串列表，对于包含逗号，并使用""标志的字符串不进行分割
     print(row)
     print(type(row))
f.close()

除了使用csv模块，还可以使用pandas模块。

read_csv函数包含很多参数，用于控制读取csv文件：

filepath_or_buffer   表示文件系统位置、URL、文件型对象的字符串
sep=sep,  用于对行中各字段进行拆分的字符序列或正则表达式
delimiter=None,

# 列和行的索引和名称
header='infer',用作列名的行号，默认为0，如果没有header行就应该设置为None
names=None,  用于结果的列名列表，结合header=None
index_col=None, 用作行索引的列编号或列名。可以是单个名称/数字或由多个名称/数字组成的列表（层次化索引）
usecols=None,
squeeze=False, 如果数据经解析后仅含一列，则返回Series
prefix=None,
mangle_dupe_cols=True,

# 解析配置
dtype=None,
engine=None,
converters=None, 由列号/列名跟函数之间的映射关系组成的字典。例如{'foo':f}会对foo列的所有值应用函数f
true_values=None,
false_values=None,
skipinitialspace=False,
skiprows=None,  需要忽略的行数（从文件开始处算起），或需要跳过的行号列表（从0开始）
nrows=None,  需要读取的行数

# 缺失数据的处理
na_values=None, 一组用于替换NA的值
keep_default_na=True, 如果连接多列解析日期，则保持参与连接的列，默认为False
na_filter=True,  
verbose=False,  打印各种解析器输出信息
skip_blank_lines=True,

# 时间处理
parse_dates=False,  是否尝试将数据解析为日期，默认为False
infer_datetime_format=False,
keep_date_col=False,  如果连接多列解析日期，则保持参与连接的列。默认为False
date_parser=None,  用于解析日期的函数
dayfirst=False,  当解析有歧义的日期时，将其看做国际格式（例如，7/6/2012 -> June 7,2014）。默认为False

# 迭代
iterator=False,  返回一个TextParser以便逐块读取文件
chunksize=None,  文件块的大小（用于迭代）

# 引用压缩文件格式
compression='infer',
thousands=None,  千分位分隔符
decimal=b'.',
lineterminator=None,
quotechar='"',
quoting=csv.QUOTE_MINIMAL,
escapechar=None,
comment=None,  用于将注释信息从行尾拆分出去的字符（一个或多个）
encoding=None,  用于unicode的文本编码格式
dialect=None,
tupleize_cols=False,

# 错误处理
error_bad_lines=True,
warn_bad_lines=True,

skipfooter=0,  需要忽略的行数（从文件末尾算起）
skip_footer=0,  # deprecated

# 内置属性
doublequote=True,
delim_whitespace=False,
as_recarray=False,
compact_ints=False,
use_unsigned=False,
low_memory=_c_parser_defaults['low_memory'],
buffer_lines=None,
memory_map=False,
float_precision=None

在python3.6环境下：

print("==============pandas操作csv文件==================")
import pandas as pd
#pandas将数据写入csv文件
DATA = {
    'english': ['one','two','three'],
    'number': [1,2,3]
}
save = pd.DataFrame(DATA,index=['row1','row2','row3'],columns=['english','number'])
print(save)
save.to_csv('test1.csv',sep=',')



#pandas读取csv
# sep分隔符，encoding编码header=None自动列名，names自定义列名，index_col作为行索引的列（主键）,skiprows跳过行索引,na_values缺失值的替代字符串
df = pd.read_csv('test1.csv',sep=',',encoding='gbk',names=['column1','column2','column3'],index_col=['column1'],skiprows=[0],na_values=['NULL'])
print(df)

2、读写xls文件

前提条件是电脑已经安装了office办公软件，并且下载安装了pywin32-217.win32-py2.7库。

1. 库安装

1）安装python库

window下python2、python3安装包的方法：

在线安装

安装好python、设置好环境变量后，在python安装目录下Script文件夹内会存在pip.exe和easy_install.exe两种在线安装工具。

只需要在cmd输入pip，可以查看pip是否可用

没有报错表示可用，在cmd中输入pip install xxx就可以在线安装包了，xxx为你要安装的包的名称。如在线安装lxml包，只需要在cmd中输入pip install lxml。即可

在线更新

pip install --upgrade 库名

在cmd中输入pip install --upgrade xxxx就可以在线更新库了，xxx为你要更新的库的名称。如在线更新lxml包，只需要在cmd中输入pip install --upgrade lxml。即可

离线安装

window下python的包两种形式存在，一种以.whl文件形式存在，一种以文件夹形式存在，在文件夹下一般与一个setup.py文件。下面介绍如何安装这两种形式的包。

在安装过程中，很多包是有依赖包的，必须先安装好依赖包才能安装成功当前包。联网电脑，会自动下载安装所依赖的包，所以问题不大，对于不能联网的电脑，就只能根据错误提示，一点一点下载安装所依赖的包。

python包库的下载地址：PyPI · The Python Package Index

2）安装python3的包

如果是whl格式的包：

将whl文件放在C:\Program Files\Python35-32\Scripts文件夹下。

先cd到目录（在cmd中输入）：

cd \Program Files\Python35-32\Scripts

再安装包（在cmd中输入，xx换成你的文件名）：

pip install xx.whl

如果是文件夹形式的包：

将文件夹放在C:\Program Files\Python35-32\Scripts文件夹下。

先cd到文件夹目录（在cmd中输入，xx换成你的文件夹名称）：

cd \Program Files\Python35-32\Scripts\xx

再执行安装（在cmd中输入）：

python setup.py install

3）安装python2的包

如果是whl格式的包：

将whl文件放在C:\Python27\Scripts文件夹下。

先cd到目录（在cmd中输入）：

cd \Python27\Scripts

再安装包（在cmd中输入，xx换成你的文件名）：

pip install xx.whl

如果是文件夹形式的包：

将文件夹放在C:\Python27\Scripts文件夹下。

先cd到文件夹目录（在cmd中输入，xx换成你的文件夹名称）：

cd \Python27\Scripts\xx

再安装包（在cmd中输入）：

python setup.py install

注意：

对于部分无法引入的包，需要在对应的安装包目录下运行自定义脚本
如：scapy包按照上述方式安装成功，但是无法正常引入，需要将自定义的脚本文件放在
C:\Python27\Scripts\scapy-master文件夹下执行

4）Python库的卸载

卸载使用：

pip uninstall [packge]

卸载完成之后到.\Lib\site-packages目录下检查package文件夹是否还在，如果还在，删除之【注意此时必须关闭python或者ipython】。

2. python操作office办公软件（excel）

使用python编程操作excel软件了，excel软件的启动可能会比较慢，所以有可能要等待几秒才能启动成功。

python2.7下代码：

#coding:utf-8
#python控制excel软件，本机电脑需要安装office软件
from Tkinter import Tk
from time import sleep
from tkMessageBox import showwarning
import win32com.client as win32

warn = lambda app: showwarning(app, 'Exit?')   #弹出提示框

def excel():
    app = 'Excel'
    xl = win32.gencache.EnsureDispatch('%s.Application' % app) #创建excel对象 
    ss = xl.Workbooks.Add()  #添加一个工作簿
    sh = ss.ActiveSheet  #取得活动(当前)工作表
    xl.Visible = True   #设置为桌面显示可见
    sleep(1)   #暂停一下，让用户看清演示的每一步

    sh.Cells(1,1).Value = 'first line'
    sleep(1) #暂停一下，让用户看清演示的每一步
    for i in range(3, 8):
        sh.Cells(i,1).Value = 'line %d' % i  #在3到8行，第一列，写入内容
        sleep(1) #暂停一下，让用户看清演示的每一步
    sh.Cells(i+2,1).Value = "last line"
    sh.Range(sh.Cells(1, 1), sh.Cells(4, 1)).Font.Bold = True  #设置指定区域的字体格式
    warn(app)  #弹出警告消息
    ss.Close(False)  #工作簿关闭保存
    xl.Application.Quit()  #excel应用退出

if __name__=='__main__':
    Tk().withdraw()   #不让tk顶级窗口出现，因为默认tk会自动创建一个顶级窗口，而且不会将其隐藏
    excel()

python3.6下代码：

#coding:utf-8
#python控制excel软件，本机电脑需要安装office软件
from tkinter import Tk
from time import sleep
from tkinter.messagebox import showwarning
import win32com.client as win32

warn = lambda app: showwarning(app, 'Exit?')   #弹出提示框

def excel():
    app = 'Excel'
    xl = win32.gencache.EnsureDispatch('%s.Application' % app) #创建excel对象 
    ss = xl.Workbooks.Add()  #添加一个工作簿
    sh = ss.ActiveSheet  #取得活动(当前)工作表
    xl.Visible = True   #设置为桌面显示可见
    sleep(1)   #暂停一下，让用户看清演示的每一步

    sh.Cells(1,1).Value = 'first line'
    sleep(1) #暂停一下，让用户看清演示的每一步
    for i in range(3, 8):
        sh.Cells(i,1).Value = 'line %d' % i  #在3到8行，第一列，写入内容
        sleep(1) #暂停一下，让用户看清演示的每一步
    sh.Cells(i+2,1).Value = "last line"
    sh.Range(sh.Cells(1, 1), sh.Cells(4, 1)).Font.Bold = True  #设置指定区域的字体格式
    warn(app)  #弹出警告消息
    ss.Close(False)  #工作簿关闭保存
    xl.Application.Quit()  #excel应用退出

if __name__=='__main__':
    Tk().withdraw()   #不让tk顶级窗口出现，因为默认tk会自动创建一个顶级窗口，而且不会将其隐藏
    excel()

3. xls文件的读写与追加

xlwt只能创建一个全新的excel文件，然后对这个文件进行写入内容以及保存。但是大多数情况下我们希望的是读入一个excel文件，然后进行修改或追加，这个时候就需要xlutils了。

使用xlwt库，点击下载xlwt库或者pip install xlwt

使用xlrd库，点击下载xlrd库或者pip install xlrd

使用xlutils库，使用pip install xlutils安装

然后就可以处理excel文件了。

python3.6下xls文件的读写：

#xls文件的读写
import xlwt
import xlrd
import xlutils

#将数据写入xls
workbook=xlwt.Workbook(encoding='utf-8')   #文件编码
booksheet=workbook.add_sheet('Sheet 1', cell_overwrite_ok=True)   #表名，是否覆盖
DATA=(('学号','姓名','年龄','性别','成绩'),
      ('1001','A','11','男','12'),
      ('1002','B','12','女','22'),
      ('1003','C','13','女','32'),
      ('1004','D','14','男','52'),
      )
for i,row in enumerate(DATA):   #迭代
    for j,col in enumerate(row):  #迭代
        booksheet.write(i,j,col)   #写入单元格
workbook.save('test.xls')   #保存成文件

#将数据追加到xls
from xlrd import open_workbook
from xlutils.copy import copy


rexcel = open_workbook("test.xls") # 用wlrd提供的方法读取一个excel文件
rows = rexcel.sheets()[0].nrows # 用wlrd提供的方法获得现在已有的行数
excel = copy(rexcel) # 用xlutils提供的copy方法将xlrd的对象转化为xlwt的对象
table = excel.get_sheet(0) # 用xlwt对象的方法获得要操作的sheet
values = ["1", "2", "3"]
row = rows
for value in values:
    table.write(row, 0, value) # xlwt对象的写方法，参数分别是行、列、值
    table.write(row, 1, "haha")
    table.write(row, 2, "lala")
    row += 1
excel.save("test.xls") # xlwt对象的保存方法，这时便覆盖掉了原来的excel

#从xls中读取数据
fname = "test.xls"
data = xlrd.open_workbook(fname)
shxrange = range(data.nsheets)
try:
    sh = data.sheet_by_name("Sheet 1")
    nrows = sh.nrows
    ncols = sh.ncols
    print("hang %d, ncols %d" % (nrows, ncols))

    for row_index in range(sh.nrows):
        for col_index in range(sh.ncols):
            print(sh.cell(row_index, col_index).value,end='')
        print('')
except:
    print("no sheet in %s named Sheet1" % fname)

3、html文件读写

1. 用于构建表格的标签

read_html()函数是通过定位网页源代码中所有用于构建表格的标签来读取数据的，因此，下面先来简单了解一下用于构建表格的标签。

标签用于定义一个表格，标签用于定义表头，标签用于定义表格的主体。在标签内部使用标签定义一行，使用标签内部使用标签定义一行，使用

标签定义一行中的一个单元格。在

标签定义一行中的一个单元格。

在PyCharm编辑器中创建一个“test.html”文件，以该文件为基础进行网页源代码的修改和添加，得到如下所示的网页源代码：

1   
2   
3   
4       
5       Title
6   
7   
8   　　
9       　　
10       　　
11           　　
12           
13           
14       
15       
16       　　
17       　　
18           　　
19           
20           
21       
22       
23           
24           
25           
26       
27       
28   姓名 性别 年龄
张三 男 18
李四 女 17
29   
30

使用谷歌浏览器打开“test.html”文件，可看到如下图所示的表格：

2. read_html()函数的基本用法

代码文件：read_html()函数的基本用法.py

认识了用于构建表格的标签，下面从read_html()函数的常用参数入手，讲解该函数的基本用法。

1）参数io

参数io的值可以是网址或本地HTML文档的路径，也可以是requests模块获取到的响应对象的文本内容。该参数是位置参数，在函数的括号中书写时不用给出参数名，但必须为第一个参数。

演示代码如下：

1   import pandas as pd
2   print(pd.read_html('http://www.kuaidaili.com/free/')[0])

read_html()函数的返回值是DataFrame对象的列表，每个DataFrame对象代表页面中的一个表格，第2行代码通过列表切片的方式指定提取第1个表格。

代码运行结果如下图所示：

2）参数match

参数match的值是一个正则表达式，只有含有符合该正则表达式的字符串的表格才会被返回，如果匹配不到则会报错。

演示代码如下：

1   import pandas as pd
2   print(pd.read_html('http://www.air-level.com/rank', match='优')[0])

第2行代码中的match='优'表示读取包含字符串'优'的表格。

代码运行结果如下图所示：

3）参数flavor

该参数用于指定网页源代码的解析器，默认为lxml解析器。

演示代码如下：

1   import pandas as pd
2   print(pd.read_html('http://www.kuaidaili.com/free/', flavor='lxml')[0])  # 指定使用lxml解析器

4）参数header

参数header用于指定以表格中的一行或几行数据作为表格的列标签，默认值是None。参数值可以是单个整型数字，表示将一行数据作为列标签；也可以是由整型数字组成的列表，表示将几行数据共同作为列标签。

演示代码如下：

1   import pandas as pd
2   print(pd.read_html('http://www.kuaidaili.com/free/', header=[0, 1, 2])[0])

代码运行结果如下图所示。

5）参数index_col

参数index_col用于指定表格中的一列数据作为行标签，默认值为None。

演示代码如下：

1   import pandas as pd
2   print(pd.read_html('http://www.kuaidaili.com/free/', index_col=0)[0])

代码运行结果如下图所示：

6）参数encoding

参数encoding用于指定表格数据的解码方式，默认使用网页源代码提供的解码方式，一般不需要指定。

学习了read_html()函数的基本用法，下面以爬取财富中文网的2019年财富世界500强排行榜（http://www.fortunechina.com/fortune500/c/2019-07/22/content_339535.htm）为例进行实践。

在编写代码前，需要先利用开发者工具确定网页中的数据是静态加载还是动态加载。如果是静态加载，只需要将网页的网址作为read_html()函数的参数io的值；如果是动态加载，则要先用requests模块携带动态参数获取网页源代码，再将其作为read_html()函数的参数io的值。这里确定网页中的数据是静态加载的，所以演示代码如下：

1   import pandas as pd
2   Wealth_Ranking = pd.read_html('http://www.fortunechina.com/fortune500/c/2019-07/22/content_339535.htm', match='沃尔玛')[0]　　# 匹配含有“沃尔玛”的表格
3   Wealth_Ranking.to_csv('财富世界500强.csv', index=False)　　# 将爬取结果存储为csv文件

用记事本打开保存的csv文件，结果如下图所示：

4、python对象与json字符串转换

在json字符串和python对象的相互转化中，会进行下列变换：

会将python中字典的写法，转化为js中对象的写法。（没有区别）。
会将python中列表的写法，转化为js中array的写法。（没有区别）
会将python中unicode的写法，转化为js中string的写法。（与编码有关）
会将python中的int，long的写法，转化为js中number的写法。（没有区别）
会将python中的True的写法，转化为js中true的写法。（写法有区别）
会将python中的False的写法，转化为js中false的写法。（写法有区别）
会将python中的None的写法，转化为js中null的写法。（写法有区别）

反过来也是对应转换。

js中类型	    	Python中类型

object				dict
array				list
string				unicode
number (int)		int, long
number (real)		float
true				True
false				False
null				None

python字典所有的键必须为字符串，值可以是任何对象。包括字典、列表、字符串、数值、布尔值以及null。

json库集成在了标准库中，使用import json即可引入，所以不用安装外部包。

1. python对象转化为json字符串、python对象存储成json文件

json.dumps 将 Python 对象编码成 JSON 字符串：

json.dumps(obj, skipkeys=False, ensure_ascii=True, check_circular=True, allow_nan=True, cls=None, indent=None, separators=None, encoding="utf-8", default=None, sort_keys=False, **kw)

dumps函数包含一些参数，可以使用参数让 JSON 数据格式化输出。

sort_keys参数：是否对键值排序。sort_keys=True；
separators：分隔符。separators=(’,’, ': ') 参数：两个键值对间的分隔符，键和值中间的分隔符；
indent：缩进字符数。indent=10；
encoding：编码类型。encoding=“utf-8”；

json.dump 将 Python 对象存储成 JSON文件：

json.dump(obj, fp, *, skipkeys=False, ensure_ascii=True, check_circular=True,
        allow_nan=True, cls=None, indent=None, separators=None,
        default=None, sort_keys=False, **kw)

测试用例。运行环境python3.6：

import json
myobject = {
    'key2': {
        'key31': None,
        'key32': False,
        'key33': 13.6,
    },
    'key1': {
        'key22': ['value22_1', 'value22_2']
    }
}

#将对象或对象数组转化为json字符串
jsonstr =json.dumps(myobject, indent=4,sort_keys=True)
print(jsonstr)

#python对象或对象数组写入json文件：方法1
with open('data.json', 'w') as f:
    json.dump(myobject, f)
    
#python对象或对象数组写入json文件：方法2
import io
f=io.open('data1.json', 'w', encoding='utf-8')
json.dump(myobject, f, ensure_ascii=False)

注意：测试发现，使用str(dict)，转化为字符串为单引号，使用json.dumps转化为字符串为双引号。

2. json字符串转化为python对象，python读取json文件

json.loads 将已编码的 JSON 字符串解码为 Python 对象：

json.loads(s, *, encoding=None, cls=None, object_hook=None, parse_float=None,
        parse_int=None, parse_constant=None, object_pairs_hook=None, **kw)

json.load 将已编码的 JSON 文件解码为 Python 对象：

json.load(fp, *, cls=None, object_hook=None, parse_float=None,
        parse_int=None, parse_constant=None, object_pairs_hook=None, **kw)

测试用例。运行环境python3.6：

#coding:utf-8
import json
#将json字符串转化为对象或对象数组
jsonstr = '{"key2": {"key31": null, "key32": false, "key33": 13.6}, "key1": {"key22": ["value22_1", "value22_2"]}}'
obj = json.loads(jsonstr)
print(obj)

#读取json文件转换成python对象或对象数组：方法1
with open('data1.json', 'r') as f:
    obj = json.load(f)
    print(obj)

#读取json文件转换成python对象或对象数组：方法2
import io
f = io.open('data1.json', 'r', encoding='utf-8')
json_str = f.readline()   #读取文件内容
obj = json.loads(json_str)  #将json字符串转化为对象
print(obj)

二、数据库存取数据

当数据量非常大时，在海量文件中查找数据会很麻烦，所以我们需要一个工具来帮助管理数据，那就是数据库。

数据库可以视为一个存放数据的仓库，一个数据库中能存放多张数据表。根据数据表的类型可以将数据库分为关系型数据库和非关系型数据库两类。

关系型数据库中存放的数据表和我们常见的二维表格很相似。二维表格的行在数据表中称为记录，二维表格的列在数据表中称为字段，列名则称为字段名。与二维表格不同的是，数据表的字段有着严格的约束，只能存储指定格式和长度的数据，因此，关系型数据库更适合用于存取结构化的数据。关系型数据库意味着数据库中存放的数据表之间可以产生联系，通过一定的方式用一张表的数据找到另一张表中的数据。例如，学生表中存放了学生的姓名、联系方式等数据，成绩表中存放了学生的姓名、分数等数据，因为两张表中都存在学生的姓名数据，所以可以通过同一个姓名值让两张表产生联系。

非关系型数据库意味着每个数据之间是独立的，常见的类型是键值对关系，只能通过键取到对应数据的值。

数据库管理系统是专门为创建和管理数据库而设计的软件。在爬虫中常用的关系型数据库管理系统有Oracle、SQL Server、MySQL，非关系型数据库管理系统有Redis、memcached、MongoDB。

1、Python操作MySQL数据库

1. MySQL的安装和配置

MySQL能在Windows环境下运行，性能卓越，服务稳定，并且体积小、速度快、成本低，支持多种开发语言。国内很多中小型网站为了降低成本都使用MySQL存储数据。下面就来讲解MySQL的安装与配置。

步骤1：在浏览器中打开MySQL的下载页面https://downloads.mysql.com/archives/installer/，选择下载运行于Windows操作系统的5.6.45版本，可看到有两个安装包，第一个是网络安装版，第二个是离线安装版，这里单击离线安装版的“下载”按钮，如下图所示：

安装包下载完毕后，用搜索引擎搜索详细的安装教程，按照安装教程完成安装。

安装完毕后，为便于在命令行窗口中操控MySQL，还要将“mysql.exe”所在的文件夹路径添加到系统的环境变量Path中。具体方法为：按快捷键【Win+R】打开“运行”对话框，输入“sysdm.cpl”后按【Enter】键，打开“系统属性”对话框；切换到“高级”选项卡，单击“环境变量”按钮，打开“环境变量”对话框；在“系统变量”列表框中双击“Path”选项，打开“编辑环境变量”对话框。

单击“新建”按钮，在文本框中粘贴“mysql.exe”所在的文件夹路径，单击“确定”按钮，如下图所示：

完成设置后，按快捷键【Win+R】打开“运行”对话框，输入“cmd”后按【Enter】键，在弹出的命令行窗口中输入命令“mysql”，按【Enter】键，即可启动MySQL服务。随后在命令行窗口中输入命令“mysql --version”，按【Enter】键，如果显示系统版本号，则说明安装成功。

步骤2：使用安装时配置的管理员账户和密码登录MySQL系统。打开命令行窗口，输入命令“mysql -uroot -p123456”（其中-u代表user，后面跟用户名；-p代表password，后面跟密码），按【Enter】键，即可登录本地MySQL系统，并显示命令提示符“mysql>”，如下图所示。

如果要通过网络登录运行在其他计算机上的MySQL系统，则要输入命令“mysql -uroot -p123456 -h192.168.31.1 -P3306”，其中，-h后为MySQL系统所在计算机的IP地址，-P后为MySQL服务的端口号。

步骤3：登录系统后就可以创建数据库了。在命令提示符“mysql>”后输入并执行命令“CREATE DATABASE test CHARSET=utf8;”（注意不要遗漏末尾的分号），即可创建一个名为test、数据编码格式为UTF-8的数据库。这里指定数据编码格式为UTF-8是为了避免中文数据出现乱码。如果要显示所有数据库的列表，可使用命令“SHOW DATABASES;”，如下图所示。

步骤4：创建数据库后还需要在数据库中创建数据表。先使用命令“USE test;”进入前面创建的数据库test，再使用命令“CREATE TABLE demo(id INT(10) NOT NULL PRIMARY KEY, name VARCHAR(10) NOT NULL);”创建一个名为demo的数据表（命令的具体含义在后面会详细讲解）。此时使用命令“SHOW TABLES;”可以列出当前数据库中的所有数据表，如下图所示。

步骤5：MySQL支持多个用户同时使用，但是管理员账户只能有一个。通过管理员账户可以新建用户并管理用户权限。对于不同级别的用户需要分配不同的权限，常见的权限是数据的“增”“删”“改”“查”四种，其中需要慎重考虑的是数据的删除权限，因为数据一旦被删除就不容易恢复。下面来新建一个用户mrwang，并为其分配权限。

用步骤2中的方法以管理员账户登录系统，输入并执行命令“CREATE USER 'mrwang'@'192.168.31.1' IDENTIFIED BY '123456';”，其中mrwang是用户名，192.168.31.1是该用户登录时可使用的IP地址（通常为本机的IP地址），123456是密码。随后可使用命令“SELECT host, user FROM mysql.user;”查看所有用户的IP地址和用户名信息，如下图所示。

设置用户登录的IP地址时可以使用通配符“%”。例如，'192.168.31.%'表示允许用户从所有以“192.168.31.”开头的IP地址登录，'%'则表示允许用户从任意IP地址登录。

刚创建的用户是没有权限操作数据库的，还需要对其进行授权。继续输入并执行命令“GRANT SELECT, INSERT, UPDATE, DELETE ON test.demo TO 'mrwang'@'192.168.31.1';”，如下图所示。其中SELECT表示查询的权限，INSERT表示增加的权限，UPDATE表示修改的权限，DELETE表示删除的权限，test是数据库的名称，demo是数据表的名称。这条命令就表示授权用户mrwang对数据库test中的数据表demo进行“增”“删”“改”“查”操作。

授予的权限要刷新才能生效，对应的命令为“FLUSH PRIVILEGES;”。再使用命令“SHOW GRANTS FOR 'mrwang'@'192.168.31.1';”查看用户mrwang的权限，如下图所示。

设置用户有权操作的数据库和数据表时可使用通配符“*”。例如，test.*表示数据库test中的所有数据表，*.*表示所有数据库中的所有数据表。设置权限时可用ALL PRIVILEGES代表所有权限。例如，命令“GRANT ALL PRIVILEGES ON *.* TO 'mrwang'@'192.168.31.1';”就表示授权用户mrwang对所有数据库中的所有数据表进行任何操作。

2. 数据表的基本操作

录MySQL系统后输入的命令称为SQL。SQL是Structured Query Language（结构化查询语言）的缩写，它是专门为管理关系型数据库系统而设计的编程语言。学会了在命令行窗口中使用SQL命令操作数据库，我们就能通过在Python代码中嵌入SQL命令来更方便地在数据库中存取数据。

1）数据表结构基础知识

每张数据表有着自己的结构，这些结构需要在创建数据表时进行定义。前面说过，数据表的行称为记录，列称为字段。定义数据表的结构主要是定义字段的属性，主要包括字段名、字段类型、字段长度、字段约束。

（1）字段名

字段名可以看成每一列的列名。为字段命名时建议遵守以下规则：

使用英文字母（建议小写）、数字和下划线的组合，建议以英文字母开头；
不使用SQL关键词，如time、datetime、password等；
命名简洁而明确，能让人直观看出字段中存储的是什么内容的数据，如price、user_id、book_name；

（2）字段类型和字段长度

字段类型规定了一个字段能存储的数据的类型，常用的有数值类型、字符串类型、时间类型3种，各个类型又按照大小和格式分为多种子类型。

常用的数值类型如下表所示：

常用的字符串类型如下表所示：

常用的时间类型如下表所示：

还有两种特殊的字段类型——ENUM和SET。ENUM是单选类型，在创建字段时指定若干选项，存储的值只能是这些选项中的一个；SET是多选类型，存储的值可以是这些选项中的多个。
从上述3个表可知每种字段类型能存储的最大长度，不过在实际创建数据表时，除了时间类型外的数据类型的字段还要人为指定最大长度，否则数据库系统在存储数据时会预留字段能存储的最大长度的存储空间，这样会极大地浪费存储空间，并降低数据库的性能。

（3）字段约束

字段约束规定了存储的数据必须符合的条件，这主要是为了保证数据的完整性。

常见的约束类型如下表所示：

2）数据表的“增”“删”“改”“查”

了解完数据表结构的基础知识，接着学习使用SQL完成数据表的“增”“删”“改”“查”等基本操作。

（1）新建数据表

在新建一张数据表之前需要先设计好表的结构，确定有哪些字段，以及每个字段的类型、长度和约束条件。

下表为一张用于存储员工信息的数据表的结构：

设计好表的结构，就可以使用CREATE TABLE语句创建数据表了。

根据上表编写如下所示的SQL命令：

1   CREATE TABLE staff(
2       id INT(10) NOT NULL PRIMARY KEY,  # 字段id存储员工编号数据
3       name VARCHAR(10) NOT NULL UNIQUE,  # 字段name存储姓名数据
4       age INT(3),  # 字段age存储年龄数据
5       job VARCHAR(10) NOT NULL,  # 字段job存储职位数据
6       wage FLOAT(10) NOT NULL,  # 字段wage存储工资数据
7       gender CHAR(1) NOT NULL);  # 字段gender存储性别数据

登录数据库系统，先用命令“USE test;”进入前面创建的数据库test，然后输入上述命令（每一行末尾以“#”开头的内容为注释，不用输入），可以像下图这样分行输入，也可以输入在一行中，最后按【Enter】键执行，这样就完成了一个数据表的创建。

（2）查看数据表信息

进入数据库后，使用命令“SHOW TABLES;”可列出当前数据库中的数据表，使用命令“DESC 表名;”可查看指定数据表的结构，如下图所示。

（3）修改数据表结构

使用ALTER TABLE语句可以修改数据表的结构。

常用的命令如下表所示：

例如，将字段gender修改为字段entrytime，用于存储入职时间。

SQL命令如下：

1   ALTER TABLE staff CHANGE gender entrytime DATE NOT NULL;

然后用命令“DESC staff;”查看数据表结构，可看到修改结果，如下图所示：

（4）删除数据表

使用DROP语句能删除数据表，格式为“DROP TABLE 表名”。例如，删除数据表staff的命令如下：

1   DROP TABLE staff;

另外，使用DROP语句还能删除数据库，格式为“DROP DATABASE 库名”。例如，删除数据库test的命令如下：

1   DROP DATABASE test;

需要注意的是，数据库或数据表被删除后就难以恢复，因此要慎重使用DROP语句，并做好用户权限管理和定期数据备份，以免造成不可挽回的损失。

3. 数据表中数据的基本操作

学习了数据表的基本操作，接着来学习数据表中数据的基本操作。

1）插入数据记录

使用INSERT语句可以在数据表中插入数据记录。

演示命令如下：

1   INSERT INTO staff
2   VALUES
3       (1, '张三', 18, '秘书', 2222.78, 20120526),
4       (2, '李四', 28, '销售', 3333.78, 20130526),
5       (3, '王五', 38, '经理', 4444.78, 20140526);

2）查询数据记录

查询语句的基本格式为“SELECT 字段名 FROM 表名 WHERE 查询条件”，其中字段名可以使用通配符“*”。在基本的查询操作的基础上，还可以衍生出模糊查询、分组汇总、结果排序等操作。由于篇幅有限，这里不做展开。

查询所有数据记录，演示命令如下：

1   SELECT * FROM staff;

查询结果如下图所示：

查询员工编号为2的数据记录，演示命令如下：

1   SELECT * FROM staff WHERE id=2;

查询结果如下图所示：

查询工资大于3000的员工的姓名和职位，演示命令如下：

 1   SELECT name, job FROM staff WHERE wage>3000;

查询结果如下图所示：

查询所有员工工资的最大值、最小值、平均值，演示命令如下：

1   SELECT MAX(wage) AS '最大值', MIN(wage) AS '最小值', AVG(wage) AS '平均值' FROM staff;

查询结果如下图所示：

3）删除数据记录

使用DELETE语句能删除满足指定条件的数据记录。
删除员工编号为1的数据记录，演示命令如下：

1   DELETE FROM staff WHERE id=1;

然后使用命令“SELECT * FROM staff;”查询所有数据记录，可看到id为1的数据记录被删除了，如下图所示。

如果不指定条件，则会删除所有数据记录，演示命令如下：

1   DELETE FROM staff;

再查询所有数据记录，可看到查询结果为空，如下图所示。

4）修改数据记录

UPDATE语句用于修改数据表中的现有数据记录。

将姓名为“张三”的员工的工资修改为1000，演示命令如下：

1   UPDATE staff SET wage=1000 WHERE name='张三';

可以看出，UPDATE语句根据WHERE关键词指定的条件定位要修改的记录，根据SET关键词指定的字段名和字段值执行修改操作。

学习完常用的SQL命令，下面接着来学习如何在Python代码中操作数据库。

4. 用PyMySQL模块操作数据库

代码文件：用PyMySQL模块操作数据库.py

PyMySQL是用于操作MySQL数据库的第三方模块，使用“pip install pymysql”命令进行安装。下面介绍这个模块的基本用法，包括连接数据库、执行SQL命令、获取执行结果等。

要操作数据库，首先需要连接到数据库。在PyMySQL模块中，使用connect()函数创建数据库连接，演示代码如下：

1   import pymysql
2   conn = pymysql.connect(host='127.0.0.1', port=3306, user='root', password='123456', database='test', charset='utf8')

第2行代码中，参数host用于设置MySQL系统的IP地址，这里设置为本机的IP地址；参数port用于设置MySQL系统的端口；参数user和password分别用于设置登录MySQL系统的用户名和密码；参数database用于设置要连接的数据库名称；参数charset用于设置数据编码格式。

完成数据库连接的创建后，接着要创建游标。游标可以理解为指针，通过移动游标可以从数据集中选择和取出数据。创建游标的方法有很多，这里介绍两种。第一种方法创建的游标返回的数据是元组类型，演示代码如下：

1   cursor = conn.cursor()

第二种方法创建的游标返回的数据是字典类型，演示代码如下：

1   cursor = conn.cursor(pymysql.cursors.DictCursor)

完成游标的创建后，通过游标的execute()函数执行SQL命令。

演示代码如下：

1   name = '张三'
2   sql = 'SELECT * FROM staff WHERE name=%s;'  # 编写SQL命令，在数据表staff中根据员工姓名查询数据记录
3   res = cursor.execute(sql, (name))  # 将参数值“张三”拼接到SQL命令中并执行命令，函数返回的是受该SQL命令影响的数据记录的条数

在编写SQL命令时，通常要用到字符串拼接。但是如果先拼接好SQL命令再用execute()函数执行，会产生SQL注入漏洞。不法分子可以利用这一漏洞绕过数据库的登录验证机制，无须提供用户名和密码就能操作数据库。为了消除这种安全隐患，execute()函数提供了字符串拼接功能，像上述第3行代码那样在execute()函数内部进行字符串拼接，就不会产生SQL注入漏洞了。

通过游标执行SQL命令后，就可以从执行结果中取出数据，基本方式有三种，分别为取出一条数据、多条数据和所有数据。需要注意的是，取过的数据不能被再次取出。例如，取出所有数据后，再取数据就会得到None；取出一条数据后，再取一次会得到下一条数据；取出多条数据也是这样依序进行，取不到就返回None。

取出所有数据使用的是游标的fetchall()函数，演示代码如下：

1   print(cursor.fetchall())

假设前面创建的是字典类型的游标，则代码运行结果如下：

1   [{'id': 1, 'name': '张三', 'age': 18, 'job': '秘书', 'wage': 2222.78, 'entrytime': datetime.date(2012, 5, 26)}]

取出一条数据使用的是游标的fetchone()函数。取出多条数据使用的是游标的fetchmany()函数，函数的参数为要取出的数据的条数，如cursor.fetchmany(2)。
最后，关闭游标和数据库连接。

演示代码如下：

1   cursor.close()  # 关闭游标
2   conn.close()  # 关闭数据库连接

5. 用pandas模块操作数据库

使用PyMySQL模块获取的数据为元组或字典格式，如果需要做进一步的处理，最好还要将其转换为pandas模块的DataFrame格式。那么有没有办法直接使用pandas模块操作数据库呢？答案是肯定的。pandas模块提供的read_sql_query()函数能进行“增”“删”“改”“查”等数据库操作，to_sql()函数能将DataFrame格式的数据写入数据表。

需要注意的是，这种方式除了要用到pandas和PyMySQL模块，还要用到SQLAlchemy模块，其安装命令为“pip install sqlalchemy”。

1）read_sql_query()函数

（1）read_sql_query()函数的主要参数

sql：该参数用于指定要执行的SQL命令，用于完成“增”“删”“改”“查”的操作。
con：该参数用于指定数据库的连接引擎，可以使用SQLAlchemy模块中的create_engine()函数创建。

演示代码如下：

1   con = create_engine('mysql+pymysql://root:123456@localhost:3306/test?charset=utf8')

create_engine()函数支持多种数据库，参数字符串中各部分的含义为“数据库类型+数据库驱动程序://数据库用户名:密码@数据库服务器IP地址:端口/数据库名?连接选项”。

上述代码表示创建一个MySQL数据库的连接引擎，以PyMySQL模块作为驱动程序，登录数据库系统的用户名和密码分别为root和123456，数据库服务器的IP地址为localhost（即本机，IP地址为127.0.0.1），端口为3306，连接的数据库名为test，连接选项中用参数charset指定编码格式为UTF-8。

index_col：该参数用于指定作为行标签的字段，默认值为None。
coerce_float：read_sql_query()函数会尝试将非字符串及非数值对象转换为浮点型数字。该参数默认值为True，代表开启该功能。
params：该参数可以是列表、元组或字典，用于存储动态拼接SQL命令的变量。
parse_dates：该参数用于指定要解析为日期类型的字段。
chunksize：如果省略该参数，则read_sql_query()函数将读取的数据存储在一个DataFrame中；如果将该参数指定为一个整数，则read_sql_query()函数会依据该整数对读取的数据进行分组，然后返回一个迭代器，该迭代器由多个DataFrame组成，每个DataFrame中的数据条数即为指定的整数。

（2）read_sql_query()函数的基本用法

下面使用read_sql_query()函数从数据库test的数据表staff中读取所有数据，并将字段entrytime作为行标签，生成一个DataFrame。

演示代码如下：

1   import pandas as pd
2   from sqlalchemy import create_engine
3   import pymysql
4   con = create_engine('mysql+pymysql://root:123456@localhost:3306/test?charset=utf8')  # 创建数据库的连接引擎
5   data = pd.read_sql_query(sql='SELECT * FROM staff', con=con, index_col=['entrytime'], parse_dates=['entry_time'])  # 读取数据
6   print(data)

代码运行结果如下：

1               id   name  age   job     wage
2   entrytime
3   2012-05-26   1   张三   18  秘书  2222.78
4   2013-05-26   2   李四   28  销售  3333.78
5   2014-05-26   3   王五   38  经理  4444.78

在数据表staff中增加一条数据记录，演示代码如下：

1   try:
2       pd.read_sql_query(sql='INSERT INTO staff VALUES (4, "赵六", 48, "销售", 5555, 20150526)', con=con)  # 增加记录
3   except:
4       pass

运行代码后，在MySQL的命令行窗口中查询所有数据记录，结果如下图所示。

将员工编号为4的员工的工资修改为6666，演示代码如下：

1   try:
2       pd.read_sql_query(sql='UPDATE staff SET wage=6666 WHERE id=4', con=con)  # 修改记录
3   except:
4       pass

运行代码后，在MySQL的命令行窗口中查询所有数据记录，结果如下图所示。

删除员工编号大于3的数据记录，演示代码如下：

1   try:
2       pd.read_sql_query(sql='DELETE FROM staff WHERE id>3', con=con)  # 删除记录
3   except:
4       pass

运行代码后，在MySQL的命令行窗口中查询所有数据记录，结果如下图所示。

（3）read_sql_query()函数的用法总结

下面比较使用PyMySQL模块和read_sql_query()函数操作数据库的不同之处。

PyMySQL模块创建的数据库连接对象查询数据返回的是字典或元组，而read_sql_query()函数则将返回结果进一步封装为DataFrame。
用PyMySQL模块执行“增”“删”“改”操作后还要使用commit()函数进行提交，操作才会生效；而用read_sql_query()函数执行的“增”“删”“改”操作直接生效，不需要提交。
用PyMySQL模块执行“增”“删”“改”操作时最好配合使用try/except语句，以便在操作失败时使用rollback()函数进行回滚；而用read_sql_query()函数执行“增”“删”“改”操作时必须配合使用try/except语句，这是因为即便SQL命令执行成功，程序也会抛出异常，而使用try/except语句捕获异常并进行处理，可以让程序的运行不会中断。

pandas模块中还有两个与read_sql_query()函数功能类似的函数——read_sql_table()和read_sql()。

这3个函数的区别主要体现在第1个参数：read_sql_query()函数的第1个参数是sql，传入的是SQL命令；read_sql_table()函数主要用于读取整张数据表，其第1个参数是table_name，传入的是数据表名；read_sql()函数则整合了前两个函数的功能，其第1个参数既可以是SQL命令，也可以是数据表名。读者可根据需求在这3个函数中进行选择。

2）to_sql()函数

（1）to_sql()函数的主要参数

name：该参数用于指定数据表名称。
con：该参数用于指定数据库连接引擎。
if_exists：该参数的值为'replace'时代表如果参数name指定的表存在，则用新建的表替换原有的表；值为'append'时表示如果参数name指定的表存在，则在原有的表后面追加数据记录；值为'fail'时表示如果参数name指定的表存在，则写入失败，抛出异常。
chunksize：如果DataFrame中的数据量很大，使用该参数可以分批写入数据，该参数的值代表一次写入的数据记录的条数。
index：该参数的默认值为True，表示将DataFrame的行标签列作为字段写入数据表。
index_label：该参数用于指定将行标签列写入数据表中后的字段名。
dtype：该参数用于指定数据表中字段的类型，其格式为一个字典，字典的键是字段名，值是字段类型。SQLAlchemy模块的types类中定义了对应数据库的字段类型。

（2）to_sql()函数的基本用法

先用read_sql_query()函数读取数据表staff中的数据，生成一个DataFrame，再用to_sql()函数将该DataFrame写入数据表new_staff中，演示代码如下：

1   import pandas as pd
2   from sqlalchemy import create_engine
3   import pymysql
4   con = create_engine('mysql+pymysql://root:123456@localhost:3306/test?charset=utf8')  # 创建数据库连接引擎
5   data = pd.read_sql_query(sql='SELECT * FROM staff', con=con, index_col=['entrytime'], parse_dates=['entry_time'])　　# 读取数据表staff中的数据
6   data.to_sql(name='new_staff', con=con, index=True, index_label=['入职时间'], if_exists='replace')  # 将读取的数据写入数据表new_staff

运行代码后，在MySQL的命令行窗口中查询数据表new_staff的所有数据记录，结果如下图所示。

（3）to_sql()函数的用法总结

to_sql()函数可以将DataFrame格式的数据直接写入数据库的数据表中，并且不要求数据库中已经存在对应的数据表。如果对数据表的字段类型有要求，可设置参数dtype，如果省略该参数，新创建的表会使用默认的字段类型。

2、Python操作sqlite数据库

sqlite数据库以.db格式的文件形式存在，所以不需要安装驱动和应用系统，在标准库中也集成了sqlite数据库的操作库。

python操作sqlite数据库：

#coding:utf-8

# 各种数据库引擎python顶层均有实现，这里只介绍被包含在标准库中的sqlite(以本地文件的形式存在)
import sqlite3

print("=====================sqlite数据库=====================");

getRC = lambda cur: cur.rowcount if hasattr(cur, 'rowcount') else -1                    #获取游标所指向是数据的行数

try:
    conn = sqlite3.connect('somedatabase.db');                                          # 连接数据库
    curs=conn.cursor();                                                                 # 获取游标
    curs.execute('CREATE TABLE student(id INTEGER PRIMARY KEY,name TEXT)');             # 执行代码,创建表和字段
    curs.execute("INSERT INTO student VALUES(1,'student1')");                           # 添加记录 
    curs.execute("INSERT INTO student VALUES(?, ?)",[2, 'student2'])                #添加记录
    num = getRC(curs)                                                                   #获取游标所处理的行数
    conn.commit();                                                                      # 每次执行完后都应该保存
except Exception:print("数据表和记录已经添加");
finally:
    curs.execute("UPDATE student SET name='student3' WHERE id=2")            #更新记录
    curs.execute("SELECT * FROM student");                                # 查询记录
    for row in curs.fetchall():
        print row[0],row[1]
    curs.execute('DELETE FROM student WHERE id=%d' % 1)                                 #删除记录
    curs.execute('DROP TABLE student')                                                  #删除表
    curs.close();                                                                       #关闭游标
    conn.close();                                                                       #关闭连接

3、Python操作MongoDB数据库

MongoDB 是由C++语言编写的，是一个基于分布式文件存储的开源数据库系统。

在高负载的情况下，添加更多的节点，可以保证服务器性能。

MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。

MongoDB 将数据存储为一个文档，数据结构由键值(key=>value)对组成。MongoDB 文档类似于 JSON 对象。字段值可以包含其他文档，数组及文档数组。

主要特点：

MongoDB 是一个面向文档存储的数据库，操作起来比较简单和容易。
你可以在MongoDB记录中设置任何属性的索引 (如：FirstName="Sameer",Address="8 Gandhi Road")来实现更快的排序。
你可以通过本地或者网络创建数据镜像，这使得MongoDB有更强的扩展性。
如果负载的增加（需要更多的存储空间和更强的处理能力），它可以分布在计算机网络中的其他节点上这就是所谓的分片。
Mongo支持丰富的查询表达式。查询指令使用JSON形式的标记，可轻易查询文档中内嵌的对象及数组。
MongoDb 使用update()命令可以实现替换完成的文档（数据）或者一些指定的数据字段。
Mongodb中的Map/reduce主要是用来对数据进行批量处理和聚合操作。
Map和Reduce。Map函数调用emit(key,value)遍历集合中所有的记录，将key与value传给Reduce函数进行处理。
Map函数和Reduce函数是使用Javascript编写的，并可以通过db.runCommand或mapreduce命令来执行MapReduce操作。
GridFS是MongoDB中的一个内置功能，可以用于存放大量小文件。
MongoDB允许在服务端执行脚本，可以用Javascript编写某个函数，直接在服务端执行，也可以把函数的定义存储在服务端，下次直接调用即可。
MongoDB支持各种编程语言:RUBY，PYTHON，JAVA，C++，PHP，C#等多种语言。
MongoDB安装简单。

调试环境python3.6，调试python操作mongodb数据库。

1. 安装mongodb数据库

下载mongodb安装包：https://www.mongodb.com/download-center#atlas

安装mongodb软件：根据你的系统下载 32 位或 64 位的 .msi 文件，下载后双击该文件，按操作提示安装即可。mongodb compass 是可视化的数据库操作界面，安装后方便操作。它的作用相当于mysql数据库中的mysql font的作用。

我们这里将mongodb安装在默认c盘目录下：C:\Program Files\MongoDB\Server\3.6。

注意：安装中不要选择安装mongodb compass，因为这个软件下载很慢，如果网速有一点不稳定就会安装不成功，所以要单独下载。

创建数据目录和日志目录：MongoDB将数据目录存储在 db 目录下。将日志目录存储在log目录下。这里分别创建J:\mongodb\db和J:\mongodb\log两个目录。

创建配置文件：配置文件名为mongod.cfg。该文件必须设置 systemLog.path 参数，包括一些附加的配置选项更好。

这里具体配置内容如下：

systemLog:
    destination: file
    path: J:\mongodb\log\mongod.log
storage:
    dbPath: J:\mongodb\db

将配置文件存放在 C:\Program Files\MongoDB\Server\3.6目录下。

安装mongodb服务：

在命令窗口先cd到mongodb安装目录的bin目录下，再使用mongod.exe启动服务。

cd C:\Program Files\MongoDB\Server\3.6\bin\

mongod.exe --config "C:\Program Files\MongoDB\Server\3.6\mongod.cfg" --install

启动mongodb服务（参数为数据存放路径）：

mongod --dbpath J:\mongodb\db

启动mongodb服务后，就可以使用mongodb数据库了，但是命令窗口不能关闭。

由于mongodb都需要在bin目录下启动mongod.exe或者mongo.exe来完成，你可以将mongodb的安装目录C:\Program Files\MongoDB\Server\3.6\bin添加系统环境变量path中。我们这里添加到了环境变量中。

2. MongoDB后台管理Shell

如果你需要进入MongoDB后台管理，你需要先打开mongodb装目录的下的bin目录，然后执行mongo.exe文件，MongoDB Shell是MongoDB自带的交互式Javascript shell,用来对MongoDB进行操作和管理的交互式环境。

当你进入mongoDB后台后，它默认会链接到 test 文档（数据库）。

以后对Shell数据库的操作我们都在Shell窗口中进行。当然我们要学习的主要还是使用python连接操作mongodb数据库。

3. mongodb数据库操作

在python3.6下我们使用pymongo库：

pip install pymongo

安装成功后就可以编程代码实现python对mongodb数据库的操作了，python3.6操作mongodb数据库前请先确保mongodb服务已经打开。

python3.6下代码如下：

#!/usr/bin/env python

#python3.6操作mongodb数据库。使用前请先确保mongodb服务已经打开

print("=====================mongodb数据库=====================")

from pymongo import MongoClient
from bson.objectid import ObjectId
import datetime

# 连接数据库
conn = MongoClient('9.87.159.173', 8081)

db = conn.test   # 指定数据库名称，连接mydb数据库，没有则自动创建
my_set=db.test  #使用test_set集合，没有则自动创建

# # 插入数据（insert插入一个列表多条数据不用遍历，效率高， save需要遍历列表，一个个插入）
# users=[{"name":"zhangsan","age":18,"updatetime":datetime.datetime.now()},{"name":"lisi","age":20,"updatetime":datetime.datetime.now()}]
# my_set.insert(users)   # insert可以插入一个对象或者对象列表
# user={"name":"zhangsan","age":18,'li':[1,2,3,4,5,5],"updatetime":datetime.datetime.now()}
# my_set.save(user)  # save只能插入一个对象


#返回插入的ID
print(my_set.inserted_ids)


# 查询数据（查询不到则返回None）
#查询全部
alluser = my_set.find()   # 数据集合pymongo.cursor.Cursor类型
#查询name=zhangsan的
alluser = my_set.find({"name":"zhangsan"})
#查询时的in操作
alluser = my_set.find({"age":{"$in":(20,30,35)}})
# 查询时的or操作
alluser = my_set.find({"$or":[{"age":20},{"age":35}]})
# 查询时的all操作
alluser = my_set.find({'li':{'$all':[1,2,3,4]}})   # 输出...'name': 'zhangsan', 'age': 18, 'li': [1, 2, 3, 4, 5, 6]}
#查询集合中age大于25的所有记录
alluser = my_set.find({"age":{"$gt":15}})    #(>)  大于 - $gt,     (<)  小于 - $lt,     (>=)  大于等于 - $gte     (<= )  小于等于 - $lte
#找出name的类型是String的
alluser = my_set.find({'name':{'$type':2}})
# Double    1
# String    2
# Object    3
# Array    4
# Binary data    5
# Undefined    6    已废弃
# Object id    7
# Boolean    8
# Date    9
# Null    10
# Regular Expression    11
# JavaScript    13
# Symbol    14
# JavaScript (with scope)    15
# 32-bit integer    16
# Timestamp    17
# 64-bit integer    18
# Min key    255    Query with -1.
# Max key    127



# 数据集排序
alluser.sort([("age",1)])  #在MongoDB中使用sort()方法对数据进行排序，sort()方法可以通过参数指定排序的字段，并使用 1 和 -1 来指定排序的方式，其中 1 为升序，-1为降序。
#limit()方法用来读取指定数量的数据
#skip()方法用来跳过指定数量的数据
alluser.skip(2).limit(6) #下面表示跳过两条数据后读取6条

# 遍历数据集
for i in alluser:
    print(i)
# 统计
print(alluser.count())
# 查询一个记录
print(my_set.find_one({"name":"zhangsan"}))
print(my_set.find_one({'_id':ObjectId('5a8fd9f047d14523ec6d377c')}))

# 更新数据
# my_set.update(
#    ,    #查询条件
#    ,    #update的对象和一些更新的操作符
#    {
#      upsert: ,    #如果不存在update的记录，是否插入
#      multi: ,        #可选，mongodb 默认是false,只更新找到的第一条记录
#      writeConcern:     #可选，抛出异常的级别。
#    }
# )

#修改字段的值
# my_set.update({"name":"zhangsan"},{'$set':{"age":20}})      # 只会更新第一个

# db.col.update({'_id':ObjectId('5a8fd9f047d14523ec6d377c')},{'$set':{'age':'33'}})

# 列表字段添加新元素
my_set.update({'name':"lisi"}, {'$push':{'li':4}})  # 在name为lisi的记录中的li字段中添加元素4

# my_set.update({'name':"lisi"}, {'$push':{'li':[8,9]}})  # 在name为lisi的记录中的li字段中添加元素一个list元素。注意不知添加8和9两个元素

# 列表字段移除元素
# my_set.update({'name':"lisi"}, {'$pop':{'li':1}})   # pop 移除最后1个元素(-1为移除第一个)

my_set.update({'name':"lisi"}, {'$pull':{'li':4}})   # pull （按值移除） 移除值为4的所有元素

my_set.update({'name':"lisi"}, {'$pullAll':{'li':[1,2,3]}})  # pullAll （按值移除全部符合条件的）

# 删除数据
# my_set.remove(
#    ,    #（可选）删除的文档的条件
#    {
#      justOne: ,    #（可选）如果设为 true 或 1，则只删除一个文档
#      writeConcern:     #（可选）抛出异常的级别
#    }
# )

#删除name=lisi的全部记录
my_set.remove({'name': 'lisi'})

#删除name=zhangsan的某个id的记录
id = my_set.find_one({"name":"zhangsan"})["_id"]
my_set.remove(id)

#删除集合里的所有记录
db.users.remove()


# ===========多级路径元素=========
# 字典的属性值可以是另一个字典或者列表

# 增加
dict = {"name":"zhangsan",
       "age":18,
       "contact" : {
           "email" : "[email protected]",
           "iphone" : "11223344"},
       "contact1" : [
           {
               "email" : "[email protected]",
               "iphone" : "111"},
           {
               "email" : "[email protected]",
               "iphone" : "222"}
       ]
       }
my_set.insert(dict)

# 查询
users=my_set.find({"contact.iphone":"11223344"})
user = my_set.find_one({"contact.iphone":"11223344"})  # 查询字典值
user1 = my_set.find_one({"contact1.1.iphone":"222"})  # 查询数组值
# 打印输出
print(user["contact"]["email"])
# 修改
result = my_set.update({"contact.iphone":"11223344"},{"$set":{"contact.email":"[email protected]"}})

result = my_set.update({"contact.1.iphone":"222"},{"$set":{"contact.1.email":"[email protected]"}})
print(user1["contact1"][1]["email"])

三、数据存取案例

代码文件：案例：爬取58同城租房信息.py

本节通过一个案例对前面所学的知识进行综合应用：先爬取58同城网站的租房信息，再将爬取到的数据存储到MySQL数据库中。

步骤1：首先分析要爬取的数据是静态的还是动态加载的，可通过局部搜索页面中的房源关键词来确定。在第一个数据包中搜索关键词“八里”，在该数据包的“Response”选项卡下可搜索到相关数据，如下图所示。说明要爬取的数据存在于静态网页中，只需要对每一页的网址发起请求。

步骤2：在网页底部可以看到总共有70页，如下图所示：

通过单击页码观察网址的变化，如下图所示。可以看出字符“pn”后的数字就是页码，同时每次携带的参数不会变化，说明网站有反爬机制。

需要通过搭建IP代理池的方法来应对反爬机制。先尝试爬取4页数据，编写完完整代码后再将循环次数更改为70次。

发起请求的代码如下：

1   data_info = {'房源介绍': [], '房源类型': [], '房源大小': [], '房源位置': [], '房源价格': []}  # 用于汇总数据的字典
2   for i in range(1, 5):  # 爬取前4页
3       url = f'https://cd.58.com/chuzu/pn{i}/'
4       headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36'}
5       params = {'PGTID':'0d3090a7-0006-68d8-27f5-18fdb98939e9', 'ClickID':2}  # 携带的参数
6       response = requests.get(url=url, params=params, headers=headers, proxies=ip_pond(api))  # 获取响应对象

第5行代码中调用的ip_pond()函数的代码如下：

1   def ip_pond(url):  # 搭建代理IP池的自定义函数
2       headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36'}
3       response = requests.get(url=url, headers=headers).json()
4       proxies_list = []
5       for i in response['data']:
6           ip = i['ip']
7           port = i['port']
8           ip_dict = {'https': f'{ip}:{port}'}
9           proxies_list.append(ip_dict)
10       proxies = random.choice(proxies_list)
11       return proxies

使用print(response, response.url)查看请求的每个网址的响应状态，以判断能否成功爬取，运行结果如下图所示。可以看到对前4页网页的请求成功返回了响应对象，下一步就可以开始解析响应对象中的数据了。

步骤3：这里使用BeautifulSoup模块来解析网页源代码中的数据。先提取网页源代码并实例化BeautifulSoup对象，接着利用BeautifulSoup对象解析数据，代码如下：

1       html_content = response.text  # 从响应对象中提取网页源代码
2       soup = BeautifulSoup(html_content, 'lxml')  # 用网页源代码实例化BeautifulSoup对象
3       parse_html(soup)  # 调用自定义函数解析BeautifulSoup对象中的数据

在编写自定义函数parse_html()的代码之前，需要先查看网页的结构。利用开发者工具定位网页元素，可以看到一个房源信息对应一个

标签，如下图所示。

因此，先获取每个

标签，再在每个

标签下用标签定位的方法解析出需要的数据，编写出自定义函数parse_html()的代码如下：

1   def parse_html(soup):
2       li_list = soup.select('.house-list li')  # 获取class属性值为house-list的标签下的所有标签
3       for li in li_list[:-2]:  # 用循环遍历获取到的
标签，因为最后一个标签是页码，所以通过列表切片将其略过
4           type = li.select('h2 a')[0].text.split('|')[0]  # 获取房源类型
5           content = li.select('h2 a')[0].text.split('|')[1]  # 获取房源介绍
6           size = li.select('.des p')[0].text  # 获取房源大小
7           address = li.select('.des p')[1].text  # 获取房源位置
8           money = li.select('.money b')[0].text  # 获取房源价格
9           # 将解析出的数据分类添加到data_info字典的键对应的值的列表中
10           data_info['房源类型'].append(type)
11           data_info['房源介绍'].append(content)
12           data_info['房源大小'].append(size)
13           data_info['房源位置'].append(address)
14           data_info['房源价格'].append(money)

使用print()函数输出data_info，运行结果如下图所示。可以看到，解析出的数据中掺杂了大量无用的空格、换行、“\xa0”字符串等，需要删除，还有一些生僻字需要处理。

步骤4：先删除数据中的无用字符，将parse_html()函数的第4～8行代码修改如下：

1           type = li.select('h2 a')[0].text.split('|')[0].replace(' ', '').replace('\n', '').replace('\xa0', '')
2           content = li.select('h2 a')[0].text.split('|')[1].replace(' ', '').replace('\n', '').replace('\xa0', '')
3           size = li.select('.des p')[0].text.replace(' ', '').replace('\n','').replace('\xa0', '')
4           address = li.select('.des p')[1].text.replace(' ', '').replace('\n', '').replace('\xa0', '')
5           money = li.select('.money b')[0].text.replace(' ', '').replace('\n', '').replace('\xa0', '')

代码运行结果如下图所示，可以看到无用字符已经没有了，接着来处理生僻字。这些生僻字产生的原因是58同城采用了“字体反爬”技术，简单来说是利用自定义字体对阿拉伯数字进行加密处理，爬取的数据中的阿拉伯数字就会变成生僻字。

解决办法是找到生僻字与阿拉伯数字之间的对应关系并进行一一替换。

编写一个自定义函数jiema()用于完成生僻字的替换，代码如下：

1   def jiema(x):  # 该函数用于将字符中的生僻字替换为相应的阿拉伯数字
2       a = {'閏': 1, '麣': 2, '驋': 3, '龤': 4, '鑶': 5, '龥': 6, '餼': 7, '鸺': 8, '齤': 9, '龒': 0}  # 存储生僻字与阿拉伯数字对应关系的字典库做数据运算等操作
3   con = create_engine('mysql+pymysql://root:123456@localhost:3306/test?charset=utf8')  # 创建数据库连接引擎
4   house_info.to_sql('58house', con=con, index_label=['id'], if_exists='replace',
5                     dtype={
6                           'id': types.BigInteger(),
7                           '房源介绍': types.VARCHAR(50),
8                           '房源类型': types.VARCHAR(10),
9                           '房源大小': types.VARCHAR(20),
10                           '房源位置': types.VARCHAR(50),
11                           '房源价格': types.INT()
12                     })  # 将读取的数据写入MySQL数据库，其中新建了一个名为id的字段作为索引
13   con.execute('ALTER TABLE 58house ADD PRIMARY KEY (`id`);')　　# 将字段id设置为主键索引，以提高查询房源信息的速度

步骤7：运行代码后，在命令行窗口中登录MySQL数据库，使用命令“DESC 58house;”查看表结构，如下图所示。

然后使用命令“SELECT * FROM 58house ORDER BY 房源价格 DESC LIMIT 10;”查询数据库中价格最低的10条房源信息，如下图所示。

你可能感兴趣的:(Python,Golang,AI,机器学习,自然语言图像处理,python,开发语言)

办公自动化--python-pptx python-码博士办公自动化 python 办公软件
安装pipinstallpython-pptxpython操作pptx文件frompptximportPresentation创建ppt文件prs=Presentation()#创建ppt文件prs.save('texst01_ppt.pptx')#保存ppt文件创建副件prs1=Presentation('texst01_ppt.pptx')prs1.save('texst01_ppt副件.pp
【Python科研数据爬虫】基于国家标准查询平台和能源标准化信息平台的海上风电相关行业标准查询信息爬取及处理 lys_828 python科研数据处理及绘图 python 爬虫能源行业标准国家标准
基于国家标准查询平台和能源标准化信息平台的海上风电相关行业标准查询信息爬取及处理1背景2标准检索平台2.1能源标准化信息平台2.2全国标准信息公共服务平台3标准信息数据的爬取与处理3.1能源标准化信息平台的信息爬取3.2全国标准信息公共服务平台的信息爬取3.3标准信息处理1背景在进行项目背景介绍时，有时需要使用到有关标准进行背书，因此查询某一行业领域的标准信息就是第一步操作。接下来就是以海上风电相
Python多张图片存入PDF：一步步教你实现木头左 python办公自动化 python 钉钉自动化
哈喽，大家好，我是木头左！引言在当今的数字时代，经常需要将多张图片整合成一个PDF文件。无论是为了分享、备份还是打印，PDF都是一个理想的格式。在这篇文章中，我将详细介绍如何使用Python将多张图片存入PDF。准备工作在开始之前，需要确保已经安装了以下库：Pillow：一个强大的图像处理库，用于打开、操作和保存各种图像文件格式。ReportLab：一个用于创建PDF文件的库。你可以通过以下命令安
python实现PDF (附完整源码) 源代码大师 Python实战教程 python pdf 前端
python实现PDF安装ReportLab完整源码示例代码说明使用FPDF生成PDF（可选）安装FPDF2完整源码示例代码说明总结要使用Python生成PDF文件，ReportLab是一个功能强大且广泛使用的库。下面是使用ReportLab生成简单PDF的完整源码示例。安装ReportLab首先，确保已经安装了ReportLab库。你可以使用pip来安装：pipinstallreportlab完
Python的未来 future模块 gftygff
分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！转载：http://omencathay.itpub.net/post/30163/414347简单介绍一下python未来将会支持的一些语言特点,虽然Ibm的网站上也有介绍.但是太凌乱了.而且中翻译过后,代码的
华为OD机试E卷 - 最优资源分配/芯片资源占用（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为华为od 华为OD机试E卷 python java javascript c++
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述某块业务芯片最小容量单位为1.25G，总容量为M*1.25G，对该芯片资源编号为1，2，…，M。该芯片支持3种不同的配置，分别为A、B、C。配置A：占用容量为1.25*1=1.25G配置B：占用容量为1.25*2=2.5G配置C：占用容量为1.25*8=10G某块板卡上集成了N块上述芯片，对芯片编号为1，2，…，N，各
华为OD机试 - 微服务的集成测试（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为华为OD 华为od 华为机试算法
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述现在有n个容器服务，服务的启动可能有一定的依赖性（有些服务启动没有依赖），其次服务自身启动加载会消耗一些时间。给你一个nxn的二维矩阵useTime，其中useTime[i][i]=10表示服务i自身启动加载需要消耗10suseTime[i][j]=1表示服务i启动依赖服务j启动完成useTime[i][k]=0表示服
【Django】settings（django中settings设置） SX-干 Python-Web框架
分类：Django（129）目录(?)[+]转自：http://blog.csdn.net/feng88724/article/details/7221973作者:Django团队译者:[email protected]翻译开始日期:2006-04-04翻译完成日期:2006-04-04修订日期:2006-05-06原文版本:2789Djangosettings文件包含你的Django安
python实现get请求 admin`` Python python http
python——get请求importurllib.requesturl="http://www.csdn.net"response=urllib.request.urlopen(url)#打印请求的状态码print(response.getcode())msg=response.read()#打印请求的网页内容的长度print(len(msg))输出：2001148023Processfinis
sklearn模型评估全景：指标详解与应用实例 2402_85758936 scala 开发语言人工智能
sklearn模型评估全景：指标详解与应用实例在机器学习中，模型评估是衡量算法性能的关键步骤。scikit-learn（简称sklearn）提供了一套全面的模型评估工具，帮助开发者量化模型的准确性、健壮性和其他重要特性。本文将详细介绍sklearn中的模型评估指标，并通过代码示例展示如何应用这些指标。模型评估的重要性模型评估指标是理解和改进模型性能的基础。它们可以提供以下信息：准确性：模型预测的准
Python进行HTTP GET请求华科℡云微服务云原生自动化
在Python编程中，HTTPGET请求是获取网络资源的一种常用方式。GET请求通过向服务器发送请求行和请求头，从指定的URL获取数据。本文将详细介绍如何在Python中使用requests库发送HTTPGET请求，并处理响应。一、安装requests库首先，确保你的Python环境中安装了requests库。如果没有安装，可以使用以下命令进行安装：bash复制代码pipinstallreques
AI学习指南Ollama篇-Ollama简介俞兆鹏 AI学习指南人工智能 ollama
一、定义大语言模型（LLM）是一种基于深度学习的自然语言处理模型，能够生成文本、回答问题、翻译语言、撰写代码等。这些模型通过海量的文本数据进行训练，学习语言的模式和结构，从而能够生成自然流畅的文本内容。随着技术的不断进步，大语言模型在各个领域都展现出了巨大的潜力。二、应用场景大语言模型的应用场景非常广泛，以下是一些常见的例子：聊天机器人：通过自然语言理解与生成，为用户提供智能对话服务。内容创作：帮
创建自定义全局指令 yqcoder 前端 javascript 开发语言
1.创建文件夹mycli、mycli/bin2.创建文件mycli/bin/index.js3.在mycli文件目录下运行命令npminit-y生成package.json{ "name":"mycli", "version":"1.0.0", "main":"index.js", "bin":{ "mycli":"bin/index.js" }, "scripts":{ "test":"ec
【Python】2.1字面量我是初九人生苦短我爱Python python 字符串
字面量(literal)在计算机科学中，字面量（literal）是用于表达源代码中一个固定值的表示法（notation）。几乎所有计算机编程语言都具有对基本值的字面量表示，诸如：整数、浮点数以及字符串；而有很多也对布尔类型和字符类型的值也支持字面量表示；还有一些甚至对枚举类型的元素以及像数组、记录和对象等复合类型的值也支持字面量表示法。简单地说，字面量是用于表示固定值的符号(token)字面量是某
linux下使用vscode和cmake高效管理c++项目简明教程 zeeq_ Ubuntu C++vscode vscode linux c++
安装vscode及c++环境配置可以参见：https://blog.csdn.net/fangshuo_light/article/details/123635576 首先，创建工程目录，并在vscode中打开该文件夹，在里面创建如下文件夹：include：用于存放.h文件src：用于存放.cpp文件build：cmake生成文件的存放路径CMakeLists.txt：cmake配置文件
typing库离开那天 windows
typing库是Python标准库的一部分，用于支持静态类型检查。通过使用typing库，你可以为函数、变量和类添加类型注解，从而提高代码的可读性和可维护性，并帮助工具如IDE和类型检查器（例如mypy）进行静态类型检查。以下是typing库的一些常见用法和示例：1.基本类型注解你可以为函数参数和返回值添加类型注解：defgreet(name:str)->str:returnf"Hello,{na
java线程间如何通信一只爪子 java jvm 开发语言
Java线程之间可以通过以下方式进行通信：使用wait()和notify()方法，这需要使用同步代码块或同步方法。在同步代码块或同步方法中，线程可以调用wait()方法阻塞，并在其他线程调用notify()方法后恢复执行。使用CountDownLatch，它是一个同步辅助类，可以让一个线程等待其他线程的完成。使用CyclicBarrier，它也是一个同步辅助类，可以让多个线程在某个点上等待，直到所
python 类型标注-typing --- 类型标注支持 — Python 3.7.9 文档 weixin_39892481
类,函数和修饰器.¶这个模块定义了如下的类,模块和修饰器.classtyping.TypeVar¶类型变量用法:T=TypeVar("T")#CanbeanythingA=TypeVar("A",str,bytes)#MustbestrorbytesTypevariablesexistprimarilyforthebenefitofstatictypecheckers.Theyserveasthe
Python基础 - 发起http请求 shawn.zhang. python java ajax json curl
目录[-]1、Python发起http请求#!/usr/bin/envpython#coding=utf-8#licenseremovedfor******importrospyimportpycurlimportStringIOimporturllibfromstd_msgs.msgimportStringimportjsonimporthashlibfromcyber_msgs.msgimpo
Langchain[6]-LangGraph:异步和流、图可视化、多智能体协作、LCEL代码生成汀、人工智能 AI Agent langchain AI Agent LangGraph 多智能体协作 AI智能体 AI大模型 Agent框架
Langchain[6]-LangGraph:异步和流、图可视化、多智能体协作、LCEL代码生成1.异步和流因为任何大模型在推理的时候，都会有一定的时间延迟，这是由大模型的底层架构决定的，所以在很多应用，尤其是对话应用中，使用异步以及流式输出，是大幅提升用户体验的较好方法。在langGraph中可以很方便的实现异步和流，简单例子为例：异步调用方法：inputs={"messages"
java干货线程间通信小男孩编程 java 开发语言 jvm
文章目录一、线程间通信1.1为什么要处理线程间通信？1.2什么是等待唤醒机制？二、等待唤醒机制使用2.1等待唤醒机制用到的方法2.1.1wait2.1.2notify2.2线程通信代码实践2.2.1重要说明2.2.2代码一、线程间通信1.1为什么要处理线程间通信？在默认情况下，cpu是默认切换线程来执行的，当我们需要多个线程共同来完成一个任务，希望他们按照一定的规律执行，那么就需要他们进行通信协调
fatal: unable to access ‘https://github 江_小_白报错解决方案 github
fatal:unabletoaccess‘https://github.com/protocolbuffers/protobuf.git/’:Failedtoconnecttogithub.comport443:Connectiontimedout下载项目的时候出现了这个问题，本以为是网络或者什么的问题，没想到是sudo,sudosudogitclone-bv3.6.1https://github
青少年编程与数学 02-008 Pyhon语言编程基础 03课题、环境准备明月看潮生编程与数学第02阶段青少年编程 python 编程与数学编程语言
青少年编程与数学02-008Pyhon语言编程基础03课题、环境准备一、开发环境二、PyCharm安装PyCharm配置PyCharm三、VSCode安装VSCode配置VSCode四、Python（解释器）Windows系统：macOS系统：Linux系统：五、PythonShell特点：如何打开PythonShell：使用示例：六、PythonIDLE特点如何使用IDLE局限性七、Jupyte
在 Python 中，`typing` 模块提供了类型提示（Type Hints）的功能，可以用来标记变量、函数参数和返回值等的类型，Any, Dict, List, Literal, Optiona 愚昧之山绝望之谷开悟之坡笔记 python python 开发语言
在Python中，typing模块提供了类型提示（TypeHints）的功能，可以用来标记变量、函数参数和返回值等的类型。下面是typing模块中几个常用的类型的详细解释和举例。Any类型表示一个可以是任何类型的值，它可以作为变量的类型、函数的参数类型或返回类型等。这个类型通常用于那些无需考虑类型约束，或是需要通过检查变量类型来进行调试的代码中。以下是一个使用Any类型的例子：fromtyping
图像处理算法研究的程序框架 mickey0380 系统调用图像处理算法程序框架 Windows
目录1程序框架简介2C#图像读取、显示、保存模块3C动态库图像算法模块4C#调用C动态库5演示Demo5.1开发环境5.2功能介绍5.3下载地址参考1程序框架简介一个图像处理算法研究的常用程序逻辑框架，如下图所示在该框架中，将图像处理算法产品分为上层模块和底层模块两个部分。底层模块使用C/C++实现算法API，提供给上层模块调用；上层模块执行调用API和一些界面功能的实现，最后得到不同平台的软件产
fastapi 请求体成员变量不被识别 m0_75101866 python fastapi
问题写了一个pydantic模型:classrequestPostBody(BaseModel):name1:strname2:str_name3:dict访问/docs时,不显示_name3的参数,在请求体添加_name3也出错raiseAttributeError(f'{type(self).__name__!r}objecthasnoattribute{item!r}')fromexcAtt
图像处理之颜色空间小结 AI洲抿嘴的薯片 opencv算法专题图像处理人工智能
1.介绍在图像处理中，我们会遇到各式各样的颜色空间，比如RGB、HLS、HSV、HSB、YCrCb、CIEXYZ、CIELab，那么它们的区别和应用场所又在哪里呢？1）RGB是生活中最常见的颜色空间，其中，R代表红色通道，G代表绿色通道，B代表蓝色通道，它们之间的相互搭配组合256*256*256，几乎可以包括人类视力所能感知的所有颜色。应用场所：一般的彩色图片都是用RGB三通道来表示，另外，在深
深入解析华为OD机试：开放日活动“取出尽量少的球”题解及C++、Java、JavaScript、Python详细实现 m0_57781768 华为od c++java
深入解析华为OD机试：开放日活动“取出尽量少的球”题解及C++、Java、JavaScript、Python详细实现在华为OD机试的算法考题中，字符串处理、动态规划、二分查找等算法问题都频繁出现。这不仅是为了考查面试者的算法基础，还要求能够通过高效的逻辑思维解决问题。今天我们将深度分析一道关于“取出尽量少的球”的题目，并通过C++、Java、JavaScript、Python四种编程语言详细解析和
Arcgis遥感影像建立镶嵌数据集，加载不显示，采用以下步骤，注意事项木易GIS arcpy 遥感 GIS arcgis gis 图像处理
Arcgis遥感影像建立镶嵌数据集，加载不显示，采用以下步骤，注意事项：（1）Footprint属性表maxPs改为5000；（2）镶嵌数据集右键属性，maxinumnumberofrasterspermasaic改为1000；（3）右键modify更改生成影像金字塔。然后重新加载图层就能显示了。
【华为OD-E卷 - VLAN资源池 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享 java 华为od python c++javascript
【华为OD-E卷-VLAN资源池100分（python、java、c++、js、c）】题目VLAN是一种对局域网设备进行逻辑划分的技术，为了标识不同的VLAN，引入VLANID(1-4094之间的整数)的概念。定义一个VLANID的资源池(下称VLAN资源池)，资源池中连续的VLAN用开始VLAN-结束VLAN表示，不连续的用单个整数表示，所有的VLAN用英文逗号连接起来。现在有一个VLAN资源池
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他