weixin_33884611

第七章 Python 盒子：模块、包和程序

前戏部分

模块，用一堆（很多行）代码实现了某个功能的代码集合。

类似于函数式编程和面向过程编程，函数式编程则完成一个功能，其他代码用来调用即可，提供了代码的重用性和代码间的耦合。而对于一个复杂的功能来说，可能需要多个函数才能完成（函数又可以在不同的.py文件中），n个 .py 文件组成的代码集合就称为模块。

其实模块只是有很多 Python 代码的一个文件；要注意的是：模块名字是区分大小写的。

如：os 是系统相关的模块

模块分为三种：

- 自定义模块

[root@localhost python3]# cat >>modules_test.py< #!/usr/bin/env python3
> # 在计算机中创建一个含有 Python 代码的文件，可实现一个或
> # 多个功能的文件，就是自定义了一个模块，这个文件就称为自定义模块
> # 下面就是用一个函数来实现一个打印传入参数的功能。
> # 以及声明了一个变量
> 
> def func(*args):                        # 定义一个函数
>     print('传入的函数参数是：', args)
> 
> test_val='from modules_test's  values'  # 定义一个变量
> eof
[root@localhost python3]# python3
Python 3.6.0 (default, Feb  6 2017, 04:32:17) 
[GCC 4.8.5 20150623 (Red Hat 4.8.5-4)] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import modules_test                   # 导入模块名称，不含 .py  哦
>>> modules_test.func('a',1,'b',2)        # 使用模块的功能：模块名.函数
传入的函数参数是： ('a', 1, 'b', 2)
>>> modules_test.                         # 在linux系统中按两次 Tab 键会看到模块下的功能或方法
modules_test.func(     modules_test.test_val  
>>> modules_test.test_val                 # 使用模块的功能： 模块名.变量名        
"from modules_test's  values"
>>>

- 第三方模块

第三方模块就是很多 Python 开发者贡献的，已经写好的可以实现某些功能的模块。

获取方法网络下载，这里举个第三方模块的例子： requests

Requests 是使用 Apache2 Licensed 许可证的基于Python开发的HTTP 库，其在Python内置模块的基础上进行了高度的封装，从而使得Pythoner进行网络请求时，变得美好了许多，使用Requests可以轻而易举的完成浏览器可有的任何操作

官网网站安装链接：http://www.python-requests.org/en/master/user/install/#install

安装方法：
Python3.x 的 pip3 安装方法：
[root@localhost python3]# pip3 install requests

# 可能需要你先解决，HTTPS/SSL 的安全认证问题
Python2.x 的安装方法：
需要先安装 pip，再用下面的方法：
[root@localhost python3]# pip install requests 
 
源码安装，先把源码 Tarball 包下载到本地，执行如下命令：
[root@localhost python3]# curl -OL https://github.com/kennethreitz/requests/tarball/master
[root@localhost python3]# cd  kennethreitz-requests-d6f4818/
[root@localhost kennethreitz-requests-d6f4818]# python3 setup.py install
************略**************
creating dist
creating 'dist/requests-2.13.0-py3.6.egg' and adding 'build/bdist.linux-x86_64/egg' to it
removing 'build/bdist.linux-x86_64/egg' (and everything under it)
Processing requests-2.13.0-py3.6.egg
creating /usr/local/lib/python3.6/site-packages/requests-2.13.0-py3.6.egg
Extracting requests-2.13.0-py3.6.egg to /usr/local/lib/python3.6/site-packages
Adding requests 2.13.0 to easy-install.pth file

Installed /usr/local/lib/python3.6/site-packages/requests-2.13.0-py3.6.egg
Processing dependencies for requests==2.13.0
# 上面倒数第二行表示这个模块被默认到的目录
[root@localhost kennethreitz-requests-d6f4818]# python3
>>> import requests
>>>

- 内置模块

内置模块时 Python 自带的,也叫标准库

Python 的一个显著特点就是具有庞大的模块标准库,可以执行很多有用的任务,并且和核心语言分开,避免臃肿.

官方文档: https://docs.python.org/3/library/

使用指南: https://docs.python.org/3/tutorial/stdlib.html

Doug Hellmann 的网站： https://pymotw.com/2/contents.html

Doug Hellmann 的书: Python standard Library by Example

举几个常用的内置模块，os,sys,random 等，后面会有详解

独立的程序

之前我所演示的例子都是在 Python 解释器里直接运行的 Python 代码。

现在我决定给你分享怎么写一个 Python 程序，并且执行它。

# 先有 vi 等文本编辑器，编辑一个空文本，写入代码
[root@localhost ~]# cat hello.py 
#!/usr/bin/env    python3   # 指定程序解释器

print('Hello world')      # Python 代码

# 执行 Python 程序方法一：
[root@localhost ~]# python3 hello.py 
Hello world

# 执行 Python 程序方法二：
[root@localhost ~]# chmod a+x hello.py  #先把文件添加上可执行权限 
[root@localhost ~]# ./hello.py 
Hello world
[root@localhost ~]#

模块的导入

Python之所以应用越来越广泛，在一定程度上也依赖于其为程序员提供了大量的模块以供使用，
如果想要使用模块，则需要导入。基本的导入方法：

import 模块名

模块名是不含 .py 的文件名

# 可以一次只导入一个模块
>>> import os     
# 也可以一次导入多个模块，模块之间用英文的逗号 “,” 隔开      
>>> import os,sys

使用别名导入模块

在导入模块时，给它起个别名，可以解决导入同名但含有不同功能的模块，或者使用相对较短好记的名字
>>> import datetime as  dt  # as 后面跟模块的别名
>>> 

导入模块的一部分

有时候你只是想要一个模块中的某一个或几个功能；就要用如下格式：

from 模块名 impot 功能1，功能2

警报：这对 from … import … 的方式， import 后边跟的必须是一个或多个明确的对象。

其后面不能有含点的形式

比如 form package import mod.func # invalid syntax 语法错误
# 从 os  模块中只导入 system和chdir 方法
>>> from os import system,chdir
>>> system('pwd')    # 使用方法时，可以直接使用，不用 os.system 的形式
/root                # shell 命令执行结果
0                    # shell 命令执行结果的返回值
>>> chdir('/home')
>>> system('pwd')
/home
0
>>> 

模块搜索路径

Python 在导入模块时，从哪些路径去找这个模块的文件呢？

1. 首先会先从内置的标准库中找

2. 再从sys.path 定义的路径中依次寻找，先被找到的模块，会生效。之后有同名的模块将不会生效。

下面是 Linux 环境下的 Python3 的路径
>>> import sys
>>> sys.path
['', '/usr/local/lib/python36.zip', '/usr/local/lib/python3.6', '/usr/local/lib/python3.6/lib-dynload', '/r
oot/.local/lib/python3.6/site-packages', '/usr/local/lib/python3.6/site-packages']
# 可以看到上面是个列表，所以这个是可以被修改的，可以添加自定义的路径
>>> for path in sys.path:
...      print(path)
... 
                           # 此行是空，就是上面 sys.path 输出中的 '' ，就是当前目录
/usr/local/lib/python36.zip
/usr/local/lib/python3.6
/usr/local/lib/python3.6/lib-dynload
/root/.local/lib/python3.6/site-packages
/usr/local/lib/python3.6/site-packages      # 一般我们下载好的第三方模块，会放在这个目录下
>>> 

自定义的模块名一定不要与系统内置或第三方的模块同名

包以及包的导入

我们已使用过单行代码、多行代码的函数、独立的程序以及同一目录下的多个模块。

为了使 Python 引用更具可扩展性，你可以把多个模块组织成有层次的文件夹和文件，称之为包。

包的本质其实就是一个包含 __init__.py 文件的目录，__init__.py文件可以为空。

不同名称的包下面可以有相同的模块名，如 package_a下有模块mod，表示为：package_a.mod,

而package_b下也有模块mod,表示为：package_b.mod，两个mod并不会冲突，

因为他们分别在不同的命名空间里(package_a和pacaage_b);

包是以 .模块名 (注意那个点)来组织 Python 模块名称空间的方式。

注意：自定义的包名一定不要和自定义的模块名同名，也不要与系统内置的模块名或第三方同名

包之上还可以是包，可以组成一个大包
[root@localhost python3]# tree
.
├── glance
│   ├── api
│   │   ├── __init__.py
│   │   └── modles.py
│   ├── db
│   │   ├── __init__.py
│   │   └── modles.py
│   └── __init__.py
├── namespace.py
└── package
    ├── __init__.py
    ├── __pycache__
    │   ├── __init__.cpython-36.pyc
    │   └── test.cpython-36.pyc
    └── test.py

5 directories, 10 files
[root@localhost python3]# 
警报：

无论是 import … 形式，还是 from … import … 形式，凡是在导入语句中（而不是在使用时）遇到带

点的，都要第一时间提高警觉：这是关于包才有的导入语法。所有导入方法中，每一个点的左边必须是一个包！

from glance.db import models
models.db_func()

form glance.db import models as x
x.func()

from glance.api.models import func1
func1()

__init__.py 文件的用途

1. 不管是哪种方式的导入，只要是第一次导入包或者导入包的任何部分，都会先依次执行包下的 __init__.py 文件

可以在此文件里写一些代码验证，因此可在此文件中写一些初始化包的代码

2. 在导入模块时，也有这样一种方式， from modles import *

可导入模块的所以功能（函数、变量等）,但是并不建议这么去做，了解即可。

在这里要说的是，这种导入包的方式，实际上只是执行了要导入包所经过的路径包下的 __init__.py文件；

# 先看一下我在每个包的 __init__.py 文件里都放入的代码
[root@localhost python3]# cat glance/__init__.py
print("from ===>glance package")
[root@localhost python3]# cat glance/db/__init__.py 
print('from ===> db package')
[root@localhost python3]# cat glance/api/__init__.py 

print('from ===> api package')

__all__=['func1','func2']

api_val='我是api的测试变量'
[root@localhost python3]# 

# 进行导入测试
[root@localhost python3]# python3
Python 3.6.0 (default, Feb  6 2017, 04:32:17) 
[GCC 4.8.5 20150623 (Red Hat 4.8.5-4)] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import glance.api      # 导入glanc包下的api包
from ===>glance package    # 执行glance 包下的__init__.py文件
from ===> api package      # 这里并没有执行 db 包中的 __init__.py文件
>>> exit()
[root@localhost python3]# python3
Python 3.6.0 (default, Feb  6 2017, 04:32:17) 
[GCC 4.8.5 20150623 (Red Hat 4.8.5-4)] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> from glance.db import modules  # 第一次导入glance.db包下的modules
from ===>glance package            # 执行glance 包下的__init__.py文件 
from ===> db package               # 执行db 包下的__init__.py文件
>>> from glance.db.modules import db_func  # 第二次导入并不会执行__init__.py 文件
>>> db_func

>>> db_func()
I am db package models db_func
>>>

因此，我们可以在这个文件里自定义要导入包时，有选择性的导入需要的模块或功能。

就是上面包 api 下的__init__.py文件中的

[root@localhost python3]# cat glance/api/__init__.py 

print('from ===> api package')

__all__=['func1','func2']

api_val='我是api的测试变量'
[root@localhost python3]# python3
[root@localhost python3]# python3
Python 3.6.0 (default, Feb  6 2017, 04:32:17) 
[GCC 4.8.5 20150623 (Red Hat 4.8.5-4)] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> from glance.api import *
from ===>glance package
from ===> api package
Traceback (most recent call last):
  File "", line 1, in 
AttributeError: module 'glance.api' has no attribute 'func1'   
# 从上面的报错信息可以看出，在__all__变量的值中的名称，必须是在包的同级目录下的模块
>>> exit()
[root@localhost python3]# vi glance/api/__init__.py 
[root@localhost python3]# python3
Python 3.6.0 (default, Feb  6 2017, 04:32:17) 
[GCC 4.8.5 20150623 (Red Hat 4.8.5-4)] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> from glance.api import *
from ===>glance package
from ===> api package
>>> modules.                   
modules.func1(       modules.func2(       modules.modules_val  
>>> modules.func1()
I am from api's modles's func1 
>>> import os
>>> os.system('cat glance/api/__init__.py')

print('from ===> api package')

__all__=['modules']        # 修改后，只在__all__中添加了 modules 模块名

api_val='我是api的测试变量'
0
>>> api_val                # 但是并没有在__all__中添加 api_val 变量名，就会有下面的报错了
Traceback (most recent call last):
  File "", line 1, in 
NameError: name 'api_val' is not defined
>>> exit()
[root@localhost python3]# vi glance/api/__init__.py 
[root@localhost python3]# cat glance/api/__init__.py 

print('from ===> api package')

#__all__=['modules']      # 把此行注释

api_val='我是api的测试变量'
[root@localhost python3]# python3
Python 3.6.0 (default, Feb  6 2017, 04:32:17) 
[GCC 4.8.5 20150623 (Red Hat 4.8.5-4)] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> from glance.api import *
from ===>glance package
from ===> api package
>>> api_val              # 注释__all__ 后，变量名 api_val 生效了
'我是api的测试变量'
>>> modules.func1()      # 但是，包下面的模块没有声明，就不会生效了
Traceback (most recent call last):
  File "", line 1, in 
NameError: name 'modules' is not defined
>>> 

#  总结一下： __init__.py 文件中通过 __all__ = ['模块名','变量名'] 的方式,可以控制在用
#  import * 的方式时，在包下面的哪些变量、函数或者功能可生效

常用内置模块

一、sys

用于提供对Python解释器相关的操作：

sys.argv           命令行参数List，第一个元素是程序本身路径
sys.exit(n)        退出程序，正常退出时exit(0)
sys.version        获取Python解释程序的版本信息
sys.maxint         最大的Int值
sys.path           返回模块的搜索路径，初始化时使用PYTHONPATH环境变量的值
sys.platform       返回操作系统平台名称
sys.stdin          输入相关
sys.stdout         输出相关
sys.stderror       错误相关

二、os

用于提供对操作系统级别的操作：

os.getcwd() 获取当前工作目录，即当前python脚本工作的目录路径
os.getpid() 获取当前 Python解释器或者pytho运行中程序的进程号

os.chdir("dirname") 改变当前脚本工作目录；相当于shell下cd

os.curdir 返回当前目录: ('.')
os.pardir 获取当前目录的父目录字符串名：('..')
os.makedirs('dir1/dir2') 可生成多层递归目录
os.removedirs('dirname1') 若目录为空，则删除，并递归到上一级目录，如若也为空，则删除，依此类推
os.mkdir('dirname') 生成单级目录；相当于shell中mkdir dirname
os.rmdir('dirname') 删除单级空目录，若目录不为空则无法删除，报错；相当于shell中rmdir dirname
os.listdir('dirname') 列出指定目录下的所有文件和子目录，包括隐藏文件，并以列表方式打印

os.chmod('filename',0O4) 改变文件的权限第一参数是文件名，0o是零和小写字母o，后面跟三维的 8 进制的数字，
分别对应所属主所属组其他人，比如将文件设为0o764 的权限就是-rwxrw-r--
os.chown('filename',uid,gid)修改一个文件的所属主和所属组，即 uid/gid 都必须是系统中存在的，而且是整数形
式，并不是用户名和用户组，当然也支持这种形式 :
os.chown('filename',uid=1000,gid=0)

os.link('源文件名','硬链接文件名') 给文件建硬链接，可以是绝对或者相对路径
os.symlink('源文件名','软连接文件名') 给文件建软链接，可以是绝对或者相对路径

os.remove() 删除一个文件
os.rename("oldname","new") 重命名文件/目录
os.stat('path/filename') 获取文件/目录信息
os.sep 操作系统特定的路径分隔符，win下为"\\",Linux下为"/"
os.linesep 当前平台使用的行终止符，win下为"\t\n",Linux下为"\n"
os.pathsep 用于分割文件路径的字符串
os.name 字符串指示当前使用平台。win->'nt'; Linux->'posix'
os.system("bash command") 运行shell命令，直接显示;它的执行方式是，每次执行都会重新打开一个shell，
在新的shell里执行命令，执行结束后就退出当前执行命令的shell。
并且返回的仅是执行命令结果的状态码，而非命令结果本身。
os.popen("bash command") 这个和上面的一样，唯一不同的是，返回命令执行结果本身的一个对象，可以对这个对象进行操作；
方法是： reslut = os.popen("bash command").read()

os.environ 获取系统环境变量
os.path.abspath(path) 返回path规范化的绝对路径
os.path.split(path) 将path分割成目录和文件名二元组返回
os.path.realpath('/home/yikes.file') 从一个链接文件，查找源文件的绝对路径位置，链接文件可以似乎软链接和硬链接

os.path.dirname(path) 返回path的去掉路径中以的最后一个元素后的路径；是os.path.split(path)的第一个元素；
不过有两种情况
>>> os.path.dirname('/root/a/b/ab.txt/') # 当以 / 为结尾时，返回全部路径
'/root/a/b/ab.txt'
>>> os.path.dirname('/root/a/b/ab.txt') # 当不是以 / 为结尾时，返回的是去掉最后一个元素的路径
'/root/a/b'
>>> os.path.split('/root/a/b/ab.txt/') # 当以 / 为结尾时，路径变成元组的一个整体的元素
('/root/a/b/ab.txt', '')
>>> os.path.split('/root/a/b/ab.txt') # 当不是以 / 为结尾时，路径变成元组的两个元素
('/root/a/b', 'ab.txt')
>>>
os.path.basename(path) # 返回path最后的文件名。如何path以／或\结尾，那么就会返回空值。
# 即os.path.split(path)的第二个元素

os.path.exists(path) # 如果path存在，返回True；如果path不存在，返回False
# 在这里值得注意的是，在Linux shell 中，Python会认为： / 左边一定是一个目录，而不是文件；
# 这里建议一个习惯，在写路径时候，无论最后的是不是目录,都不要在最后写上 / ；这样就不会混淆了。

>>> os.path.exists('/root/a/b/ab.txt')
True
>>> os.path.exists('/root/a/b/ab.txt/') # python 会认为 / 左边的ab.txt文件是他目录，但去校验是，不是，所以返回 False
False
>>> os.path.exists('/root/a/b/')
True
>>>

os.path.isabs(path)                     如果path是绝对路径，返回True
os.path.isfile(path)                       如果path是一个存在的文件，返回True。否则返回False
os.path.isdir(path)                       如果path是一个存在的目录，则返回True。否则返回False
os.path.join("path1","path2","path3") 将多个路径组合后返回，第一个绝对路径之前的参数将被忽略,路径中不用加斜杠，除非定义一个跟路径，需要在第一个路径前加斜杠
os.path.getatime(path)                返回path所指向的文件或者目录的最后存取时间，不过这个时间是从1970.01.01到创建时的时（秒）
os.path.getmtime(path)               返回path所指向的文件或者目录的最后修改时间

补充

glob 模块

glob 模块可以利用 Linux、Unix系统中的通配符（而非正则）去匹配获取系统中的文件名或目录名

*       匹配任意零到多个字符
？      匹配任意一个字符
[abc]   匹配任意一个括号内的字符，也支持[a-zA-Z0-9]
[!abc]  匹配非括号内的任意一个字符，即不含 a 或 b 或 c 同样支持 [a-zA-Z0-9]

>>> import glob
>>> glob.
glob.escape(            glob.glob1(             glob.magic_check_bytes
glob.fnmatch            glob.has_magic(         glob.os
glob.glob(              glob.iglob(             glob.re
glob.glob0(             glob.magic_check  
>>> glob.glob('/home/*')              # 查找 home  目录下的所以文件
['/home/shark', '/home/yikes.file']      
>>> glob.glob('/home/*.file')         # 找任意字符开头，以 .file 结尾的文件
['/home/yikes.file'] 
>>> glob.glob('/home/yik??.file')     # 找以 yik开头后面有任意 2 个字符，以 .file 结尾的文件
['/home/yikes.file']
>>> glob.glob('/home/[yY]ik??.file')  # 找以 y 或者 Y 开头，后面是 ik 再紧随的是任意两个字符，以 .file 结尾的文件
['/home/yikes.file']
>>> glob.glob('/home/[!rs]*')      # 查找不是以 r 或者 s 开头的任意文件
['/home/yikes.file']
>>>

三、random & string

random 模块，可从一个可迭代队列中随机取出一个元素

>>> random.random()           # 随机 0 到 1 直接的浮点数
0.3755678429834486
>>> random.randint(5,100)     # 随机任意两个整型数之间的整数
24
>>> random.randrange(4,100)   # 随机从 python 可迭代对象中取值
96
>>> random.randrange(4,100,5) # 可以加步长

# 下面是从一个可迭代对象中，随机取出自定义好的几个无序的元素
>>> li = ['a',1,'b',2]
>>> random.sample(li,3)   # 从列表 li 中，随机选出 3 无序的个元素
['a', 2, 'b']
>>> random.sample(li,4)   # 从列表 li 中，随机选出 4 无序的个元素
[1, 2, 'b', 'a']
>>> random.sample(range(100),7)
[32, 69, 25, 58, 46, 87, 85]
>>>

string 模块，会返回一组 ASCII 码

>>> string.ascii_lowercase 
'abcdefghijklmnopqrstuvwxyz'
>>> string.ascii_uppercase 
'ABCDEFGHIJKLMNOPQRSTUVWXYZ'  
>>> string.ascii_letters 
'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ'
>>> string.digits 
'0123456789'
>>>

随机验证

>>> import string,random
>>> source = string.digits + string.ascii_lowercase 
>>> source 
'0123456789abcdefghijklmnopqrstuvwxyz'
>>> random.sample( source , 6)
['h', 'i', 'p', 'w', '6', 'a']
>>> ''.join(random.sample( source , 6))
'udsqrn'
>>> ''.join(random.sample( source , 6))
'98lmnk'
>>> 

随机字符 + 数字 序列，40位

from hashlib import sha1
sha1(os.urandom(64)).hexdigest()

四、json & pickle 数据序列化和反序列化

Python中用于序列化的两个模块

json     用于【字符串】和【python基本数据类型】间进行转换，是通用的夸语言的格式

pickle   用于【python所有的类型】和【python基本数据类型】间进行转换，是 python 专用的，

     并且下写入文件和读取文件时，是以字节的形式读写的

          Json模块提供了四个功能：dumps、dump、loads、load

          pickle模块提供了四个功能：dumps、dump、loads、load

          dumps / dump 序列化     内存中的Python所有数据类型====》pickle 类型的字节

          loads   / load   反序列化 pickle 类型的字节 ===》内存中的Python 所有数据类型

     两者的 dumps/loads 是在内存中互相转换,就是对一个对象在内存中转换为相对的对象

     两者的 dump 是先把基本数据类型的对象转换为json/pickle 类型的字符或者bytes，之后再写入一个有写方法的对象

   （如：文件、数据库等）

     两者的 load 是先把文件或者数据库中的字符串或者pickle类型的bytes读取到内存，之后再转换为Python的基本数据类型

>>> import json,pickle
>>> li = [1,2,3]
>>> di = {'a':'b'}
>>> with open('json.db','w') as f:
...     json.dump(li,f)          # 一次将一个Python的基本数据类型对象转换为json类型的字符串，      
...                              #  之后再写到文件中
>>> with open('json.db','r') as f:
...     l2 = json.load(f)        # 一次从文件中读一个对象到内存中，之后转换为Pyth基本数据类型
... 
>>> print(l2,type(l2))
[1, 2, 3] 
>>> 

>>> with open('json.db','w') as f:
...     f.write(json.dumps(li)+'\n')   # 要想写多个对象到文件中，必须借助循环，之后再用dumps这种形式
...     f.write(json.dumps(di)+'\n')   # 写进文件，保证每个对象占一行
... 
10
11
>>> with open('json.db','r') as f:
...     l2 = json.loads(f.readline())  # 读的时候也是要用 loads 配合readline，一次读一行 
...     d2 = json.loads(f.readline())
... 
>>> l2
[1, 2, 3]
>>> d2
{'a': 'b'}
>>>
>>> with open('pickles.db','wb') as f:  # 对于 pickle 来说，写入多个对象和读取多个对象，就简单一点儿了
...     pickle.dump(li,f)
...     pickle.dump(di,f)
... 
>>> with open('pickle.db','rb') as f:
...     l2 = pickle.load(f)
...     d2 = pickle.load(f)
... 
>>> l2
[1, 2, 3]
>>> d2
{'a': 'b'}
>>>

五、shelve （一次性序列化多个数据类型）

shelve模块是一个简单的，通过用k,v（即字典）的方式将内存的 Python 数据持久化到文件的模块，

可以持久化任何pickle可支持的python数据格式，底层是 pickle

>>> li = [1,'a',3]         
>>> di = {'k1':'v1'}
>>> import shelve
>>> s = shelve.open('shelve_file')  #  打开一个文件,命名为 shelve_file
>>> s["s_li"] = li                  #  开始将列表序列化到文件中，赋值给key： s_li 的值 s_li
>>> s["s_di"] = di                  #  继续讲字典序列化到文件中，赋值给key： s_di 的值
>>> s.close()                       #  记得关闭文件
>>> s = shelve.open('shelve_file')  #  反序列化时，再次读取这个文件
>>> s['s_li']                       #  用字典的方式得到key 的值
[1, 'a', 3]                 
>>> s.close()

六、time && datetime

时间相关的操作，时间有三种表示方式：

时间戳 1970年1月1日之后的秒，即：time.time()
格式化的字符串 2014-11-11 11:11，即：time.strftime('%Y-%m-%d')
结构化时间元组包含了：年、日、星期等... time.struct_time 即：time.localtime()

>>> import time

>>> print(time.clock()) #返回处理器时间,3.3开始已废弃 , 改成了time.process_time()测量处理器运算时间,不包括s
leep时间,不稳定,mac上测不出来0.45
>>> print(time.altzone)  #返回与utc时间的时间差,以秒计算
-28800
>>> print(time.asctime()) #返回时间格式"Fri Aug 19 11:14:16 2016"
Wed Feb 22 05:33:35 2017
>>> print(time.localtime()) #返回本地时间的 struct time对象格式
time.struct_time(tm_year=2017, tm_mon=2, tm_mday=22, tm_hour=5, tm_min=33, tm_sec=54, tm_wday=2, tm_yday=53
, tm_isdst=0)>>> print(time.asctime(time.localtime())) #返回时间格式"Fri Aug 19 11:14:16 2016",
Wed Feb 22 05:34:41 2017

# 日期字符串 转成  时间戳
>>> string_2_struct = time.strptime("2016/05/22","%Y/%m/%d") #将 日期字符串 转成 struct时间对象格式
>>> print(string_2_struct)
time.struct_time(tm_year=2016, tm_mon=5, tm_mday=22, tm_hour=0, tm_min=0, tm_sec=0, tm_wday=6, tm_yday=143,
 tm_isdst=-1)>>> struct_2_stamp = time.mktime(string_2_struct) #将struct时间对象转成时间戳
>>> print(struct_2_stamp)
1463846400.0

#将时间戳转为字符串格式
>>> print(time.gmtime(time.time()-86640)) #将utc时间戳转换成struct_time格式
time.struct_time(tm_year=2017, tm_mon=2, tm_mday=20, tm_hour=21, tm_min=32, tm_sec=42, tm_wday=0, tm_yday=5
1, tm_isdst=0)>>> print(time.strftime("%Y-%m-%d %H:%M:%S",time.gmtime()) ) #将utc struct_time格式转成指定的字符串格式
2017-02-21 21:36:54
>>> print(time.strftime("%Y%m%d ",time.gmtime()) ) #将utc struct_time格式转成指定的字符串格式
20170221 
>>> 

import datetime

>>> print(datetime.datetime.now())  # 当前时间
2017-02-22 05:23:58.194056
>>> print(datetime.date.fromtimestamp(time.time()) ) # 时间戳直接转成日期格式 2016-08-19
2017-02-22
>>> print(datetime.datetime.now() + datetime.timedelta(3)) #当前时间+3天
2017-02-25 05:24:41.211896
>>> print(datetime.datetime.now() + datetime.timedelta(-3)) #当前时间-3天
2017-02-19 05:24:58.482398
>>> print(datetime.datetime.now() + datetime.timedelta(hours=3)) #当前时间+3小时
2017-02-22 08:25:13.363732
>>> print(datetime.datetime.now() + datetime.timedelta(minutes=30)) #当前时间+30分
2017-02-22 05:55:22.320439
>>> c_time  = datetime.datetime.now()
>>> print(c_time.replace(minute=3,hour=2)) #时间替换
2017-02-22 02:03:39.511867

windows 处理 time

报错：

Traceback (most recent call last):
  File "test.py", line 6, in 
    print(nt.strftime('%Y年%m月%d日 %H时%M分%S秒'))
UnicodeEncodeError: 'locale' codec can't encode character '\u5e74' in position 2
: Illegal byte sequence

原因：

在Windows里，time.strftime使用C运行时的多字节字符串函数strftime，这个函数必须先根据当前locale配置来编码格式化字符串（使用PyUnicode_EncodeLocale）。

如果不设置好locale的话，根据默认的"C" locale，底层的wcstombs函数会使用latin-1编码（单字节编码）来编码格式化字符串，然后导致我们提供的多字节编码的字符串在编码时出错。

解决办法：

既然直接丢中文字符进去会出错，那么就绕过这个问题，丢（可能）永远不会出错的ascii字符进去充当占位符，格式化完毕后再将占位符换回中文字符。

七、 shutil （强大的文件、文件夹压缩打包）

shutil 是 Python中高级的文件文件夹压缩包处理模块

拷贝文件内容到另一个文件对象中

>>> import shutil
# 先写一些内容到一个文件中
>>> with  open('old.file','w',encoding='utf-8') as of:
...     of.write('I am a old file')
... 
15
# 把一个文件对象的内容复制到新文件对象文件里，这里两个参数都是对象，不是文件名
>>> shutil.copyfileobj(open('old.file','r',encoding='utf-8'),open('new.file','w',encoding='utf-8') )
>>> with  open('new.file','r',encoding='utf-8') as nf:
...     print(nf.read())
... 
I am a old file
>>>

拷贝文件内容到另一个文件中，参数是文件名

>>> shutil.copyfile('old.file','new2.file')
'new2.file'
>>> with open('new2.file','r') as nf:
...     print(nf.read())
... 
I am a old file
>>>

只拷贝源文件的权限信息，不包括文件的内容和所属主、所属组

>>> shutil.copymode('src.file','dst.file')

仅拷贝文件的状态信息，包括，权限 ,atime,mtime, 不包括用户和组以及修改内容的时间

shutil.copystat('src.log', 'dst.log')

shutil.copy(src, dst)
拷贝文件和权限

import shutil

shutil.copy2('f1.log', 'f2.log')

shutil.copy2(src, dst)
拷贝文件和状态信息

import shutil

shutil.copy2('f1.log', 'f2.log')

shutil.ignore_patterns(*patterns)
shutil.copytree(src, dst, symlinks=False, ignore=None)
递归的去拷贝文件夹

>>> shutil.copytree('/home','/tmp/hbak',ignore=shutil.ignore_patterns('*.file'))

# 递归拷贝一个文件夹下的所以内容到另一个文件下，目标文件夹应该是原来系统中不存在的文件夹

# ignore=shutil.ignore_patterns('排除的文件名','排除的文件夹名') 支持通配符

递归删除一个文件夹下的所有内容

>>> shutil.rmtree('/tmp/hb')
>>> shutil.rmtree('/tmp/hbad/')

#  最后结尾的一定是明确的文件名，不可以下向下面这样
>>> shutil.rmtree('/tmp/hbak/*')
Traceback (most recent call last):
  File "", line 1, in 
  File "/usr/local/lib/python3.6/shutil.py", line 465, in rmtree
    onerror(os.lstat, path, sys.exc_info())
  File "/usr/local/lib/python3.6/shutil.py", line 463, in rmtree
    orig_st = os.lstat(path)
FileNotFoundError: [Errno 2] No such file or directory: '/tmp/hbak/*'

shutil.move(src, dst)
递归的去移动文件，它类似mv命令，其实就是重命名。

>>> shutil.move('/home/src.file','./shark')
'./shark/src.file'
>>> 
# 源文件名，不支持任意模式的模糊匹配

shutil.make_archive(base_name, format,...)

创建压缩包并返回文件路径，例如：zip、tar

base_name：压缩包的文件名，也可以是压缩包的路径。只是文件名时，则保存至当前目录，否则保存至指定路径，
如：www =>保存至当前路径
如：/Users/shark/www =>保存至/Users/shark/
format：压缩包种类，“zip”, “tar”, “bztar”，“gztar”
root_dir：要压缩的文件夹路径（默认当前目录）
owner：用户，默认当前用户
group：组，默认当前组
logger：用于记录日志，通常是logging.Logger对象

# 将 /home/shark 目录下的所以文件打包压缩到当前目录下，名字shark,格式 gztar
>>> shutil.make_archive( 'shark','gztar','/home/shark')
'/home/shark.tar.gz'

# 将 /home/shark 目录下的所以文件打包压缩到 /tmp 目录下，名字shark,格式 tar
>>> shutil.make_archive( '/tmp/shark','tar','/home/shark')
'/tmp/shark.tar'

shutil 对压缩包的处理是调用 ZipFile 和 TarFile 两个模块来进行的，详细：

ZipFile

import zipfile

# 压缩
z = zipfile.ZipFile('laxi.zip', 'w')
z.write('a.log')
z.write('data.data')
z.close()

# 解压
z = zipfile.ZipFile('laxi.zip', 'r')
z.extractall()
z.close()

TarFile

import tarfile

# 压缩
tar = tarfile.open('your.tar','w')
tar.add('/Users/shark/PycharmProjects/bbs2.log', arcname='bbs2.log')
tar.add('/Users/shark/PycharmProjects/cmdb.log', arcname='cmdb.log')
tar.close()

# 解压
tar = tarfile.open('your.tar','r')
tar.extractall()  # 可设置解压地址
tar.close()

八、 xml处理

xml是实现不同语言或程序之间进行数据交换的协议，跟json差不多，但json使用起来更简单，不过，古时候，在json还没诞生的黑暗年代，大家只能选择用xml呀，至今很多传统公司如金融行业的很多系统的接口还主要是xml。

xml的格式如下，就是通过<>节点来区别数据结构的:

示例文档

xml协议在各个语言里的都是支持的，在python中可以用以下模块操作xml 　

import xml.etree.ElementTree as ET
 
tree = ET.parse("xmltest.xml")
root = tree.getroot()
print(root.tag)
 
#遍历xml文档
for child in root:
    print(child.tag, child.attrib)
    for i in child:
        print(i.tag,i.text)
 
#只遍历year 节点
for node in root.iter('year'):
    print(node.tag,node.text)

修改和删除xml文档内容

import xml.etree.ElementTree as ET
 
tree = ET.parse("xmltest.xml")
root = tree.getroot()
 
#修改
for node in root.iter('year'):
    new_year = int(node.text) + 1
    node.text = str(new_year)
    node.set("updated","yes")
 
tree.write("xmltest.xml")
 
 
#删除node
for country in root.findall('country'):
   rank = int(country.find('rank').text)
   if rank > 50:
     root.remove(country)
 
tree.write('output.xml')

自己创建xml文档

import xml.etree.ElementTree as ET
 
 
new_xml = ET.Element("namelist")
name = ET.SubElement(new_xml,"name",attrib={"enrolled":"yes"})
age = ET.SubElement(name,"age",attrib={"checked":"no"})
sex = ET.SubElement(name,"sex")
sex.text = '33'
name2 = ET.SubElement(new_xml,"name",attrib={"enrolled":"no"})
age = ET.SubElement(name2,"age")
age.text = '19'
 
et = ET.ElementTree(new_xml) #生成文档对象
et.write("test.xml", encoding="utf-8",xml_declaration=True)
 
ET.dump(new_xml) #打印生成的格式

安全提示

假如有个XML片段，定义了10个嵌套实体，每一项扩展10倍的子项，总共就会有10亿的扩展项

糟糕的是，前面前面提到的XML库无法容纳10亿多的项。

Defused XML （https://bitbucket.org/tiran/defusedxml）列出了这种攻击和Python库中的其他缺点，并且指出了如何修改

设置避免这些问题，或者使用 defusedxml 库作为安全的保护：

>>> # 不安全的 
>>> from   xml.etree.ElementTree import parse
>>> et = parse(xmlfile)
NameError: name 'xmlfile' is not defined
>>> # 受保护的，当然这个是第三方模块，需要你自行安装后才行
>>> from   defusedxml.ElementTree import parse

九、 yaml处理

和 json 类似，YAML(http://www.yaml.org)同样有键和值，但主要用于处理日期和时间这样的数据类型。这个也是属于第三方模块，需要自行安装(http://pyyaml.org/wiki/PyYAML)。

load() 将YAML 字符串转为Python的数据类型，而domp()则正好相反。

下面YAML示例文件包含加拿大诗人 James McIntyre 的两首诗：

name:
    first: James
    last: McIntyre
dates:
    birth:1828-0525
    death:1986-03-31
details:
    bearded:true
    themes:[cheese,Canada]
books:
    url:http://www.gutenberg.org/files/36068/36068-h/36068-h.htm
poems:
    -    title:'Motto'
         text:|
             Politemes,perseverance and pluck,
    -    title:'Canadian Charms'
         text:|
             Here industry is not in vain,

类似于 true 、false、on 和 off 的值可以转换为 Python 的布尔值。

整数和字符串转换为 Python等价的。其他语法创建为列表和字典：

>>> import yaml
>>> with open('example.yaml','r') as yf:
...     text = yf.read()
... 
>>> data = yaml.load(text)
>>> data['datails']
{'themes': ['cheese', 'Canada'], 'bearded': True}
>>> len(data['poems'])
2
>>>

创建的匹配这个 YAML 文件的数据结构超过了一层嵌套。如果想得到第二首诗歌的题目，要使用

dict/list/dict 的方式：

>>> data['popens'][1]['title']
'Canadian Charms'

十、 configparser （配置文件）

用于生成和修改常见配置文档，当前模块的名称在 python 3.x 版本中变更为 configparser。

来看一个好多软件的常见文档格式如下

[DEFAULT]
ServerAliveInterval = 45
Compression = yes
CompressionLevel = 9
ForwardX11 = yes
 
[bitbucket.org]
User = hg
 
[topsecret.server.com]
Port = 50022
ForwardX11 = no

如果想用python生成一个这样的文档怎么做呢？

import configparser
 
config = configparser.ConfigParser()
config["DEFAULT"] = {'ServerAliveInterval': '45',
                      'Compression': 'yes',
                     'CompressionLevel': '9'}
 
config['bitbucket.org'] = {}
config['bitbucket.org']['User'] = 'hg'
config['topsecret.server.com'] = {}
topsecret = config['topsecret.server.com']
topsecret['Host Port'] = '50022'     # mutates the parser
topsecret['ForwardX11'] = 'no'  # same here
config['DEFAULT']['ForwardX11'] = 'yes'
with open('example.ini', 'w') as configfile:
   config.write(configfile)

写完了还可以再读出来哈。

>>> import configparser
>>> config = configparser.ConfigParser()
>>> config.sections()
[]
>>> config.read('example.ini')
['example.ini']
>>> config.sections()
['bitbucket.org', 'topsecret.server.com']
>>> 'bitbucket.org' in config
True
>>> 'bytebong.com' in config
False
>>> config['bitbucket.org']['User']
'hg'
>>> config['DEFAULT']['Compression']
'yes'
>>> topsecret = config['topsecret.server.com']
>>> topsecret['ForwardX11']
'no'
>>> topsecret['Port']
'50022'
>>> for key in config['bitbucket.org']: print(key)
...
user
compressionlevel
serveraliveinterval
compression
forwardx11
>>> config['bitbucket.org']['ForwardX11']
'yes'

configparser增删改查语法

[section1]
k1 = v1
k2:v2
  
[section2]
k1 = v1
 
import ConfigParser
  
config = ConfigParser.ConfigParser()
config.read('i.cfg')
  
# ########## 读 ##########
#secs = config.sections()
#print secs
#options = config.options('group2')
#print options
  
#item_list = config.items('group2')
#print item_list
  
#val = config.get('group1','key')
#val = config.getint('group1','key')
  
# ########## 改写 ##########
#sec = config.remove_section('group1')
#config.write(open('i.cfg', "w"))
  
#sec = config.has_section('shark')
#sec = config.add_section('shark')
#config.write(open('i.cfg', "w"))
  
  
#config.set('group2','k1',11111)
#config.write(open('i.cfg', "w"))
  
#config.remove_option('group2','age')
#config.write(open('i.cfg', "w"))

十一、 hashlib （加密）

用于加密相关的操作，3.x里代替了md5模块和sha模块，主要提供 SHA1, SHA224, SHA256, SHA384, SHA512 ，MD5 算法

import hashlib
 
m = hashlib.md5()
m.update(b"Hello")
m.update(b"It's me")
print(m.digest())
m.update(b"It's been a long time since last time we ...")
 
print(m.digest()) #2进制格式hash
print(len(m.hexdigest())) #16进制格式hash
'''
def digest(self, *args, **kwargs): # real signature unknown
    """ Return the digest value as a string of binary data. """
    pass
 
def hexdigest(self, *args, **kwargs): # real signature unknown
    """ Return the digest value as a string of hexadecimal digits. """
    pass
 
'''
import hashlib
 
# ######## md5 ########
 
hash = hashlib.md5()
hash.update('admin')
print(hash.hexdigest())
 
# ######## sha1 ########
 
hash = hashlib.sha1()
hash.update('admin')
print(hash.hexdigest())
 
# ######## sha256 ########
 
hash = hashlib.sha256()
hash.update('admin')
print(hash.hexdigest())
 
 
# ######## sha384 ########
 
hash = hashlib.sha384()
hash.update('admin')
print(hash.hexdigest())
 
# ######## sha512 ########
 
hash = hashlib.sha512()
hash.update('admin')
print(hash.hexdigest())

还不够吊？python 还有一个 hmac 模块，它内部对我们创建 key 和内容再进行处理然后再加密

散列消息鉴别码，简称HMAC，是一种基于消息鉴别码MAC（Message Authentication Code）的鉴别机制。使用HMAC时,消息通讯的双方，通过验证消息中加入的鉴别密钥K来鉴别消息的真伪；

一般用于网络通信中消息加密，前提是双方先要约定好key,就像接头暗号一样，然后消息发送把用key把消息加密，接收方用key ＋消息明文再加密，拿加密后的值跟发送者的相对比是否相等，这样就能验证消息的真实性，及发送者的合法性了。

import hmac
h = hmac.new(b'天王盖地虎', b'宝塔镇河妖')
print h.hexdigest()

十二、subprocess

常用subprocess方法示例

#执行命令，返回命令执行状态， 0 or 非0
>>> retcode = subprocess.call(["ls", "-l"])

#执行命令，如果命令结果为0，就正常返回，否则抛异常
>>> subprocess.check_call(["ls", "-l"])
0

#接收字符串格式命令，返回元组形式，第1个元素是执行状态，第2个是命令结果
>>> subprocess.getstatusoutput('ls /bin/ls')
(0, '/bin/ls')

#接收字符串格式命令，并返回结果
>>> subprocess.getoutput('ls /bin/ls')
'/bin/ls'

#执行命令，并返回结果，注意是返回结果，不是打印，下例结果返回给res
>>> res=subprocess.check_output(['ls','-l'])
>>> res
b'total 0\ndrwxr-xr-x 12 shark staff 408 Nov 2 11:05 OldBoyCRM\n'

#上面那些方法，底层都是封装的subprocess.Popen
poll()
Check if child process has terminated. Returns returncode

wait()
Wait for child process to terminate. Returns returncode attribute.

terminate() 杀掉所启动进程
communicate() 等待任务结束

stdin 标准输入
stdout 标准输出
stderr 标准错误

pid
The process ID of the child process.

#例子
>>> p = subprocess.Popen("df -h|grep disk",stdin=subprocess.PIPE,stdout=subprocess.PIPE,shell=True)
>>> p.stdout.read()
b'/dev/disk1 465Gi 64Gi 400Gi 14% 16901472 104938142 14% /\n'

>>> subprocess.run(["ls", "-l"])  # doesn't capture output
CompletedProcess(args=['ls', '-l'], returncode=0)
 
>>> subprocess.run("exit 1", shell=True, check=True)
Traceback (most recent call last):
  ...
subprocess.CalledProcessError: Command 'exit 1' returned non-zero exit status 1
 
>>> subprocess.run(["ls", "-l", "/dev/null"], stdout=subprocess.PIPE)
CompletedProcess(args=['ls', '-l', '/dev/null'], returncode=0,
stdout=b'crw-rw-rw- 1 root root 1, 3 Jan 23 16:23 /dev/null\n')

调用subprocess.run(...)是推荐的常用方法，在大多数情况下能满足需求，但如果你可能需要进行一些复杂的与系统的交互的话，你还可以用subprocess.Popen(),语法如下：

p = subprocess.Popen("find / -size +1000000 -exec ls -shl {} \;",shell=True,stdout=subprocess.PIPE)
print(p.stdout.read())

可用参数：

- args：shell命令，可以是字符串或者序列类型（如：list，元组）
- bufsize：指定缓冲。0 无缓冲,1 行缓冲,其他缓冲区大小,负值系统缓冲
- stdin, stdout, stderr：分别表示程序的标准输入、输出、错误句柄
- preexec_fn：只在Unix平台下有效，用于指定一个可执行对象（callable object），它将在子进程运行之前被调用
- close_sfs：在windows平台下，如果close_fds被设置为True，则新创建的子进程将不会继承父进程的输入、输出、错误管道。
  所以不能将close_fds设置为True同时重定向子进程的标准输入、输出与错误(stdin, stdout, stderr)。
- shell：同上
- cwd：用于设置子进程的当前目录
- env：用于指定子进程的环境变量。如果env = None，子进程的环境变量将从父进程中继承。
- universal_newlines：不同系统的换行符不同，True -> 同意使用 \n
- startupinfo与createionflags只在windows下有效
  将被传递给底层的CreateProcess()函数，用于设置子进程的一些属性，如：主窗口的外观，进程的优先级等等

终端输入的命令分为两种：

输入即可得到输出，如：ifconfig
输入进行某环境，依赖再输入，如：python

需要交互的命令示例

import subprocess
 
obj = subprocess.Popen(["python"], stdin=subprocess.PIPE, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
obj.stdin.write('print 1 \n ')
obj.stdin.write('print 2 \n ')
obj.stdin.write('print 3 \n ')
obj.stdin.write('print 4 \n ')
 
out_error_list = obj.communicate(timeout=10)
print out_error_list

subprocess实现sudo 自动输入密码

import subprocess
 
def mypass():
    mypass = '123' #or get the password from anywhere
    return mypass
 
echo = subprocess.Popen(['echo',mypass()],
                        stdout=subprocess.PIPE,
                        )
 
sudo = subprocess.Popen(['sudo','-S','iptables','-L'],
                        stdin=echo.stdout,
                        stdout=subprocess.PIPE,
                        )
 
end_of_pipe = sudo.stdout
 
print "Password ok \n Iptables Chains %s" % end_of_pipe.read()

十三、logging 模块

很多程序都有记录日志的需求，并且日志中包含的信息即有正常的程序访问日志，还可能有错误、警告等信息输出，

python的logging模块提供了标准的日志接口，你可以通过它存储各种格式的日志，

logging的日志可以分为 `debug()`, `info()`, `warning()`, `error()` and `critical() 5个级别，`

下面我们看一下怎么用。

import logging
 
logging.warning("user [shark] attempted wrong password more than 3 times")
logging.critical("server is down")
 
#输出
WARNING:root:user [shark] attempted wrong password more than 3 times
CRITICAL:root:server is down

看一下这几个日志级别分别代表什么意思

Level	When it’s used
`DEBUG`	Detailed information, typically of interest only when diagnosing problems.
`INFO`	Confirmation that things are working as expected.
`WARNING`	An indication that something unexpected happened, or indicative of some problem in the near future (e.g. ‘disk space low’). The software is still working as expected.
`ERROR`	Due to a more serious problem, the software has not been able to perform some function.
`CRITICAL`	A serious error, indicating that the program itself may be unable to continue running.

如果想把日志写到文件里，也很简单

import logging
 
logging.basicConfig(filename='example.log',level=logging.INFO)
logging.debug('This message should go to the log file')
logging.info('So should this')
logging.warning('And this, too')

其中下面这句中的level=loggin.INFO意思是，把日志纪录级别设置为INFO，也就是说，

只有比日志是INFO或比INFO级别更高的日志才会被纪录到文件里，在这个例子，第一条日志是不会被纪录的，

如果希望纪录debug的日志，那把日志级别改成DEBUG就行了。

logging.basicConfig(filename='example.log',level=logging.INFO)

感觉上面的日志格式忘记加上时间啦，日志不知道时间怎么行呢，下面就来加上!

import logging
logging.basicConfig(format='%(asctime)s %(message)s', datefmt='%m/%d/%Y %I:%M:%S %p')
logging.warning('is when this event was logged.')
 
#输出
12/12/2010 11:46:36 AM is when this event was logged.

日志格式说明

%(name)s	Logger的名字
%(levelno)s	数字形式的日志级别
%(levelname)s	文本形式的日志级别
%(pathname)s	调用日志输出函数的模块的完整路径名，可能没有
%(filename)s	调用日志输出函数的模块的文件名
%(module)s	调用日志输出函数的模块名
%(funcName)s	调用日志输出函数的函数名
%(lineno)d	调用日志输出函数的语句所在的代码行
%(created)f	当前时间，用UNIX标准的表示时间的浮点数表示
%(relativeCreated)d	输出日志信息时的，自Logger创建以来的毫秒数
%(asctime)s	字符串形式的当前时间。默认格式是 “2003-07-08 16:49:45,896”。逗号后面的是毫秒
%(thread)d	线程ID。可能没有
%(threadName)s	线程名。可能没有
%(process)d	进程ID。可能没有
%(message)s	用户输出的消息

Python 使用logging模块记录日志涉及四个主要类，使用官方文档中的概括最为合适：

Logger 记录器，暴露了应用程序代码能直接使用的接口。
Handler 处理器，将（记录器产生的）日志记录发送至合适的目的地。
Filter 过滤器，提供了更好的粒度控制，它可以决定输出哪些日志记录。
Formatter 格式化器，指明了最终输出中日志记录的布局。

logger
每个程序在输出信息之前都要获得一个Logger。Logger通常对应了程序的模块名，比如聊天工具的图形界面模块可以这样获得它的Logger：
LOG=logging.getLogger(”chat.gui”)
而核心模块可以这样：
LOG=logging.getLogger(”chat.kernel”)

Logger.setLevel(lel):指定最低的日志级别，低于lel的级别将被忽略。debug是最低的内置级别，critical为最高
Logger.addFilter(filt)、Logger.removeFilter(filt):添加或删除指定的filter
Logger.addHandler(hdlr)、Logger.removeHandler(hdlr)：增加或删除指定的handler
Logger.debug()、Logger.info()、Logger.warning()、Logger.error()、Logger.critical()：可以设置的日志级别

handler

handler对象负责发送相关的信息到指定目的地。Python的日志系统有多种Handler可以使用。有些Handler可以把信息输出到控制台，有些Logger可以把信息输出到文件，还有些 Handler可以把信息发送到网络上。如果觉得不够用，还可以编写自己的Handler。可以通过addHandler()方法添加多个多handler
Handler.setLevel(lel):指定被处理的信息级别，低于lel级别的信息将被忽略
Handler.setFormatter()：给这个handler选择一个格式
Handler.addFilter(filt)、Handler.removeFilter(filt)：新增或删除一个filter对象

每个Logger可以附加多个Handler。接下来我们就来介绍一些常用的Handler：
1) logging.StreamHandler
使用这个Handler可以向类似与sys.stdout或者sys.stderr的任何文件对象(file object)输出信息。它的构造函数是：
StreamHandler([strm])
其中strm参数是一个文件对象。默认是sys.stderr

2) logging.FileHandler
和StreamHandler类似，用于向一个文件输出日志信息。不过FileHandler会帮你打开这个文件。它的构造函数是：
FileHandler(filename[,mode])
filename是文件名，必须指定一个文件名。
mode是文件的打开方式。参见Python内置函数open()的用法。默认是’a'，即添加到文件末尾。

3) logging.handlers.RotatingFileHandler
这个Handler类似于上面的FileHandler，但是它可以管理文件大小。当文件达到一定大小之后，它会自动将当前日志文件改名，然后创建一个新的同名日志文件继续输出。比如日志文件是chat.log。当chat.log达到指定的大小之后，RotatingFileHandler自动把文件改名为chat.log.1。不过，如果chat.log.1已经存在，会先把chat.log.1重命名为chat.log.2。。。最后重新创建 chat.log，继续输出日志信息。它的构造函数是：
RotatingFileHandler( filename[, mode[, maxBytes[, backupCount]]])
其中filename和mode两个参数和FileHandler一样。
maxBytes用于指定日志文件的最大文件大小。如果maxBytes为0，意味着日志文件可以无限大，这时上面描述的重命名过程就不会发生。
backupCount用于指定保留的备份文件的个数。比如，如果指定为2，当上面描述的重命名过程发生时，原有的chat.log.2并不会被更名，而是被删除。

4) logging.handlers.TimedRotatingFileHandler
这个Handler和RotatingFileHandler类似，不过，它没有通过判断文件大小来决定何时重新创建日志文件，而是间隔一定时间就自动创建新的日志文件。重命名的过程与RotatingFileHandler类似，不过新的文件不是附加数字，而是当前时间。它的构造函数是：
TimedRotatingFileHandler( filename [,when [,interval [,backupCount]]])
其中filename参数和backupCount参数和RotatingFileHandler具有相同的意义。
interval是时间间隔。
when参数是一个字符串。表示时间间隔的单位，不区分大小写。它有以下取值：
S 秒
M 分
H 小时
D 天
W 每星期（interval==0时代表星期一）
midnight 每天凌晨

以下是相关概念总结:

熟悉了这些概念之后，有另外一个比较重要的事情必须清楚，即Logger是一个树形层级结构;
Logger可以包含一个或多个Handler和Filter，即Logger与Handler或Fitler是一对多的关系;
一个Logger实例可以新增多个Handler，一个Handler可以新增多个格式化器或多个过滤器，而且日志级别将会继承。

显式配置

import logging
 
#create logger
logger = logging.getLogger('TEST-LOG')
logger.setLevel(logging.DEBUG)
 
 
# create console handler and set level to debug
ch = logging.StreamHandler()
ch.setLevel(logging.DEBUG)
 
# create file handler and set level to warning
fh = logging.FileHandler("access.log")
fh.setLevel(logging.WARNING)
# create formatter
fmt = "%(asctime)-15s %(levelname)s %(filename)s %(lineno)d %(process)d %(message)s" 
datefmt = "%a %d %b %Y %H:%M:%S" 
formatter = logging.Formatter(fmt, datefmt)

# add formatter to ch and fh
ch.setFormatter(formatter)
fh.setFormatter(formatter)
 
# add ch and fh to logger
logger.addHandler(ch)
logger.addHandler(fh)
 
# 'application' code
logger.debug('debug message')
logger.info('info message')
logger.warn('warn message')
logger.error('error message')
logger.critical('critical message')

文件配置

配置文件logging.conf如下：

keys=root,example01

[logger_root]
level=DEBUG
handlers=hand01,hand02

[logger_example01]
handlers=hand01,hand02
qualname=example01
propagate=0

[handlers]
keys=hand01,hand02

[handler_hand01]
class=StreamHandler
level=INFO
formatter=form02
args=(sys.stderr,)

[handler_hand02]
class=FileHandler
level=DEBUG
formatter=form01
args=('log.log', 'a')

[formatters]
keys=form01,form02

[formatter_form01]
format=%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s

使用程序logger.py如下:

# -*- encoding:utf-8 -*-
import logging
import logging.config

logging.config.fileConfig("./logging.conf")

# create logger
logger_name = "example"
logger = logging.getLogger(logger_name)

logger.debug('debug message')
logger.info('info message')
logger.warn('warn message')
logger.error('error message')
logger.critical('critical message')

日志切割例子

import logging

from logging import handlers

logger = logging.getLogger(__name__)

log_file = "timelog.log"
#fh = handlers.RotatingFileHandler(filename=log_file,maxBytes=10,backupCount=3)
fh = handlers.TimedRotatingFileHandler(filename=log_file,when="S",interval=5,backupCount=3)


formatter = logging.Formatter('%(asctime)s %(module)s:%(lineno)d %(message)s')

fh.setFormatter(formatter)

logger.addHandler(fh)


logger.warning("test1")
logger.warning("test12")
logger.warning("test13")
logger.warning("test14")

十四、re 模块（正则）

常用正则表达式符号

'.'     默认匹配除\n之外的任意一个字符，若指定flag DOTALL,则匹配任意字符，包括换行
'^'     匹配字符开头，若指定flags MULTILINE,这种也可以匹配上(r"^a","\nabc\neee",flags=re.MULTILINE)
'$'     匹配字符结尾，或e.search("foo$","bfoo\nsdfsf",flags=re.MULTILINE).group()也可以
'*'     匹配*号前的字符0次或多次，re.findall("ab*","cabb3abcbbac")  结果为['abb', 'ab', 'a']
'+'     匹配前一个字符1次或多次，re.findall("ab+","ab+cd+abb+bba") 结果['ab', 'abb']
'?'     匹配前一个字符1次或0次
'{m}'   匹配前一个字符连续出现m次
'{n,m}' 匹配前一个字符连续出现n到m次，re.findall("ab{1,3}","abb abc abbcbbb") 结果'abb', 'ab', 'abb']
'|'     匹配|左或|右的字符，re.search("abc|ABC","ABCBabcCD").group() 结果'ABC'
'(...)' 分组匹配，re.search("(abc){2}a(123|456)c", "abcabca456c").group() 结果 abcabca456c
 
 
'\A'    只从字符开头匹配，re.search("\Aabc","sharkabc") 是匹配不到的
'\Z'    匹配字符结尾，同$
'\d'    匹配数字0-9
'\D'    匹配非数字
'\w'    匹配[A-Za-z0-9]和下划线 _
'\W'    匹配非[A-Za-z0-9]和非下划线 _ ,就是任意的特殊字符（符号）
's'     匹配空白字符、\t、\n、\r , re.search("\s+","ab\tc1\n3").group() 结果 '\t'

'(?P...)' 分组匹配
>>> re.search("(?P[0-9]{4})(?P[0-9]{2})(?P[0-9]{4})","371481199306143242").groupd
ict("city")
#输出结果
{'province': '3714', 'city': '81', 'birthday': '1993'}
>>>

最常用的匹配语法

re.match     从头开始匹配，成功匹配到第一个，则返回；否则未匹配到返回 None

re.search    浏览整个字符串，成功匹配到第一个，则返回，否则未匹配到返回 None
re.findall   把所有匹配到的字符放到以列表中的元素返回
re.splitall  以匹配到的字符当做列表分隔符，规则相同的话，得到的结果和 findall 正好相反
re.sub       匹配字符并替换

反斜杠的困扰
与大多数编程语言相同，正则表达式里使用"\"作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配文本中的字符"\"，那么使用编程语言表示的正则表达式里将需要4个反斜杠"\\\\"：前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。Python里的原生字符串很好地解决了这个问题，这个例子中的正则表达式可以使用r"\\"表示。同样，匹配一个数字的"\\d"可以写成r"\d"。有了原生字符串，你再也不用担心是不是漏写了反斜杠，写出来的表达式也更直观。

仅需轻轻知道的几个匹配模式

re.I(re.IGNORECASE): 忽略大小写（括号内是完整写法，下同）
M(MULTILINE): 多行模式，改变'^'和'$'的行为（参见上图）
S(DOTALL): 点任意匹配模式，改变'.'的行为

联系作业

开发一个简单的python计算器

实现加减乘除及拓号优先级解析
用户输入 1 - 2 * ( (60-30 +(-40/5) * (9-2*5/3 + 7 /3*99/4*2998 +10 * 568/14 )) - (-4*3)/ (16-3*2) )等类似公式后，必须自己解析里面的(),+,-,*,/符号和公式(不能调用eval等类似功能偷懒实现)，运算后得出结果，结果必须与真实的计算器所得出的结果一致

十五、第三方模块 paramiko

paramiko是一个用于做远程控制的模块，使用该模块可以对远程服务器进行命令或文件操作，值得一说的是，fabric和ansible内

部的远程管理就是使用的paramiko来现实。

1、下载安装

        # pycrypto，由于 paramiko 模块内部依赖pycrypto，所以先下载安装pycrypto
        pip3 install pycrypto
        pip3 install paramiko

2、模块使用

#!/usr/bin/env python
#coding:utf-8

import paramiko

ssh = paramiko.SSHClient()
ssh.set_missing_host_key_policy(paramiko.AutoAddPolicy())
ssh.connect('192.168.1.108', 22, 'alex', '123')
stdin, stdout, stderr = ssh.exec_command('df')
print stdout.read()
ssh.close();

执行命令 - 用户名+密码

import paramiko

private_key_path = '/home/auto/.ssh/id_rsa'
key = paramiko.RSAKey.from_private_key_file(private_key_path)

ssh = paramiko.SSHClient()
ssh.set_missing_host_key_policy(paramiko.AutoAddPolicy())
ssh.connect('主机名 ', 端口, '用户名', key)

stdin, stdout, stderr = ssh.exec_command('df')
print stdout.read()
ssh.close()

执行命令 - 密钥

import paramiko

t = paramiko.Transport(('172.16.153.141',22))
t.connect(username='shark',password='123')

sftp = paramiko.SFTPClient.from_transport(t)

# 上传
sftp.put('/tmp/test.py','/tmp/test.py')

# 下载
sftp.get('/tmp/test.py','/tmp/test1.py')

t.close()

传输文件 - 用户名和密码

import paramiko

pravie_key_path = '/home/shark/.ssh/id_rsa'
key = paramiko.RSAKey.from_private_key_file(pravie_key_path)

t = paramiko.Transport(('172.16.153.151',22))
t.connect(username='shark',pkey=key)

sftp = paramiko.SFTPClient.from_transport(t)

# 上传
sftp.put('/tmp/test.py','/tmp/test2.py')

# 下载
sftp.get('/tmp/test2.py','/tmp/test3.py')

t.close()

setdefault() 和 defaultdict()处理缺失的键
使用counter()计数
使用有序字典 OrderedDict按键排序
双端序列：栈和队列
使用 itertools 迭代代码结构
使用 pprint()友好输出

转载于:https://www.cnblogs.com/xiguatian/p/6392130.html

你可能感兴趣的:(python,shell,json)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
docker igotyback eureka 云原生
Docker容器的文件系统是隔离的，但是可以通过挂载卷（Volumes）或绑定挂载（BindMounts）将宿主机的文件系统目录映射到容器内部。要查看Docker容器的映射路径，可以使用以下方法：查看容器配置：使用dockerinspect命令可以查看容器的详细配置信息，包括挂载的卷。例如：bashdockerinspect在输出的JSON格式中，查找"Mounts"部分，这里会列出所有的挂载信息
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
简介Shell、zsh、bash zhaosuningsn Shell zsh bash shell linux bash
Shell是Linux和Unix的外壳，类似衣服，负责外界与Linux和Unix内核的交互联系。例如接收终端用户及各种应用程序的命令，把接收的命令翻译成内核能理解的语言，传递给内核，并把内核处理接收的命令的结果返回给外界，即Shell是外界和内核沟通的桥梁或大门。Linux和Unix提供了多种Shell，其中有种bash，当然还有其他好多种。Mac电脑中不但有bash，还有一个zsh，预装的，据说
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
在Ubuntu中编译含有JSON的文件出现报错芝麻糊76 Linux kill_bug linux ubuntu json
在ubuntu中进行JSON相关学习的时候，我发现了一些小问题，决定与大家进行分享，减少踩坑时候出现不必要的时间耗费截取部分含有JSON部分的代码进行展示char*str="{\"title\":\"JSONExample\",\"author\":{\"name\":\"JohnDoe\",\"age\":35,\"isVerified\":true},\"tags\":[\"json\",\"
Xinference如何注册自定义模型玩人工智能的辣条哥人工智能 AI 大模型 Xinference
环境：Xinference问题描述：Xinference如何注册自定义模型解决方案：1.写个model_config.json，内容如下{"version":1,"context_length":2048,"model_name":"custom-llama-3","model_lang":["en","ch"],"model_ability":["generate","chat"],"model
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Shell、Bash、Zsh这都是啥啊小白码上飞 bash linux 开发语言
Zsh和Bash都是我们常用的Shell，那先搞明白啥是shell吧。Shell作为一个单词，他是“壳”的意思，蛋壳坚果壳。之所以叫壳，是为了和计算机的“核”来区分，用它表示“为使用者提供的操作界面”。所以这个命名其实很形象，翻译成中文，直译过来叫“壳层”。个人认为这个叫法很奇怪，意译貌似也没有什么好的词汇来匹配。就还是叫shell吧。维基百科给的定义是：Incomputing,ashellisa
ExpRe[25] bash外的其它shell：zsh和fish tritone ExpRe bash linux ubuntu shell
文章目录zsh基础配置实用特性插件`autojump`语法高亮自动补全fish优点缺点时效性本篇撰写时间为2021.12.15，由于计算机技术日新月异，博客中所有内容都有时效和版本限制，具体做法不一定总行得通，链接可能改动失效，各种软件的用法可能有修改。但是其中透露的思想往往是值得学习的。本篇前置：ExpRe[10]Ubuntu[2]准备神秘软件、备份恢复软件https://www.cnblogs
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

第七章 Python 盒子：模块、包和程序

前戏部分

自定义模块

第三方模块

内置模块

独立的程序

模块的导入

使用别名导入模块

导入模块的一部分

模块搜索路径

包以及包的导入

常用内置模块

一、sys

用于提供对Python解释器相关的操作：

二、os

补充

glob 模块

三、random & string

random 模块，可从一个可迭代队列中随机取出一个元素

string 模块，会返回一组 ASCII 码

随机验证

四、json & pickle 数据序列化 和 反序列化

五、shelve （一次性序列化多个数据类型）

六、time && datetime

七、 shutil （强大的文件、文件夹压缩打包）

shutil 是 Python中 高级的文件 文件夹 压缩包 处理模块

八、 xml处理

安全提示

九、 yaml处理

十、 configparser （配置文件）

十一、 hashlib （加密）

十二、subprocess

常用subprocess方法示例

subprocess实现sudo 自动输入密码

十三、logging 模块

很多程序都有记录日志的需求，并且日志中包含的信息即有正常的程序访问日志，还可能有错误、警告等信息输出，

python的logging模块提供了标准的日志接口，你可以通过它存储各种格式的日志，

logging的日志可以分为 debug(), info(), warning(), error() and critical() 5个级别，

下面我们看一下怎么用。

看一下这几个日志级别分别代表什么意思

如果想把日志写到文件里，也很简单

日志格式说明

显式配置

文件配置

十四、re 模块（正则）

十五、第三方模块 paramiko

setdefault() 和 defaultdict()处理缺失的键

使用counter()计数

使用有序字典 OrderedDict按键排序

双端序列：栈和队列

使用 itertools 迭代代码结构

使用 pprint()友好输出

你可能感兴趣的:(python,shell,json)

四、json & pickle 数据序列化和反序列化

shutil 是 Python中高级的文件文件夹压缩包处理模块

logging的日志可以分为 `debug()`, `info()`, `warning()`, `error()` and `critical() 5个级别，`