小猿取经

Python常用模块

文章目录

Python常用模块
- time模块
- - 时间戳
  - 格式化时间
  - 结构化时间
  - 不同格式时间的转换
  - 其他用法
- datetime模块
- random模块
- os模块
- sys模块
- json和pickle模块
- - 序列化
  - json
  - pickle
- hashlib模块
- - hash是什么
  - 撞库破解hash算法加密
- logging模块
- - 日志级别
  - 日志打印
  - 应用
- numpy模块
- - 创建矩阵
  - 获取矩阵的行列数
  - 切割矩阵
  - 矩阵元素替换
  - 矩阵的合并
  - 通过函数创建矩阵
  - - arange
    - linspace/logspace
    - zeros/ones/eye/empty
    - fromstring/fromfunction
  - 矩阵的运算
  - - 普通矩阵运算
    - 常用矩阵运算函数
  - 矩阵的点乘
  - 矩阵的转置
  - 矩阵的逆
  - 矩阵其他操作
  - - 最大最小值
    - 平均值
    - 方差
    - 标准差
    - 中位数
    - 矩阵求和
    - 累加和
  - numpy.random生成随机数
- pandas模块
- - Series
  - DataFrame
  - DataFrame属性
  - DataFrame取值
  - - loc/iloc
    - 使用逻辑判断取值
  - DataFrame值替换
  - 读取CSV文件
  - 处理丢失数据
  - 导入导出数据
  - 合并数据
  - 读取sql语句
- matplotlib模块
- - - 条形图
    - 直方图
    - 折线图
    - 散点图+直线图

Python常用模块

time模块

import time

时间戳

时间戳(timestamp)：时间戳表示的是从1970年1月1日00:00:00开始按秒计算的偏移量。

time_stamp = time.time()
print(time_stamp, type(time_stamp))

1552551519.291029

格式化时间

格式化的时间字符串(format string)：格式化时间表示的是普通的字符串格式的时间。

format_time = time.strftime("%Y-%m-%d %X")
print(format_time, type(format_time))

2019-03-07 16:22:11

结构化时间

结构化的时间(struct time)：struct_time元组共有9个元素共九个元素，分别为(年，月，日，时，分，秒，一年中第几周，一年中第几天，夏令时)

print('本地时区的struct_time:\n{}'.format(time.localtime()))
print('UTC时区的struct_time:\n{}'.format(time.gmtime()))

本地时区的struct_time:
time.struct_time(tm_year=2019, tm_mon=3, tm_mday=7, tm_hour=16, tm_min=22, tm_sec=11, tm_wday=3, tm_yday=66, tm_isdst=0)
UTC时区的struct_time:
time.struct_time(tm_year=2019, tm_mon=3, tm_mday=7, tm_hour=8, tm_min=22, tm_sec=11, tm_wday=3, tm_yday=66, tm_isdst=0)

# 结构化时间的基准时间
print(time.localtime(0))

time.struct_time(tm_year=1970, tm_mon=1, tm_mday=1, tm_hour=8, tm_min=0, tm_sec=0, tm_wday=3, tm_yday=1, tm_isdst=0)

# 结构化时间的基准时间上增加一年时间
print(time.localtime(3600*24*365))

time.struct_time(tm_year=1971, tm_mon=1, tm_mday=1, tm_hour=8, tm_min=0, tm_sec=0, tm_wday=4, tm_yday=1, tm_isdst=0)

不同格式时间的转换

如上图所示，我们总能通过某些方法在结构化时间-格式化时间-时间戳三者之间进行转换，下面我们将用代码展示如何通过这些方法转换时间格式。

# 结构化时间
now_time = time.localtime()
print(now_time)

time.struct_time(tm_year=2019, tm_mon=3, tm_mday=7, tm_hour=16, tm_min=22, tm_sec=11, tm_wday=3, tm_yday=66, tm_isdst=0)

# 把结构化时间转换为时间戳格式
print(time.mktime(now_time))

1551946931.0

# 把结构化时间转换为格式化时间
# %Y年-%m月-%d天 %X时分秒=%H时:%M分:%S秒
print(time.strftime("%Y-%m-%d %X", now_time))

2019-03-07 16:22:11

# 把格式化时间化为结构化时间，它和strftime()是逆操作
print(time.strptime('2013-05-20 13:14:52', '%Y-%m-%d %X'))

time.struct_time(tm_year=2013, tm_mon=5, tm_mday=20, tm_hour=13, tm_min=14, tm_sec=52, tm_wday=0, tm_yday=140, tm_isdst=-1)

# 把结构化时间表示为这种形式：'Sun Jun 20 23:21:05 1993'。
print(time.asctime())

Thu Mar  7 16:22:11 2019

# 如果没有参数，将会将time.localtime()作为参数传入。
print(time.asctime(time.localtime()))

Thu Mar  7 16:22:11 2019

# 把一个时间戳转化为time.asctime()的形式。
print(time.ctime())

Thu Mar  7 16:22:11 2019

# 如果参数未给或者为None的时候，将会默认time.time()为参数。它的作用相当于time.asctime(time.localtime(secs))。
print(time.ctime(time.time()))

Thu Mar  7 16:22:11 2019

其他用法

# 推迟指定的时间运行，单位为秒
start = time.time()
time.sleep(3)
end = time.time()

print(end-start)

3.0005428791046143

datetime模块

# datetime模块可以看成是时间加减的模块
import datetime

# 返回当前时间
print(datetime.datetime.now())

2019-03-07 16:22:14.544130

print(datetime.date.fromtimestamp(time.time()))

2019-03-07

# 当前时间+3天
print(datetime.datetime.now() + datetime.timedelta(3))

2019-03-10 16:22:14.560599

# 当前时间-3天
print(datetime.datetime.now() + datetime.timedelta(-3))

2019-03-04 16:22:14.568473

# 当前时间-3小时
print(datetime.datetime.now() + datetime.timedelta(hours=3))

2019-03-07 19:22:14.575881

# 当前时间+30分钟
print(datetime.datetime.now() + datetime.timedelta(minutes=30))

2019-03-07 16:52:14.585432

# 时间替换
c_time = datetime.datetime.now()
print(c_time.replace(minute=20, hour=5, second=13))

2019-03-07 05:20:13.595493

random模块

import random

# 大于0且小于1之间的小数
print(random.random())

0.25435092120631386

# 大于等于1且小于等于3之间的整数
print(random.randint(1, 3))

# 大于等于1且小于3之间的整数
print(random.randrange(1, 3))

# 大于1小于3的小数，如1.927109612082716
print(random.uniform(1, 3))

2.718804989532962

# 列表内的任意一个元素，即1或者‘23’或者[4,5]
print(random.choice([1, '23', [4, 5]]))

# random.sample([], n)，列表元素任意n个元素的组合，示例n=2
print(random.sample([1, '23', [4, 5]], 2))

[[4, 5], '23']

lis = [1, 3, 5, 7, 9]
# 打乱l的顺序,相当于"洗牌"
random.shuffle(lis)
print(lis)

[1, 3, 9, 7, 5]

os模块

os模块负责程序与操作系统交互。

方法	详解
os.getcwd()	获取当前工作目录，即当前python脚本工作的目录路径
os.chdir(“dirname”)	改变当前脚本工作目录；相当于shell下cd
os.curdir	返回当前目录: (’.’)
os.pardir	获取当前目录的父目录字符串名：(’…’)
os.makedirs(‘dirname1/dirname2’)	可生成多层递归目录
os.removedirs(‘dirname1’)	若目录为空，则删除，并递归到上一级目录，如若也为空，则删除，依此类推
os.mkdir(‘dirname’)	生成单级目录；相当于shell中mkdir dirname
os.rmdir(‘dirname’)	删除单级空目录，若目录不为空则无法删除，报错；相当于shell中rmdir dirname
os.listdir(‘dirname’)	列出指定目录下的所有文件和子目录，包括隐藏文件，并以列表方式打印
os.remove()	删除一个文件
os.rename(“oldname”,“newname”)	重命名文件/目录
os.stat(‘path/filename’)	获取文件/目录信息
os.sep	输出操作系统特定的路径分隔符，win下为"\",Linux下为"/"
os.linesep	输出当前平台使用的行终止符，win下为"\t\n",Linux下为"\n"
os.pathsep	输出用于分割文件路径的字符串 win下为;,Linux下为:
os.name	输出字符串指示当前使用平台。win->‘nt’; Linux->‘posix’
os.system(“bash command”)	运行shell命令，直接显示
os.environ	获取系统环境变量
os.path.abspath(path)	返回path规范化的绝对路径
os.path.split(path)	将path分割成目录和文件名二元组返回
os.path.dirname(path)	返回path的目录。其实就是os.path.split(path)的第一个元素
os.path.basename(path)	返回path最后的文件名。如何path以／或\结尾，那么就会返回空值。即os.path.split(path)的第二个元素
os.path.exists(path)	如果path存在，返回True；如果path不存在，返回False
os.path.isabs(path)	如果path是绝对路径，返回True
os.path.isfile(path)	如果path是一个存在的文件，返回True。否则返回False
os.path.isdir(path)	如果path是一个存在的目录，则返回True。否则返回False
os.path.join(path1[, path2[, …]])	将多个路径组合后返回，第一个绝对路径之前的参数将被忽略
os.path.getatime(path)	返回path所指向的文件或者目录的最后存取时间
os.path.getmtime(path)	返回path所指向的文件或者目录的最后修改时间

os.path.getsize(path) 返回path的大小

sys模块

sys模块负责程序与Python解释器进行交互。

方法	详解
sys.argv	命令行参数List，第一个元素是程序本身路径
sys.modules.keys()	返回所有已经导入的模块列表
sys.exc_info()	获取当前正在处理的异常类,exc_type、exc_value、exc_traceback当前处理的异常详细信息
sys.exit(n)	退出程序，正常退出时exit(0)
sys.hexversion	获取Python解释程序的版本值，16进制格式如：0x020403F0
sys.version	获取Python解释程序的版本信息
sys.maxint	最大的Int值
sys.maxunicode	最大的Unicode值
sys.modules	返回系统导入的模块字段，key是模块名，value是模块
sys.path	返回模块的搜索路径，初始化时使用PYTHONPATH环境变量的值
sys.platform	返回操作系统平台名称
sys.stdout	标准输出
sys.stdin	标准输入
sys.stderr	错误输出
sys.exc_clear()	用来清除当前线程所出现的当前的或最近的错误信息
sys.exec_prefix	返回平台独立的python文件安装的位置
sys.byteorder	本地字节规则的指示器，big-endian平台的值是’big’,little-endian平台的值是’little’
sys.copyright	记录python版权相关的东西
sys.api_version	解释器的C的API版本

json和pickle模块

序列化

把对象(变量)从内存中变成可存储或传输的过程称之为序列化，在Python中叫pickling，在其他语言中也被称之为serialization，marshalling，flattening。

序列化的优点：

持久保存状态：内存是无法永久保存数据的，当程序运行了一段时间，我们断电或者重启程序，内存中关于这个程序的之前一段时间的数据（有结构）都被清空了。但是在断电或重启程序之前将程序当前内存中所有的数据都保存下来（保存到文件中），以便于下次程序执行能够从文件中载入之前的数据，然后继续执行，这就是序列化。
跨平台数据交互：序列化时不仅可以把序列化后的内容写入磁盘，还可以通过网络传输到别的机器上，如果收发的双方约定好实用一种序列化的格式，那么便打破了平台/语言差异化带来的限制，实现了跨平台数据交互。

json

Json序列化并不是python独有的，json序列化在java等语言中也会涉及到，因此使用json序列化能够达到跨平台传输数据的目的。

json数据类型和python数据类型对应关系表

Json类型	Python类型
{}	dict
[]	list
“string”	str
520.13	int或float
true/false	True/False
null	None

json模块序列化和反序列化的一个过程如下图所示

import json

struct_data = {
     'name': 'json', 'age': 23, 'sex': 'male'}
print(struct_data, type(struct_data))

{'name': 'json', 'age': 23, 'sex': 'male'}

data = json.dumps(struct_data)
print(data, type(data))

{"name": "json", "age": 23, "sex": "male"}

# 注意：无论数据是怎样创建的，只要满足json格式（如果是字典，则字典内元素都是双引号），就可以json.loads出来,不一定非要dumps的数据才能loads
data = json.loads(data)
print(data, type(data))

{'name': 'json', 'age': 23, 'sex': 'male'}

# 序列化
with open('Json序列化对象.json', 'w') as fw:
    json.dump(struct_data, fw)

# 反序列化
with open('Json序列化对象.json') as fr:
    data = json.load(fr)
print(data)

{'name': 'json', 'age': 23, 'sex': 'male'}

pickle

Pickle序列化和所有其他编程语言特有的序列化问题一样，它只能用于Python，并且可能不同版本的Python彼此都不兼容，因此，只能用Pickle保存那些不重要的数据，即不能成功地反序列化也没关系。但是pickle的好处是可以存储Python中的所有的数据类型，包括对象，而json不可以。

pickle模块序列化和反序列化的过程如下图所示

import pickle

struct_data = {
     'name': 'json', 'age': 23, 'sex': 'male'}
print(struct_data, type(struct_data))

{'name': 'json', 'age': 23, 'sex': 'male'}

data = pickle.dumps(struct_data)
print(data, type(data))

b'\x80\x03}q\x00(X\x04\x00\x00\x00nameq\x01X\x04\x00\x00\x00jsonq\x02X\x03\x00\x00\x00ageq\x03K\x17X\x03\x00\x00\x00sexq\x04X\x04\x00\x00\x00maleq\x05u.'

data = pickle.loads(data)
print(data, type(data))

{'name': 'json', 'age': 23, 'sex': 'male'}

# 序列化(注意：pickle模块需要使用二进制存储，即'wb'模式存储)
with open('Pickle序列化对象.pkl', 'wb') as fw:
    pickle.dump(struct_data, fw)

# 反序列化
with open('Pickle序列化对象.pkl', 'rb') as fr:
    pickle = pickle.load(fr)
print(data)

{'name': 'json', 'age': 23, 'sex': 'male'}

hashlib模块

hash是什么

hash是一种算法（Python3.版本里使用hashlib模块代替了md5模块和sha模块，主要提供 SHA1、SHA224、SHA256、SHA384、SHA512、MD5 算法），该算法接受传入的内容，经过运算得到一串hash值。

hash值的特点：

只要传入的内容一样，得到的hash值一样，可用于非明文密码传输时密码校验
不能由hash值返解成内容，即可以保证非明文密码的安全性
只要使用的hash算法不变，无论校验的内容有多大，得到的hash值长度是固定的，可以用于对文本的哈希处理

hash算法其实可以看成如下图所示的一座工厂，工厂接收你送来的原材料，经过加工返回的产品就是hash值

import hashlib

m = hashlib.md5()

m.update('hello'.encode('utf8'))
print(m.hexdigest())

5d41402abc4b2a76b9719d911017c592

m.update('hash'.encode('utf8'))
print(m.hexdigest())

97fa850988687b8ceb12d773347f7712

m2 = hashlib.md5()
m2.update('hellohash'.encode('utf8'))
print(m2.hexdigest())

97fa850988687b8ceb12d773347f7712

m3 = hashlib.md5()
m3.update('hello'.encode('utf8'))
print(m3.hexdigest())

5d41402abc4b2a76b9719d911017c592

撞库破解hash算法加密

hash加密算法虽然看起来很厉害，但是他是存在一定缺陷的，即可以通过撞库可以反解，如下代码所示。

import hashlib

# 假定我们知道hash的微信会设置如下几个密码
pwd_list = [
    'hash3714',
    'hash1313',
    'hash94139413',
    'hash123456',
    '123456hash',
    'h123ash',
]


def make_pwd_dic(pwd_list):
    dic = {
     }
    for pwd in pwd_list:
        m = hashlib.md5()
        m.update(pwd.encode('utf-8'))
        dic[pwd] = m.hexdigest()
    return dic


def break_code(hash_pwd, pwd_dic):
    for k, v in pwd_dic.items():
        if v == hash_pwd:
            print('hash的微信的密码是===>\033[46m%s\033[0m' % k)


hash_pwd = '0562b36c3c5a3925dbe3c4d32a4f2ba2'
break_code(hash_pwd, make_pwd_dic(pwd_list))

hash的微信的密码是===>[46mhash123456[0m

为了防止密码被撞库，我们可以使用python中的另一个hmac 模块，它内部对我们创建key和内容做过某种处理后再加密。

如果要保证hmac模块最终结果一致，必须保证：

hmac.new括号内指定的初始key一样
无论update多少次，校验的内容累加到一起是一样的内容

import hmac

# 注意hmac模块只接受二进制数据的加密
h1 = hmac.new(b'hash')
h1.update(b'hello')
h1.update(b'world')
print(h1.hexdigest())

905f549c5722b5850d602862c34a763e

h2 = hmac.new(b'hash')
h2.update(b'helloworld')
print(h2.hexdigest())

905f549c5722b5850d602862c34a763e

h3 = hmac.new(b'hashhelloworld')
print(h3.hexdigest())

a7e524ade8ac5f7f33f3a39a8f63fd25

logging模块

日志级别

CRITICAL = 50
ERROR = 40
WARNING = 30
INFO = 20
DEBUG = 10
NOTSET = 0

日志打印

import logging

# 默认级别为warning，错误级别达到warning以上的才会被打印
# logging.debug('调试debug')
# logging.info('消息info')
# logging.warning('警告warn')
# logging.error('错误error')
# logging.critical('严重critical')

[DEBUG][2019-03-07 16:22:14,853][:4]调试debug
[INFO][2019-03-07 16:22:14,857][:5]消息info
[WARNING][2019-03-07 16:22:14,858][:6]警告warn
[ERROR][2019-03-07 16:22:14,860][:7]错误error
[CRITICAL][2019-03-07 16:22:14,862][:8]严重critical

应用

# logging文件配置
import os
import logging.config

# 定义三种日志输出格式 开始
standard_format = '[%(asctime)s][%(threadName)s:%(thread)d][task_id:%(name)s][%(filename)s:%(lineno)d]' \
                  '[%(levelname)s][%(message)s]'  # 其中name为getlogger指定的名字
simple_format = '[%(levelname)s][%(asctime)s][%(filename)s:%(lineno)d]%(message)s'
id_simple_format = '[%(levelname)s][%(asctime)s] %(message)s'


logfile_dir = 'os.path.dirname(os.path.abspath(__file__))'  # log文件的目录

logfile_name = 'logfile.log'  # log文件名

# 如果不存在定义的日志目录就创建一个
if not os.path.isdir(logfile_dir):
    os.mkdir(logfile_dir)

# log文件的全路径
logfile_path = os.path.join(logfile_dir, logfile_name)

# log配置字典
LOGGING_DIC = {
     
    'version': 1,
    # 是否删除已经存在的日志
    'disable_existing_loggers': False,
    # 日志格式
    'formatters': {
     
        'standard': {
     
            'format': standard_format
        },
        'simple': {
     
            'format': simple_format
        },
    },
    'filters': {
     },
    'handlers': {
     
        # 打印到终端的日志
        'console': {
     
            'level': 'DEBUG',
            'class': 'logging.StreamHandler',  # 打印到屏幕
            'formatter': 'simple'
        },
        # 打印到文件的日志,收集info及以上的日志
        'default': {
     
            'level': 'DEBUG',
            'class': 'logging.handlers.RotatingFileHandler',  # 保存到文件
            'formatter': 'standard',
            'filename': logfile_path,  # 日志文件
            'maxBytes': 1024*1024*5,  # 日志大小 5M
            'backupCount': 5,
            'encoding': 'utf-8',  # 日志文件的编码
        },
    },
    'loggers': {
     
        # logging.getLogger(__name__)拿到的logger配置
        '': {
     
            # 这里把上面定义的两个handler都加上，即log数据既写入文件又打印到屏幕
            'handlers': ['default', 'console'],
            'level': 'DEBUG',
            'propagate': True,  # 向上（更高level的logger）传递
        },
    },
}


def load_my_logging_cfg():
    logging.config.dictConfig(LOGGING_DIC)  # 导入上面定义的logging配置
    logger = logging.getLogger(__name__)  # 生成一个log实例
    logger.info('It works!')  # 记录该文件的运行状态


if __name__ == '__main__':
    load_my_logging_cfg()

# 测试使用日志文件配置

import time
import logging
import my_logging  # 导入自定义的logging配置，上面的日志配置文件

logger = logging.getLogger(__name__)  # 生成logger实例


def demo():
    logger.debug("start range. time:{}".format(time.time()))
    logger.info("中文测试开始。")
    for i in range(10):
        logger.debug("i:{}".format(i))
        time.sleep(0.2)
    else:
        logger.debug("over range. time:{}".format(time.time()))
    logger.info("中文测试结束。")


if __name__ == "__main__":
    my_logging.load_my_logging_cfg()  # 在你程序文件的入口加载自定义logging配置
    demo()

numpy模块

numpy官方文档：https://docs.scipy.org/doc/numpy/reference/?v=20190307135750

numpy是Python的一种开源的数值计算扩展库。这种库可用来存储和处理大型矩阵，比Python自身的嵌套列表结构要高效的多（该结构也可以用来表示矩阵）。

numpy库有两个作用：

区别于list列表，提供了数组操作、数组运算、以及统计分布和简单的数学模型
计算速度快，甚至要由于python内置的简单运算，使得其成为pandas、sklearn等模块的依赖包。高级的框架如TensorFlow、PyTorch等，其数组操作也和numpy非常相似。

创建矩阵

矩阵即numpy的ndarray对象，创建矩阵就是把一个列表传入np.array()方法。

import numpy as np

# 创建一维的ndarray对象
arr = np.array([1, 2, 3])
print(arr, type(arr))

[1 2 3]

# 创建二维的ndarray对象
print(np.array([[1, 2, 3], [4, 5, 6]]))

[[1 2 3]
 [4 5 6]]

# 创建三维的ndarray对象
print(np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]))

[[1 2 3]
 [4 5 6]
 [7 8 9]]

获取矩阵的行列数

arr = np.array([[1, 2, 3], [4, 5, 6]])
print(arr)

[[1 2 3]
 [4 5 6]]

# 获取矩阵的行和列构成的数组
print(arr.shape)

(2, 3)

# 获取矩阵的行
print(arr.shape[0])

# 获取矩阵的列
print(arr.shape[1])

切割矩阵

切分矩阵类似于列表的切割，但是与列表的切割不同的是，矩阵的切割涉及到行和列的切割，但是两者切割的方式都是从索引0开始，并且取头不取尾。

arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print(arr)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]

# 取所有元素
print(arr[:, :])

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]

# 取第一行的所有元素
print(arr[:1, :])

[[1 2 3 4]]

# 取第一行的所有元素
print(arr[0, [0, 1, 2, 3]])

[1 2 3 4]

# 取第一列的所有元素
print(arr[:, :1])

[[1]
 [5]
 [9]]

# 取第一列的所有元素
print(arr[(0, 1, 2), 0])

[1 5 9]

# 取第一行第一列的元素
print(arr[(0, 1, 2), 0])

[1 5 9]

# 取第一行第一列的元素
print(arr[0, 0])

# 取大于5的元素，返回一个数组
print(arr[arr > 5])

[ 6  7  8  9 10 11 12]

# 矩阵按运算符取元素的原理，即通过arr > 5生成一个布尔矩阵
print(arr > 5)

[[False False False False]
 [False  True  True  True]
 [ True  True  True  True]]

矩阵元素替换

矩阵元素的替换，类似于列表元素的替换，并且矩阵也是一个可变类型的数据，即如果对矩阵进行替换操作，会修改原矩阵的元素，所以下面我们用.copy()方法举例矩阵元素的替换。

arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print(arr)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]

# 取第一行的所有元素，并且让第一行的元素都为0
arr1 = arr.copy()
arr1[:1, :] = 0
print(arr1)

[[ 0  0  0  0]
 [ 5  6  7  8]
 [ 9 10 11 12]]

# 取所有大于5的元素，并且让大于5的元素为0
arr2 = arr.copy()
arr2[arr > 5] = 0
print(arr2)

[[1 2 3 4]
 [5 0 0 0]
 [0 0 0 0]]

# 对矩阵清零
arr3 = arr.copy()
arr3[:, :] = 0
print(arr3)

[[0 0 0 0]
 [0 0 0 0]
 [0 0 0 0]]

矩阵的合并

arr1 = np.array([[1, 2], [3, 4], [5, 6]])
print(arr1)

[[1 2]
 [3 4]
 [5 6]]

arr2 = np.array([[7, 8], [9, 10], [11, 12]])
print(arr2)

[[ 7  8]
 [ 9 10]
 [11 12]]

# 合并两个矩阵的行，注意使用hstack()方法合并矩阵，矩阵应该有相同的行，其中hstack的h表示horizontal水平的
print(np.hstack((arr1, arr2)))

[[ 1  2  7  8]
 [ 3  4  9 10]
 [ 5  6 11 12]]

# 合并两个矩阵，其中axis=1表示合并两个矩阵的行
print(np.concatenate((arr1, arr2), axis=1))

[[ 1  2  7  8]
 [ 3  4  9 10]
 [ 5  6 11 12]]

# 合并两个矩阵的列，注意使用vstack()方法合并矩阵，矩阵应该有相同的列，其中vstack的v表示vertical垂直的
print(np.vstack((arr1, arr2)))

[[ 1  2]
 [ 3  4]
 [ 5  6]
 [ 7  8]
 [ 9 10]
 [11 12]]

# 合并两个矩阵，其中axis=0表示合并两个矩阵的列
print(np.concatenate((arr1, arr2), axis=0))

[[ 1  2]
 [ 3  4]
 [ 5  6]
 [ 7  8]
 [ 9 10]
 [11 12]]

通过函数创建矩阵

arange

# 构造0-9的ndarray数组
print(np.arange(10))

[0 1 2 3 4 5 6 7 8 9]

# 构造1-4的ndarray数组
print(np.arange(1, 5))

[1 2 3 4]

# 构造1-19且步长为2的ndarray数组
print(np.arange(1, 20, 2))

[ 1  3  5  7  9 11 13 15 17 19]

linspace/logspace

# 构造一个等差数列，取头也取尾，从0取到20，取5个数
print(np.linspace(0, 20, 5))

[  0.   5.  10.  15.  20.]

# 构造一个等比数列，从10**0取到10**20，取5个数
print(np.logspace(0, 20, 5))

[  1.00000000e+00   1.00000000e+05   1.00000000e+10   1.00000000e+15
   1.00000000e+20]

zeros/ones/eye/empty

# 构造3*4的全0矩阵
print(np.zeros((3, 4)))

[[ 0.  0.  0.  0.]
 [ 0.  0.  0.  0.]
 [ 0.  0.  0.  0.]]

# 构造3*4的全1矩阵
print(np.ones((3, 4)))

[[ 1.  1.  1.  1.]
 [ 1.  1.  1.  1.]
 [ 1.  1.  1.  1.]]

# 构造3个主元的单位矩阵
print(np.eye(3))

[[ 1.  0.  0.]
 [ 0.  1.  0.]
 [ 0.  0.  1.]]

# 构造一个4*4的随机矩阵，里面的元素是随机生成的
print(np.empty((4, 4)))

[[  1.72723371e-077  -2.68678116e+154   3.95252517e-323   0.00000000e+000]
 [  0.00000000e+000   0.00000000e+000   0.00000000e+000   0.00000000e+000]
 [  0.00000000e+000   0.00000000e+000   0.00000000e+000   0.00000000e+000]
 [  0.00000000e+000   0.00000000e+000   0.00000000e+000   1.17248833e-308]]

fromstring/fromfunction

# fromstring通过对字符串的字符编码所对应ASCII编码的位置，生成一个ndarray对象
s = 'abcdef'
# np.int8表示一个字符的字节数为8
print(np.fromstring(s, dtype=np.int8))

[ 97  98  99 100 101 102]

def func(i, j):
    """其中i为矩阵的行，j为矩阵的列"""
    return i*j


# 使用函数对矩阵元素的行和列的索引做处理，得到当前元素的值，索引从0开始，并构造一个3*4的矩阵
print(np.fromfunction(func, (3, 4)))

[[ 0.  0.  0.  0.]
 [ 0.  1.  2.  3.]
 [ 0.  2.  4.  6.]]

矩阵的运算

普通矩阵运算

运算符	说明
+	两个矩阵对应元素相加
-	两个矩阵对应元素相减
*	两个矩阵对应元素相乘
/	两个矩阵对应元素相除，如果都是整数则取商
%	两个矩阵对应元素相除后取余数
**n	单个矩阵每个元素都取n次方，如**2：每个元素都取平方

arrarr1 = np.array([[1, 2], [3, 4], [5, 6]])
print(arr1)

[[1 2]
 [3 4]
 [5 6]]

arr2 = np.array([[7, 8], [9, 10], [11, 12]])
print(arr2)

[[ 7  8]
 [ 9 10]
 [11 12]]

print(arr1+arr2)

[[ 8 10]
 [12 14]
 [16 18]]

print(arr1**2)

[[ 1  4]
 [ 9 16]
 [25 36]]

常用矩阵运算函数

矩阵函数	详解
np.sin(arr)	对矩阵arr中每个元素取正弦， $s i n (x)$
np.cos(arr)	对矩阵arr中每个元素取余弦， $c o s (x)$
np.tan(arr)	对矩阵arr中每个元素取正切， $t a n (x)$
np.arcsin(arr)	对矩阵arr中每个元素取反正弦， $a r c s i n (x)$
np.arccos(arr)	对矩阵arr中每个元素取反余弦， $a r c c o s (x)$
np.arctan(arr)	对矩阵arr中每个元素取反正切， $a r c t a n (x)$
np.exp(arr)	对矩阵arr中每个元素取指数函数， $e^x$
np.sqrt(arr)	对矩阵arr中每个元素开根号 $\sqrt{x}$

arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print(arr)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]

# 对矩阵的所有元素取正弦
print(np.sin(arr))

[[ 0.84147098  0.90929743  0.14112001 -0.7568025 ]
 [-0.95892427 -0.2794155   0.6569866   0.98935825]
 [ 0.41211849 -0.54402111 -0.99999021 -0.53657292]]

# 对矩阵的所有元素开根号
print(np.sqrt(arr))

[[ 1.          1.41421356  1.73205081  2.        ]
 [ 2.23606798  2.44948974  2.64575131  2.82842712]
 [ 3.          3.16227766  3.31662479  3.46410162]]

# 对矩阵的所有元素取反正弦，如果元素不在定义域内，则会取nan值
print(np.arcsin(arr))

[[ 1.57079633         nan         nan         nan]
 [        nan         nan         nan         nan]
 [        nan         nan         nan         nan]]


/Applications/anaconda3/lib/python3.6/site-packages/ipykernel_launcher.py:2: RuntimeWarning: invalid value encountered in arcsin

矩阵的点乘

矩阵的点乘必须满足第一个矩阵的列数等于第二个矩阵的行数，即 $m*n·{n*m}=m*m$ 。

arr1 = np.array([[1, 2, 3],  [4, 5, 6]])
print(arr1.shape)

(2, 3)

arr2 = np.array([[7, 8], [9, 10], [11, 12]])
print(arr2.shape)

(3, 2)

assert arr1.shape[0] == arr2.shape[1]
# 2*3·3*2 = 2*2
print(arr2.shape)

(3, 2)

矩阵的转置

矩阵的转置，相当于矩阵的行和列互换。

arr = np.array([[1, 2, 3],  [4, 5, 6]])
print(arr)

[[1 2 3]
 [4 5 6]]

print(arr.transpose())

[[1 4]
 [2 5]
 [3 6]]

print(arr.T)

[[1 4]
 [2 5]
 [3 6]]

矩阵的逆

矩阵行和列相同时，矩阵才可逆。

arr = np.array([[1, 2, 3],  [4, 5, 6], [7, 8, 9]])
print(arr)

[[1 2 3]
 [4 5 6]
 [7 8 9]]

print(np.linalg.inv(arr))

[[  3.15251974e+15  -6.30503948e+15   3.15251974e+15]
 [ -6.30503948e+15   1.26100790e+16  -6.30503948e+15]
 [  3.15251974e+15  -6.30503948e+15   3.15251974e+15]]

# 单位矩阵的逆是单位矩阵本身
arr = np.eye(3)
print(arr)

[[ 1.  0.  0.]
 [ 0.  1.  0.]
 [ 0.  0.  1.]]

print(np.linalg.inv(arr))

[[ 1.  0.  0.]
 [ 0.  1.  0.]
 [ 0.  0.  1.]]

矩阵其他操作

最大最小值

arr = np.array([[1, 2, 3],  [4, 5, 6], [7, 8, 9]])
print(arr)

[[1 2 3]
 [4 5 6]
 [7 8 9]]

# 获取矩阵所有元素中的最大值
print(arr.max())

# 获取矩阵所有元素中的最小值
print(arr.min())

# 获取举着每一行的最大值
print(arr.max(axis=0))

[7 8 9]

# 获取矩阵每一列的最大值
print(arr.max(axis=1))

[3 6 9]

# 获取矩阵最大元素的索引位置
print(arr.argmax(axis=1))

[2 2 2]

平均值

arr = np.array([[1, 2, 3],  [4, 5, 6], [7, 8, 9]])
print(arr)

[[1 2 3]
 [4 5 6]
 [7 8 9]]

# 获取矩阵所有元素的平均值
print(arr.mean())

5.0

# 获取矩阵每一列的平均值
print(arr.mean(axis=0))

[ 4.  5.  6.]

# 获取矩阵每一行的平均值
print(arr.mean(axis=1))

[ 2.  5.  8.]

方差

方差公式为
$mean(|x-x.mean()|^2)$
其中x为矩阵。

arr = np.array([[1, 2, 3],  [4, 5, 6], [7, 8, 9]])
print(arr)

[[1 2 3]
 [4 5 6]
 [7 8 9]]

# 获取矩阵所有元素的方差
print(arr.var())

6.66666666667

# 获取矩阵每一列的元素的方差
print(arr.var(axis=0))

[ 6.  6.  6.]

# 获取矩阵每一行的元素的方差
print(arr.var(axis=1))

[ 0.66666667  0.66666667  0.66666667]

标准差

标准差公式为
$\sqrt{mean|x-x.mean()|^2} = \sqrt{x.var()}$

arr = np.array([[1, 2, 3],  [4, 5, 6], [7, 8, 9]])
print(arr)

[[1 2 3]
 [4 5 6]
 [7 8 9]]

# 获取矩阵所有元素的标准差
print(arr.std())

2.58198889747

# 获取矩阵每一列的标准差
print(arr.std(axis=0))

[ 2.44948974  2.44948974  2.44948974]

# 获取矩阵每一行的标准差
print(arr.std(axis=1))

[ 0.81649658  0.81649658  0.81649658]

中位数

arr = np.array([[1, 2, 3],  [4, 5, 6], [7, 8, 9]])
print(arr)

[[1 2 3]
 [4 5 6]
 [7 8 9]]

# 获取矩阵所有元素的中位数
print(np.median(arr))

5.0

# 获取矩阵每一列的中位数
print(np.median(arr, axis=0))

[ 4.  5.  6.]

# 获取矩阵每一行的中位数
print(np.median(arr, axis=1))

[ 2.  5.  8.]

矩阵求和

arr = np.array([[1, 2, 3],  [4, 5, 6], [7, 8, 9]])
print(arr)

[[1 2 3]
 [4 5 6]
 [7 8 9]]

# 对矩阵的每一个元素求和
print(arr.sum())

# 对矩阵的每一列求和
print(arr.sum(axis=0))

[12 15 18]

# 对矩阵的每一行求和
print(arr.sum(axis=1))

[ 6 15 24]

累加和

arr = np.array([1, 2, 3, 4, 5])
print(arr)

[1 2 3 4 5]

# 第n个元素为前n-1个元素累加和
print(arr.cumsum())

[ 1  3  6 10 15]

numpy.random生成随机数

函数名称	函数功能	参数说明
rand( $d_0, d_1, \cdots , d_n$ )	产生均匀分布的随机数	$d_n$ 为第n维数据的维度
randn( $d_0, d_1, \cdots , d_n$ )	产生标准正态分布随机数	$d_n$ 为第n维数据的维度
randint(low[, high, size, dtype])	产生随机整数	low:最小值；high:最大值；size:数据个数
random_sample([size])	在$[0,1)$内产生随机数	size为随机数的shape，可以为元祖或者列表
choice(a[, size])	从arr中随机选择指定数据	arr为1维数组；size为数据形状

# RandomState()方法会让数据值随机一次，之后都是相同的数据
rs = np.random.RandomState(1)
print(rs.rand(10))

[  4.17022005e-01   7.20324493e-01   1.14374817e-04   3.02332573e-01
   1.46755891e-01   9.23385948e-02   1.86260211e-01   3.45560727e-01
   3.96767474e-01   5.38816734e-01]

# 构造3*4的均匀分布的矩阵
# seed()方法会让数据值随机一次，之后都是相同的数据
np.random.seed(1)
print(np.random.rand(3, 4))

[[  4.17022005e-01   7.20324493e-01   1.14374817e-04   3.02332573e-01]
 [  1.46755891e-01   9.23385948e-02   1.86260211e-01   3.45560727e-01]
 [  3.96767474e-01   5.38816734e-01   4.19194514e-01   6.85219500e-01]]

# 构造3*4*5的均匀分布的矩阵
print(np.random.rand(3, 4, 5))

[[[ 0.20445225  0.87811744  0.02738759  0.67046751  0.4173048 ]
  [ 0.55868983  0.14038694  0.19810149  0.80074457  0.96826158]
  [ 0.31342418  0.69232262  0.87638915  0.89460666  0.08504421]
  [ 0.03905478  0.16983042  0.8781425   0.09834683  0.42110763]]

 [[ 0.95788953  0.53316528  0.69187711  0.31551563  0.68650093]
  [ 0.83462567  0.01828828  0.75014431  0.98886109  0.74816565]
  [ 0.28044399  0.78927933  0.10322601  0.44789353  0.9085955 ]
  [ 0.29361415  0.28777534  0.13002857  0.01936696  0.67883553]]

 [[ 0.21162812  0.26554666  0.49157316  0.05336255  0.57411761]
  [ 0.14672857  0.58930554  0.69975836  0.10233443  0.41405599]
  [ 0.69440016  0.41417927  0.04995346  0.53589641  0.66379465]
  [ 0.51488911  0.94459476  0.58655504  0.90340192  0.1374747 ]]]

# 构造3*4的正态分布的矩阵
print(np.random.randn(3, 4))

[[ 0.30017032 -0.35224985 -1.1425182  -0.34934272]
 [-0.20889423  0.58662319  0.83898341  0.93110208]
 [ 0.28558733  0.88514116 -0.75439794  1.25286816]]

# 构造取值为1-5内的10个元素的ndarray数组
print(np.random.randint(1, 5, 10))

[1 1 1 2 3 1 2 1 3 4]

# 构造取值为0-1内的3*4的矩阵
print(np.random.random_sample((3, 4)))

[[ 0.62169572  0.11474597  0.94948926  0.44991213]
 [ 0.57838961  0.4081368   0.23702698  0.90337952]
 [ 0.57367949  0.00287033  0.61714491  0.3266449 ]]

arr = np.array([1, 2, 3])
# 随机选取arr中的两个元素
print(np.random.choice(arr, size=2))

[1 3]

pandas模块

pandas官方文档：https://pandas.pydata.org/pandas-docs/stable/?v=20190307135750

pandas基于Numpy，可以看成是处理文本或者表格数据。pandas中有两个主要的数据结构，其中Series数据结构类似于Numpy中的一维数组，DataFrame类似于多维表格数据结构。

pandas是python数据分析的核心模块。它主要提供了五大功能:

支持文件存取操作，支持数据库(sql)、html、json、pickle、csv(txt、excel)、sas、stata、hdf等。
支持增删改查、切片、高阶函数、分组聚合等单表操作，以及和dict、list的互相转换。
支持多表拼接合并操作。
支持简单的绘图操作。
支持简单的统计分析操作。

Series

import numpy as np
import pandas as pd

arr = np.array([1, 2, 3, 4, np.nan, ])
print(arr)

[ 1.  2.  3.  4. nan]

s = pd.Series(arr)
print(s)

0    1.0
1    2.0
2    3.0
3    4.0
4    NaN
dtype: float64

import random

random.randint(1,10)

import numpy as np
np.random.randn(6,4)

array([[-0.42660201,  2.61346133,  0.01214827, -1.43370137],
       [-0.28285711,  0.14871693,  0.22235496, -2.63142648],
       [ 0.78324411, -0.72633723, -0.23258796,  0.03855565],
       [-0.30033472, -1.19873979, -1.72660722,  0.75214317],
       [ 1.48194193,  0.11089792,  0.8845003 , -1.26433672],
       [ 1.29958399, -1.75092753,  0.06823543, -0.64219199]])

DataFrame

dates = pd.date_range('20190101', periods=6)
print(dates)

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06'],
              dtype='datetime64[ns]', freq='D')

np.random.seed(1)
arr = 10*np.random.randn(6, 4)
print(arr)

[[ 16.24345364  -6.11756414  -5.28171752 -10.72968622]
 [  8.65407629 -23.01538697  17.44811764  -7.61206901]
 [  3.19039096  -2.49370375  14.62107937 -20.60140709]
 [ -3.22417204  -3.84054355  11.33769442 -10.99891267]
 [ -1.72428208  -8.77858418   0.42213747   5.82815214]
 [-11.00619177  11.4472371    9.01590721   5.02494339]]

df = pd.DataFrame(arr, index=dates, columns=['c1', 'c2', 'c3', 'c4'])
df

	c1	c2	c3	c4
2019-01-01	16.243454	-6.117564	-5.281718	-10.729686
2019-01-02	8.654076	-23.015387	17.448118	-7.612069
2019-01-03	3.190391	-2.493704	14.621079	-20.601407
2019-01-04	-3.224172	-3.840544	11.337694	-10.998913
2019-01-05	-1.724282	-8.778584	0.422137	5.828152
2019-01-06	-11.006192	11.447237	9.015907	5.024943

# 使用pandas读取字典形式的数据
df2 = pd.DataFrame({
     'a': 1, 'b': [2, 3], 'c': np.arange(2), 'd': 'hello'})
df2

	a	b	c	d
0	1	2	0	hello
1	1	3	1	hello

DataFrame属性

属性	详解
dtype	查看数据类型
index	查看行序列或者索引
columns	查看各列的标签
values	查看数据框内的数据，也即不含表头索引的数据
describe	查看数据每一列的极值，均值，中位数，只可用于数值型数据
transpose	转置，也可用Ｔ来操作
sort_index	排序，可按行或列index排序输出
sort_values	按数据值来排序

# 查看数据类型
print(df2.dtypes)

a     int64
b     int64
c     int64
d    object
dtype: object

df

	c1	c2	c3	c4
2019-01-01	16.243454	-6.117564	-5.281718	-10.729686
2019-01-02	8.654076	-23.015387	17.448118	-7.612069
2019-01-03	3.190391	-2.493704	14.621079	-20.601407
2019-01-04	-3.224172	-3.840544	11.337694	-10.998913
2019-01-05	-1.724282	-8.778584	0.422137	5.828152
2019-01-06	-11.006192	11.447237	9.015907	5.024943

print(df.index)

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05', '2019-01-06'],
              dtype='datetime64[ns]', freq='D')

print(df.columns)

Index(['c1', 'c2', 'c3', 'c4'], dtype='object')

print(df.values)

[[ 16.24345364  -6.11756414  -5.28171752 -10.72968622]
 [  8.65407629 -23.01538697  17.44811764  -7.61206901]
 [  3.19039096  -2.49370375  14.62107937 -20.60140709]
 [ -3.22417204  -3.84054355  11.33769442 -10.99891267]
 [ -1.72428208  -8.77858418   0.42213747   5.82815214]
 [-11.00619177  11.4472371    9.01590721   5.02494339]]

df.describe()

	c1	c2	c3	c4
count	6.000000	6.000000	6.000000	6.000000
mean	2.022213	-5.466424	7.927203	-6.514830
std	9.580084	11.107772	8.707171	10.227641
min	-11.006192	-23.015387	-5.281718	-20.601407
25%	-2.849200	-8.113329	2.570580	-10.931606
50%	0.733054	-4.979054	10.176801	-9.170878
75%	7.288155	-2.830414	13.800233	1.865690
max	16.243454	11.447237	17.448118	5.828152

df.T

	2019-01-01 00:00:00	2019-01-02 00:00:00	2019-01-03 00:00:00	2019-01-04 00:00:00	2019-01-05 00:00:00	2019-01-06 00:00:00
c1	16.243454	8.654076	3.190391	-3.224172	-1.724282	-11.006192
c2	-6.117564	-23.015387	-2.493704	-3.840544	-8.778584	11.447237
c3	-5.281718	17.448118	14.621079	11.337694	0.422137	9.015907
c4	-10.729686	-7.612069	-20.601407	-10.998913	5.828152	5.024943

# 按行标签从大到小排序
df.sort_index(axis=0)

	c1	c2	c3	c4
2019-01-01	16.243454	-6.117564	-5.281718	-10.729686
2019-01-02	8.654076	-23.015387	17.448118	-7.612069
2019-01-03	3.190391	-2.493704	14.621079	-20.601407
2019-01-04	-3.224172	-3.840544	11.337694	-10.998913
2019-01-05	-1.724282	-8.778584	0.422137	5.828152
2019-01-06	-11.006192	11.447237	9.015907	5.024943

# 按列标签从大到小排序
df2.sort_index(axis=1)

	a	b	c	d
0	1	2	0	hello
1	1	3	1	hello

# 按a列的值从大到小排序
df2.sort_values(by='a')

	a	b	c	d
0	1	2	0	hello
1	1	3	1	hello

DataFrame取值

df

	c1	c2	c3	c4
2019-01-01	16.243454	-6.117564	-5.281718	-10.729686
2019-01-02	8.654076	-23.015387	17.448118	-7.612069
2019-01-03	3.190391	-2.493704	14.621079	-20.601407
2019-01-04	-3.224172	-3.840544	11.337694	-10.998913
2019-01-05	-1.724282	-8.778584	0.422137	5.828152
2019-01-06	-11.006192	11.447237	9.015907	5.024943

df['c2']

2019-01-01    -6.117564
2019-01-02   -23.015387
2019-01-03    -2.493704
2019-01-04    -3.840544
2019-01-05    -8.778584
2019-01-06    11.447237
Freq: D, Name: c2, dtype: float64

df[0:3]

	c1	c2	c3	c4
2019-01-01	16.243454	-6.117564	-5.281718	-10.729686
2019-01-02	8.654076	-23.015387	17.448118	-7.612069
2019-01-03	3.190391	-2.493704	14.621079	-20.601407

loc/iloc

# 通过自定义的行标签选择数据
df.loc['2019-01-01':'2019-01-05']

	c1	c2	c3	c4
2019-01-01	16.243454	-6.117564	-5.281718	-10.729686
2019-01-02	8.654076	-23.015387	17.448118	-7.612069
2019-01-03	3.190391	-2.493704	14.621079	-20.601407
2019-01-04	-3.224172	-3.840544	11.337694	-10.998913
2019-01-05	-1.724282	-8.778584	0.422137	5.828152

df

	c1	c2	c3	c4
2019-01-01	16.243454	-6.117564	-5.281718	-10.729686
2019-01-02	8.654076	-23.015387	17.448118	-7.612069
2019-01-03	3.190391	-2.493704	14.621079	-20.601407
2019-01-04	-3.224172	-3.840544	11.337694	-10.998913
2019-01-05	-1.724282	-8.778584	0.422137	5.828152
2019-01-06	-11.006192	11.447237	9.015907	5.024943

df.values

array([[ 16.24345364,  -6.11756414,  -5.28171752, -10.72968622],
       [  8.65407629, -23.01538697,  17.44811764,  -7.61206901],
       [  3.19039096,  -2.49370375,  14.62107937, -20.60140709],
       [ -3.22417204,  -3.84054355,  11.33769442, -10.99891267],
       [ -1.72428208,  -8.77858418,   0.42213747,   5.82815214],
       [-11.00619177,  11.4472371 ,   9.01590721,   5.02494339]])

print(df.iloc[2, 1])

-2.49370375477

# 通过行索引选择数据
print(df.iloc[2, 1])

-2.49370375477

df.iloc[1:4, 1:4]

	c2	c3	c4
2019-01-02	-23.015387	17.448118	-7.612069
2019-01-03	-2.493704	14.621079	-20.601407
2019-01-04	-3.840544	11.337694	-10.998913

df

	c1	c2	c3	c4
2019-01-01	16.243454	-6.117564	-5.281718	-10.729686
2019-01-02	8.654076	-23.015387	17.448118	-7.612069
2019-01-03	3.190391	-2.493704	14.621079	-20.601407
2019-01-04	-3.224172	-3.840544	11.337694	-10.998913
2019-01-05	-1.724282	-8.778584	0.422137	5.828152
2019-01-06	-11.006192	11.447237	9.015907	5.024943

使用逻辑判断取值

df[df['c1'] > 0]

	c1	c2	c3	c4
2019-01-01	16.243454	-6.117564	-5.281718	-10.729686
2019-01-02	8.654076	-23.015387	17.448118	-7.612069
2019-01-03	3.190391	-2.493704	14.621079	-20.601407

DataFrame值替换

df

	c1	c2	c3	c4
2019-01-01	16.243454	-6.117564	-5.281718	-10.729686
2019-01-02	8.654076	-23.015387	17.448118	-7.612069
2019-01-03	3.190391	-2.493704	14.621079	-20.601407
2019-01-04	-3.224172	-3.840544	11.337694	-10.998913
2019-01-05	-1.724282	-8.778584	0.422137	5.828152
2019-01-06	-11.006192	11.447237	9.015907	5.024943

df.iloc[0:3, 0:2] = 0
df

	c1	c2	c3	c4
2019-01-01	0.000000	0.000000	-5.281718	-10.729686
2019-01-02	0.000000	0.000000	17.448118	-7.612069
2019-01-03	0.000000	0.000000	14.621079	-20.601407
2019-01-04	-3.224172	-3.840544	11.337694	-10.998913
2019-01-05	-1.724282	-8.778584	0.422137	5.828152
2019-01-06	-11.006192	11.447237	9.015907	5.024943

df

	c1	c2	c3	c4
2019-01-01	16.243454	-6.117564	-5.281718	-10.729686
2019-01-02	8.654076	-23.015387	17.448118	-7.612069
2019-01-03	3.190391	-2.493704	14.621079	-20.601407
2019-01-04	-3.224172	-3.840544	11.337694	-10.998913
2019-01-05	-1.724282	-8.778584	0.422137	5.828152
2019-01-06	-11.006192	11.447237	9.015907	5.024943

df[df['c1'] > 0] = 100
df

	c1	c2	c3	c4
2019-01-01	100.000000	100.000000	100.000000	100.000000
2019-01-02	100.000000	100.000000	100.000000	100.000000
2019-01-03	100.000000	100.000000	100.000000	100.000000
2019-01-04	-3.224172	-3.840544	11.337694	-10.998913
2019-01-05	-1.724282	-8.778584	0.422137	5.828152
2019-01-06	-11.006192	11.447237	9.015907	5.024943

读取CSV文件

from io import StringIO
test_data = '''
5.1,,1.4,0.2
4.9,3.0,1.4,0.2
4.7,3.2,,0.2
7.0,3.2,4.7,1.4
6.4,3.2,4.5,1.5
6.9,3.1,4.9,
,,,
'''

# df = pd.read_csv('C:/Users/test_data.csv')
test_data = StringIO(test_data)
df = pd.read_csv(test_data)
df = pd.read_excel(test_data)
df.columns = ['c1', 'c2', 'c3', 'c4']
df

	c1	c2	c3	c4
0	4.9	3.0	1.4	0.2
1	4.7	3.2	NaN	0.2
2	7.0	3.2	4.7	1.4
3	6.4	3.2	4.5	1.5
4	6.9	3.1	4.9	NaN
5	NaN	NaN	NaN	NaN

处理丢失数据

df.isnull()

	c1	c2	c3	c4
0	False	False	False	False
1	False	False	True	False
2	False	False	False	False
3	False	False	False	False
4	False	False	False	True
5	True	True	True	True

# 通过在isnull()方法后使用sum()方法即可获得该数据集某个特征含有多少个缺失值
print(df.isnull().sum())

c1    1
c2    1
c3    2
c4    2
dtype: int64

df

	c1	c2	c3	c4
0	4.9	3.0	1.4	0.2
1	4.7	3.2	NaN	0.2
2	7.0	3.2	4.7	1.4
3	6.4	3.2	4.5	1.5
4	6.9	3.1	4.9	NaN
5	NaN	NaN	NaN	NaN

# axis=0删除有NaN值的行
df.dropna(axis=0)

	c1	c2	c3	c4
0	4.9	3.0	1.4	0.2
2	7.0	3.2	4.7	1.4
3	6.4	3.2	4.5	1.5

# axis=1删除有NaN值的列
df.dropna(axis=1)


0
1
2
3
4
5

# 删除全为NaN值得行或列
df.dropna(how='all')

	c1	c2	c3	c4
0	4.9	3.0	1.4	0.2
1	4.7	3.2	NaN	0.2
2	7.0	3.2	4.7	1.4
3	6.4	3.2	4.5	1.5
4	6.9	3.1	4.9	NaN

# 删除行不为4个值的
df.dropna(thresh=4)

	c1	c2	c3	c4
0	4.9	3.0	1.4	0.2
2	7.0	3.2	4.7	1.4
3	6.4	3.2	4.5	1.5

# 删除c2中有NaN值的数据
df.dropna(subset=['c2'])

	c1	c2	c3	c4
0	4.9	3.0	1.4	0.2
1	4.7	3.2	NaN	0.2
2	7.0	3.2	4.7	1.4
3	6.4	3.2	4.5	1.5
4	6.9	3.1	4.9	NaN

df

	c1	c2	c3	c4
0	4.9	3.0	1.4	0.2
1	4.7	3.2	NaN	0.2
2	7.0	3.2	4.7	1.4
3	6.4	3.2	4.5	1.5
4	6.9	3.1	4.9	NaN
5	NaN	NaN	NaN	NaN

# 填充nan值
df.fillna(value=10)

	c1	c2	c3	c4
0	4.9	3.0	1.4	0.2
1	4.7	3.2	10.0	0.2
2	7.0	3.2	4.7	1.4
3	6.4	3.2	4.5	1.5
4	6.9	3.1	4.9	10.0
5	10.0	10.0	10.0	10.0

导入导出数据

使用df = pd.read_csv(filename)读取文件，使用df.to_csv(filename)保存文件。

# df = pd.read_csv("filename")
# 进行一堆处理后
# df.to_csv("filename", header=True, index=False)

合并数据

df1 = pd.DataFrame(np.zeros((3, 4)))
df1

	0	1	2	3
0	0.0	0.0	0.0	0.0
1	0.0	0.0	0.0	0.0
2	0.0	0.0	0.0	0.0

df2 = pd.DataFrame(np.ones((3, 4)))
df2

	0	1	2	3
0	1.0	1.0	1.0	1.0
1	1.0	1.0	1.0	1.0
2	1.0	1.0	1.0	1.0

# axis=0合并列
pd.concat((df1, df2), axis=0)

	0	1	2	3
0	0.0	0.0	0.0	0.0
1	0.0	0.0	0.0	0.0
2	0.0	0.0	0.0	0.0
0	1.0	1.0	1.0	1.0
1	1.0	1.0	1.0	1.0
2	1.0	1.0	1.0	1.0

# axis=1合并行
pd.concat((df1, df2), axis=1)

	0	1	2	3
0	1.0	1.0	1.0	1.0
1	1.0	1.0	1.0	1.0
2	1.0	1.0	1.0	1.0

# append只能合并列
df1.append(df2)

	0	1	2	3
0	0.0	0.0	0.0	0.0
1	0.0	0.0	0.0	0.0
2	0.0	0.0	0.0	0.0
0	1.0	1.0	1.0	1.0
1	1.0	1.0	1.0	1.0
2	1.0	1.0	1.0	1.0

读取sql语句

import numpy as np
import pandas as pd
import pymysql


def conn(sql):
    # 连接到mysql数据库
    conn = pymysql.connect(
        host="localhost",
        port=3306,
        user="root",
        passwd="123",
        db="db1",
    )
    try:
        data = pd.read_sql(sql, con=conn)
        return data
    except Exception as e:
        print("SQL is not correct!")
    finally:
        conn.close()


sql = "select * from test1 limit 0, 10"  # sql语句
data = conn(sql)
print(data.columns.tolist())   # 查看字段
print(data)  # 查看数据

matplotlib模块

matplotlib官方文档：https://matplotlib.org/contents.html?v=20190307135750

matplotlib是一个绘图库，它可以创建常用的统计图，包括条形图、箱型图、折线图、散点图和直方图。

条形图

import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
%matplotlib inline
font = FontProperties(fname='/Library/Fonts/Heiti.ttc')

# 修改背景为条纹
plt.style.use('ggplot')

classes = ['3班', '4班', '5班', '6班']

classes_index = range(len(classes))
print(list(classes_index))

[0, 1, 2, 3]

student_amounts = [66, 55, 45, 70]

# 画布设置
fig = plt.figure()
# 1,1,1表示一张画布切割成1行1列共一张图的第1个；2,2,1表示一张画布切割成2行2列共4张图的第一个（左上角）
ax1 = fig.add_subplot(1, 1, 1)
ax1.bar(classes_index, student_amounts, align='center', color='darkblue')
ax1.xaxis.set_ticks_position('bottom')
ax1.yaxis.set_ticks_position('left')

plt.xticks(classes_index, classes, rotation=0,
           fontsize=13, fontproperties=font)
plt.xlabel('班级', fontproperties=font, fontsize=15)
plt.ylabel('学生人数', fontproperties=font, fontsize=15)
plt.title('班级-学生人数', fontproperties=font, fontsize=20)
# 保存图片，bbox_inches='tight'去掉图形四周的空白
# plt.savefig('classes_students.png', dpi=400, bbox_inches='tight')
plt.show()

直方图

import numpy as np
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
%matplotlib inline
font = FontProperties(fname='/Library/Fonts/Heiti.ttc')

# 修改背景为条纹
plt.style.use('ggplot')

mu1, mu2, sigma = 50, 100, 10
# 构造均值为50的符合正态分布的数据
x1 = mu1+sigma*np.random.randn(10000)
print(x1)

[59.00855949 43.16272141 48.77109774 ... 57.94645859 54.70312714
 58.94125528]

# 构造均值为100的符合正态分布的数据
x2 = mu2+sigma*np.random.randn(10000)
print(x2)

[115.19915511  82.09208214 110.88092454 ...  95.0872103  104.21549068
 133.36025251]

fig = plt.figure()
ax1 = fig.add_subplot(121)
# bins=50表示每个变量的值分成50份，即会有50根柱子
ax1.hist(x1, bins=50, color='darkgreen')

ax2 = fig.add_subplot(122)
ax2.hist(x2, bins=50, color='orange')

fig.suptitle('两个正态分布', fontproperties=font, fontweight='bold', fontsize=15)
ax1.set_title('绿色的正态分布', fontproperties=font)
ax2.set_title('橙色的正态分布', fontproperties=font)
plt.show()

折线图

import numpy as np
from numpy.random import randn
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
%matplotlib inline
font = FontProperties(fname='/Library/Fonts/Heiti.ttc')

# 修改背景为条纹
plt.style.use('ggplot')

np.random.seed(1)

# 使用numpy的累加和，保证数据取值范围不会在（0，1）内波动
plot_data1 = randn(40).cumsum()
print(plot_data1)

[ 1.62434536  1.01258895  0.4844172  -0.58855142  0.2768562  -2.02468249
 -0.27987073 -1.04107763 -0.72203853 -0.97140891  0.49069903 -1.56944168
 -1.89185888 -2.27591324 -1.1421438  -2.24203506 -2.41446327 -3.29232169
 -3.25010794 -2.66729273 -3.76791191 -2.6231882  -1.72159748 -1.21910314
 -0.31824719 -1.00197505 -1.12486527 -2.06063471 -2.32852279 -1.79816732
 -2.48982807 -2.8865816  -3.5737543  -4.41895994 -5.09020607 -5.10287067
 -6.22018102 -5.98576532 -4.32596314 -3.58391898]

plot_data2 = randn(40).cumsum()
plot_data3 = randn(40).cumsum()
plot_data4 = randn(40).cumsum()

plt.plot(plot_data1, marker='o', color='red', linestyle='-', label='红实线')
plt.plot(plot_data2, marker='x', color='orange', linestyle='--', label='橙虚线')
plt.plot(plot_data3, marker='*', color='yellow', linestyle='-.', label='黄点线')
plt.plot(plot_data4, marker='s', color='green', linestyle=':', label='绿点图')

# loc='best'给label自动选择最好的位置
plt.legend(loc='best', prop=font)
plt.show()

散点图+直线图

import numpy as np
from numpy.random import randn
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
%matplotlib inline
font = FontProperties(fname='/Library/Fonts/Heiti.ttc')

# 修改背景为条纹
plt.style.use('ggplot')


x = np.arange(1, 20, 1)
print(x)

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]

# 拟合一条水平散点线
np.random.seed(1)
y_linear = x+10*np.random.randn(19)
print(y_linear)

[ 17.24345364  -4.11756414  -2.28171752  -6.72968622  13.65407629
 -17.01538697  24.44811764   0.38793099  12.19039096   7.50629625
  25.62107937  -8.60140709   9.77582796  10.15945645  26.33769442
   5.00108733  15.27571792   9.22141582  19.42213747]

# 拟合一条x²的散点线
y_quad = x**2+10*np.random.randn(19)
print(y_quad)

[  6.82815214  -7.00619177  20.4472371   25.01590721  30.02494339
  45.00855949  42.16272141  62.77109774  71.64230566  97.3211192
 126.30355467 137.08339248 165.03246473 189.128273   216.54794359
 249.28753869 288.87335401 312.82689651 363.34415698]

# s是散点大小
fig = plt.figure()
ax1 = fig.add_subplot(121)
plt.scatter(x, y_linear, s=30, color='r', label='蓝点')
plt.scatter(x, y_quad, s=100, color='b', label='红点')

ax2 = fig.add_subplot(122)
plt.plot(x, y_linear, color='r')
plt.plot(x, y_quad, color='b')

# 限制x轴和y轴的范围取值
plt.xlim(min(x)-1, max(x)+1)
plt.ylim(min(y_quad)-10, max(y_quad)+10)
fig.suptitle('散点图+直线图', fontproperties=font, fontsize=20)
ax1.set_title('散点图', fontproperties=font)
ax1.legend(prop=font)
ax2.set_title('直线图', fontproperties=font)
plt.show()

Python学习心得两大编程思想 lifegoesonwjl python 开发语言 pycharm 前端 c语言
一、两大编程思想：1.面向过程：功能上的封装典型代表：C语言2.面向对象：属性和行为上的封装典型代表：Python、Java二、面向过程与面向对象的异同点：1.区别：面向过程：事物比较简单，可用线性的思维去解决面向对象：事务比较复杂，使用简单的线性思维无法解决2.共同点：（1）面向过程和面向对象都是解决实际问题的一种思维方式；（2）二者相辅相成，并不是对立的；（3）解决复杂问题，通过面向对象方式便
Linux升级Anacodna并配置jupyterLab 伪_装环境部署 linux 服务器 Anaconda python jupyter
在使用Anaconda的过程中，随着项目和需求的发展，可能需要升级Anaconda的Base环境中的Python版本。本文将详细介绍如何安全地进行升级，包括步骤、代码示例与最终流程图。升级Python一、环境准备在进行任何升级之前，建议先检查当前的Python版本以及各个库的兼容性。我们可以通过以下命令检查当前的Python版本：condainfo你会看到类似以下的输出，其中包含了当前Python
【Linux】删除Conda虚拟环境不是伍壹 Linux linux conda 运维
1、查看当前系统的conda虚拟环境condainfo--envscondaenvlist2、创建虚拟的环境condacreate-n（你的环境名字）python=（你需要的版本号，如（3.7,3.8,3.10））3、查看安装了哪些包condalist4、删除虚拟环境condaremove-nname--all5、删除虚拟环境中的包condaremove--name$（需要删除的环境名字）$（需要
动态规划之背包问题--python版本我是小码搬运工 #python基础动态规划背包问题 python版本
动态规划之背包问题–python版本问题已知一个最大量的背包，给定一组给定固定价值和固定体积的物品，求在不超过最大值的前提下，能放入背包中的最大总价值。解题思路该问题是典型的动态规划问题，分为三种不同的类型（0-1背包问题、完全背包和多重背包问题）解题关键–状态转移表达式：B(k,C)=max(B(k−1,C),B(k−1,C−ci)+vi)B(k,C)=max(B(k-1,C),B(k-1,C-
Centos7 搭建 Jupyter + Nginx 服务某龙兄 python nginx linux centos
JupyterNotebook（此前被称为IPythonnotebook）是一个交互式笔记本，支持运行40多种编程语言。JupyterNotebook的本质是一个Web应用程序，便于创建和共享文学化程序文档，支持实时代码，数学方程，可视化和markdown。用途包括：数据清理和转换，数值模拟，统计建模，机器学习等等。本文讲述如何搭建Jupyter+Nginx服务,仅供学习与交流，请勿用于商业用途一
动态规划之背包问题的Python实现名侦探debug Python 数据结构 python 数据结构动态规划求解
目录1.问题描述2.动态规划之网格法3.python实现1.问题描述题目来源于《算法图解》第9章练习题9.2，如下图所示。对于背包问题，通常的做法有列举法、贪婪算法和动态规划（1）列举法：列举出所有的可能情况，再选择最优解，但当情况很多时，这种算法复杂度很高（2）贪婪算法：在容量允许范围内，每次都拿剩余物品中价值最高的，贪婪算法能够快速解决复杂度很高的问题，但通常得到的是次优解，但就对这个题目而言
总结10个Python赚钱的接单平台兼职月入5000+ begefefsef 面试学习路线阿里巴巴 android 前端后端
前言“如果说当下什么编程语言最靠谱或者比较适合搞副业？”答案肯定100%是：Pythonpython是所有语法中最简单易上手的语言，不需要特别的的英语词汇量，逻辑思维也不需要很差就能上手。而且学会了之后就能编写代码爬取各种数据，制作各种图表，提升工作效率。而且还能利用业余时间接点私活，一个月轻松收入过万不是问题，这样的生活他不香吗？今天就给大家盘点几个基本入门接私活的资源，让你轻松学python，
大学生学完python靠几个接单网站兼职，实现经济独立「已注销」 python 开发语言
大学生学完python靠几个接单网站兼职，实现经济独立程序员就是当今时代的手艺人，程序员可以通过个人的技术来谋生。而在工作之余接私单可以作为一种创富的途径，受到程序员的广泛认可。说句实在话，现在这个时代，很多人仅靠主业顶多维持基本生活，想让自己、家人生活好一点很难。我接的私活并不算多，加起来也就几万左右，只能算一半，我想把一些经验分享出来，毕竟现在生活都不容易，能赚一点是一点。一、程序员接活、新手
Python wifi 安装手机app yichengace python
目的当测试机数量越来越多时，测试包的安装会成为一个问题，用wifi安装来解决这个问题，并且用脚本语言来批量控制思路思路就是py调用pc端的adb命令，向手机发送请求，无线是因为，如果未来测试机越来越多，一台电脑的usb接口数量肯定不够准备工具python，adb，pycharm，测试用app，这里选择qq（https://qd.myapp.com/myapp/qqteam/AndroidQQ/mo
深度学习之目标检测的常用标注工具铭瑾熙人工智能机器学习深度学习深度学习目标检测目标跟踪
1LabelImgLabelImg是一款开源的图像标注工具，标签可用于分类和目标检测，它是用Python编写的，并使用Qt作为其图形界面，简单好用。注释以PASCALVOC格式保存为XML文件，这是ImageNet使用的格式。此外，它还支持COCO数据集格式。2labelmelabelme是一款开源的图像/视频标注工具，标签可用于目标检测、分割和分类。灵感是来自于MIT开源的一款标注工具Label
Python 舆论风向分析爬虫：全流程数据获取、清洗与情感剖析西攻城狮北 python 爬虫开发语言实战案例
引言在当今信息爆炸的时代，互联网上充斥着海量的用户言论和观点。了解舆论风向对于企业、政府机构以及研究者等具有重要的意义，可以帮助他们及时把握公众情绪、调整策略与决策。Python作为一种强大的编程语言，在数据爬取与分析方面具有得天独厚的优势，能够助力我们高效地实现舆情监测与深入剖析。一、环境搭建与目标确定1.环境搭建为了顺利完成爬虫与数据分析任务，首先需要确保你的开发环境已经安装了以下Python
PyCharm 集成 DeepSeek：本地运行 or API 直连？打造你的 AI 编程神器！ AI云极【AI智能系列】pycharm 人工智能 ide deepseek
在AI赋能编程的时代，如何让AI辅助写代码，提升开发效率？DeepSeek作为一款开源、强大、免费的AI编程助手，结合PyCharm，能够大幅提升Python编程体验。今天，我们就来详细讲解如何在PyCharm中接入DeepSeek，无论你想使用本地部署的DeepSeek，还是官方API版本，都能轻松实现！为什么选择DeepSeek+PyCharm？DeepSeekR1采用6710亿参数的MoE（
Python3.5源码分析-sys模块及site模块导入小屋子大侠 python Python分析 python源码
Python3源码分析本文环境python3.5.2。参考书籍>python官网Python3的sys模块初始化根据分析完成builtins初始化后，继续分析sys模块的初始化，继续分析_Py_InitializeEx_Private函数的执行，void_Py_InitializeEx_Private(intinstall_sigs,intinstall_importlib){...sysmod=
RealtimeSTT：实时语音转文本的开源神器，轻松实现高效语音处理 AI云极【开源系列】语音识别开源
在语音技术飞速发展的时代，实时语音转文本（Speech-to-Text，简称STT）技术已逐渐成为语音助手、在线会议记录、字幕生成等应用的核心功能。今天要为大家推荐的是一款开源的实时语音转文本工具——RealtimeSTT，它功能强大且易于集成，为开发者提供了快速构建实时语音处理应用的能力。项目地址：GitHub-RealtimeSTT一、什么是RealtimeSTT？RealtimeSTT是一款
【CUDA】Pytorch_Extensions joker D888 深度学习 pytorch python cuda c++深度学习
【CUDA】Pytorch_Extensions为什么要开发CUDA扩展？当我们在PyTorch中实现自定义算子时，通常有两种选择：使用纯Python实现（简单但效率低）使用C++/CUDA扩展（高效但需要编译）对于计算密集型的操作（如神经网络中的自定义激活函数），使用CUDA扩展可以获得接近硬件极限的性能。本文将以实现一个多项式激活函数x²+x+1为例，展示完整的开发流程。完整CUDA扩展代码解
Labelbox：引领AI与人类协作的未来魏兴雄Milburn
Labelbox：引领AI与人类协作的未来labelbox-pythonLabelboxPythonClient项目地址:https://gitcode.com/gh_mirrors/la/labelbox-python项目介绍Labelbox是一款专为企业和学术研究社区设计的开源工具，旨在简化数据标注、生成高质量的人类反馈数据、评估和提升模型性能，并通过无缝结合AI与人类工作流程来自动化任务。无
基于python使用scanpy分析单细胞转录组数据探序基因单细胞分析 python 开发语言
探序基因肿瘤研究院整理相关后缀的格式介绍：.h5ad：是一种用于存储单细胞数据的文件格式，可以通过anndata库在Python中处理.loom：高效的数据存储格式（.loom文件），使得用户可以轻松地存储、查询和分析大规模的单细胞数据集。Loompy的设计目标是提供一个快速、灵活且易于使用的工具，以支持生物信息学家和研究人员在单细胞水平上进行数据分析。python的单细胞转录组数据结构说明：da
本地搭建小型 DeepSeek 并进行微调非著名架构师大模型知识文档智能硬件人工智能大数据大模型 deepseek
本文将指导您在本地搭建一个小型的DeepSeek模型，并进行微调，以处理您的特定数据。1.环境准备Python3.7或更高版本PyTorch1.8或更高版本CUDA(可选，用于GPU加速)Git2.克隆DeepSeek仓库bash复制gitclonehttps://github.com/deepseek-ai/deepseek.gitcddeepseek3.安装依赖bash复制pipinstall
使用Python和OpenCV实现图像像素压缩与解压东方佑量子变法 python opencv 开发语言
在本文中，我们将探讨如何使用Python和OpenCV库来实现一种简单的图像像素压缩算法。我们将详细讨论代码的工作原理，并提供一个具体的示例来演示该过程。1.引言随着数字媒体的普及，图像处理成为了一个重要的领域。无论是为了减少存储空间还是加快网络传输速度，图像压缩技术都扮演着至关重要的角色。这里，我们提出了一种基于像素重复模式的简单压缩算法，它适用于具有大量连续相同像素值的图像。2.技术栈介绍2.
【Python系列】Python 解释器的站点配置 Kwan的解忧杂货铺@新空间代码工作室 s1 Python python 开发语言
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
利用Beautiful Soup和Pandas进行网页数据抓取与清洗处理实战傻啦嘿哟 pandas
目录一、准备工作二、抓取网页数据三、数据清洗四、数据处理五、保存数据六、完整代码示例七、总结在数据分析和机器学习的项目中，数据的获取、清洗和处理是非常关键的步骤。今天，我们将通过一个实战案例，演示如何利用Python中的BeautifulSoup库进行网页数据抓取，并使用Pandas库进行数据清洗和处理。这个案例不仅适合初学者，也能帮助有一定经验的朋友快速掌握这两个强大的工具。一、准备工作在开始之
python做一个注册界面_python如何做一个登录注册界面 weixin_39824033 python做一个注册界面
python做一个登录注册界面的方法：首先初始化一个window界面，并使用画布实现欢迎的logo；然后用代码实现登录和注册按钮；接着并进行登录判断代码；最后完成注册界面即可。【相关学习推荐：python视频教程】python做一个登录注册界面的方法：一、登录界面1、首先初始化一个window界面window=tk.Tk()window.title('WelcometoMofanPython')w
python读取zip包内文件_Python模块学习：zipfile zip文件操作 weixin_40001634 python读取zip包内文件
最近在写一个网络客户端下载程序，用于下载服务器上的数据。有些数据(如文本，office文档)如果直接传输的话，将会增加通信的数据量，使下载时间变长。服务器在传输这些数据之前先对其进行压缩，客户端接收到数据之后进行解压，这样可以减小网通传输数据的通信量，缩短下载的时间，从而增加客户体验。以前用C#做类似应用程序的时候，我会用SharpZipLib这个开源组件，现在用Python做类似的工作，只要使用
python制作登陆窗口_python登陆界面 weixin_39758494 python制作登陆窗口
广告关闭腾讯云11.11云上盛惠，精选热门产品助力上云，云服务器首年88元起，买的越多返的越多，最高返5000元！print(账号密码错误！请重试。)returnfalsebutton(master,text=登陆,width=10,command=test).grid(row=3,column=0,sticky=w,padx=10,pady=5)button(master,text=退出,wid
如何使用零配置的Sphinx生成Python文档？潮易 sphinx 全文检索搜索引擎
如何使用零配置的Sphinx生成Python文档？在Python编程中，编写文档是非常重要的。一个好的文档可以帮助其他开发者理解和使用你的代码。Sphinx是一个用于生成Python项目的文档的静态网页生成器，它支持多种文档格式，包括ReStructuredText和Markdown。以下是使用零配置的方式来使用Sphinx生成Python文档的详细步骤：1.首先，确保你已经安装了Sphinx。打
如何订阅&q；/扫描&q；主题、修改消息并发布到新主题？潮易 python 开发语言
如何订阅&q；/扫描&q；主题、修改消息并发布到新主题？这个问题涉及到Python编程中的MQTT（MessageQueuingTelemetryTransport）库的使用，该库允许我们创建客户端订阅和发布消息到MQTT服务器。以下是一个简单的步骤：1.安装MQTT库：可以使用pip安装`paho-mqtt`库。```pythonpipinstallpaho-mqtt```2.创建一个MQTT客
Python-tkinter自制登录界面（含注册） GCHEK python 开发语言
简单的用户登录、注册界面importtkinterastkimporttimeimportsubprocessimportsysimportosimporttkinter.messageboxwindow=tk.Tk()window.title('GCHEK')window.geometry('400x300')#设置储存用户信息的容器，这里用的txt。ifnotos.path.exists('U
Python爬虫requests(详细) dme. Python爬虫零基础入门爬虫 python
本文来学爬虫使用requests模块的常见操作。1.URL参数无论是在发送GET/POST请求时，网址URL都可能会携带参数，例如：http://www.5xclass.cn?age=19&name=dengres=requests.get(url="https://www.5xclass.cn?age=19&name=deng")res=requests.get(url="https://www
使用python计算等比数列求和的方法 HAMYHF windows
在python中，计算Sum=m+mm+mmm+mmmm+.....+mmmmm.....,输入两个数m,n。m的位数累加到n的值，列出算式并计算出结果：#为了打印出算式，并计算出结果，将m,mm这些放入到列表中#定义列表中的m初始值为0,用Ele来代表m,mm....Ele=0#定义总和为0Sum=0#定义一个空列表List=[]#输入两个值n=int(input("inputadigit：")
Python+Playwright常用元素定位方法 HAMYHF python 功能测试
CSSselector选择器在CSS中，定位元素主要通过选择器完成，以下是几种常见的CSS选择器定位方法：标签选择器(element):直接使用HTML元素名称来定位，例如p会选择所有段落元素。属性选择器(attribute):选择所有具有指定属性的元素，无论该属性的值是什么。例如，[title]会选择所有包含title属性的元素。选择具有指定属性，并且该属性值完全等于给定值的元素。例如，[typ
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f

	c1	c2	c3	c4
0	4.9	3.0	1.4	0.2
1	4.7	3.2	NaN	0.2
2	7.0	3.2	4.7	1.4
3	6.4	3.2	4.5	1.5
4	6.9	3.1	4.9	NaN
5	NaN	NaN	NaN	NaN

	c1	c2	c3	c4
0	4.9	3.0	1.4	0.2
1	4.7	3.2	NaN	0.2
2	7.0	3.2	4.7	1.4
3	6.4	3.2	4.5	1.5
4	6.9	3.1	4.9	NaN
5	NaN	NaN	NaN	NaN

	c1	c2	c3	c4
0	4.9	3.0	1.4	0.2
1	4.7	3.2	NaN	0.2
2	7.0	3.2	4.7	1.4
3	6.4	3.2	4.5	1.5
4	6.9	3.1	4.9	NaN

	c1	c2	c3	c4
0	4.9	3.0	1.4	0.2
1	4.7	3.2	NaN	0.2
2	7.0	3.2	4.7	1.4
3	6.4	3.2	4.5	1.5
4	6.9	3.1	4.9	NaN

	c1	c2	c3	c4
0	4.9	3.0	1.4	0.2
1	4.7	3.2	NaN	0.2
2	7.0	3.2	4.7	1.4
3	6.4	3.2	4.5	1.5
4	6.9	3.1	4.9	NaN
5	NaN	NaN	NaN	NaN

	0	1	2	3
0	0.0	0.0	0.0	0.0
1	0.0	0.0	0.0	0.0
2	0.0	0.0	0.0	0.0
0	1.0	1.0	1.0	1.0
1	1.0	1.0	1.0	1.0
2	1.0	1.0	1.0	1.0

	0	1	2	3
0	1.0	1.0	1.0	1.0
1	1.0	1.0	1.0	1.0
2	1.0	1.0	1.0	1.0

	0	1	2	3
0	0.0	0.0	0.0	0.0
1	0.0	0.0	0.0	0.0
2	0.0	0.0	0.0	0.0
0	1.0	1.0	1.0	1.0
1	1.0	1.0	1.0	1.0
2	1.0	1.0	1.0	1.0

	c1	c2	c3	c4
0	4.9	3.0	1.4	0.2
1	4.7	3.2	NaN	0.2
2	7.0	3.2	4.7	1.4
3	6.4	3.2	4.5	1.5
4	6.9	3.1	4.9	NaN
5	NaN	NaN	NaN	NaN

	c1	c2	c3	c4
0	4.9	3.0	1.4	0.2
1	4.7	3.2	NaN	0.2
2	7.0	3.2	4.7	1.4
3	6.4	3.2	4.5	1.5
4	6.9	3.1	4.9	NaN
5	NaN	NaN	NaN	NaN

	c1	c2	c3	c4
0	4.9	3.0	1.4	0.2
1	4.7	3.2	NaN	0.2
2	7.0	3.2	4.7	1.4
3	6.4	3.2	4.5	1.5
4	6.9	3.1	4.9	NaN

	c1	c2	c3	c4
0	4.9	3.0	1.4	0.2
1	4.7	3.2	NaN	0.2
2	7.0	3.2	4.7	1.4
3	6.4	3.2	4.5	1.5
4	6.9	3.1	4.9	NaN

	c1	c2	c3	c4
0	4.9	3.0	1.4	0.2
1	4.7	3.2	NaN	0.2
2	7.0	3.2	4.7	1.4
3	6.4	3.2	4.5	1.5
4	6.9	3.1	4.9	NaN
5	NaN	NaN	NaN	NaN

	0	1	2	3
0	0.0	0.0	0.0	0.0
1	0.0	0.0	0.0	0.0
2	0.0	0.0	0.0	0.0
0	1.0	1.0	1.0	1.0
1	1.0	1.0	1.0	1.0
2	1.0	1.0	1.0	1.0

	0	1	2	3
0	1.0	1.0	1.0	1.0
1	1.0	1.0	1.0	1.0
2	1.0	1.0	1.0	1.0

	0	1	2	3
0	0.0	0.0	0.0	0.0
1	0.0	0.0	0.0	0.0
2	0.0	0.0	0.0	0.0
0	1.0	1.0	1.0	1.0
1	1.0	1.0	1.0	1.0
2	1.0	1.0	1.0	1.0

Python常用模块

文章目录

Python常用模块

time模块

时间戳

格式化时间

结构化时间

不同格式时间的转换

其他用法

datetime模块

random模块

os模块

sys模块

json和pickle模块

序列化

json

pickle

hashlib模块

hash是什么

撞库破解hash算法加密

logging模块

日志级别

日志打印

应用

numpy模块

创建矩阵

获取矩阵的行列数

切割矩阵

矩阵元素替换

矩阵的合并

通过函数创建矩阵

arange

linspace/logspace

zeros/ones/eye/empty

fromstring/fromfunction

矩阵的运算

普通矩阵运算

常用矩阵运算函数

矩阵的点乘

矩阵的转置

矩阵的逆

矩阵其他操作

最大最小值

平均值

方差

标准差

中位数

矩阵求和

累加和

numpy.random生成随机数

pandas模块

Series

DataFrame

DataFrame属性

DataFrame取值

loc/iloc

使用逻辑判断取值

DataFrame值替换

读取CSV文件

处理丢失数据

导入导出数据

合并数据

读取sql语句

matplotlib模块

条形图

直方图

折线图

散点图+直线图

你可能感兴趣的:(python快速入门神器,python)

	c1	c2	c3	c4
0	4.9	3.0	1.4	0.2
1	4.7	3.2	NaN	0.2
2	7.0	3.2	4.7	1.4
3	6.4	3.2	4.5	1.5
4	6.9	3.1	4.9	NaN
5	NaN	NaN	NaN	NaN

	c1	c2	c3	c4
0	4.9	3.0	1.4	0.2
1	4.7	3.2	NaN	0.2
2	7.0	3.2	4.7	1.4
3	6.4	3.2	4.5	1.5
4	6.9	3.1	4.9	NaN
5	NaN	NaN	NaN	NaN

	c1	c2	c3	c4
0	4.9	3.0	1.4	0.2
1	4.7	3.2	NaN	0.2
2	7.0	3.2	4.7	1.4
3	6.4	3.2	4.5	1.5
4	6.9	3.1	4.9	NaN

	c1	c2	c3	c4
0	4.9	3.0	1.4	0.2
1	4.7	3.2	NaN	0.2
2	7.0	3.2	4.7	1.4
3	6.4	3.2	4.5	1.5
4	6.9	3.1	4.9	NaN

	c1	c2	c3	c4
0	4.9	3.0	1.4	0.2
1	4.7	3.2	NaN	0.2
2	7.0	3.2	4.7	1.4
3	6.4	3.2	4.5	1.5
4	6.9	3.1	4.9	NaN
5	NaN	NaN	NaN	NaN

	0	1	2	3
0	0.0	0.0	0.0	0.0
1	0.0	0.0	0.0	0.0
2	0.0	0.0	0.0	0.0
0	1.0	1.0	1.0	1.0
1	1.0	1.0	1.0	1.0
2	1.0	1.0	1.0	1.0

	0	1	2	3
0	1.0	1.0	1.0	1.0
1	1.0	1.0	1.0	1.0
2	1.0	1.0	1.0	1.0

	0	1	2	3
0	0.0	0.0	0.0	0.0
1	0.0	0.0	0.0	0.0
2	0.0	0.0	0.0	0.0
0	1.0	1.0	1.0	1.0
1	1.0	1.0	1.0	1.0
2	1.0	1.0	1.0	1.0