Python常用函数笔记汇总2

1.分组汇总groupby
Python常用函数笔记汇总2_第1张图片
2.计算空值

# py计算空值
data.isnull().sum(axis=0)
data.notnull().sum(axis=0)

# py去重计数
data_op['id_num_op'].value_counts().size
data_op['id_num_op'].size

Python常用函数笔记汇总2_第2张图片
3.保留两位小数

# predict_proba保留两位小数
gnb = GaussianNB()
pre = gnb.fit(X_train,y_train).predict(X_test)

model = gnb.fit(X_train,y_train)
pro = model.predict_proba(X_test)
pd.DataFrame(pro).applymap(lambda x:np.round(x,2))      #概率值保留两位小数

4.数据表随机取数

np.random.seed(123)
data_1 = data.take(np.random.permutation(len(data))[:100])

5.pickle文件的保存、加载与使用

import pickle as pickle
# 保存
model_file = open(r'clf.model', 'wb')
pickle.dump(clf, model_file)
model_file.close()
# 加载
model_load_file = open(r'clf.model', 'rb')
model_load = pickle.load(model_load_file)
model_load_file.close()
# 预测
test_est_load = model_load.predict(test_data)
pd.crosstab(test_est_load,test_est)

问题:python在线pip无法安装package,如执行pip install jieba,显示红色错误:read time out

原因分析:连接服务器,网速慢,文件大,导致下载连接超时,无法完成下载。

添加参数:–default-timeout=100,执行命令为:pip --default-timeout=100 install jieba
或者 pip --default-timeout=1000 install jieba

6.时间的表达:datetime和timedelta

  • 基本上常用的类: datetime和timedelta两个。

  • 参数可以是days ,hours ,minutes ,seconds ,microseconds,如果是负数就是向前多少时间

    datetime可以查看:天数(day),小时数(hour),星期几(weekday())等
    timedelta可以查看:天数(days),秒数 (seconds)等

  • 每个类都有一些方法和属性可以查看具体的值.

# 天数
import datetime
d1 = datetime.datetime(2009, 3, 23)
d2 = datetime.datetime(2009, 10, 7)
dayCount = (d2 - d1).days
print(dayCount)

# 秒数
import datetime
starttime = datetime.datetime.now()
endtime = datetime.datetime.now()
res = (endtime - starttime).seconds
print(res)

# 时间相加
d1 = datetime.datetime.now()
d3 = d1 + datetime.timedelta(days=10)
print (d3.ctime())

Python常用函数笔记汇总2_第3张图片
7.dict_to_dataframe

import pandas as pd
data = {'a': 3000, 'b': 2000, 'a': 3000, 'c': 6000, 'd': 5000}
pd.DataFrame.from_dict(data,orient='index')     #默认去重
pd.DataFrame.from_dict(data,orient='index').T

Python常用函数笔记汇总2_第4张图片

8.类别转换数值

# 如用1来表示“好的”、“优质”,用-1来表示“坏的”、“差的”
data[data == u'好的'] = 1
data[data == u'优质'] = 1
data[data != 1] = -1
data2 = data.as_matrix().astype(int)

9.查看第三方包的版本

a.命令行直接输入pip list 或 conda list

b.运用pandas查看包的版本

import pandas as pd
pd.show_versions()

c.导入第三方包,利用包的内置方法__version__查看

import numpy as np
np.__version__

你可能感兴趣的:(数据处理篇,python,开发语言)