200817 python + BI

python部分整理数据分析实战45讲陈旸 + 七周成为数据分析师秦路
BI弃坑

一、零碎知识点

快捷操作
shift+回车执行并跳转到下一行
ctrl+回车仅执行停留在当行

type()
% 余数
// 整除

None缺失
''空值

多变量同时赋值

a,b,c = 1,2,3

二、数据结构

1. 列表

# 取出第一个元素
list_name[0]
# 取出最后一个元素
list_name[-1]
# 左闭右开，起始位置～结束位置-1
list_name[起始:结束]

# 插入新的元素到列表指定位置【同时更新原有列表】
list_name.insert然后按住shift+tab可以调出帮助文件
Signature: num.insert(index, object, /)
Docstring: Insert object before index.
Type:      builtin_function_or_method

# 插入新的元素到列表尾端【同时更新原有列表，且一次只能插入一个】
list_name.append()

# 插入多个值到末尾，但需要手动更新
old_list = old_list + [元素1,...]

# 删除
list_name.pop()
# 无参数默认删除最后一个
Signature: num.pop(index=-1, /)
Docstring:
Remove and return item at index (default last).

# set+list = 列表去重
a = [1,2,3,3]
b = [2,3,4]
# a + b = [1, 2, 3, 3, 2, 3, 4]
# 但想得到的是 [1,2,3,4] 去重的交集

# 集合去重
set(a)
# {1, 2, 3}

# 交集
set(a) & set(b)

# 并集
set(a) | set(b)

# 差集
set(a) - set(b)

2. 字典

没有顺序之分

# 创建字典
a = {'id':1, 'name':'gouzi', 'sex':'male'}

# 查看元素
a['id'] # 1
a['ID'] # error

# 提高容错
list_name.get()
Signature: a.get(key, default=None, /)
Docstring: Return the value for key if key is in the dictionary, else default.

a.get('ID',99999)
# 查找，有则返回值，如若没有则返回第二个参数
a.setdefault('id',2) #1
a.setdefault('age',0)
# {'id': 1, 'name': 'gouzi', 'sex': 'male', 'age': 0}

# 删除元素
a.pop('id')
# 添加元素
a['id'] = 2

# 提取标签
list(a.keys())
# 提取值
list(a.values())
# 同时提取
list(a.items())

3. 元组

tuples = ('tupleA','tupleB')

用圆括号表示，里面的元素不能够修改

4. 集合

s = set(['a', 'b', 'c'])
s.add('d')
s.remove('b')

三、控制流

1. if

if 判断条件: #注意这个英文冒号
	xxxxx

2. while + break vs continue

一直执行直到判断条件为False
注意避免死循环

3. for + range/list…

range(stop) -> range object 输出 0 ~ (stop - 1)
range(start, stop[, step]) -> range object

# 除了 range和list 可以用for，字典也可以
for i in a.keys(): # values同理
    print(i)

# 或者同时输出
for k,v in a.items():
    print(k,v)

循环进阶：简化写法

list_1 = []
for i in range(1,11):
	if i%2 == 0:
	    list_1.append(i)

# 简化写法
list_2 = [i for i in range(1,11) if i%2 == 0]

# 除了i，还可以是
list_3 = [i**2 for i in range(1,11) if i%2 == 0]
list_4 = ['str'+ str(i) for i in range(1,11) if i%2 == 0]

# 也可以用在字典上
dic = {'a':1,'b':2,'c':3}
list_5 = [i**2 for i in dic.values()]

四、函数

1. 自定义函数

def add(x,y):
	return x+y #这样可以将函数返回的值赋给变量；如果是print(x+y)则不行

2. map函数

#求列表1~10中每个元素的平方
#方法一
[i**2 for i in range(1,11)]

#方法二
def squ(x):
    return(x*x)

[squ(i) for i in range(1,11)]

#方法三 【用map函数:】
list(map(squ,range(1,11)))

3. 匿名函数

list(map(lambda x:x*x,[1,2,3]))
#输入x【冒号】输出x^2
#这样不用定义函数

4. 第三方包 numpy & pandas

# 想要计算列表中各个元素出现的次数
a = [2,1,5,6,0,2,4,6,7,7]
d = {} #空字典

for i in a:
    if i in d.keys():
        d[i] += 1
    else: 
        d[i] = 1

# 第三方包
import collections
collections.Counter(a)

# 其他常用的包
import csv
import datetime
import math
import numpy as np #起别名
import pandas as pd

b = np.array([[1,2,3,4],[5,6,7,8]])
# 同样可以用【】进行切片
b.dtype #获取元素的属性
# dtype('int64')
b.shape
#函数shape属性获得数组的大小
# (2, 4)

⚠️list中数据类型不一定要一致，但是array中类型必须全部一致


pd.Series([1,2,3]) #注意大写S
# 索引 & 数值
# 可自定义索引
s1 = pd.Series([1,2,3],index = ['a','b','c']) 
s1['a']
#可同时多个索引
s1[['a','c']]
/*
a    1
b    2
c    3
dtype: int64
*/

# 数据类型的转换，并没有更改原本的数据类型，只是预览
s1.astype('str')

# 也可以导入字典的形式
s2 = {'name':'QQ','age':18}
s3 = pd.Series(s2)
/*
name    QQ
age     18
dtype: object
*/


# 数据框支持多种数据类型的输入
# 由字典导入,也可以列表然后自己定义index/columns

#查看具体信息
df = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]],columns=list('abc'))
df.info()

#提取列
df['a'] #由dataframe变成series
#或者
df.a

#提取行
df.ix[0:1]

# 单一条件查找
df[df.a == 1]
# 多条件查找
# 错误
df[df.a == 1 & df.b == 2]
# The truth value of a Series is ambiguous.
# 正确：要使用小括号
df[(df.a == 1) & (df.b == 2)]
# 或者
df.query('(a == 1) & (b == 2)') #需要用引号括起来

# 增
df.append #运算效率低

df.iloc[1] # 注意是【】，得到的是第二行数据
df.iloc[1:2] #也是一样的结果，因为右边2是开区间
df.iloc[1:2,1:2]
# 如果index是字符串，也可以使用
df.index = ['one','two','three']
df.loc['two']
df.loc['two','b']
df.loc['two',['b','c']]

/* df
		a	b	c
one		1	2	3
two		4	5	6
three	7	8	9

*/

numpy

结构数组

import numpy as np
persontype = np.dtype({
    'names':['name', 'age', 'chinese', 'math', 'english'],
    'formats':['S32','i', 'i', 'i', 'f']})
# S32 :S后面添加数字，表示字符串长度，比如S3表示长度为三的字符串，不写则为最大长度
# i : int32的缩写
# f : float32
peoples = np.array([("ZhangFei",32,75,100, 90),("GuanYu",24,85,96,88.5),
       ("ZhaoYun",28,85,92,96.5),("HuangZhong",29,65,85,100)],
    dtype=persontype)

peoples[:]['age'] #提取所有人的年龄

连续数组

x1 = np.arange(1,11,2)
x2 = np.linspace(1,9,5)

np.arange 和 np.linspace 起到的作用是一样的，都是创建等差数组。这两个数组的结果 x1,x2 都是[1 3 5 7 9]。

arange() 类似内置函数 range()，通过指定初始值、终值、步长来创建等差数列的一维数组，默认是不包括终值的。linspace 是 linear space 的缩写，代表线性等分向量的含义。linspace() 通过指定初始值、终值、元素个数来创建等差数列的一维数组，默认是包括终值的

算术运算

x1 = np.arange(1,6) # 1，2，3，4，5
x2 = np.linspace(2,2,5) # 2，2，2，2，2
print(np.add(x1, x2))
print(np.subtract(x1,x2))
print(np.multiply(x1, x2))
print(np.divide(x1, x2))
print(np.power(x1, x2))
# 在 n 次方中，x2 数组中的元素实际上是次方的次数，x1 数组的元素为基数。
print(np.remainder(x1, x2)) #也可以用 np.mod(x1, x2) 取余数

统计函数

计数组 / 矩阵中的最大值函数 amax()，最小值函数 amin()
- amin() 用于计算数组中的元素沿指定轴的最小值
- amin(a,0) 是延着 axis=0 轴 「纵向」 的最小值，axis=0 轴是把元素看成了[1,4,7], [2,5,8], [3,6,9]三个元素，所以最小值为[1,2,3]
- amin(a,1) 是延着 axis=1 轴 「横向」 的最小值，axis=1 轴是把元素看成了[1,2,3], [4,5,6], [7,8,9]三个元素，所以最小值为[1,4,7]

a = np.array([[1,2,3], [4,5,6], [7,8,9]])
print(np.amin(a)) #取矩阵中的最小值
print(np.amin(a,0)) 
print(np.amin(a,1))
print(np.amax(a))
print(np.amax(a,0))
print(np.amax(a,1))

统计最大值与最小值之差 ptp()

print np.ptp(a) # 9-1
print np.ptp(a,0) # 7-1 = 8-2 = 9-3
print np.ptp(a,1) #3-1 = 6-4 = 9-7

统计数组的百分位数 percentile() 第p个百分位数

np.percentile(a, 50) # 5
np.percentile(a, 50, axis=0) #array([4., 5., 6.])
np.percentile(a, 50, axis=1) #array([2., 5., 8.])

统计数组中的中位数 median()、平均数 mean()

# 同理
np.median(a,axis = 0)
np.mean(a, axis=1)

统计数组中的加权平均值 average()

a = np.array([1,2,3,4])
wts = np.array([1,2,3,4])
print(np.average(a)) # 2.5
print(np.average(a,weights=wts)) #3 = 1*0.1+2*0.2+3*0.3+4*0.4

统计数组中的标准差 std()、方差 var()

np.std(a)
np.var(a)

NumPy 排序
sort(a, axis =-1, kind=’quicksort’, order=None)，默认情况下使用的是快速排序；
在 kind 里，可以指定 quicksort、mergesort、heapsort 分别表示快速排序、合并排序、堆排序。

以下解释均摘自于 littlelufisher
快速排序流程如下：
(1)从数列中挑出一个基准值。
(2)将所有比基准值小的摆放在基准前面，所有比基准值大的摆在基准的后面(相同的数可以到任一边)；在这个分区退出之后，该基准就处于数列的中间位置。
(3)递归地把"基准值前面的子数列"和"基准值后面的子数列"进行排序。

合并排序：基本思想是合并两个已经排序的表（如A和B）。合并的办法是用两个指针，在已经排序的A和B的开头，不断往前移，作比较，把A和B中的元素放到C中。真正实现算法时候，要用递归进行处理。其基本操作是合并，然后要不断递归，对越来越小的数组区域进行不断的合并。整个算法要分成两部分，一部分是归并操作，另一部分是总体的归并排序的操作。

堆排序：将待排序序列构造成一个大顶堆，此时，整个序列的最大值就是堆顶的根节点。将其与末尾元素进行交换，此时末尾就为最大值。然后将剩余n-1个元素重新构造成一个堆，这样会得到n个元素的次小值。如此反复执行，便能得到一个有序序列了。

同样 axis 默认是 -1，即沿着数组的最后一个轴进行排序，也可以取不同的 axis 轴，或者 axis=None 代表采用扁平化的方式作为一个向量进行排序。另外 order 字段，对于结构化的数组可以指定按照某个字段进行排序。

a = np.array([[4,3,2],[2,4,1]])
print(np.sort(a)) #= print(np.sort(a, axis=1)) 
'''
[[2 3 4]
 [1 2 4]]
'''
print(np.sort(a, axis=None))
# [1 2 2 3 4 4]

print(np.sort(a, axis=0)) 
'''
[[2 3 1]
 [4 4 2]]
'''

五、实际案例

1. 导入数据

import pandas as pd
pd.read_csv('xx_utf.csv') #默认utf
# 如果是gbk(这里sample文件不是用逗号分割而是用\t，所以需要改sep)
df = pd.read_csv('xx_gbk.csv',encoding = 'gbk', sep = '\t') 
# 还可以更改列名，添加参数names = list(...)

# 概览
df.info()
# 描述统计
df.describe()

df.head() #默认五行

2. 计算

df.tail() #默认五行

# 数据类型的修改
df.top = df.top.astype('str')

# 数据转置
df.T

# 单一字段排序
df.avg.sort_values() # 返回结果是数组
df.sort_values(by = 'avg',ascending = False) #返回结果是数据框
# by排序的依据

# 多个字段升降序
df.sort_values(['avg','city'],ascending = False)

df.sort_index()

# 排名
df.avg.rank(ascending = False, method = 'average')
# 如果出现多个值相同，排名则（min+max）/2
# e.g.四个值都并列第一，则(1+4)/2 = 2.5
# method还有max/min/first（不考虑并列，值相同时先遇到谁谁就是第一名[按照index]）/last

# 唯一值
df.workYear.unique()

# 唯一值以及他们出现的次数
df.workYear.value_counts()

# 累计求和
df.avg.cumsum()

# 分段统计
# 错误写法
df.cut()
# 报错：Dataframe object has no attribute cut
# 正确写法
pd.cut(df.avg,bins = 20)
# 将数据分成20等分
# 参数labels = [...]可以写对应区间的标签 比如 低中高
# 一般为了方便查看会写成df['bins'] = pd.cut(df.avg,bins = 20)
# 也可以人工分割
pd.cut(df.avg,bins = [0,5,10,20,30,设置一个特别的的极大值],labels = ['0～5',...] )

# 分位法进行分割
pd.qcut(x数据,q几等分位,labels = None, retbins = False开区间闭区间,precision = 3, duplicates = 'raise' 去重操作)

3. 聚合函数

df.groupby(by = 'city').count()
df.groupby(by = 'city').max()
... ...

# 多字段
df.groupby(by = ['city','workYear']).mean()

# 算分组之后工资最大值和最小值的差
for k,v in df.groupby(by = ['city']):
    print(max(v.avg) - min(v['avg']))
    print('我是分割线')

4. 多表关联操作 concat/join/merge

因为没有数据，假设有两张表position和company

# merge 针对的是列
position.merge(right关联的表,how = 'inner'关联的方式,on关联条件【字段名字相同】,left_on = None, right_on = None【名字不一致时使用】, right_index = F)

pd.merge(left,right,how,...)

# join 针对的是索引
company.join(position)

# concat 堆叠 所有字段直接堆在一起，字段全部合并
pd.concat([company,pisition],axis = 0上下拼接/1左右拼接)
# 应用：每个月的销售表数据堆叠成大表

df1 = pd.DataFrame(
    {
        'A':list('abc'),
        'B':list('efg'),
        'C':list('hij')
    }
)

df2 = pd.DataFrame(
    {
        'C':list('abc'),
        'D':list('edf')
    }
)

# 多重索引
# 想从分组结果中提取某分类数据
position.groupby(by = ['city','eduction']).mean().avg['上海']['博士']
# 按照第一/二重索引的顺序
position.groupby(by = ['city','eduction']).mean().loc['上海','博士']


# 如果不用groupby怎么设置多重索引
position.set_index(['city','education'])
# 但并没有排好序，没有合并，数据结果零散
position.sort_values(by = ['city','education']).set_index(['city','education']) #把列变成索引

# 把索引变成列
position.groupby(by = ['city','eduction']).mean().reset_index()

5. 文本函数

position.positionLabels.str.count('分析师')
# 表.字段.str.函数 ； str对值里面的字符串进行操作
# 统计每行有几个‘分析师’

position.positionLabels.str.find('分析师')
# 该字段出现的位置，显示为-1则表示未检索到

position.positionLabels.str[1:-1] #删除每个字符串的首尾字符
position.positionLabels.str[1:-1].str.replace("'","") #删除引号

6. 数据清洗

import numpy as np
# 人为使数据变脏
position.loc[position.city == '深圳',city] = np.NaN #比起None，推荐使用这个

# 填充
position.fillna(1) #将数据框中所有的空值填充为1

# 删除空值所在的行（默认），所在列(axis = 1)
position.dropna() 

# 删除重复元素
position.duplicated() #返回bool
position = position[~position.duplicated()] #波浪号反向操作
# 更简单的方法
position.drop_duplicates()

7. apply

# 目标：在avg平均薪资数值后面加上‘k’
position.avg.astype('str')+'k' #不能直接相加，因为avg是浮点数

position.avg.apply(lambda x:str(x)+'k')
# axis = 0 对列使用 = 1 行


# 聚合apply
# 不同城市下薪资排名前几的职位
# sample
def func(x,n):
	# x 数据集 l 排名的依据 n 排名  
	r = x.sort_values('avg', ascending = False)
	return r[:n]

position.groupby('city').apply(func,n = 3)


# agg
position.groupby('city').agg('mean')
# 等价于 position.groupby('city').mean()
# 同时运用多个函数
position.groupby('city').agg(['mean','sum'])
# 自定义函数
position.groupby('city').agg(lambda x:max(x) - min(x))

8. 数据透视

position.pivot_table(index = ['city','education'], 
					 columns = 'workYear', 
					 values = ['avg','top'], 
					 aggfunc = [np.mean,np.sum])
# margins汇总项要不要
# 对avg和top都进行mean和sum的操作

# 但如果想分别对avg进行mean操作，对top进行sum操作
# 字典！
position.pivot_table(index = ['city','education'], 
					 columns = 'workYear', 
					 values = ['avg','top'], 
					 aggfunc = {'avg':np.mean,'top':np.sum})
# 导入数据透视表最好是先reset_index
position.pivot_table(index = ['city','education'], 
					 columns = 'workYear', 
					 values = ['avg','top'], 
					 aggfunc = {'avg':np.mean,'top':np.sum}).reset_index().to_csv()

六、Python+数据库

1. 连接&读取数据库

# 终端 
pip install pymysql #可能会安装在老版本下

pip3 install pymysql #安装在python3的文件下

方法一 : pymysql

import pymysql

# 创建连接
conn = pymysql.connect(
    host = 'localhost', #主机，数据库所在的位置，一般直接输入localhost本地或者ip地址
    user = 'root', #账户名
    password = '123',
    db = 'temp' , #连接的数据库schema
    port = 3306, #端口默认3306
    charset = 'utf8'# 文本编码
)

# 创建游标
cur = conn.cursor()
cur.execute('select * from Chars')
# 返回6，说明数据有6行

data = cur.fetchall() #调取结果
data

conn.commit() #如果对数据进行修改，记得commit
# 打开游标操作结束，记得关闭
cur.close()
conn.close()

方法二 : Pandas

import sqlalchemy #那么之后调用就是sqlalchemy.create_engine
# 如果写的是
from sqlalchemy import create_engine
# 则直接调用create_engine
import pandas as pd

sql = 'select * from Chars'
engine = create_engine('mysql+pymysql://root:password@localhost:3306/temp?charset=utf8')
# 用户名:密码@主机:端口/数据库?文本编码
data = pd.read_sql(sql,engine)

# 也可以写成函数的形式
def reader(query,db):
	engine = create_engine('mysql+pymysql://root:password@localhost:3306/{0}?charset=utf8.format(db)')
	df = pd.read_sql(query,engine)
	return df

# 可以用来加载数据
reader(
"""
select 
	date(paidTime) as order_dt,
	userId as user_id,
	sum(price) as order_amount,
	count(orderId) as order_products
from data.orderinfo
where isPaid = "已支付"
group by date(paidTime),userId
"""
)

2. 写入数据库

结果.to_sql(name = 想写入到哪个数据库,con = 'mysql+pymysql://root:password@localhost:3306/temp?charset=utf8')
# 1. if_exists参数：= fail如果原来就存在这个数据表，则写入失败
# = append 表存在插入数据；不存在则自动新建一张表
# 2. index = True 索引也作为字段写入（一般选择False）
# 建议在数据库里先建表再插入

七、实例✨

1. 数据清洗

import pandas as pd
import numpy as np

columns = ['user_id','order_dt','order_products','order_amount']

/*
user_id 用户ID
order_dt 购买日期
order_products 购买产品数
order_amount 购买金额
*/

df = pd.read_table('CDNOW_master.txt',names = columns, sep = '\s+')
# 通过多个字符串进行分割 
# s+可以将tab和多个空格都当成一样的分隔符
# sep='\s+': 指代\f\n\t\r\v这些，分别为换页符，换行符，制表符，回车符，垂直制表符

df.info()
# 发现order_dt的类型应该为日期，但是显示为int
# 可以之后改，也可以在pd.read_table导入数据的时候，添加参数parse_dates(把哪个字段转化成日期格式),date_parser具体的时间类型（同to_datetime中的format）
df.head()
df.describe()

df['order_dt'] = pd.to_datetime(df.order_dt, format = '%Y%m%d')
# 后续需要使用月度进行数据分析，因此添加月份字段

# 上面dtype = datetime64[ns] ns是纳秒
df['month'] = df.order_dt.values.astype('datetime64[M]')
# 不要忘记values
/* 改为月份格式
array(['1997-01', '1997-01', '1997-01', ..., '1997-03', '1997-03',
       '1997-03'], dtype='datetime64[M]')
*/

2. 进行用户消费趋势的分析（按月）

# （1）每月的消费总金额
# 我写的
df.groupby('month').agg('sum')['order_amount']
# 老师写的，后面使用更加方便
grouped_month = df.groupby('month')
order_month_amount = grouped_month.order_amount.sum()
order_month_amount.head()

# 加载数据可视化包
import matplotlib.pyplot as plt
# 可视化显示在页面上
%matplotlib inline
# 更改设计风格
plt.style.use('ggplot')
order_month_amount.plot() #折线图

# （2）每月的消费次数
grouped_month.user_id.count().plot()

# （3）每月的产品购买量
grouped_month.order_products.sum().plot()

# （4）每月的消费人数
# 我写的
result = grouped_month.user_id.unique().reset_index()
result.user_id.apply(lambda x:len(x)).plot()
# 老师写的
grouped_month.user_id.apply(lambda x:len(x.drop_duplicates())).plot()


# 或者用数据透视表 —— 清晰明了
df.pivot_table(index = 'month',
               values = ['order_products','order_amount','user_id'],
               aggfunc = {
                   'order_products' : 'sum',
                   'order_amount' : 'sum',
                   'user_id' : 'count'
               }).head()


# 每月用户平均消费金额的趋势
grouped_month.order_amount.mean().plot()
# 每月用户平均消费次数的趋势
grouped_month.order_products.mean().plot()

3. 用户个体消费分析

# (1) 用户消费金额、消费次数的描述统计
grouped_user = df.groupby('user_id')
grouped_user.sum().describe()
# 结果显示：
# 用户平均购买了7张CD，但是中位数只有3，说明小部分用户购买了大量的CD
# 用户平均消费同理，有极值干扰


# (2)用户消费金额和消费次数的散点图（线性还是非线性）
# 知识点：散点图是plot.scatter; 过滤数据可以用query

grouped_user.sum().plot.scatter(x = 'order_amount', y ='order_products')
# 线性，但大部分数据集中在左下角，删除极值点再画一次图

grouped_user.sum().query('order_products < 400').plot.scatter(x = 'order_amount', y ='order_products')


#（3）用户消费金额的分布图（是否分布呈现梯度）
grouped_user.order_amount.sum().hist()
# bins参数：柱子的多少
# 从直方图可以看出，用户消费金额绝大部分呈现集中趋势，小部分异常值干扰了判断。可以使用过滤操作排除异常 


# (4) 用户消费次数的分布图
grouped_user.sum().query('order_products < 100').order_products.hist()
# 这里的100可以大概通过切比雪夫定理来定
/*
适用于任何数据集，而不论数据的分布情况如何。
至少75%的数据值与平均数的距离在z=2个标准差之内；
至少89%的数据值与平均数的距离在z=3个标准差之内；
至少94%的数据值与平均数的距离在z=4个标准差之内；

易混淆
经验法则（Empirical Rule）：需要数据符合正态分布。
 
大约68%的数据值与平均数的距离在1个标准差之内；
大约95%的数据值与平均数的距离在2个标准差之内；
几乎所有的数据值与平均数的距离在3个标准差之内；
*/
# 描述统计order_products的均值是7，std = 17，所以按94%计算4*17+7


# (5) 用户累计消费金额占比（百分之多少的用户占了百分之多少的消费额）
# ⚠️升序排列
user_cumsum = grouped_user.sum().sort_values('order_amount').apply(lambda x:x.cumsum()/x.sum())
user_cumsum.reset_index().order_amount.plot()
# 记住这里需要reset_index(),因为user_cumsum的索引是user_id,作图会出现问题
# 按用户消费金额进行升序排列，由图可知50%的用户仅贡献了15%的消费额度。而排名前5000的用户贡献了60%的消费额

4. 用户消费行为

用户第一次消费（首购）
用户最后一次消费
新老客户消费比
- 多少用户仅消费一次？
- 每月新客占比？
用户分层
- RFM
- 新、老、活跃、回流、流失
用户购买周期（按订单）
- 用户消费周期描述
- 用户消费周期分布
用户生命周期（按第一次&最后一次消费）
- 用户生命周期描述
- 用户生命周期分布

# 每天新客的数量变化
grouped_user.order_dt.min().value_counts().plot()
# 注意value_counts有s有括号
# 由图可知：用户第一次购买分布集中在前三个月；其中，在2月11日-25日有一次剧烈的波动


# 最后一次消费（流失）
grouped_user.order_dt.max().value_counts().plot()
# 用户最后一次购买的分布比第一次分布更广；
# 大部分最后一次购买集中在前三个月，说明有很多用户购买了一次就不再进行购买
# 随着时间的递增，最后一次购买数也在递增，消费呈现流失上升的状况


# 新老客户消费比
# 有多少用户仅消费一次？（老师是按照首次消费时间=最后一次消费时间，但万一一天内多次消费
user_life = grouped_user.order_dt.agg(['min','max'])
(user_life['min'] == user_life['max']).value_counts()
# 结论：有一半的用户就消费了一次
# 所以我写的是
temp = grouped_user.order_dt.count().reset_index()
temp[temp.order_dt == 1].count()

# 每月新客占比


# RFM
rfm = df.pivot_table(index = 'user_id',
                     values = ['order_dt','order_products','order_amount'],
                     aggfunc = {
                         'order_dt' : 'max',
                         'order_products' : 'sum',
                         'order_amount' : 'sum'
                     })

# (Recency):表示客户最近一次购买的时间有多远
# P.S. 数据是199X年的数据，距今太久，这里用max进行相减
rfm['R'] = (rfm.order_dt.max() - rfm.order_dt)/np.timedelta64(1,'D')
# 分子部分是有单位的，后面除以是去掉单位且除以1（该数值可以修改

图源自： RFM 秦路老师

# (Frequency):客户在最近一段时间内购买的次数
# (Monetary)
rfm.rename(columns = {'order_products':'F','order_amount':'M'},inplace = True)

# 巧妙 不用多个ifelse
def rfm_func(x):
    level = x.apply(lambda x:'1' if x>0 else '0')
    label = level.R + level.F + level.M
    d = {
        '111':'重要价值客户',
        '011':'重要保持客户',
        '101':'重要挽留客户',
        '001':'重要发展客户',
        '110':'一般价值客户',
        '010':'一般保持客户',
        '100':'一般挽留客户',
        '000':'一般发展客户'
    }
    result = d[label]
    return result

rfm['label'] = rfm[['R','F','M']].apply(lambda x:x-x.mean()).apply(rfm_func,axis=1)

# 使用plot.scatter自带的作图，点的颜色需要新加一列
rfm.loc[rfm.label == '重要价值客户','color'] = '#00CED1'
rfm.loc[~(rfm.label == '重要价值客户'),'color'] = '#DC143C'
# 也可以给每个类别上色，这里省略;后续的学习会使用Matplotlib
rfm.plot.scatter(x = 'F', y = 'R', c = rfm.color,alpha = 0.4)

rfm.groupby('label').count()
rfm.groupby('label').sum()

/*
注意使用平均值时，极值会有影响，所以RFM的划分标准应该以业务为准(可以改为中位数或者自己划分)
- 尽量用小部分的用户覆盖大部分的额度
- 不要为了数据好看划分等级
*/


# 用户分层：新客、老客、活跃、回流、流失
pivoted_counts = df.pivot_table(index = 'user_id',
                                columns = 'month',
                                values = 'order_dt',
                                aggfunc = 'count').fillna(0)
pivoted_counts.head()
# 每个月消费的次数

# 简化，只想知道这个月是否消费
df_purchase = pivoted_counts.applymap(lambda x:1 if x>0 else 0)
# 但有个问题需要注意：要区分是0是没消费还是这时候是非用户，首次消费在这之后，只是数据透视，自动用0补上了

def active_status(data):
    status = []
    for i in range(18):
        
        #若本月没有消费，一直未注册？不活跃？
        if data[i] == 0:
            
            if len(status) > 0:
                if status[i-1] == 'unreg':
                    status.append('unreg')
                else:
                    status.append('inactive')
                        
            else:
                status.append('unreg')
        
        # 本月有消费：首次？回流？活跃
        else:
            if len(status) == 0:
                status.append('new')
            else:
                if status[i-1] == 'inactive':
                    status.append('return')
                elif status[i-1] == 'unreg':
                    status.append('new')
                else:
                    status.append('active')
                    
    return status

# result_type ='expand'!!!
purchase_status = df_purchase.apply(active_status,axis = 1,result_type ='expand')
purchase_status.columns = pivoted_counts.columns

总之，

若本月没有消费
- 若之前有消费，则为流失或者不活跃
- 其他则为未注册
若本月有消费
- 若是第一次消费或者上个月为未注册，则为新用户
- 若之前有过消费且上个月为不活跃，则为回流
- 其他则为活跃

实际业务中，通常用SQL来‘上个月的状态表left join这个月的消费情况’，而不是数据透视

# 未注册不希望被count，设置为np.NaN
purchase_status_ct = purchase_status.replace('unreg',np.NaN).apply(lambda x:pd.value_counts(x))
purchase_status_ct

purchase_status_ct.fillna(0).T.head()
# 面积图
# 会有遮挡，换一下列的顺序
cols = ['active','new','return','inactive']
new_status = purchase_status_ct.fillna(0).T[cols]
new_status.plot.area()

# 各个状态的占比 / 消费用户的构成
purchase_per = new_status.apply(lambda x:x/x.sum(),axis=1)

/*
活跃用户（持续消费的用户）对应的是消费运营的质量
回流用户（之前不消费本月才消费）对应的是唤回运营
不活跃用户 对应的是流失
*/

# 上个月的没有消费的用户有多少这个月回来了
# shift()错位,往下平移一个
purchase_per['return']/purchase_per['inactive'].shift()


# 用户购买周期（按订单来算，距离上一个订单的时间）
order_diff = grouped_user.apply(lambda x:x.order_dt - x.order_dt.shift())
order_diff.describe()

# 只保留数值，去除单位，画图
(order_diff / np.timedelta64(1,'D')).hist(bins=20)

# 用户生命周期
(user_life['max'] - user_life['min']).describe()
# 大多数集中在0天，也就是只够买过一次，排除该部分数据再画图

u_l = ((user_life['max'] - user_life['min']).reset_index()[0] / np.timedelta64(1,'D'))
u_l[u_l > 0].hist(bins=40)
# 仍存在较短生命周期的用户，但也有不少的用户稳定

5. 复购率和回购率分析

复购率：自然月内，购买多次的用户占比
回购率：曾经购买过的用户在某一时期内的再次购买的占比

# 用透视表计算客户每个月的消费次数
pivoted_counts=df.pivot_table(index='user_id',
                              columns='month',
                              values='order_dt',
                              aggfunc='count').fillna(0)
pivoted_counts.head()

purchase_r = pivoted_counts.applymap(lambda x:1 if x>1 else np.NaN if x==0 else 0)
# 计算复购率：如果x>1,则赋值1 -> 表明消费次数在1次以上
# x==0赋值np.NaN，不会参与计算;其余情况赋值0

#计算复购率
(purchase_r.sum()/purchase_r.count()).plot(figsize = (10,4))
# 复购的人数/消费的人数NaN不计算在内
# 宽10高4
# 结论：复购率稳定在20%左右，前三个月因为有大量新用户涌入，而这批用户只购买了一次，所以导致复购率降低

def purchase_back(data):
    status = []
    for i in range(17):
        if data[i] == 1: # 当月消费
            if data[i+1] == 1: # 次月消费
                status.append(1) #当月消费过，次月也消费了，回购用户1
            if data[i+1] == 0:
                status.append(0) # 次月未消费则为0，没有回购
        else:
            status.append(np.NaN) # 当月没消费![在这里插入图片描述](https://img-blog.csdnimg.cn/20200827015446458.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0xBSklBTkdKSUFERVhJQU5HWUU=,size_16,color_FFFFFF,t_70#pic_center)
则不计NaN
    status.append(np.NaN) # 因为最后一个月缺少下一个月的数据，填补为空
    return pd.Series(status,df_purchase.columns)

#对透视表应用函数purchase_back:
purchase_b = df_purchase.apply(purchase_back, axis =1)
purchase_b.head()
# 对照原始表进行理解
df_purchase.head()

# 计算回购率:
(purchase_b.sum()/purchase_b.count()).plot(figsize=(10,4))
# 次月消费过的/本月消费用户数

八、可视化

1. Pandas

折线图 plot
柱形图 bar
直方图 hist
箱线图 box
密度图 kde
面积图 area
散点图 scatter
散点图矩阵 scatter_matrix
饼图 pie

import pandas as pd

# 没找到课件的数据集，自己对照着视频中的数据改造了下DataAnalyst数据集
df = pd.read_csv('position_gbk.csv',encoding = 'gbk')

%matplotlib inline
# 将matplotlib的图表直接显示在单元格里面

# 折线图
# 工资出现次数的折线显示乱七八糟是因为index无序
df.avg.value_counts().sort_index().plot()

# 柱形图
df.avg.value_counts().sort_index().plot(kind = 'bar')
df.avg.value_counts().sort_index().plot.bar() #更好，可以调用参数

df.pivot_table(index = 'city', columns = 'education', values = 'avg', aggfunc = 'count').plot.bar()# 小方格是因为中文不兼容

# 堆积柱形图
df.pivot_table(index = 'city', columns = 'education', values = 'avg', aggfunc = 'count').plot.bar(stacked = True)
# 水平轴方向绘制 +h
df.pivot_table(index = 'city', columns = 'education', values = 'avg', aggfunc = 'count').plot.barh(stacked = True)

# 直方图
df.avg.hist() #有网格
df.avg.plot.hist()# 无网格
# 多重直方图（类似于面积图那种，同时画出好几个直方图叠加在一起）
# 数据要转换成多列,这个例子里以学历为列
df.groupby('education').apply(lambda x:x.avg).unstack().T.plot.hist(alpha = 0.5)
# unstack ：series变成表格形式&行列转换
# 堆积
df.groupby('education').apply(lambda x:x.avg).unstack().T.plot.hist(alpha = 0.5,stacked = True, bins = 30)
# 横向转换用参数orientation = 'horizontal'

# 箱线图
# 首先得到一个多维度的数据框
df.groupby('education').apply(lambda x:x.avg).unstack().T.plot.box()
# 建议直接调用boxplot，更精简
df.boxplot(column = 'avg', by = 'education')

# 密度图
df.avg.plot.kde() #薪资的密度函数

# 面积图
df.pivot_table(index = 'avg', columns = 'education', aggfunc = 'count', values = 'positionId').plot.area()
# 也可以对数据进行操作，变成百分比面积图

df.pivot_table(index = 'avg', columns = 'education', aggfunc = 'count', values = 'positionId').apply(lambda x:x/x.sum()).plot.area()

# 散点图
# 生成数据
df.groupby('companyId').aggregate(['mean','count']).avg.plot.scatter(x='mean',y='count')

# 散点矩阵图
# 多个变量的关系；自身变量和自身变量则默认显示柱状图
matrix = df.groupby('companyId').aggregate(['mean','count','max']).avg
pd.plotting.scatter_matrix(frame = matrix)
# 可以和数据清洗进行结合
pd.plotting.scatter_matrix(matrix.query('count < 50'))
# 可以把柱状图变成密度图
pd.plotting.scatter_matrix(matrix.query('count < 50'),diagonal = 'kde')

# 饼图
df.city.value_counts().plot.pie(figsize = (6,6))

2. matplotlib

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotplib inline

# 解决问题：中文字符无法显示
plt.rcParams['font.sans-serif'] = ['SimHei']
grouped_city = df.groupby('city').avg.count()
plt.pie(grouped_city,labels = grouped_city.index)
# 默认字体改为黑体

这里存在的问题是运行了但是仍然不显示中文，
问题在字体库压根没这字体emm
step 1: 先找到自己的字体库路径
可输入代码 matplotlib.matplotlib_fname() 自己找找
e.g. /Users/user_name/opt/anaconda3/lib/python3.7/site-packages/matplotlib/mpl-data/fonts/ttf
step 2: 去下载字体并放到当前路径，再运行结果还不行emm
n小时瞎搞瞎删的连pandas都用不了，然后卸载重新装了anaconda又成功了（迷

参考：
https://www.jianshu.com/p/15b5189f85a3
https://www.jianshu.com/p/d1eeaa58ff4e

# 解决问题：在坐标轴上能显示负数
plt.rcParams['axes.unicode_minus'] = False
plt.plot(np.random.random_integers(-20,20,20))

针对这种图像输出上显示内存地址，可以通过plt.show()不显示

# 几张图 & 画布的长和宽
plt.figure(1,figsize=(10,4))
plt.plot(np.random.random_integers(-20,20,20))
plt.title('折线图')
plt.xticks([0,15,20]) #调整x轴的刻度
plt.xlabel('x轴')
plt.show()

plt.plot(np.random.random_integers(-20,20,20))
plt.plot(np.random.random_integers(-20,20,20))
# 一层层叠加上去
# 增加图例
plt.legend(('No_1','No_2')) 
# 两层括号，以元组的形式
plt.show()

# 或者
plt.plot(np.random.random_integers(-20,20,20),label = 'no1', color = 'r')
plt.plot(np.random.random_integers(-20,20,20),label = 'no2', color = 'b')
plt.legend() 
plt.show()

# 分类显示不同学历薪资分布
# 多重聚合记得用方括号
data = df.groupby(['education','companyId']).aggregate(['mean','count']).avg.reset_index()

for edu,grouped in data.groupby('education'):
#grouped：不同学历下面的数据框
    x = grouped['mean']
    y = grouped['count']
    plt.scatter(x,y,label = edu)
plt.legend()
# plt.legend(loc = 'upper right')
plt.xlabel('平均薪资')
plt.ylabel('招聘人数')
plt.show()

# 绘制子图
plt.figure(figsize = (12,4))
plt.subplot(1,2,1) # 1行2列，此时绘制的是第一个图;可缩写成121
plt.plot(np.random.random_integers(-20,20,20),label = 'no1', color = 'r')
plt.subplot(1,2,2) # 1行2列，此时绘制的是第二个图
plt.plot(np.random.random_integers(-20,20,20),label = 'no2', color = 'b')
plt.legend() 
plt.show()

plt.figure(figsize = (12,4))
# 第一张图
plt.subplot(221) 
plt.plot(np.random.random_integers(-20,20,20),label = 'no1')
plt.plot(np.random.random_integers(-20,20,20),label = 'no2')
plt.legend() 

# 第二张图
plt.subplot(222) 
plt.plot(np.random.random_integers(-20,20,20),label = 'no3')
plt.plot(np.random.random_integers(-20,20,20),label = 'no4')
plt.legend() 

# 第三张图
# 上面两张图不管，下面重置
plt.subplot(212)
plt.plot(np.random.random_integers(-20,20,20),label = 'no5')

plt.show()

python使用matplotlib:subplot绘制多个子图

plt.figure(figsize = (12,4))
# 第一张图
plt.subplot(221) 
plt.plot(np.random.random_integers(-20,20,20),label = 'no1')
plt.plot(np.random.random_integers(-20,20,20),label = 'no2')
plt.legend() 

# 第二张图
plt.subplot(223) 
plt.plot(np.random.random_integers(-20,20,20),label = 'no3')
plt.plot(np.random.random_integers(-20,20,20),label = 'no4')
plt.legend() 

# 第三张图
# 上面两张图不管，下面重置
plt.subplot(122)
plt.plot(np.random.random_integers(-20,20,20),label = 'no5')

plt.show()

data = df.groupby(['city','companyId']).aggregate(['mean','count']).avg.reset_index()

plt.figure(figsize = (16,8))
plt.subplot(121) 
plt.plot(np.random.random_integers(-20,20,20),label = 'no1')


for city,grouped in data.groupby('city'):
#grouped：不同学历下面的数据框
    x = grouped['mean']
    y = grouped['count']
    #⚠️放在这里
    plt.subplot(122)
    plt.scatter(x,y,label = city)
plt.legend()
# plt.legend(loc = 'upper right')
plt.xlabel('平均薪资')
plt.ylabel('招聘人数')
plt.show()

3. seaborn

分布
- distplot 概率分布图
- kdeplot 概率密度图
- joinplot 联合密度图
- pairplot 多变量图
分类
- boxplots 箱线图
- violinplots 提琴图
- barplot 柱形图
- factorplot 因子图
线性
- lmplot 回归图
- heatmap 热图

import seaborn as sns
columns = ['user_id','order_dt','order_products','order_amount']
df = pd.read_table('CDNOW_master.txt',names = columns, sep = '\s+')

# 直方图+概率密度图
sns.distplot(df.order_amount)

# 只有直方图
sns.distplot(df.order_amount,kde = False)
# 概率密度图
sns.kdeplot(df.order_amount)
# 联合密度图
grouped_user = df.groupby('user_id').sum()
sns.jointplot(grouped_user.order_products,grouped_user.order_amount, kind = 'reg')
# 默认散点图；order_products 销量 order_amount 金额

# 联合密度图
df['order_dt'] = pd.to_datetime(df.order_dt, format = '%Y%m%d')
rfm = df.pivot_table(index = 'user_id',
                     values = ['order_products','order_amount','order_dt'],
                     aggfunc = {
                         'order_dt' : 'max',
                         'order_amount' : 'sum',
                         'order_products' : 'sum'
                     })
rfm['R'] = (rfm.order_dt.max() - rfm.order_dt)/np.timedelta64(1,'D')
rfm.rename(columns = {'order_products':'F', 'order_amount':'M'}, inplace = True)
rfm.head()

sns.jointplot(rfm.R,rfm.F)
# 三张表都加了元素
sns.jointplot(rfm.R,rfm.F,kind = 'reg')

# 多变量图，类似于pandas的散点图矩阵
sns.pairplot(rfm)
# 其中参数hue是个分类变量，比如说男女，可以用不同的颜色来表示出来

# 箱线图
df = pd.read_csv('cy.csv',encoding = 'gbk') # 餐饮数据
plt.figure(figsize = (20,5))
sns.boxplot(x = '类型', y = '口味', data = df)

df2 = df.query("(城市 == '上海') |(城市 == '北京')")
plt.figure(figsize = (20,5))
sns.boxplot(x = '类型', y = '口味', hue = '城市', data = df2)
# 增加一个对比的维度‘城市’

# 提琴图
plt.figure(figsize = (20,5))
sns.violinplot(x = '类型', y = '口味', data = df2)
# 数据集中 -> ‘胖瘦’程度

plt.figure(figsize = (20,5))
sns.violinplot(x = '类型', y = '口味', hue = '城市', data = df2)

# 拼接起来，比左右对比更加直观
plt.figure(figsize = (20,5))
sns.violinplot(x = '类型', y = '口味', hue = '城市', data = df2, split = True)

# 因子图
# 类似简化版的箱线图
# plt.figure(figsize = (20,5)) 画布拉大失效,因为因子图自带size参数(现在更名为height，aspect调整图片的高度
# 因子图 kind = 'box' 就会变成箱线图
sns.factorplot(x = '类型', y = '口味',data = df2, hue = '城市', height = 10, aspect = 2)

# 类似散点图矩阵的功能
sns.factorplot(x = '类型', y = '口味',data = df2, col = '城市', kind = 'violin',height = 5, aspect = 2)
# 当城市类别过多时，该函数仍然会机械的想把所有的图显示在一行，因此需要用到col_wrap参数
# hue是图表里面进行对比，col是整个图表进行对比
# 把col改成row则变成上下排列

# 回归图
# 画出直线，不代表是线性关系，有可能是强行，一定要整体看
sns.lmplot(x = '口味', y = '环境', data = df2)

sns.lmplot(x = '口味', y = '环境', data = df2, hue = '城市')
# order = 1 默认为线性，可以进行修改

# 热力图
# 城市和餐厅类型是否与关联
pt = df.pivot_table(index = '城市', columns = '类型', values = '口味', aggfunc = 'mean')
plt.figure(figsize = (10,10))
sns.heatmap(pt)

sns.heatmap(pt,annot = True) #图上显示数值

4. python搭建BI —— superset

【世上无难事只要肯放弃再见:> tableau我来了】

# 终端：创建虚拟环境
conda create -n superset python=3.7

# 激活虚拟环境
source activate superset
# 我用的是conda activate superset也可以

# 安装

/* 不是pip install superset
否则后面会报错
AttributeError: 'NoneType' object has no attribute 'auth_type'
但是按照网络教程的pip install superset==0.28.1
也会出现很多红字错误ERROR: Command errored out with exit status 1
*/

# 启动
# 到安装虚拟环境的路径
cd /opt/anaconda3/envs/superset
cd bin
python superset
# 最后一步会有些报错 no module named XXX 安装一下就好

# 初始化配置
fabmanager create-admin --app superset
# 创建账号，记住所输入的信息
/*
username[admin]:admin
user first name[admin]:shu
user last name[admin]:fen
email: sf@offer.com
password:offer
*/

⚠️注意，安装的时候有个包怎么都装不上
No module named 'geohash’
解决办法：

改geohash所在的文件夹名字为Geohash「即首字母大写」
打开这个文件夹中的__init__.py，将第一行from geohash改为from .geohash
保存，再去终端pip install geohash

后来又出现了的问题

sqlalchemy_utils.exceptions.ImproperlyConfigured: 'cryptography' is required to use EncryptedType

就是缺少这个包 pip install cryptography就行

有问题戳这个链接：ubuntu16下部署apache superset趟坑指南(内有福利)
基本上都解决了

python superset db upgrade
 
python superset load_examples
python superset init

# 启动
python superset runserver #可能会说某个模块找不到，但是是linux的
python superset runserver -d #以开发者的形式进行激活

你可能感兴趣的:(#,Python,努力打怪升级找工作)

Python语法学习 weixin_44256848 Python python
Python标识符Python中的标识符是区分大小写的。以下划线开头的标识符是有特殊意义的。以单下划线开头_foo的代表不能直接访问的类属性，需通过类提供的接口进行访问，不能用fromxxximport*而导入。以双下划线开头的__foo代表类的私有成员，以双下划线开头和结尾的__foo__代表Python里特殊方法专用的标识，如__init__()代表类的构造函数。Python可以同一行显示多条
破解编程语言“鄙视链”：深度剖析其成因与背后的逻辑 TravisBytes 其他网络协议网络协程 coroutine c++
在编程世界里，各种编程语言的使用者之间似乎存在着一条无形的“鄙视链”。从古老神秘的C到灵动便捷的Python，从严谨规范的Java到天马行空的Ruby，不同语言的拥趸们总是在暗自较量。这条所谓的“鄙视链”究竟源自何处？它是基于语言特性的理性分级，还是仅仅是程序员们的主观臆断？本文将深入探讨“鄙视链”的成因，揭示其背后的逻辑与动因，帮助读者全面理解这一现象。目录1.历史与传统的影响2.语言特性的差异
python venv 打包发布_venv --- 创建虚拟环境 — Python 3.9.1rc1 文档 weixin_39732491 python venv 打包发布
创建虚拟环境¶通过执行venv指令来创建一个虚拟环境:python3-mvenv/path/to/new/virtual/environment运行此命令将创建目标目录(父目录若不存在也将创建)，并放置一个pyvenv.cfg文件在其中，文件中有一个home键，它的值指向运行此命令的Python安装(目标目录的常用名称是.venv)。它还会创建一个bin子目录(在Windows上是Scripts)
编程语言发展史之：编程语言的未来趋势 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.简介概述计算编程语言发展的主要里程碑2.编程语言的历史2.1编程语言的出现2.2第一代编程语言——FORTRAN2.3第二代编程语言——COBOL2.4第三代编程语言——PASCAL2.5第四代编程语言——C++、Java、C#、Python、Ruby等2.6模块化编程语言2.7跨平台语言2.8编程语言的分类3.编程语言的发展阶段及其性质编程语言的发展阶段及
在 Python 应用程序中设置和使用 Python Venv Q shen Python 教程 python 开发语言
安装：已经安装在MacOS和Windows平台上，但需要安装在某些Linux发行版上，这里是不同包管理器的安装指南：sudoaptinstallpython3-env#usingaptsudodnfinstallpython3-env#usingdnfsudopacman-Spython3-env#usingpacman创建虚拟环境：python-mvenv<en
C、C++、Java到Python，编程入门学习什么语言好? 明天会比今天更好 C/C++编程入门编程语言程序员
最近，TIOBE更新了7月的编程语言榜单，常年霸榜的C、Java和Python依然蝉联前三位。万万没想到的是，R语言居然冲到了第八位，创下了史上最佳记录。而且后续随着业内对数据统计和挖掘需求的上涨，R语言热度颇有些势不可挡的架势。然而作为程序员吃饭的工具，编程语言之间也形成了某种鄙视链，各大论坛里弥漫着剑拔弩张的气氛，众口难调。也难怪有很多初学者会有疑惑，为什么会有这么多编程语言，我到底应该学什么
火山方舟 Python SDK豆包模型环境配置错误集锦（Mac电脑） yitahutu79 大模型运行错误集锦 python macos 开发语言
下载豆包频频出错pipinstall'volcengine-python-sdk[ark]'通过官方给的下载方式总是提示pipinstall'volcengine-python-sdk[ark]'ERROR:Cannotexecute`setup.py`sincesetuptoolsisnotavailableinthebuildenvironment.所以选择下载源码gitclonehttps:
volcengine 库装不上 #25 LiuPig刘皮哥 python
https://github.com/volcengine/volc-sdk-python/issues/25在Dockerpython3.10-slim中volcengine安装时报错,其依赖pycryptodome显示gcc相关错误调研发现pycryptodome3.19.0不会报错,volcengine依赖的pycryptodome3.9.9会报错修改方案是手动为volcengine安装依赖
Python常用函数总结(77个)超全面超详细_python函数大全及详解小怡在干什么 python 开发语言
文章主要介绍了python77种常用的基础函数,方便后期使用。学习python的朋友可以收藏文末领取Python全套最新学习资源Python常用函数总结print()函数：打印字符串raw_input()函数：从用户键盘捕获字符len()函数：计算字符长度format(12.3654，‘6.2f’/‘0.3%’)函数：实现格式化输出type()函数：查询对象的类型int()函数、float()函数
python venv 使用介绍大脑经常闹风暴@小猿 python python venv
文章目录注意⭐：速览：详解：1.创建虚拟环境2.切换（激活）虚拟环境3.安装包4.导出依赖5.切换回全局环境（退出虚拟环境）6.删除虚拟环境注意⭐：①：venv仅适用于python3.3及以上版本；②：venv本身不能直接安装其他版本的Python。它只能使用已安装的Python版本来创建虚拟环境。因此，如果你需要使用不同的Python版本（例如Python3.8或Python3.9），建议结合a
python 调用ffmpeg获取影片信息_python直接调用ffmpeg weixin_39779528 python 调用ffmpeg获取影片信息
ffmpeg是一个强大的开源命令行多媒体处理工具。关于ffmpeg的安装问题，可以看之前发的《ffmpeg的安装和简单使用》。ffmpeg如此强大，那么能不能用python调用并实现它的所有功能呢，答案自然是肯定的。要实现在python中调用ffmpeg，需要了解一下subprocess模块。简单来说，subprocess模块就相当于一个包壳的命令行，原则上可以在命令行中实现的事情都可以使用sub
第25天：web攻防-通用漏洞&sql读写注入&MYSQL&MSSQL 不灭锦鲤 sql mysql sqlserver
#知识点：1、sql注入-mysql数据库2、sql注入-mssql数据库3、sql注入-postgreSQL数据库#详细点：Access无高权限注入点-只能猜解，还是暴力猜解MYSQL，PostgreSQL，MSSQL高权限注入，可升级为读写执行。演示案例MYSQL读取文件内容，记把my.ini改成utf-8的格式使用load_file读取网站关键性内容，在sql注入中，我试了读取不道，明明在数
9. 马科维茨资产组合模型+FF5+GARCH风险模型优化方案（理论+Python实战） AI量金术师金融资产组合模型进化论 python 开发语言金融人工智能机器学习算法
目录0.承前1.核心风险函数代码讲解1.1数据准备和初始化1.2单资产GARCH建模1.3模型拟合和波动率预测1.4异常处理机制1.5相关系数矩阵计算1.6构建波动率矩阵1.7计算协方差矩阵1.8确保矩阵对称性1.9确保矩阵半正定性1.10格式转换和返回1.11calculate_covariance_matrix函数汇总2.代码汇总3.反思3.1不足之处3.2提升思路4.启后0.承前本篇博文是对
【PDF合并】利用 Python 合并 PDF 文件 Encarta1993 tools pdf
依赖安装pipinstallPyPDF2在Python中，可以使用PyPDF2模块来合并多个PDF文件。fromPyPDF2importPdfFileMerger#创建一个PdfFileMerger对象merger=PdfFileMerger()#添加要合并的PDF文件pdf_files=['file1.pdf','file2.pdf','file3.pdf']forpdf_fileinpdf_f
python保存和调用模型 sphinxrascal168 大幅度
2.创建文件目录，保存模型importosfromsklearn.externalsimportjoblib#创建文件目录dirs='testModel'ifnotos.path.exists(dirs):os.makedirs(dirs)#保存模型joblib.dump(LR,dirs+'/LR.pkl')3.读取模型#读取模型LR=joblib.load(dirs+'/LR.pkl')test
语言模型与向量模型：深入解析与实例剖析 ♢.＊语言模型人工智能自然语言处理
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！在自然语言处理领域，语言模型和向量模型
Python 调用常见大模型 API 全解析 ♢.＊ python 开发语言语言模型 nlp
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA、PYTHON与SAP的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！调用通义千问接口获取APIKe
Ubuntu 手动安装 Open WebUI 完整指南老大白菜 python ubuntu linux 运维
Ubuntu手动安装OpenWebUI完整指南前提条件在安装OpenWebUI之前，请确保您的系统满足以下要求：Ubuntu22.04LTS或更高版本Python3.10+Node.js18+Git至少4GB内存足够的磁盘空间（推荐20GB以上）安装步骤1.更新系统包sudoaptupdatesudoaptupgrade-y2.安装必要的依赖#安装Python和Node.jssudoaptinst
Python中try-except-else-finally语句用于处理异常上趣工作室 python python 开发语言
在Python中，try-except-else-finally语句用于处理异常和无论是否发生异常都需要执行的代码块。下面是每个部分的用法：try：在try块中编写可能引发异常的代码。如果没有异常发生，程序将继续执行try块后面的代码；如果发生异常，程序将跳到适当的except块。except：在except块中处理特定类型的异常。可以指定一个或多个异常类型，以及相应的处理代码。如果发生指定类型的
企业数字化运营系统总体规划蓝图、企业信息化建设总体规划方案公众号：优享智库数字化转型数据治理主数据数据仓库运维云原生数据分析大数据数据挖掘
一、企业数字化运营系统总体规划蓝图1.数字化建设目标与愿景我们的数字化建设目标是实现企业的全面数字化转型，通过科技的力量提升运营效率、优化客户体验、强化数据分析能力，从而增强企业的核心竞争力。我们的愿景是打造一个高效、智能、安全的数字化运营体系，推动企业向更高层次的发展。2.基础设施升级与改造为实现数字化建设目标，我们将进行基础设施的全面升级与改造。这包括升级现有的硬件设备、构建云计算平台、完善网
.net如何调用python 轮胎技术Tyretek python 开发语言 pycharm ide
.NET可以通过调用Python的执行文件或者Python库来调用Python代码。一种常用的方法是在.NET中使用Process类调用Python的执行文件。这样做的好处是你可以将Python代码打包成独立的文件，不需要在.NET中引用任何Python相关的库。下面是一个示例，假设你有一个Python文件"test.py"，内容如下：defgreet(name):print("Hello,"+n
vb调用python函数_vb.net / C# 调用 python weixin_39522170 vb调用python函数
1.IronPython简介IronPython是一种在.NET及Mono上的Python实现，由微软的JimHugunin所发起，是一个开源的项目，基于微软的DLR引擎；托管于微软的开源网站CodePlex(www.codeplex.com)。2.安装IronPython安装下载下来的安装包(要先装VS)。3.创建项目添加引用：浏览到IronPython的安装目录中，添加对IronPython.
Python 爬虫实战：从喜马拉雅爬取有声书播放量，挖掘热门音频内容西攻城狮北 python 爬虫音视频实战案例
目录引言一、项目背景与需求分析1.1喜马拉雅平台的特点1.2数据爬取目标二、技术选型与工具准备2.1技术选型2.2工具准备三、爬取有声书播放量数据3.1获取音频列表3.2获取音频详情四、数据存储五、数据处理与分析5.1数据清洗5.2数据分析六、可视化展示七、总结与展望引言喜马拉雅作为国内知名的音频分享平台，拥有海量的有声书、广播剧、音乐等内容。通过爬取喜马拉雅上的有声书播放量数据，我们可以分析哪些
高考填志愿现在到底还能不能学计算机中年老IT 码农跟管理生涯心得高考
高考结束，又到了让各位家长头疼的高考填志愿时刻。每年都会有亲戚或者朋友咨询：现在到底应该学哪个专业好找工作？现在到底还能不能学计算机？电子信息工程专业，计算机科学与技术，这两个专业具体有什么区分？计算机是不是青春饭，35岁后就找不到工作了？前几天的头条，张雪峰直播卖卡3小时入账2亿，这块需求果真是很大。为了孩子的前途，家长们确实是不惜重金。作为毕业如今18个年头一直从事软件领域的老码农，对软件这一
Ubuntu交叉编译 arm板子上的TVM 陈有爱 TVM ubuntu 人工智能
目录X86Ubuntu的TVM安装LLVM下载tvm配置config.cmake编译源码python安装测试是否安装成功可以在安装一些库，用于RPCTracker和auto-tuning交叉编译801arm的TVM交叉编译链下载配置config.cmake编译源码编译的时候可能会遇到错误ONNX模型转换为TVM模型创建pre.py，将onnx模型编译成tvm.so文件测试TVM模型修改demo程序
【Python入门基础】——第1篇：从入门到精通：Python简介与环境搭建详解猿享天开 python从入门到精通 python 开发语言
第1篇：Python简介与环境搭建目录什么是Python？Python的历史与特点安装Python解释器配置开发环境选择合适的集成开发环境（IDE）使用文本编辑器运行第一个Python程序常见问题及解决方法总结什么是Python？Python是一种高级、通用、解释型的编程语言，由GuidovanRossum于1991年首次发布。Python以其简洁易读的语法、广泛的应用领域和强大的社区支持，成为全
python与excel整合全教程刘同学Python学习日记 python excel 开发语言
Python与Excel的整合非常强大，尤其适合处理大数据、自动化表格操作以及进行高级数据分析。以下是一个全教程，涵盖常用的Python库及其应用：1.准备工作安装必要的库：使用以下命令安装常用库：pipinstallopenpyxlpandasxlrdxlsxwriterpywin32openpyxl:用于操作Excel的.xlsx文件（推荐）。pandas:强大的数据分析工具，支持读取和写入E
高效目录操作：如何使用 os.listdir 函数列出文件和文件夹刘同学Python学习日记学习记录 os库 python 学习
在Python中，os.listdir()是一个用于列出指定目录下所有文件和子目录名称的函数。它来自于os模块，该模块提供了与操作系统进行交互的多种功能。importos#列出当前目录下的所有文件和子目录entries=os.listdir('.')print(entries)在这个示例中：os.listdir('.')将返回当前工作目录（用.表示）的所有文件和目录的名称列表。entries变量将
【AI中数学-数理统计-综合实例-包括python实现】揭开数据的面纱：真实样本数据的探索与可视化云博士的AI课堂 AI中的数学人工智能 python 数理统计数据预处理数据探索数据可视化机器学习
第五章：数理统计-综合实例1.揭开数据的面纱：真实样本数据的探索与可视化在人工智能（AI）应用中，数据是构建算法和模型的基石，而数理统计则为我们提供了理解和处理这些数据的工具。数据探索和可视化是数理统计中至关重要的步骤，它们不仅能帮助我们理解数据的分布、关系和趋势，还能够为后续的建模工作提供依据。本节将通过五个实际案例，展示如何使用数理统计和可视化技术对真实样本数据进行探索。每个案例都包括具体的描
Python.NET 安装与使用教程卫伊祺Ralph
Python.NET安装与使用教程项目地址:https://gitcode.com/gh_mirrors/py/pythonnet本教程将指导你了解并安装Python.NET——这是一个让Python程序员能够无缝集成.NET框架的开源库。1.项目目录结构及介绍在克隆或下载pythonnet的源代码仓库后，你会看到以下基本目录结构：pythonnet/├──LICENSE#许可文件├──MANIF
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C