kjkjkl

Python数据分析与应用大作业

使用学习过的知识（Numpy数值分析基础、Matplotlib数据可视化基础、Pandas统计分析基础），对data.csv用户用户用电量数据进行相关处理，其中数据中有编号为1-200的200位电力用户，DATA_DATE表示时间，如2015/1/1表示2015年1月1日，KWH为用电量。请完成以下工作：

一、将数据进行转置，转置后行为用户编号、列为日期、值为用户每日用电量。

二、对数据中的异常数据进行识别并处理。

三、统计每个用户用电数据的基本统计量，包括：最大值、最小值、均值、中位数、和、方差、偏度、峰度。

四、每个用户用电数据按日差分，并求取差分结果的基本统计量，统计量同三。

五、求取每个用户的5%分位数。

六、每个用户按周求和并差分（一周7天，年度分开），并求取差分结果的基本统计量，统计量同三。

七、统计每个用户的日用电量在其最大值0.9倍以上的次数。

八、求取每个用户日为最大值/最小值的索引月份，若最大值/最小值存在于多个月份中，则输出含有最大值/最小值最多的那个月份。如1号用户的最小值为0，则看哪个月的0最多。

九、求取每个用户七八月电量和与三四月电量和的比值，最大值的比值，最小值的比值，均值（日均电量）的比值。

十、合并上述特征。

一、将数据进行转置，转置后行为用户编号、列为日期、值为用户每日用电量

import pandas as pd
data = pd.read_csv('./data/data.csv', encoding='gbk')
# 转置data
# result = data.reset_index().pivot('CONS_NO', 'DATA_DATE', 'KWH')
data['DATA_DATE'] = pd.to_datetime(data['DATA_DATE'])
result = pd.pivot_table(data, index='CONS_NO', columns='DATA_DATE')
print(result)

导入pandas，导入data.csv文件同时编码设置为GBK，把DATA_DATE转换为时间序列，使用透视表将index设置为’CONS_NO’，columns设置为’DATA_DATE’。

注意：若此处不把DATA_DATE转换成时间序列，那么columns的排列顺序将不是按照时间顺序，而是按照数字顺序。例：未转换时，顺序为2015/1/1, 2015/1/10, 2015/1/11 , …；转换后，顺序为2015/1/1, 2015/1/2 , 2015/1/3 , …。

二、对数据中的异常数据进行识别并处理

# 异常值识别处理
null_value = data.isnull().sum() # 缺失值识别
print("data具有的缺失值:\n",null_value)
data.fillna(method='pad', inplace=True) # 缺失值处理方法：用前一个数据进行填充
null_value = data.isnull().sum()
print("data处理缺失值之后：\n",null_value)
u = data['KWH'].mean()
o = data['KWH'].std()
three_uo = data['KWH'].apply(lambda x: x>u+3*o or x<u-3*o)
result1 = data.loc[three_uo, 'KWH'] # 使用3σ方法识别异常值
print("data在3σ下具有的异常值：\n",result1)

使用导入的data数据进行缺失值识别，识别方法为isnull结合sum方法确定缺失值的个数，再使用fillna方法填充缺失值；异常值识别方法为3σ方法识别异常值。~~偷懒了没有对异常值进行处理~~

说明：

pandas提供了识别缺失值的方法isnull以及识别非缺失值的方法nonull，这两种方法在使用时返回的都是bool值True和False，结合sum函数，可以检测数据中缺失值的分布以及数据中一共含有多少缺失值。isnull和nonull之间的结果正好相反。

处理缺失值有三种方法：

删除法 —— 删除法可以分为删除观测记录和删除特征两种，它属于利用减少样本量来换取信息完整度的一种方法，是一种最简单的缺失值处理方法。pandas中提供了简便的删除缺失值的方法 dropna ，该方法既可以删除观测记录，亦可以删除特征。
替换法 —— 特征可分为和。当缺失值所在特征为时，通常利用其均值、中位数和众数等描述其集中趋势的统计量来代替缺失值；当缺失值所在特征为时，则使用众数来替换缺失值。***PS：*这里使用了pandas提供的 fillna 方法进行缺失值替换，原理是当 method 为 pad 时使用上一个非缺失值填补缺失值，当 method 为 bfill 时使用下一个非缺失值填补缺失值。

数值型

类别型

数值型

类别型
插值法 —— 删除法简单，但是会引起数据结构的变动，样本减少；替换法使用难度低，但是会影响数据的标准差，导致信息量变动。所以除了上面两种方法，还有一种方法为插值法。常用的插值法有、和。是一种较为简单的插值方法，他针对已知的值求出线性方程，通过求解线性方程得到缺失值；是利用已知的值拟合一个多项式，使得现有的数据满足这个多项式，再利用这个多项式求解缺失值，常见的多项式插值法有拉格朗日插值和牛顿插值等；是以可变的样条来作出一条经过一系列点的光滑曲线的插值方法，插值样条由一些多项式组成，每一个多项式都是由相邻两个数据点决定，这样可以保证两个相邻多项式及其导数在连接处连续。

线性插值

多项式插值

样条插值

线性插值

多项式插值

样条插值

异常值是指数据中个别值的数值明显偏离其余的数值，有时也成为离群点，检测异常值就是检验数据中是否有录入错误以及是否含有不合理的数据。异常值的检测常用的有两种方法，3σ原则和箱线图分析。

三、统计每个用户用电数据的基本统计量，包括：最大值、最小值、均值、中位数、和、方差、偏度、峰度

# 求每个用户的统计量
def statistics(df): # 数据统计并合并统计量
    surface = pd.concat([df.min(), df.max(), df.mean(), df.median(), df.sum(), df.var(), df.skew(), df.kurt()],
                     axis=1)
    surface.columns = ['min', 'max', 'mean', 'median', 'sum', 'var', 'skew', 'kurt']
    return surface

print("每个用户用电数据的基本统计量：\n",statistics(result.T))

这里使用了自定义函数，是为了之后的题做准备。

数据使用了转置之后的数据result，再进行转置，调用statistics方法进行数据统计并合并统计量。

statistics中使用了pandas.concat方法，这个方法可以用来对表进行纵向堆叠，在默认情况下，即axis=0时，concat做列对齐，将不同行索引的两张或多张表纵向合并。

四、每个用户用电数据按日差分，并求取差分结果的基本统计量，统计量同三

# 每个用户用电数据按日差分
different = result.T.diff(1) # 对转置后的dataframe进行按日差分
print("每个用户用电数据按日差分：\n",different)
print("每个用户用电数据按日差分的基本统计量：\n",statistics(different))

这里使用result转置，并调用diff方法进行数据的按日差分。

调用statistics，对按日差分的数据进行统计，并输出所有的基本统计量。

五、求取每个用户的5%分位数

print("每个用户的5分位数为：\n",result.T.describe(percentiles=[0.05]))

使用describe方法统计每个用户的5%分位数。

六、每个用户按周求和并差分（一周7天，年度分开），并求取差分结果的基本统计量，统计量同三

# 每个用户按周求和并差分
data['DATA_DATE'] = pd.to_datetime(data['DATA_DATE'])
key = pd.PeriodIndex(data['DATA_DATE'], freq='w')
sum_week = data.groupby(by=['CONS_NO', key]).sum()
a = pd.pivot_table(sum_week, index='DATA_DATE', columns='CONS_NO')
different = a.diff(1)
print("每个用户按周求和并差分：\n",different)
print("每个用户按周求和并差分的基本统计量：\n",statistics(different))

对DATA_DATE进行时间序列转换。~~（由于第一题已经转换过了，这里可以不用再转换了）~~

frep='w’使DATA_DATE按周的频率排列，同时获取其索引。PS：这里好像没有把年度分开

按照CONS_NO及key进行分组，并求和。（完成按周求和操作）

创建透视表，并差分，最后使用statistics统计基本统计量。

七、统计每个用户的日用电量在其最大值0.9倍以上的次数

a = result.T.apply(lambda x:x>x.max()*0.9).sum()
print("每个用户日用电量在其最大值0.9倍以上的次数：\n",a)

使用apply方法

八、求取每个用户日为最大值/最小值的索引月份，若最大值/最小值存在于多个月份中，则输出含有最大值/最小值最多的那个月份。如1号用户的最小值为0，则看哪个月的0最多

# 输出含有最大值/最小值最多的那个月份
print("输出含有最大值/最小值最多的那个月份：")
key = pd.PeriodIndex(data['DATA_DATE'], freq='m')
month = data.groupby(by=['CONS_NO', key])['KWH'].max()# 按月进行分组
month_df = pd.DataFrame(month)
max_index = month_df.reset_index().groupby('CONS_NO')['KWH'].idxmax()
max_value = month_df.iloc[max_index]
max_value.columns = ['各用户的KWH最大值']
print(max_value) # 输出含有最大值最多的那个月份
min_index = data[(data.KWH == data.KWH.min())].index
surface_min = data.iloc[min_index]
key = pd.PeriodIndex(surface_min['DATA_DATE'], freq='m')
min_count = surface_min.groupby(by=['CONS_NO', key])['KWH'].count()# 按月进行分组
min_count_df = pd.DataFrame(min_count)
min_count_df_index = min_count_df.reset_index().groupby('CONS_NO')['KWH'].idxmax()
min_value = min_count_df.iloc[min_count_df_index]
min_value.columns = ['KWH最小值次数']
print(min_value) # 输出含有最小值最多的那个月份

于第六题相似，使用了PeriodIndex方法使得DATA_DATE以月为单位进行分组。

之后，由于groupby得到的是serise类，所以将month转换为dataframe类并结合reset_index与idxmax方法获取含有最大值最多的那个月份的索引。

将获得的索引使用iloc进行切片，得到所需结果。

输出含有最小值最多的那个月份的方法与输出含有最大值最多的那个月份的方法相似，但是需要对最小值进行比较，并求出每月最小值的个数。

九、求取每个用户七八月电量和与三四月电量和的比值，最大值的比值，最小值的比值，均值（日均电量）的比值

PS：这道题重复代码有点多，所以肯定不是最优答案，所以仅供参考。（求的是）

https://private.codecogs.com/gif.latex?%5Cfrac%7BJuly+August%7D%7BMarch+April%7D

def date_filter(df): # 日期筛选，选出三四月份，七八月份，返回两张表
    idx = pd.IndexSlice
    s_e = df.loc[idx[:,['2015-7','2015-8', '2016-7', '2016-8']],:]
    t_f = df.loc[idx[:,['2015-3','2015-4', '2016-3', '2016-4']],:]
    return s_e, t_f
def date_merge(df_1, df_2, name): # 合并符合要求的日期，同时进行比值处理，返回题解
    df_ratio = pd.merge(df_1, df_2, on='CONS_NO')
    df_ratio.columns = ['7-8月', '3-4月']
    df_ratio[name] = df_ratio['7-8月'] / df_ratio['3-4月']
    return df_ratio

key = pd.PeriodIndex(data['DATA_DATE'], freq='m')
month = data.groupby(by=['CONS_NO', key])# 按月进行分组
month_sum = month.sum() # 求和的比值
s_e_1, t_f_1= date_filter(month_sum)
s_e_sum = s_e_1.groupby('CONS_NO').sum()
t_f_sum = t_f_1.groupby('CONS_NO').sum()
se_tf_sum_ratio = date_merge(s_e_sum, t_f_sum, 'sum_ratio')
print("每个用户七八月电量和与三四月电量和的比值：\n",se_tf_sum_ratio)
month_max = month.max() # 求最大值的比值
s_e_2, t_f_2 = date_filter(month_max)
s_e_max = s_e_2.groupby('CONS_NO').max().loc[:,'KWH']
t_f_max = t_f_2.groupby('CONS_NO').max().loc[:,'KWH']
se_tf_max_ratio = date_merge(s_e_max, t_f_max, 'max_ratio')
print("每个用户七八月电量最大值与三四月电量最大值的比值：\n",se_tf_max_ratio)
month_min = month.min() # 求最小值的比值
s_e_3, t_f_3 = date_filter(month_min)
s_e_min = s_e_3.groupby('CONS_NO').min().loc[:,'KWH']
t_f_min = t_f_3.groupby('CONS_NO').min().loc[:,'KWH']
se_tf_min_ratio = date_merge(s_e_min, t_f_min, 'min_ratio')
print("每个用户七八月电量最小值与三四月电量最小值的比值：\n",se_tf_min_ratio)
month_mean_sum= month.sum() # 求平均值的比值
s_e_4, t_f_4 = date_filter(month_mean_sum)
s_e_mean = s_e_4.groupby('CONS_NO').apply(lambda x:x.sum()/122) # 先计算每个用户七八月份总的用电量，然后除以总天数，得到平均值
t_f_mean = t_f_4.groupby('CONS_NO').apply(lambda x:x.sum()/122) # 同上
se_tf_mean_ratio = date_merge(s_e_mean, t_f_mean, 'mean_ratio')
print("每个用户七八月电量平均值与三四月电量平均值的比值：\n",se_tf_mean_ratio)

第一个自定义函数date_filter的作用是进行日期的筛选，选出每年七八月份与每年三四月份；一个参数接收一个表，返回两个表。

第二个自定义函数date_merge的作业是合并符合要求的日期同时进行比值的处理；三个参数接收两个表一个字符串，返回一个表。

以求和的比值为例：

先将DATA_DATE按照月分组，并求和。

调用date_filter方法分离七八月份与三四月份，并分别求和。

调用date_merge方法将两张已经求和的七八月份和三四月份的表合并，并将求比值的列取名叫sum_ratio。

注意：求平均值的比值时，求平均值的方法是用求和并除以122（总天数）得到平均值。

十、合并上述特征

# 合并特征
all_trait = pd.concat([se_tf_sum_ratio.loc[:,'sum_ratio'],
                       se_tf_max_ratio.loc[:,'max_ratio'],
                       se_tf_min_ratio.loc[:,'min_ratio'],
                       se_tf_mean_ratio.loc[:,'mean_ratio']],
                     axis=1)
print("合并特征：\n",all_trait)

方法与第三题相似

~~PS：题目给的参考答案是把第一至第九题的结果合并，但我理解成了将第九题的特征合并。~~

十一、代码及运行结果

PS：这是我的python数据分析与应用的大作业（非参考答案，参考需谨慎）

import pandas as pd
data = pd.read_csv('./data/data.csv', encoding='gbk')
# 转置data
# result = data.reset_index().pivot('CONS_NO', 'DATA_DATE', 'KWH')
data['DATA_DATE'] = pd.to_datetime(data['DATA_DATE'])
result = pd.pivot_table(data, index='CONS_NO', columns='DATA_DATE')
print(result)
# 异常值识别处理
null_value = data.isnull().sum() # 缺失值识别
print("data具有的缺失值:\n",null_value)
data.fillna(method='pad', inplace=True) # 缺失值处理方法：用前一个数据进行填充
null_value = data.isnull().sum()
print("data处理缺失值之后：\n",null_value)
u = data['KWH'].mean()
o = data['KWH'].std()
three_uo = data['KWH'].apply(lambda x: x>u+3*o or x<u-3*o)
result1 = data.loc[three_uo, 'KWH'] # 使用3σ方法识别异常值
print("data在3σ下具有的异常值：\n",result1)
# 求每个用户的统计量
def statistics(df): # 数据统计并合并统计量
    surface = pd.concat([df.min(), df.max(), df.mean(), df.median(), df.sum(), df.var(), df.skew(), df.kurt()],
                     axis=1)
    surface.columns = ['min', 'max', 'mean', 'median', 'sum', 'var', 'skew', 'kurt']
    return surface

print("每个用户用电数据的基本统计量：\n",statistics(result.T))
# 每个用户用电数据按日差分
different = result.T.diff(1) # 对转置后的dataframe进行按日差分
print("每个用户用电数据按日差分：\n",different)
print("每个用户用电数据按日差分的基本统计量：\n",statistics(different))
# 每个用户的5%分位数
print("每个用户的5分位数为：\n",result.T.describe(percentiles=[0.05]))
# 每个用户按周求和并差分
data['DATA_DATE'] = pd.to_datetime(data['DATA_DATE'])
key = pd.PeriodIndex(data['DATA_DATE'], freq='w')
sum_week = data.groupby(by=['CONS_NO', key]).sum()
a = pd.pivot_table(sum_week, index='DATA_DATE', columns='CONS_NO')
different = a.diff(1)
print("每个用户按周求和并差分：\n",different)
print("每个用户按周求和并差分的基本统计量：\n",statistics(different))
# 每个用户的日用电量在其最大值0.9倍以上的数据
a = result.T.apply(lambda x:x>x.max()*0.9).sum()
print("每个用户日用电量在其最大值0.9倍以上的次数：\n",a)
# 第八题,输出含有最大值/最小值最多的那个月份
print("输出含有最大值/最小值最多的那个月份：")
key = pd.PeriodIndex(data['DATA_DATE'], freq='m')
month = data.groupby(by=['CONS_NO', key])['KWH'].max()# 按月进行分组
month_df = pd.DataFrame(month)
max_index = month_df.reset_index().groupby('CONS_NO')['KWH'].idxmax()
max_value = month_df.iloc[max_index]
max_value.columns = ['各用户的KWH最大值']
print(max_value) # 输出含有最大值最多的那个月份
min_index = data[(data.KWH == data.KWH.min())].index
surface_min = data.iloc[min_index]
key = pd.PeriodIndex(surface_min['DATA_DATE'], freq='m')
min_count = surface_min.groupby(by=['CONS_NO', key])['KWH'].count()# 按月进行分组
min_count_df = pd.DataFrame(min_count)
min_count_df_index = min_count_df.reset_index().groupby('CONS_NO')['KWH'].idxmax()
min_value = min_count_df.iloc[min_count_df_index]
min_value.columns = ['KWH最小值次数']
print(min_value) # 输出含有最小值最多的那个月份
# 每个用户七八月电量和与三四月电量和的比值
def date_filter(df): # 日期筛选，选出三四月份，七八月份，返回两张表
    idx = pd.IndexSlice
    s_e = df.loc[idx[:,['2015-7','2015-8', '2016-7', '2016-8']],:]
    t_f = df.loc[idx[:,['2015-3','2015-4', '2016-3', '2016-4']],:]
    return s_e, t_f
def date_merge(df_1, df_2, name): # 合并符合要求的日期，同时进行比值处理，返回题解
    df_ratio = pd.merge(df_1, df_2, on='CONS_NO')
    df_ratio.columns = ['7-8月', '3-4月']
    df_ratio[name] = df_ratio['7-8月'] / df_ratio['3-4月']
    return df_ratio

key = pd.PeriodIndex(data['DATA_DATE'], freq='m')
month = data.groupby(by=['CONS_NO', key])# 按月进行分组
month_sum = month.sum() # 求和的比值
s_e_1, t_f_1= date_filter(month_sum)
s_e_sum = s_e_1.groupby('CONS_NO').sum()
t_f_sum = t_f_1.groupby('CONS_NO').sum()
se_tf_sum_ratio = date_merge(s_e_sum, t_f_sum, 'sum_ratio')
print("每个用户七八月电量和与三四月电量和的比值：\n",se_tf_sum_ratio)
month_max = month.max() # 求最大值的比值
s_e_2, t_f_2 = date_filter(month_max)
s_e_max = s_e_2.groupby('CONS_NO').max().loc[:,'KWH']
t_f_max = t_f_2.groupby('CONS_NO').max().loc[:,'KWH']
se_tf_max_ratio = date_merge(s_e_max, t_f_max, 'max_ratio')
print("每个用户七八月电量最大值与三四月电量最大值的比值：\n",se_tf_max_ratio)
month_min = month.min() # 求最小值的比值
s_e_3, t_f_3 = date_filter(month_min)
s_e_min = s_e_3.groupby('CONS_NO').min().loc[:,'KWH']
t_f_min = t_f_3.groupby('CONS_NO').min().loc[:,'KWH']
se_tf_min_ratio = date_merge(s_e_min, t_f_min, 'min_ratio')
print("每个用户七八月电量最小值与三四月电量最小值的比值：\n",se_tf_min_ratio)
month_mean_sum= month.sum() # 求平均值的比值
s_e_4, t_f_4 = date_filter(month_mean_sum)
s_e_mean = s_e_4.groupby('CONS_NO').apply(lambda x:x.sum()/122) # 先计算每个用户七八月份总的用电量，然后除以总天数，得到平均值
t_f_mean = t_f_4.groupby('CONS_NO').apply(lambda x:x.sum()/122) # 同上
se_tf_mean_ratio = date_merge(s_e_mean, t_f_mean, 'mean_ratio')
print("每个用户七八月电量平均值与三四月电量平均值的比值：\n",se_tf_mean_ratio)
# 合并特征
all_trait = pd.concat([se_tf_sum_ratio.loc[:,'sum_ratio'],
                       se_tf_max_ratio.loc[:,'max_ratio'],
                       se_tf_min_ratio.loc[:,'min_ratio'],
                       se_tf_mean_ratio.loc[:,'mean_ratio']],
                     axis=1)
print("合并特征：\n",all_trait)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-drU2OGwX-1634712263615)(https://img-bc.icode.best/20200412161028940.png)]

最后，这是我的python数据分析与应用的大作业（非参考答案，参考需谨慎），肯定有错的或者可以优化的地方欢迎指出。

今后可能会继续把上课内容及作业写出来。（大概，不懒的话）

PS：上传了大作业所需要的文件

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Android ViewBinding 使用与封装教程积跬步DEV Android 开发实战大全 android
AndroidViewBinding使用与封装教程：一、ViewBinding是什么？核心功能：为每个XML布局文件自动生成一个绑定类（如ActivityMainBinding），直接暴露所有带ID的视图引用。优点：避免繁琐的findViewById()，类型安全且编译时检查。对比DataBinding：ViewBinding仅处理视图引用，无数据绑定功能。DataBinding支持双向数据绑定，
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
CentOS7环境卸载MySQL5.7 Hadoop_Liang mysql 数据库 mysql
备份重要数据切记，卸载之前先备份mysql重要的数据。备份一个数据库例如：备份名为mydatabase的数据库到backup.sql的文件中mysqldump-uroot-ppassword123mydatabase>backup.sql备份所有数据库mysqldump-uroot-ppassword123--all-databases>all_databases_backup.sql注意：-p后
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛 fzyz123 Datawhale AI夏令营人工智能 Datawhale 大模型技术 NLP 深度学习 AI夏令营
前言：本次是DatawhaleAI夏令营2025年第一期的内容，赛事是：基于带货视频评论的用户洞察挑战赛（科大讯飞AI大赛）一、赛事背景在直播电商爆发式增长浪潮中，短视频平台积累的海量带货视频及用户评论数据蕴含巨大商业价值。这些数据不仅是消费者体验的直接反馈，更是驱动品牌决策的关键资产。用户洞察的核心在于视频内容与评论数据的联合挖掘：通过智能识别推广商品分析评论中的情感表达与观点聚合精准捕捉消费者
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不

Python数据分析与应用大作业

Python数据分析与应用大作业

一、将数据进行转置，转置后行为用户编号、列为日期、值为用户每日用电量

二、对数据中的异常数据进行识别并处理

三、统计每个用户用电数据的基本统计量，包括：最大值、最小值、均值、中位数、和、方差、偏度、峰度

四、每个用户用电数据按日差分，并求取差分结果的基本统计量，统计量同三

五、求取每个用户的5%分位数

六、每个用户按周求和并差分（一周7天，年度分开），并求取差分结果的基本统计量，统计量同三

七、统计每个用户的日用电量在其最大值0.9倍以上的次数

八、求取每个用户日为最大值/最小值的索引月份，若最大值/最小值存在于多个月份中，则输出含有最大值/最小值最多的那个月份。如1号用户的最小值为0，则看哪个月的0最多

九、求取每个用户七八月电量和与三四月电量和的比值，最大值的比值，最小值的比值，均值（日均电量）的比值

十、合并上述特征

十一、代码及运行结果

你可能感兴趣的:(python,big,data)