阿里巴巴淘系技术团队官网博客

用数据讲故事：基于分析场景的17条Python使用小结

数据科学的编程需要非常灵活的语言，以最少的代码处理复杂的数据建模场景。作为一名数科小白，我对Python的第一认知是丰富的机器学习算法，但Python有超过12万个第三方库，覆盖从数据预处理、统计分析、数据挖掘及可视化等各种日常数据科学建模。本文对基础用法不做赘述，主要分享我在分析场景中常用的部分方法，供大家参考交流。

本文为该系列第二篇文章。

第一篇：用数据讲故事：13条Excel进阶技巧总结

数据预处理

▐ 缺失值处理

包含均值/中位数/众数插补法、固定值插补法、最近邻插补法、回归法及剔除法等。

# 判断是否存在缺失值
print(data.info(),'\n')
data2=data.dropna(axis=0)

▐ 异常值处理

包含剔除法、视为缺失值、平均值修正法等。

data=np.array(data)
# 计算上下四分位数
q1=np.quantile(data,q=0.25)
q3=np.quantile(data,q=0.75)
# 异常值判断标准，1.5倍的四分位差 计算上下须对应的值
low_quantile=q1-1.5*(q3-q1)
high_quantile=q3+1.5*(q3-q1)
data2=[]
for i in data:
    if i>high_quantile:
        i=high_quantile
        data2.append(i)
    elif i

 
   ▐  标准化处理 
   包含Min-max 标准化、z-score 标准化、Decimal scaling小数定标标准化三种，将原始数据转换为无量纲化，处于同一数量级别上。 
   (data - data.min()) / (data.max() - data.min())  # Min-max 标准化
(data - data.mean()) / data.std()  # z-score 标准化
data / 10 ** np.ceil(np.log10(data.abs().max()))  # Decimal scaling小数定标标准化 
   ▐  连续变量重分类 
   等宽重编码：将一组连续性数据分段为0，(0,100]、(100,300]、(300,500]、(500,700]、(700,900]、(900,1100]、(1100,1300]、1300及以上9类。 
   等频重编码：将一组连续性数据按照25%分成4类。 
   #等宽重编码
bins = [0,100,200,300,500,700,900,1100,1300,max(df['data'])] #10个数，9个空格，产生9类
bins = [0,100,200,300,500,700,900,1100,1300,max(Wpop2['data'])]
df['col'] = pd.cut(df['data'],bins,right=True,labels=[1,2,3,4,5,6,7,8,9])


#等频重编码
k=4           
w = df['data'].quantile(np.arange(0,1+1/k,1/k))  
df['col'] = pd.cut(df['data'], w, right=True, labels=[1,2,3,4]) 
    
   统计分析 
   
 
   ▐  曲线拐点——KneeLocator 
   当我们寻找“最佳留存拐点”（如下图）或K-means聚类算法采用手肘法计算最佳K值时，python中有一个只要定义少量参数就可以帮我们寻找拐点的包kneed，参数定义如下： 
    
    x：待检测数据对应的横轴数据序列，如活跃天数 
    
    
    y：待检测数据序列，在x条件下对应的值，如6日回访率 
    
    
    S：float型，默认为1，敏感度参数，越小对应拐点被检测出得越快 
    
    
    curve：指明曲线之上区域是凸集还是凹集，concave代表凹，convex代表凸 
    
    
    direction：指明曲线初始趋势是增还是减，increasing表示增，decreasing表示减 
    
    
   from kneed import KneeLocator
import matplotlib.pyplot as plt 


x = np.arange(1,31)
y = [0.492 ,0.615 ,0.625 ,0.665 ,0.718 ,0.762 ,0.800 ,0.832 ,0.859 ,0.880 ,0.899 ,0.914 ,0.927 ,0.939 ,0.949 ,0.957 ,0.964 ,0.970 ,0.976 ,0.980 ,0.984 ,0.987 ,0.990 ,0.993 ,0.994 ,0.996 ,0.997 ,0.998 ,0.999 ,0.999 ]


kneedle = KneeLocator(x, y, S=1.0, curve='concave', direction='increasing')
print(f'拐点所在的x轴是: {kneedle.elbow}') 
   ▐  相关系数——corr 
   corr主要计算两组数值型变量的相关性，数值越大相关性越强。求得相关性指数后，如何评价两变量从统计学角度具有相关性呢？我们可以将样本数与显著性因子输入相关系数临界值计算器中计算临界值，判断变量是否具有相关性。 
    
    《相关系数临界值计算器》地址：https://www.jisuan.mobi/vu11B3u3mb3NUUQQ.html 
    
   import pandas as pd
import numpy as np
s.corr() s
#输出相关系数矩阵s


s.corr()["pay_ord_cnt"] 
#输出pay_ord_cnt变量与其他变量之间的相关系数


s["pay_ord_cnt"].corr(s["pay_ord_amt"]) 
#输出"pay_ord_cnt"与"pay_ord_amt"之间的相关系数 
   ▐  卡方检验——chi2_contingency 
    
   上述提到的相关系数是针对两组数值型变量，当变量是分类变量时或多变量时，变量之间的相关关系就不能简单地用此种方法。即使将分类变量变换成数值型变量，受转化的数值量级、取值标准等的影响，无法可靠地评估相关性大小的准确性。这时，卡方检验是一种多变量显著分析的方法，如分析类目与情况类型是否有关，提出两个假设： 
    
    原假设（H0）：类目与情况类型无关 
    
    
    备择假设（H1）：类目与情况类型有关 
    
    
   from scipy.stats import chi2_contingency
import numpy as np


df= np.array([[50,49,35], [150,100,90],[60,80,100]])
kt=chi2_contingency(df)


print('卡方值=%.4f, p值=%.4f, 自由度=%i expected_frep=%s'%kt)


#卡方值=27.7029, p值=0.0000, 自由度=4 expected_frep=[[ 48.79551821  42.97759104  42.22689076]
#[123.80952381 109.04761905 107.14285714]
#[ 87.39495798  76.97478992  75.6302521 ]] 
   通过计算，P值小于0.01，则拒绝原假设，认为类目与情况类型有关。 
   ▐  线性回归——polyfit 
   对于数据科学来讲，线性回归是统计建模和预测分析的出发点，我们常用线性回归模型观测变量趋势，然后再匹配模型。Python中实现线性回归模型的方法有多种，除了基于最小二乘多项式的numpy.polyfit，还有Stats.linregress、Optimize.curve_fit、numpy.linalg.lstsq、Statsmodels.OLS 、sklearn.linear_model.LinearRegression等，可结合数据情况使用。 
   import numpy
from numpy import polyfit
x=[x for x in range(1,len(y)+1)]
y=[int(res) for res in y]
res=polyfit(x,y,deg=1)
return numpy.float(res[0]) 
    
   数据挖掘 
   
 
   ▐  综合规模的排序打分——Wilson_Score 
   我们常遇到评价多个商品点击率的好坏或者评估AB-TEST上线后的效果，在小样本情况下直接用比率指标难免偏颇，如商品A曝光100次，点击20次，商品B曝光10次，单击3次，商品B的点击率未必比商品A好，所以需要引入威尔逊区间的修正公式，解决小样本的准确性问题，再利用贝叶斯平均提供补偿值，平衡样本数量的差异。 
    
    
    u：正例数（点击） V：负例数（未点击） n：实例总数（曝光总数） p：点击率 z：是正态分布的分位数  S：表示最终的威尔逊得分。 
    
   pos = float(input_data.split(',')[0])
        total = float(input_data.split(',')[1])
        p_z=1.96
        pos_rat = pos * 1. / total * 1.  #
        score = (pos_rat + (np.square(p_z) / (2. * total))
                 - ((p_z / (2. * total)) * np.sqrt(4. * total * (1. - pos_rat) * pos_rat + np.square(p_z)))) / \
                (1. + np.square(p_z) / total)
        return str(score) 
   ▐  计算指标权重——PCA 
   除了探索性分析，我们最常见的业务场景就是通过数据建模的方法，分析各项指标对整体贡献情况，即权重。 
   主成分分析主要是基于降维思维，考虑各个指标的相互关系，通过正交变换转换成一组不相关的变量即主成分，计算指标不同主成分线性组合的系数确定权重。 
   import numpy as np
import pandas as pd
from sklearn.decomposition import PCA
from sklearn import preprocessing


# 数据标准化（还可选用StandardScaler、MaxAbsScaler、Normalizer进行标准化）
scaler = preprocessing.MinMaxScaler().fit(csv_df)
X_scaler = pd.DataFrame(scaler.transform(csv_df))


# 主成分分析建模
pca = PCA(n_components=None)  # n_components提取因子数量
# n_components=‘mle’，将自动选取主成分个数n，使得满足所要求的方差百分比
# n_components=None，返回所有主成分
pca.fit(X_scaler)
pca.explained_variance_  # 贡献方差，即特征根
pca.explained_variance_ratio_  # 方差贡献率
pca.components_  # 成分矩阵
k1_spss = pca.components_ / np.sqrt(pca.explained_variance_.reshape(-1, 1))  # 成分得分系数矩阵


# 确定权重
j = 0
Weights = []
for j in range(len(k1_spss)):
    for i in range(len(pca.explained_variance_)):
        Weights_coefficient = np.sum(100 * (pca.explained_variance_ratio_[i]) * (k1_spss[i][j])) / np.sum(
            pca.explained_variance_ratio_)
    j = j + 1
    Weights.append(np.float(Weights_coefficient))
print('Weights',Weights)


# 权重结果归一化
Weights=pd.DataFrame(Weights)
Weights1 = preprocessing.MinMaxScaler().fit(Weights)
Weights2 = Weights1.transform(Weights)
print('Weights2',Weights2) 
   ▐  分词&词频——jieba/collection 
   jieba库是一款优秀的第三方中文分词库，jieba 支持三种分词模式：精确模式、全模式和搜索引擎模式。其中精准模式将语句最精确的切分，不存在冗余数据，适合做文本分析。我们也可以根据需求，批量添加自定义词典。 
   统计切分结果中的词频统计常使用collections包中的Counter方法。 
   import re                           # 正则表达式库
import jieba                        # 结巴分词
import jieba.posseg                 # 词性获取
import collections                  # 词频统计库
import numpy                        # numpy数据处理库


seg_list_exact = jieba.cut(string_data, cut_all=False, HMM=True)  # 精确模式分词+HMM


jieba.load_userdict("词典.txt") # 批量添加词典，utf-8编码


with open(StopWords, 'r', encoding='UTF-8') as meaninglessFile:
        stopwords = set(meaninglessFile.read().split('\n'))
    stopwords.add(' ')
    for word in seg_list_exact:  # 循环读出每个分词
        if word not in stopwords:  # 如果不在去除词库中
            object_list.append(word)  # 分词追加到列表


    # 词频统计
    word_counts = collections.Counter(object_list)  # 对分词做词频统计
    word_counts_top = word_counts.most_common(number)  # 获取前number个最高频的词
    return word_counts_top 
   ▐  关键词提取——TF-IDF/TexTRank 
   文章关键词提取主要由两种函数，基于TF-IDF的extract_tags和基于TexTRank的textrank，原理如下： 
    
    TF-IDF：通过词频统计的方法得到某个词对一篇文档的重要性大小。以弱化常见词，保留重要的词，若某个词在某个文档中是高频词，在整个语料中又是低频出现，那么这个词将具有高TF-IDF值。 
    
    
    TexTRank：是一种基于图的用于关键词抽取和文档摘要的排序算法，利用一篇文档内部的词语间的共现信息(语义)便可以抽取关键词 
    
   from jieba import analyse
analyse.set_stop_words("停用词.txt") 
#TF-IDF
keywords = analyse.extract_tags(s, topK=20, withWeight=False) 
#TexTRank
keywords = analyse.textrank(content, topK=10, withWeight=False,allowPOS=('ns', 'n', 'vn', 'n')) 
   ▐  情感分析——SnowNLP/TextBlob 
   有时我们需要分析商品评论的情感极性，SnowNLP、TextBlob是Python处理中、英文的类库，并自带了训练好的词典，支持分词、词性标注、情感分析、文本相似等多个功能，也支持训练新的模型进行情感分析。 
    
    中文情感分析 
    
   SnowNLP的情感分析取值，取值范围为[0,1]，表达的是“这句话代表正面情感的概率”。评论“感觉颜色暗了点，便宜，懒得退了“的情感取值为0.04为负向情感，“颜色很好看，很厚实，推荐指数10分”的情感取值是0.91为正向情感。 
   from snownlp import SnowNLP


s = SnowNLP(u'感觉颜色暗了点，便宜，懒得退了')  
print('分词结果:',s.words)          
print('这个评论为积极的概率:',s.sentiments)  


# 分词结果: ['感觉', '颜色', '暗', '了', '点', '，', '便宜', '，', '懒得', '退', '了']
# 这个评论为积极的概率: 0.04176293661978303




s = SnowNLP(u'颜色很好看，很厚实，推荐指数10分')  
print('分词结果:',s.words)          
print('这个评论为积极的概率:',s.sentiments)  


# 分词结果: ['颜色', '很', '好看', '，', '很', '厚实', '，', '推荐', '指数', '10', '分']
# 这个评论为积极的概率: 0.9093984931459346 
    
    英文情感分析 
    
   TextBlob的情感极性的变化范围是[-1, 1]，-1代表完全负面，1代表完全正面。 
   from textblob import TextBlob


s = TextBlob('I feel that the color is a little dark.I am too lazy to return')
print('这个评论的情感极性:',s.sentiment)  


# 这个评论的情感极性: Sentiment(polarity=-0.21875, subjectivity=0.75)


s = TextBlob('The color is very nice and thick, 10 points for recommendation index')
print('这个评论的情感极性:',s.sentiment)  


# 这个评论的情感极性: Sentiment(polarity=0.24, subjectivity=0.7375) 
    
   数据可视化 
   在数据分析时，经常需要对数据进行可视化，由于本人使用Python进行数据可视化经验有限，仅分享一些官方资源，供大家了解。 
   ▐  Matplotlib 
    
    Matplotlib 安装（地址：https://matplotlib.org/stable/users/installing/index.html） 
    Matplotlib 用户手册（地址：https://matplotlib.org/stable/users/index.html） 
    Matplotlib 函数汇总（地址：https://matplotlib.org/stable/api/pyplot_summary.html） 
    Matplotlib 模块索引（地址：https://matplotlib.org/stable/py-modindex.html） 
    Matplotlib 示例库（地址：https://matplotlib.org/stable/gallery/index.html） 
    Matplotlib 示例下载
Python code（地址：https://matplotlib.org/stable/gallery/index.html）
Jupyter notebooks 
    
    
   ▐  Seaborn 
    
   Seaborn 是基于 Python 且非常受欢迎的图形可视化库，在 Matplotlib 的基础上，进行了更高级的封装，使得作图更加方便快捷。 
    
    seaborn库的简介（地址：https://seaborn.pydata.org/） 
    seaborn库的安装 (地址：https://seaborn.pydata.org/installing.html） 
    seaborn库函数汇总（地址：https://seaborn.pydata.org/examples/errorband_lineplots.html） 
    
    
    
   PyODPS 及 Python UDF 
    
   上文主要介绍数据预处理、统计分析及挖掘的常用函数及用法。在数据量极大的情况下，手动写入或csv上传较为复杂，我们希望基于ODPS表调用Python第三方包。在进行临时数据探查时PyODPS是一种简单方便的方法，对需要调度上线的任务可以通过开发Pyhon UDF的方式进行调用。 
   ▐  DSW 读取ODPS表 
    
   打开PAI-DSW进入实例进行开发 
    
    安装PyODPS：pip install pyodps 
    检查是否安装完成：python -c "from odps import ODPS" 
    与ODPS建立链接，读取ODPS表 
    
   import numpy as np
import pandas as pd
from kneed import KneeLocator
import matplotlib.pyplot as plt
from odps import ODPS
from odps.df import DataFrame
# 建立链接。
o = ODPS(
    'AccessId', 
    'AccessKey', 
    '项目空间',
    endpoint='http://service-corp.odps.aliyun-inc.com/api')
# 读取ODPS表。
sql = '''
SELECT
    *
FROM
    项目空间.表名
;
'''
query_job = o.execute_sql(sql)
result = query_job.open_reader(tunnel=True) 
df = result.to_pandas(n_process=1) 
   # 读取ODPS表中列。
x =df['pay_ord_cnt']
y =df['pay_ord_amt']


# 调用KneeLocator包。
kneedle = KneeLocator(x, y, S=1.0, curve='convex', direction='increasing')
print(f'拐点所在的x轴是: {kneedle.elbow}')
; 
   ▐  Python UDF开发 
    
   STEP1：在PyPI页面的Download files区域，单击文件名后缀为manylinux_2_5_x86_64.manylinux1_x86_64.whll的Numpy包进行下载。（确定资源包是编译过的wheel类型） 
    
   STEP2：修改下载的Numpy包后缀为ZIP格式 
   STEP3：传Numpy包至MaxCompute项目空间 
   方法一：在客户端输入命令： 
   ADD ARCHIVE D:\Downloads\numpy-1.19.2-cp37-cp37m-manylinux1_x86_64.zip -f; 
   方法二：数据开发-业务流程-Maxcompute-资源-新建-ARCHIVE（新建资源完成后记得提交）
 
    
   STEP4：写UDF函数（以1.2.4线性回归函数为例）
 
   from odps.udf import annotate
from odps.distcache import get_cache_archive


def include_package_path(res_name):
    import os, sys
    archive_files = get_cache_archive(res_name)
    dir_names = sorted([os.path.dirname(os.path.normpath(f.name)) for f in archive_files
                       if '.dist_info' not in f.name], key=lambda v: len(v))
    sys.path.append(os.path.dirname(dir_names[0]))


@annotate("*->float")   --输出类型
class Mypolyfit(object):
    def __init__(self):        
        include_package_path('numpy.zip')


    def evaluate(self, y):
        import numpy
        from numpy import polyfit
        x=[x for x in range(1,len(y)+1)]
        y=[int(res) for res in y]
        res=polyfit(x,y,deg=1)
        return numpy.float(res[0]) 
   注：include_package_path 使得ODPS能够引入numpy包，并在主函数的_init_()部分使用 
   STEP5：注册函数 
    
    
    类名=文件名.类名
 
    资源列表：python文件、调用包的文件名 
    
   STEP6：在sql中使用UDF函数 
   set odps.sql.python.version=cp37;
set odps.pypy.enabled=false;
set odps.isolation.session.enable = true;
set odps.sql.type.system.odps2=true;  
--sql使用UDF函数时要添加前三个参数设置
--如果UDF输出的是folat类型，要配合set odps.sql.type.system.odps2=true使用
select item_id,
       POLYFIT(pay_ord)
FROM
(select item_id
        ,SPLIT(regexp_replace(
        concat_ws('-',
                    sort_array(
                                collect_list(
                                            concat_ws(':',cast(ds as string),pay_ord_itm_qty_1d_001)
                                            )
                                )
                    ),'\\d+\:','') ,'-')
        pay_ord
        ,SPLIT(concat_ws('-',sort_array(collect_list(ds)) ),'-') as ds_array
FROM    table
WHERE   条件; 
   数据科学是一个横跨数学、统计学、机器学习、计算机的综合学科。在此先占个坑，后续也会将工作中更多理论与实践的结合更新到系列文章中，也欢迎数据爱好者一起交流学习。  
    
   团队介绍 
   我们是大聚划算数据科学团队，负责支持聚划算、百亿补贴、天天特卖等业务。我们聚焦优惠和选购体验，通过数据洞察，挖掘数据价值，建立面向营销场、服务供需两端的消费者运营和供给运营解决方案，我们与运营、产品合力，打造最具价格优惠心智的购物入口，最具爆发性的营销矩阵，让货品和心智运营变得高效且有确定性！
 
   ¤ 拓展阅读 ¤ 
   3DXR技术 | 终端技术 | 音视频技术 
   服务端技术 | 技术质量 | 数据算法

模型上下文协议（MCP）：构建 AI 与数据交互的新范式 xxgshxs 人工智能 chatgpt prompt 文心一言 llama copilot
引言在人工智能领域，大型语言模型（LLMs）的应用正从通用问答向复杂任务执行演进，但数据孤岛、工具集成碎片化及隐私安全等问题制约了其潜力。模型上下文协议（ModelContextProtocol,MCP）作为Anthropic提出的开放标准，旨在通过标准化接口连接AI应用与异构数据源及工具，重塑AI开发范式。本文从技术架构、核心功能、应用场景等维度解析MCP的设计逻辑与实践价值。一、核心概念与设计
量子计算如何颠覆能源优化领域：从理论到实践 Echo_Wish 人工智能前沿技术量子计算能源
量子计算如何颠覆能源优化领域：从理论到实践大家好，我是Echo_Wish，一个热爱探索前沿技术的人工智能与Python领域的技术分享者。今天，我们将深入探讨一个激动人心的话题——量子计算在能源优化中的应用。这不仅是科技领域的全新趋势，也可能为全人类的能源利用效率带来革命性突破。从理论模型到实际应用，量子计算已经在一些能源相关领域崭露头角，例如电网优化、可再生能源分配和物流节能规划。以下，让我们一步
AI人工智能 Agent：电力系统中智能体的应用 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能Agent：电力系统中智能体的应用作者：禅与计算机程序设计艺术1.背景介绍1.1电力系统的挑战与机遇电力系统是现代社会运行的基石，其安全、可靠、高效运行对经济发展和人民生活至关重要。近年来，随着可再生能源的快速发展、电力需求的不断增长以及电力市场化的推进，电力系统面临着前所未有的挑战，同时也迎来了新的发展机遇。挑战：可再生能源的波动性和间歇性：太阳能和风能等可再生能源的输出功率受天气条
XGBoost常见面试题（五）——模型对比月亮月亮要去太阳机器学习经验分享
XGBoost与GBDT的区别机器学习算法中GBDT和XGBOOST的区别有哪些？-知乎基分类器：传统GBDT以CART树作为基分类器，xgboost还支持线性分类器，这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。导数：传统GBDT在优化时只用到一阶导数信息，xgboost则对代价函数进行了二阶泰勒展开，同时用到了一阶和二阶导数。同时xgboo
Kibana 单机与集群部署教程闲人编程大数据集群部署教程大数据集群单机部署 Kibana 日志分析数据可视化
目录Kibana单机与集群部署教程第一部分：Kibana概述第二部分：Kibana单机部署教程1.安装Kibana1.1安装依赖项1.2下载和安装Kibana1.3启动Kibana2.单机案例代码实现（Python）3.常见问题及解决方法3.1无法启动Kibana服务3.2Kibana无法连接到Elasticsearch第三部分：Kibana集群部署教程1.配置集群节点1.1配置Elasticse
INCA二次开发GUI实例化智海行舟 python 个人开发
【摘要】本文基于ETASINCA二次开发实践，深入探讨如何构建完整的自动化测试GUI系统。通过Python语言结合COM接口技术，实现从软件架构设计到功能模块开发的完整闭环，为汽车电子领域工程师提供可复用的开发范式。一、INCA二次开发技术背景1.1行业应用需求在汽车电子开发领域，ETASINCA作为行业标准标定工具，其自动化测试需求日益增长。传统的手动操作模式存在以下痛点：重复性操作耗时严重（单
如何通过API用Python获取北向资金流向数据？量化问财量化软件 QMT 量化交易 Python 量化炒股 PTrade QMT 量化交易量化软件 deepseek
推荐阅读：《【最全攻略】免费的量化软件有哪些？券商的交易接口怎么获取？》如何通过API用Python获取北向资金流向数据？北向资金指的是通过沪港通和深港通渠道，从香港市场流入A股市场的资金。对于投资者来说，了解北向资金流向对于把握市场趋势和投资决策具有重要意义。本文将介绍如何通过API用Python获取北向资金流向数据。理解北向资金流向数据北向资金流向数据主要包括以下几个方面：资金流入量：指通过沪
go执行java -jar 完成DSA私钥解析并签名 DavidSoCool java jar golang
起因，最近使用go对接百度联盟api需要使用到DSA私钥完成签名过程，在百度提供的代码示例里面没有go代码的支持，示例中仅有php、python2和3、java的代码，网上找了半天发现go中对DSA私钥解析支持不友好，然后决定使用在java中完成签名计算过程，生成可执行jar后由外部传入参数获取签名数据。百度联盟api文档说明：1）权限开通后，登录百度联盟媒体平台（union.baidu.com）
【30天玩转python】项目实战：从零开始开发一个Python项目爱技术的小伙子 30天玩转python linux 运维服务器
项目实战：从零开始开发一个Python项目在学习Python的过程中，开发一个完整的项目是非常重要的实战练习。它不仅能够帮助你巩固所学的知识，还能提高实际编程能力。本文将带领你从零开始开发一个Python项目，介绍从项目规划、环境搭建、代码实现到项目发布的完整过程。我们将以一个简单的“任务管理系统”为例，逐步讲解如何构建、测试和优化这个项目。1.项目规划1.1项目简介我们将开发一个基于命令行的任务
Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
python递推法_如何使用Python递归函数中的递推？热茶走 python递推法
我们大家都知道，一个函数可能存在多种不同的用法，很少是有函数只针对一个方式，那么基于一种函数，我们肯定要了解多个方式，今日针对递归函数里的递推内容给大家介绍哦~递归是什么？是指函数/过程/子程序在运行过程序中直接或间接调用自身而产生的重入现象。下面是个人理解：递归就是在函数内部调用自己的函数被称之为递归。实例：#直接调用自己：deffunc:print('fromfunc')funcFunc#间接
python递推式_Python 递推式构造列表(List Comprehensions) man One python递推式
你需要构造一个新的列表,列表中的元素是从一个已知列表中的元素计算而得到的.比如你要创建一个列表,里面的元素是另一个列表中的元素加23后得到的.使用递推式构造列表是最理想的方法:thenewlist=[x+23forxintheoldlist]如果你希望用一个列表中大于5的元素构造一个新的列表,使用递推式也是很方便的:thenewlist=[xforxintheoldlistifx>5]如果你希望将
Dash 简介 tankusa dash
Dash是一个基于Python的开源框架，专门用于构建数据分析和数据可视化的Web应用程序。Dash由Plotly团队开发，旨在帮助数据分析师、数据科学家和开发人员快速创建交互式的、基于数据的Web应用，而无需深入掌握前端技术（如HTML、CSS和JavaScript）。Dash的核心优势在于其简单易用性和强大的功能。通过Dash，用户可以使用纯Python代码来构建复杂的Web应用，而无需编写繁
视频下载插件：yt-dlp 小怪兽长大啦 python
Yt-dlp插件使用下载方法方法一：Python插件下载使用pip工具安装即可:pipinstallyt-dlp.Python已经配置过环境变量，下载yt-dlp时不需要配置。方法二：直接下载EXE可执行文件网上下载yt-dlp应用程序：https://github.com/yt-dlp/yt-dlp/releases配置环境变量。常用使用命令（配置好环境变量后，控制台下输入命令即可）直接下载视频
Python __init__.py 模块详解鱼丸丶粗面 Python __init__.py
文章目录1概述2导入演示2.1执行顺序：先父后子2.2导入所有模块（含子模块）1概述1.工具:Pycharm场景:在创建一个PythonPackage时，会默认在该包下生成一个'__init__.py'文件2.目的:'进行一些初始化操作'(1)当importpackage时，"自动"执行'__init__.py'文件中的内容(2)常用于导入模块2导入演示2.1执行顺序：先父后子目录结构：目录结构简
Python __init__.py 愚昧之山绝望之谷开悟之坡 python init
Python__init__.py作用详解尼古拉苏关注12018.06.1012:57:34字数745阅读45,278转载于：https://www.cnblogs.com/tp1226/p/8453854.html__init__.py该文件的作用就是相当于把自身整个文件夹当作一个包来管理，每当有外部import的时候，就会自动执行里面的函数。1.标识该目录是一个python的模块包（modul
autoMate - AI实现电脑任务自动化的本地工具小众AI AI开源人工智能自动化运维
GitHub：https://github.com/yuruotong1/autoMate更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AIautoMate是一款由开源开发的本地自动化工具，以AI+RPA（人工智能+机器人流程自动化）为核心特色。它将大型语言模型的智能理解与RPA的流程执行能力结合，用户只需用自然语言描述任务，如“整理桌面文件”或“生成周报”，即可
从零开始构建大模型(LLM)应用和老莫一起学AI 人工智能 ai 大模型语言模型 llm 自然语言处理学习
大模型（LLM）已经成为当前人工智能的重要部分。但是，在这个领域还没有固定的操作标准，开发者们往往没有明确的指导，需要不断尝试和摸索。在过去两年中，我帮助了许多公司利用LLM来开发了很多创新的应用产品。基于这些经验，我形成了一套实用的方法，并准备在这篇文章中与大家分享。这套方法将提供一些步骤，帮助需要的小伙伴在LLM应用开发的复杂环境中找到方向。从最初的构思到PoC、评估再到产品化，了解如何将创意
机器学习之线性代数珠峰日记 AI理论与实践机器学习线性代数人工智能
文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
有趣的学习Python-第十篇：Python的“魔法宝库”：标准库之旅王盼达有趣的学习Python 学习 python 开发语言
Python不仅是一门强大的编程语言，更像是一座充满宝藏的“魔法宝库”，里面装满了各种各样的“魔法工具”（标准库）。这些“魔法工具”可以帮助你轻松地完成各种任务，从文件操作到网络编程，从数据处理到性能优化。接下来，让我们一起探索Python的“魔法宝库”，看看这些“魔法工具”到底有多神奇！10.1操作系统接口：与“魔法世界”互动os模块就像是一个“魔法接口”，可以帮助你与操作系统进行互动。你可以用
有趣的学习Python-第八篇：Python的“魔法盾牌”：错误与异常处理王盼达有趣的学习Python 学习 python 开发语言
在Python的魔法世界里，即使是经验丰富的魔法师也可能遇到一些“魔法失误”。这些失误分为两种：语法错误和异常。别担心，Python为你准备了一面强大的“魔法盾牌”，帮助你应对这些挑战。8.1语法错误：魔法咒语写错了语法错误就像是你在念魔法咒语时，不小心说错了单词。这是学习Python过程中最常见的问题。比如，你可能忘记在while循环后面加上冒号：whileTrueprint('Hellowor
Python字符串操作 weixin_30871905 python
转自http://blog.chinaunix.net/u/19742/showart_382176.html#Python字符串操作'''1.复制字符串'''#strcpy(sStr1,sStr2)sStr1='strcpy'sStr2=sStr1sStr1='strcpy2'printsStr2'''2.连接字符串'''#strcat(sStr1,sStr2)sStr1='strcat'sSt
零基础必看！CCF-GESP Python一级考点全解析：运算符这样学就对了奕澄羽邦 python 开发语言
第一章编程世界的基础工具：运算符三剑客在Python编程语言中，运算符如同魔法咒语般神奇。对于CCF-GESPPython一级考生而言，正确掌握比较运算符、算术运算符和逻辑运算符这三大基础工具，就相当于打开了数字世界的大门。这三个运算符家族共同构成了程序逻辑的核心骨架，其灵活组合能实现从简单计算到复杂判断的多样功能。1.1运算符分类图谱算术运算符：负责数字间的数学运算（+-*/%）比较运算符：用于
机器学习(Machine Learning) 七指琴魔御清绝大数据学习
原文链接：http://blog.csdn.net/zhoubl668/article/details/42921187希望转载的朋友，你可以不用联系我．但是一定要保留原文链接，因为这个项目还在继续也在不定期更新．希望看到文章的朋友能够学到更多．《BriefHistoryofMachineLearning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Ada
Python 字符串操作 iteye_13776 Python Python C C++C#
Python截取字符串使用变量[头下标:尾下标]，就可以截取相应的字符串，其中下标是从0开始算起，可以是正数或负数，下标可以为空表示取到头或尾。#例1：字符串截取str='12345678'printstr[0:1]>>1#输出str位置0开始到位置1以前的字符printstr[1:6]>>23456#输出str位置1开始到位置6以前的字符num=18str='0000'+str(num)#合并字
关联规则算法：揭秘数据中的隐藏关系，从理论到实战秋声studio 机器学习算法详解关联规则算法数据挖掘 Apriori算法 FP-Growth算法大数据优化数据预处理增量式更新
引言在当今数据驱动的时代，如何从海量数据中挖掘出有价值的信息成为了各行各业的核心挑战。关联规则算法作为数据挖掘领域的重要工具，能够帮助我们发现数据中隐藏的关联关系，从而为决策提供支持。无论是电商平台的商品推荐，还是医疗领域的疾病诊断，关联规则算法都展现出了强大的应用潜力。本文将从基础概念出发，逐步深入探讨关联规则算法的核心原理、经典算法及其优化策略。无论你是数据挖掘的初学者，还是希望进一步了解关联
机器学习实战——音乐流派分类（主页有源码）喵了个AI 机器学习实战机器学习分类人工智能
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.简介音乐流派分类是音乐信息检索（MusicInformationRetrieval,MIR）中的一个重要任务，旨在通过分析音频信号的特征，将音乐自动分类到不同的流派（如古典、摇滚、爵士、流行等）。随着数字音乐平台的普及，音乐流派分类技术被广泛应用于音乐推荐、自动标签生成和音乐库管理
【Python 第五篇章】数据类型蜗牛 | ICU Python 专栏 python windows 开发语言
一、列表详解list.append(x)在列表末尾添加一个元素。list.extend(iterable)用可迭代对象的元素扩展列表。list.insert(i,x)在指定位置插入元素，第一个参数是插入元素的索引，第二个是值。list.remove(x)从列表中删除第一个值为x的元素。list.pop([i])移除列表中给定位置的条目，并返回该条目。如果未指定索引号，则a.pop()将移除并返回列
python catia catalog文件_Python封装的获取文件目录的函数卢新生 python catia catalog文件
获取指定文件夹中文件的函数，网上学习时东拼西凑的结果。注意，其中文件名如1.txt，文件路径如D:\文件夹\1.txt；direct为第一层子级importos#filePath输入文件夹全路径#mode#1递归获取所有文件名;#2递归获取所有文件路径;#3获取direct文件名;#4获取direct文件路径;#5获取direct文件名和direct子文件夹名;#6获取direct文件路径和dir
Python：每日一题之错误票据努力的敲码工蓝桥杯每日一题 python 蓝桥杯
题目描述某涉密单位下发了某种票据，并要在年终全部收回。每张票据有唯一的ID号。全年所有票据的ID号是连续的，但ID的开始数码是随机选定的。因为工作人员疏忽，在录入ID号的时候发生了一处错误，造成了某个ID断号，另外一个ID重号。你的任务是通过编程，找出断号的ID和重号的ID。假设断号不可能发生在最大和最小号。输入描述输入描述要求程序首先输入一个整数N(N<100)表示后面数据行数。接着读入N行数据
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1

用数据讲故事：基于分析场景的17条Python使用小结

▐ 缺失值处理

▐ 异常值处理

▐ 标准化处理

▐ 连续变量重分类

▐ 曲线拐点——KneeLocator

▐ 相关系数——corr

▐ 卡方检验——chi2_contingency

▐ 线性回归——polyfit

▐ 综合规模的排序打分——Wilson_Score

▐ 计算指标权重——PCA

▐ 分词&词频——jieba/collection

▐ 关键词提取——TF-IDF/TexTRank

▐ 情感分析——SnowNLP/TextBlob

▐ Matplotlib

▐ Seaborn

▐ DSW 读取ODPS表

▐ Python UDF开发

你可能感兴趣的:(python,开发语言,数据挖掘,机器学习,人工智能)