卖香油的少掌柜

EDA流程（探索性数据分析），史上最全面

EDA概述

介绍

探索性数据分析（Exploratory Data Analysis，简称EDA），是指对已有的数据（特别是调查或观察得来的原始数据）在尽量少的先验假定下进行探索，通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律了解数据集，了解变量间的相互关系以及变量与预测值之间的关系的一种数据分析方法。特别是当我们对面对大数据时代到来的时候，各种杂乱的“脏数据”，往往不知所措，不知道从哪里开始了解目前拿到手上的数据时候，探索性数据分析对后续特征工程和建模工作非常有效。

目的

目的在于熟悉、了解数据集，对数据集进行验证来确定所获得的数据集可以用于后续的机器学习或深度学习使用。

进一步了解变量间的相互关系以及变量与预测值之间的存在关系。

引导进行数据处理以及特征工程的步骤，使数据集的结构和特征集让预测更合理。

对数据进行一些图表或文字总结。

EDA代码及流程

流程图

载入数据

目的

从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据到我们程序中。以便对各种数据进行运算操作，比如归并、再成形、选择，还有数据清洗和数据加工特征等行为。

流程

首先确定数据来源是一次性的到数据，还是实时数据（一般从数据库中得到的数据常为实时数据实时获取）。

对于一次性获取到的数据，需要查看数据包目录结构记录下来。查看数据文件的格记录下来，如果是excel需要进一步查看工作表结构。

根据记录结果，写脚本批量文件读操作，利用pandas等工具读入数据进行进一步操作。

代码样例

andas.read_csv
可以读取CSV（逗号分割）文件、文本类型的文件text、log类型到DataFrame
test_data = pd.read_csv(path , sep=' ')
train_data = pd.read_csv(patn , sep=' ')
	pandas.read_excel
可以读取表格文件
pd.read_excel('文件名.xlsx'，sheet_name='表名')
	Pandas读取数据库
import pymysql
import pandas as pd
#连接数据库为test
conn=pymysql.connect(host="127.0.1",user="root",passwd="1234",db="test")
#查询的表为students
sql="select * from students"
data=pd.read_sql(sql,conn)
	Pandas读取html文件
htl=pd.read_html('E:\test.html')

数据汇总处理

目的

虽然从数据包中获取了大量的基础数据。然而，丰富的数据资源由于建设时期不同，开发部门不同、使用设备不同、技术发展阶段不同和能力水平的不同等因素，导致数据的结构，数据的记录方式会有不一致性。这就使得数据资源难于同一套脚本查询访问，数据不能直接比较分析。数据汇总合并就是采用一种通用的标准和规范，将有结构不一致性的数据源，整合成一致的，可用度高的数据。

流程

查看不同数据源的数据结构，数据属性，数据记录方式。

根据需求去分析不同数据源中共同可用的数据。分析不同数据差异，结构差异，字段类型差异。

根据分析的结构共同性，选取索引指标，写脚本批量更改必要修改的数据结构，合并数据。

直接合并/堆叠合并

左右合并：
```
pd.concat( (df1,df2)  aixs=1)
```

合并结果（在列的方向直接合并，取所有的列名称（重复不补合并），在行的方向，根据连接方式决定join=inner; 取行索引的交集，join=outer; 取行索引的并集）

上下合并：

pd.concat( (df1,df2)  aixs=0)
df1.append(df2)

合并结果：（在行的方向直接合并，取所有的行名称（重复行不合并），在列的方向，根据连接方式决定join=inner; 取列索引的交集，join=outer; 取列索引的并集）

场景：通常用于列索引一致的情况下。

缺点：以索引作为参考

主键合并

pd.merge(left=df1, right=df2, on="", how="")

仅能实现左右合并，on="" 主键，可以是一个主键，也可多个主键； left_on，right_on。how="inner"、outer、left、right。

重叠合并

df1.combine_first(df2)

df1是主表，目的：两个不完整的表，合成一张相对完整的表。将主表的空值，用其他表中的非空值填充。

数据总览

目的

对最终合并好的数据有一个前瞻性，大体性的认识。索引和列的数据类型和占用内存大小。对数值型数据生成描述性统计汇总，包括数据的计数和百分位数，分类型数据中每个类的数量，了解数据的大致分布。

过程

查看数据前5行：dataframe.head()
查看数据的信息，包括每个字段的名称、非空数量、字段的数据类型：data.info()
查看数据的统计概要（count/mean/std/min/25%/50%/75%max）：data.describe()
查看dataframe的大小：dataframe.shape
按列/数组排序
    按某列排序：正序（倒序）df.groupby(['列名']).cumcount()
    对该列或该行进行值排序：sort_values(by="列名/行名")
    对数组进行升序排序，返回索引值。降序的话可以给a加负号。 numpy.argsort(a) 或者 a.argsort()
数据相加
    a.sum(axis=1)  ：a为数组，sum（axis=1）表示每行的数相加，平时不加axis则默认为0，为0表示每列的数相加。
字典操作
    sorted对字典或者列表的后面一个值排序
    sorted（dic.items() , key=lambda x:x[1] , reverse=True )
    sorted (dic.items(),key=operator.itemgetter(1) ,reverse=True)
字典的get函数：
    dic.get(key,0）相当于if ……else ，若key在字典dic中则返回dic[key]的值，若不在则返回0

缺失值分析

目的

在各种数据中，属性值缺失的情况经常发全甚至是不可避免的。因此，在大多数情况下，信息系统是不完备的，或者说存在某种程度的不完备。数据或多或少都会存在缺失值，不仅包括数据库中的NULL值，也包括用于表示数值缺失的特殊数值（比如，在系统中用-999来表示数值不存在）。如果我们仅有数据库的数据模型，而缺乏相关说明，常常需要花费更多的精力来发现这些数值的特殊含义。而如果我们漠视这些数值的特殊性，直接拿来进行挖掘，建模那么很可能会得到错误的结论。因此在之前的阶段进行数据缺失值分析很重要。

过程

缺失值分析

完全随机缺失（missing completely at random,MCAR）：指的是数据的缺失是完全随机的，不依赖于任何不完全变量或完全变量，不影响样本的无偏性。

非随机缺失(missing not at random,MNAR)：指的是数据的缺失与不完全变量自身的取值有关。

对于随机缺失和非随机缺失，直接删除记录是不合适的，原因上面已经给出。随机缺失可以通过已知变量对缺失值进行估计，而非随机缺失的非随机性还没有很好的解决办法。

查看缺失情况

dataframe.isnull()

元素级别的判断，把对应的所有元素的位置都列出来，元素为空或者NA就显示True，否则就是False

dataframe.isnull().any()

列级别的判断，只要该列有为空或者NA的元素，就为True，否则False

missing = dataframe.columns[ dataframe.isnull().any() ].tolist()

将为空或者NA的列找出来

dataframe [ missing ].isnull().sum()

将列中为空或者NA的个数统计出来

len(data["feature"] [ pd.isnull(data["feature"]) ]) / len(data))

缺失值比例

msno.matrix(train_data.sample(300))
msno.bar(train_data.sample(1000))

可视化看下缺省值

缺失值处理方式

# 直接删除含有缺失值的行/列： 
    new_drop = dataframe.dropna ( axis=0,subset=["Age","Sex"] ) 
    # 【在子集中有缺失值，按行删除】
    new_drop = dataframe.dropna ( axis=1)  
    # 【将dataframe中含有缺失值的所有列删除】
# 插补：
    a, 固定值插补
        dataframe.loc [ dataframe [ column ] .isnull(),column ] = value   
        # 将某一列column中缺失元素的值，用value值进行填充。
    b, 均值插补
        data.Age.fillna(data.Age.mean(),inplace=True)  
        # 将age列缺失值填充均值。（偏正态分布，用均值填充，可以保持数据的均值）
    c, 中值插补
        df['price'].fillna(df['price'].median())
        # 偏长尾分布，使用中值填充，避免受异常值的影响。
    d, 最近数据插补
        dataframe ['age'].fillna(method='pad')  
        # 使用前一个数值替代空值或者NA，就是NA前面最近的非空数值替换   
        dataframe ['age'].fillna(method='bfill',limit=1)
        # 使用后一个数值替代空值或者NA，limit=1就是限制如果几个连续的空值，只能最近的一个空值可以被填充。
    e, 回归插补
        from scipy.interpolate import interp1d  
        # 线性关系插值
    f, 拉格朗日插值
        from scipy.interpolate import lagrange  
        # 拉格朗日 【非线性插值】
    # g, 牛顿插值法
    # h, 分段插值
    # i, K-means
    通过K均值的聚类方法将所有样本进行聚类划分，然后再通过划分的种类的均值对各自类中的缺失值进行填
补。归其本质还是通过找相似来填补缺失值。缺失值填补的准确性就要看聚类结果的好坏了，而聚类结果的可变
性很大，通常与初始选择点有关，因此使用时要慎重。
    # g, KNN填补空值
    h, 时间类型
        df.interpolate()：对于时间序列的缺失，可以使用这种方法。

异常值分析

目的

在数据准备的过程中，数据质量差又是最常见而且令人头痛的问题。数据质量差的根源一方面来自于缺失值，一方面也来自于存在很多的异常数据值。异常值的存在会降低训练模型的鲁棒性，异常值分析和处理之后模型的拟合性会提高。

过程

查看异常值

# 画数据的散点图。观察偏差过大的数据，是否为异常值；
    plt.scatter(x1,x2)
# 画箱型图，箱型图识别异常值比较客观，因为它是根据3σ原则，如果数据服从正态分布，若超过平均值的3倍标准差的值被视为异常值。
    Percentile = np.percentile(df['length'],[0,25,50,75,100])
    IQR = Percentile[3] - Percentile[1]
    UpLimit = Percentile[3]+ageIQR*1.5
    DownLimit = Percentile[1]-ageIQR*1.5
  Ql为下四分位数：表示全部观察值中有四分之一的数据取值比它小； 
  Qu为上四分位数：表示全部观察值中有四分之一的数据取值比它大； 
  IQR称为四分位数间距：是上四分位数Qu和下四分卫数Ql之差，之间包含了全部观察值的一半。 
# seaborn画boxplot
    f,ax=plt.subplots(figsize=(10,8)) sns.boxplot(y='length',data=df,ax=ax) plt.show()
# 基于模型预测
    构建概率分布: 离群点在该分布下概率低就视为异常点
#基于近邻度的离群点检测: 
    KNN
#基于密度的离群点检测:
    对象到k个最近邻的平均距离的倒数，如果该距离小，则密度高；
    DBSCAN：一个对象周围的密度等于该对象指定距离d内对象的个数
#基于聚类的方法来做异常点检测: 
    K-means
#专门的离群点检测: 
    One class SVM和Isolation Forest

异常值处理方式

视为缺失值：修补（平均数、中位数等）
直接删除：是否要删除异常值可根据实际情况考虑。因为一些模型对异常值不很敏感，即使有异常值也不影响模型效果，但是一些模型比如逻辑回归LR对异常值很敏感，如果不进行处理，可能会出现过拟合等非常差的效果。
不处理：直接在具有异常值的数据集上进行数据挖掘

4. 平均值修正：可用前后两个观测值的平均值修正该异常值

数据特征分析

目的

在拿到清洗好的数据后，建模人员不知道从哪里开始了解目前拿到手上的数据，对于如何建模可能也没有头绪。在数据预处理阶段就可以进一步对数据特征进行分析。将各个字段下的数据进行分析，写入EDA报告中，为拿到数据后做建模提供方向性指导。

过程

定量数据分布分析

# 相关性分析：
price_numeric = Train_data[numeric_features]
correlation = price_numeric.corr()
print(correlation['price'].sort_values(ascending=False))
# 相关性热力图：
f , ax = plt.subplots(figsize = (7, 7))
plt.title(‘title’,y=1,size=16)
sns.heatmap(correlation,square = True, vmax=0.8）

偏度和峰值

# 逐列查看偏度，峰值
for col in numeric_features:
 print('{:15}'.format(col), 
 '偏度: {:05.2f}'.format(Train_data[col].skew()) , 
 '峰值: {:06.2f}'.format(Train_data[col].kurt()))

分布可视化

f=pd.melt(Train_data,value_vars=numeric_features)
g=sns.FacetGrid(f,col="variable",sharex=False,harey=False)
g=g.map(sns.distplot, "value")

相互之间关系可视化

sns.set()
columns=['price','v_12','v_8','v_0']
sns.pairplot(Train_data[columns],size=2,kind='scatter',diag_kind='kde')
plt.show()

常见统计量

集中趋势度量：均值、中位数、众数

离中趋势度量：极差、标准差、变异系数（标准差/均值）、四分位数间距。

周期性

帕累托法则（即为二八法则）

类别特征分析

过程

类别特征的小提琴图可视化

catg_list = categorical_features
target = 'price'
for catg in catg_list :
 sns.violinplot(x=catg, y=target, data=Train_data)
 plt.show()

柱状图可视化

def bar_plot(x, y, **kwargs):
   sns.barplot(x=x, y=y)
   x=plt.xticks(rotation=90)
f=pd.melt(Train_data,id_vars=['price'],value_vars=categorical_features)
g = sns.FacetGrid(f,col="variable",col_wrap=2, sharex=False, sharey=False,size=5)
g = g.map(bar_plot, "value", "price")

常见统计量

频数，频率，众数，异众比率

整理总结不易，请大家多多点赞，转发！

rpg_trajectory_evaluation工具评估SLAM/VIO系统
rpg_trajectory_evaluation工具评估SLAM/VIO系统1、安装系统环境：ubuntu18.04+ROSmelodic代码：https://github.com/uzh-rpg/rpg_trajectory_evaluationtutorial:http://rpg.ifi.uzh.ch/docs/IROS18_Zhang.pdf1.1首先安装依赖的python库pipins
做人脸识别遇到的问题 princesshu python pycharm
最开始安装的时候直接用pipinstalldlib却一直显示错误提示“Failedbuildingwheelfordlib”之后去网上搜来了各种下载链接依然错误我发现问题是！！python版本问题，我下载所有的包都与我的python版本不匹配于是我先安装了cmakeboost之后最后直接在终端安好了dlib～
【Hugging Face全面拥抱LangChain：全新官方合作包】
文末有福利！❝最近HuggingFace官宣发布langchain_huggingface，这是一个由HuggingFace和LangChain共同维护的LangChain合作伙伴包。这个新的Python包旨在将HuggingFace最新功能引入LangChain并保持同步。通过HuggingFace官方包的加持，开发小伙伴们通过简单的api调用就能在langchain中轻松使用HuggingFa
【技术工具】python人员照片简介批量对照（千人级） Allen_Lyb 医疗高效编程研发 python 开发语言自然语言处理健康医疗语言模型
要实现根据照片上的工号批量添加人员姓名和工号到照片上，可以按照以下步骤操作（使用Python+PIL/Pillow+OpenCV+pytesseract）：解决方案步骤准备数据创建人员信息表（CSV格式）：姓名,工号确保所有照片文件名包含工号（如工号.jpg），或照片中有清晰可见的工号文本安装依赖库pipinstallpillowopencv-pythonpandaspytesseract#额外安
Linux机器上Selenium+Python3+Chrome使用driver.get()只能获取到标签而没有内容的解决方法
代码：#!/usr/bin/python3#coding=utf8fromseleniumimportwebdriverfromselenium.webdriver.chrome.optionsimportOptionschrome_options=Options()chrome_options.add_argument('--headless')chrome_options.add_argume
解决 python 中的 huggingface_hub code_welike python 前端数据库
解决python中的huggingface_hub.utils._validators.HFValidationErrorRepoidmustbeintheformrepo_nameorname问题在使用python的huggingface_hub库时，有时候会遇到类似于“huggingface_hub.utils._validators.HFValidationErrorRepoidmustbe
使用Python调用Hugging Face Question Answering (问答)模型墨如夜色 python easyui 开发语言 Python
使用Python调用HuggingFaceQuestionAnswering(问答)模型在自然语言处理领域，问答系统是一种能够回答用户提出的问题的智能系统。HuggingFace是一个知名的开源软件库，提供了许多强大的自然语言处理工具和模型。其中，HuggingFace的QuestionAnswering模型可以帮助我们构建问答系统，使得我们能够从给定的文本中提取答案。本文将介绍如何使用Pytho
深入解析与实战应用：利用Python和Amazon Product Advertising API实战分析不进则退i python 开发语言
在电商平台的运营中，关键词搜索接口是不可或缺的一部分，特别是在亚马逊这样的全球电商平台。通过关键词搜索接口，商家可以高效地获取商品信息，优化选品策略，提升销售业绩。本文将详细介绍如何接入亚马逊的关键字搜索接口，并提供一个Python代码示例。点击获取key和secret1.注册开发者账号并获取API权限首先，你需要访问亚马逊开发者中心，注册一个开发者账号，并获取相应的API权限。在注册过程中，你将
Python爬虫【四十七章】异步爬虫与K8S弹性伸缩：构建百万级并发数据采集引擎程序员_CLUB Python入门到进阶 kubernetes python 爬虫
目录一、背景与行业痛点二、核心技术架构解析2.1异步爬虫引擎设计2.2K8S弹性伸缩架构三、生产环境实践数据3.1性能基准测试3.2成本优化效果四、高级优化技巧4.1协程级熔断降级4.2预测式扩容五、总结Python爬虫相关文章（推荐）一、背景与行业痛点在数字经济时代，企业每天需要处理TB级结构化数据。某头部金融风控平台曾面临以下挑战：数据时效性：需实时采集10万+新闻源，传统爬虫系统延迟超12小
Python爬虫【四十五章】爬虫攻防战：异步并发+AI反爬识别的技术解密程序员_CLUB Python入门到进阶 python 爬虫人工智能
目录引言：当爬虫工程师遇上AI反爬官一、异步并发基础设施层1.1混合调度框架设计1.2智能连接池管理二、机器学习反爬识别层2.1特征工程体系2.2轻量级在线推理三、智能决策系统3.1动态策略引擎3.2实时对抗案例四、性能优化实战4.1全链路压测数据4.2典型故障处理案例五、总结：构建智能化的爬虫生态系统Python爬虫相关文章（推荐）引言：当爬虫工程师遇上AI反爬官在大数据采集领域，我们正经历着技
Python处理MySQL大数据量：分页查询与性能优化 AI天才研究院 AI人工智能与大数据 python mysql 性能优化 ai
Python处理MySQL大数据量：分页查询与性能优化关键词：Python分页查询、MySQL性能优化、大数据量处理、LIMITOFFSET、索引优化摘要：当数据库表数据量达到百万级时，传统的LIMITOFFSET分页查询会出现明显性能瓶颈。本文从实际场景出发，用“图书馆找书”的通俗比喻拆解分页原理，结合Python代码示例和MySQL执行计划分析，详细讲解传统分页的痛点、优化思路（索引分页/覆盖
客流分析核心算法 trajectory_event_analyzer数据结构风吹落叶花飘荡 python 后端算法数据结构网络
客流分析核心算法trajectory_event_analyzerV4.py数据结构文章目录客流分析核心算法trajectory_event_analyzerV4.py数据结构一、算法描述1、描述2、客流分析模块trajectory_event_analyzerV4.py解析1.分层统计：2.状态一致性检查：3.区域状态统计：4、客流状态统计5.ReID集成：6.数据清理机制：二、核心模块解释1、
小程序领域的营销推广策略小程序开发2020 小程序 ai
小程序领域的营销推广策略：从流量获取到生态运营的全链路解析关键词：小程序营销、用户增长策略、社交裂变、私域流量运营、数据分析驱动、场景化营销、全域流量整合摘要：本文系统解析小程序营销推广的核心策略体系，从微信生态底层逻辑出发，结合用户生命周期管理理论，构建包含「用户拉新-留存转化-裂变增长-数据迭代」的全链路运营框架。通过深度拆解社交裂变模型、场景化运营策略、私域流量沉淀方法及数据驱动决策体系，结
大学专业科普 | 计算智能、信息学与大数据鸭鸭鸭进京赶烤大数据
一、专业背景随着信息技术的飞速发展，数据的产生速度呈爆炸式增长，传统数据处理技术已经无法满足如此庞大的数据量和复杂的数据类型，大数据专业应运而生，旨在培养能够应对大数据挑战的专业人才。二、主要课程内容数学基础课程高等数学、概率论与数理统计、线性代数是大数据分析的核心数学基础，为数据处理、算法优化和模型构建提供必要的理论支持。计算机基础课程数据结构与算法、计算机网络、操作系统是大数据技术的重要支撑，
大学专业科普 | 人工智能、物联网和云计算技术鸭鸭鸭进京赶烤人工智能物联网云计算 5G 信号处理信息与通信网络
一、专业概述人工智能专业是一门融合计算机科学、数学、信息学等多学科知识的交叉学科。它旨在培养学生掌握人工智能领域的基本理论、方法和技能，以应对人工智能在各个领域的应用需求和发展挑战。二、主要课程基础课程：包括高等数学、线性代数、概率论与数理统计、离散数学等数学基础课程，为人工智能算法提供理论支撑；以及数据结构、算法设计与分析、计算机组成原理、操作系统、计算机网络等计算机科学基础课程，帮助学生理解人
解读一个大学专业——信号与图像处理
专业定义与核心内容维度内容定义研究如何采集、处理、分析和理解一维信号（语音、雷达、脑电）和二维/三维图像（医学、遥感、工业视觉）。关键词数字信号处理（DSP）、图像处理、计算机视觉、模式识别、压缩感知、深度学习、GPU加速、嵌入式系统。技术栈MATLAB/Python+OpenCV/PyTorch+DSP/FPGA+GPU（CUDA）第五届先进算法与信号、图像处理国际学术会议（AASIP2025）
【python】向AWS Dynamodb中插入数据
一、背景AWSDynamodb数据库在架构中起到的作用是配置数据库，s3上buckect_a-->bucket_b-->bucket_c对应着层与层之间的关系，总所周知，Dynamobd是非关系型数据库，数据插入的格式是键值对形式的二、代码importboto3importjsonimportpandasaspdAWS_ACCESS_KEY_ID=''AWS_SECRET_ACCESS_KEY='
在Python中对嵌套对象(DynamoDB和表)使用模拟潮易 python 开发语言
在Python中，我们可以使用boto3库来模拟AWSDynamoDB的行为。以下是一个简单的例子，说明如何使用boto3来模拟DynamoDB的表，然后插入和查询数据：首先，你需要安装boto3库。你可以使用pip来安装：```bashpipinstallboto3```然后，你可以创建一个模拟器，并添加一些模拟的数据：```pythonimportboto3frombotocore.stubi
深度解析：Python生成器中yield与return的混合使用机制
核心结论：这是有意设计，不是缺陷！在生成器函数中，return语句确实是通过抛出StopIteration异常来实现的，这是Python生成器协议的有意设计而非缺陷。这种机制实现了四个关键目标：✅保持与迭代协议的兼容性✅清晰区分中间值（yield）和最终结果（return）✅支持yieldfrom的高级用法✅提供获取最终结果的标准化方式（通过异常值）生成器执行流程图是否是否是开始执行生成器函数遇到
C语言-栈和队列 HanLop 初阶数据结构-C语言 c语言开发语言数据结构算法
文章目录引言栈和队列1.栈1.1栈的概念与结构1.2栈的实现2.队列2.1队列的概念与结构2.2队列的实现结语引言欢迎来到HanLop博客的C语言数据结构初阶系列。在之前的文章中，我们详细介绍了链表及其操作方法。在本篇文章中，我们将深入探讨栈和队列这两种常见的数据结构。栈和队列虽然都是线性数据结构，但它们在数据的存取方式上有着显著的区别。栈是一种后进先出（LIFO,LastInFirstOut）的
Python 协程 & 异步编程(asyncio) GeekAGI python 开发语言
文章目录协程&异步编程(asyncio)1.协程的实现1.1greenlet1.2yield1.3asyncio1.4async&awit1.5小结2.协程的意义2.1爬虫案例2.2小结3.异步编程3.1事件循环3.2协程和异步编程3.2.1基本应用3.2.2await3.2.3Task对象3.2.4asyncio.Future对象3.2.5futures.Future对象3.2.6异步迭代器3.
python asyncio模型事件循环 __xa__ py 异步异步基础模型事件循环 asyncio
异步建立在事件循环上.简单来说事件循环:1.把要执行的函数放入队列2.取出函数,执行3.看看还要不要继续放入此函数4.继续第一步一个简单的例子说明:"""1.yield挂起当前函数.2.使用调度器循环3.使用next唤醒此函数继续执行"""deff1():foriinrange(3):print('f1%d'%i)yielddeff2():foriinrange(5):print('f2%d'%i
简单理解 Python EventLoop 事件循环 Python_P叔 python 开发语言数据库
简介在python3中，加入了asyncio模块，来实现协程，其中一个很重要的概念是事件循环，整个异步流程都是事件循环推动的。下面自己实现一个相对简单的EventLoop，了解一下事件循环是如何进行运转的。事件循环下面看一下整个流程的实现过程将以下代码写入spider_event_loop.py文件：#spider_event_loop.pyimporttimeimportosimportsock
万字长文，解读大模型技术原理（非常详细）零基础入门到精通，收藏这一篇就够了
大模型是指具有大规模参数和复杂计算结构的机器学习模型。本文从大模型的发展历程出发，对大模型领域的各个技术细节进行详细解读，供大家在了解大模型基本知识的过程中起到一定参考作用。一、大模型的定义大语言模型作为一个被验证可行的方向，其“大”体现在训练数据集广，模型参数和层数大，计算量大，其价值体现在通用性上，并且有更好的泛化能力。这些模型通常由深度神经网络构建而成，拥有数十亿甚至数千亿个参数。大模型的设
Python 事件循环与 asyncio 的底层实现代码界的灵魂舞者 python java 数据库
```htmlPython事件循环与asyncio的底层实现Python事件循环与asyncio的底层实现在现代的异步编程中，事件循环扮演着至关重要的角色。Python的asyncio模块是其核心，它提供了一种优雅的方式来处理异步任务和并发操作。本文将深入探讨Python中事件循环的概念以及asyncio的底层实现。什么是事件循环？事件循环（EventLoop）是一种控制流机制，它负责管理任务队列
数据结构（C语言实现）呈羲笔记数据结构 c语言开发语言
一、链表1.链表实现以及在头部插入结点先来一段代码....该代码包含创建链表并在头部插入结点，遍历链表并打印结点数据，接下来逐步分析，简单的基础语法不过多记录....#include#includestructNode{intdata;structNode*next;};structNode*head;voidInsert(intx){Node*temp=(Node*)malloc(sizeof(
Python异步编程：深入理解事件循环与协程
引言：从餐厅服务员说起想象你是一家高档餐厅的服务员。传统方式下，你接到顾客A的点餐后，需要一直等在厨房，直到菜品做好才能去服务顾客B。这显然效率很低。聪明的服务员会这样做：接到顾客A的订单后，把单子交给厨房，然后立即去服务顾客B、C、D…当厨房通知某个菜做好了，再去取餐送给相应的顾客。这就是事件循环的工作方式——不傻等，而是充分利用等待时间去做其他事情。一、事件循环：异步编程的心脏1.1什么是事件
Selenium 知识点详解：从基础操作到代码实战壮志凌云不假 selenium python 测试工具
在自动化测试领域，Selenium是一款备受瞩目的工具。一、Selenium简介Selenium是一个用于Web应用程序测试的工具，它支持多种浏览器和编程语言，能模拟用户在浏览器上的各种操作，如点击、输入文本等，从而实现对Web应用的自动化测试，帮助开发者快速发现潜在问题，提高开发效率。二、环境配置要使用Selenium，需先进行环境配置。以Python为例，首先需安装Selenium库，可通过p
Python开发中，SQLAlchemy 的同步操作和异步操作封装，以及常规CRUD的处理。老少女王烦烦 python oracle 数据库开发语言
在我们使用Python来和数据库打交道中，SQLAlchemy是一个非常不错的ORM工具，通过它我们可以很好的实现多种数据库的统一模型接入，而且它提供了非常多的特性，通过结合不同的数据库驱动，我们可以实现同步或者异步的处理封装。1、SQLAlchemy介绍SQLAlchemy是一个功能强大且灵活的PythonSQL工具包和对象关系映射（ORM）库。它被广泛用于在Python项目中处理关系型数据库的
自动化测试秘籍：Selenium Python API实战指南 May Wei Selenium Python API 自动化测试元素交互弹窗处理
背景简介Selenium是一个用于Web应用程序测试的工具，它允许开发者模拟用户与浏览器的交互。在现代软件开发中，自动化测试是确保应用质量和效率的关键环节。本文将基于Selenium的PythonAPI，探讨如何高效地进行网页元素交互和自动化测试。标题1：操作下拉菜单和列表SeleniumWebDriver提供了一个名为Select的特殊类，用于与网页上的列表和下拉菜单进行交互。Select类提供
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$

EDA流程（探索性数据分析），史上最全面

EDA概述

介绍

目的

EDA代码及流程

流程图

载入数据

目的

流程

代码样例

数据汇总处理

目的

流程

直接合并/堆叠合并

主键合并

重叠合并

数据总览

目的

过程

缺失值分析

目的

过程

缺失值分析

查看缺失情况

缺失值处理方式

异常值分析

目的

过程

查看异常值

异常值处理方式

数据特征分析

目的

过程

定量数据分布分析

偏度和峰值

分布可视化

相互之间关系可视化

常见统计量

周期性

类别特征分析

过程

类别特征的小提琴图可视化

柱状图可视化

常见统计量

整理总结不易，请大家多多点赞，转发！

你可能感兴趣的:(python,数据建模,数据分析,机器学习,数据结构)