恋恋风尘hhh

python数据分析实战之客户还款能力预测

文章目录

1、明确需求和目的
2、数据收集
3、数据预处理

3.1 数据整合

3.1.1 加载相关库和数据集
3.1.2 数据总体概览

3.2 数据清洗

3.2.1 多余列的删除
3.2.2 确定数据集的标签
3.2.3 缺失值的处理
3.2.4 数据类型转换
3.2.5 重复值处理

4、模型训练

4.1 使用逻辑回归训练
4.2 使用KNN训练

5、总结

1、明确需求和目的

客户向P2P平台申请贷款时，平台会通过线上或线下的的方式让客户填写贷款申请表，收集客户信息，同时也会借助第三方平台如征信机构等信息，通过以往的历史数据可以训练出一个预测模型。
当有新客户时，就可以根据新客户的信息来预测判断出客户是否有还款能力，从而决定是否向客户发放贷款。

2、数据收集

数据集是某P2P平台发生借贷的业务数据，原始数据共有111个变量，39535条记录。

3、数据预处理

3.1 数据整合

3.1.1 加载相关库和数据集

使用的库主要有：pandas、numpy、sklearn
使用的数据集：某P2P平台发生借贷的业务数据（LoanStats3a.csv）

import numpy as np
import pandas as pd
import warnings

warnings.filterwarnings("ignore")          # 忽略警告信息  
# 加载数据集，第一行是字符串，所以要skiprows=1跳过第一行
loans_2020 = pd.read_csv('LoanStats3a.csv', skiprows=1)

3.1.2 数据总体概览

print(loans_2020.info())             # 展示概览信息 
print(loans_2020.describe())         # 展示数值类型字段的统计信息 
print(loans_2020.sample(5))         # 随机抽样10条数据
print(loans_2020.shape)             # 展示形状信息
-----------------------------------   
(39535, 111)

3.2 数据清洗

3.2.1 多余列的删除

首先删除空白值超过一半的列

# 剔除空白值超过一半的列，thresh=n：至少有n个NaN的列才会去除
loans_2020 = loans_2020.dropna(thresh=len(loans_2020) / 2 , axis=1) 
# 输出到“loans_2020.csv”文件 ， index=False表示不加索引
loans_2020.to_csv('loans_2020.csv', index=False)

重新加载数据集，查看数据信息：

loans_2020 = pd.read_csv("loans_2020.csv")
print(loans_2020.shape)
-------------------------------            # 去除多余的列之后，剩余54列
(39535, 54)

print("第一行的数据展示 \n",loans_2020.iloc[0])  #第一行的数据

进一步分析数据，继续删除无用的列（描述、URL、id等对模型建立没有什么作用的字段）：

"""
desc:贷款描述
url：URL链接
id：用户ID
member_id：会员编号
funded_amnt：承诺给该贷款的总金额
funded_amnt_inv：投资者为该贷款承诺的总金额
grade：贷款等级。贷款利率越高，则等级越高
sub_grade：贷款子等级
emp_title：工作名称
issue_d：贷款月份
...
"""
loans_2020 = loans_2020.drop(['desc', 'url',"id", "member_id", "funded_amnt", "funded_amnt_inv", "grade", "sub_grade", "emp_title", "issue_d","zip_code", "out_prncp", "out_prncp_inv", "total_pymnt", "total_pymnt_inv", "total_rec_prncp","total_rec_int", "total_rec_late_fee", "recoveries", "collection_recovery_fee", "last_pymnt_d", "last_pymnt_amnt"], axis=1)
print(loans_2020.shape)
------------------------------    # 进一步去除多余的列之后，剩余32列
(39535, 32)

进一步分析，去掉特征中只有一种属性的列（在原始数据中的特征值只有一种属性的话，对于分类模型的预测是没有用的）：

orig_columns = loans_2020.columns  	# 展现出所有的列
drop_columns = [] 			 # 初始化空列表

for col in orig_columns:
    # dropna()先删除空值，再找出唯一的属性，否则加上空值就是两个属性了
    col_series = loans_2020[col].dropna().unique()    # 去重，找出唯一属性的特征
    if len(col_series) == 1:  #如果该特征的属性只有一个属性，就给过滤掉该特征
        drop_columns.append(col)
        
loans_2020 = loans_2020.drop(drop_columns, axis=1)  # 去除特征中只有一种属性的列
print(drop_columns)
print(loans_2020.shape)
-----------------------
['initial_list_status', 'collections_12_mths_ex_med', 'policy_code', 'application_type', 'acc_now_delinq', 'chargeoff_within_12_mths', 'delinq_amnt', 'tax_liens']
(39535, 24)				# 去掉特征中只有一种属性的列之后，剩余24列

3.2.2 确定数据集的标签

在原始数据中,没有0或者1的还不还款的特征，但是有“loan_status”这个特征，意思是当前“贷款的状态” ，可将贷款状态当作是标签。

首先查看一下贷款状态的信息：

print(loans_2020['loan_status'].value_counts())		# 计算该列特征的属性的个数
"""
Fully Paid：全部还清的贷款，后面给他打个“1”
Charged Off：违约的贷款，后面给他打个“0”
Late (16-30 days)  ：延期了16-30 days
Late (31-120 days)：延期了31-120 days ， 所以这些都不确定的属性，相当于“取保候审”
"""
--------------------------------------------
Fully Paid            33693
Charged Off            5612
Current                 201
Late (31-120 days)       10
In Grace Period           9
Late (16-30 days)         5
Default                   1
Name: loan_status, dtype: int64

主要考虑的是全部还清和违约的贷款信息，将其映射成二分类：

loans_2020 = loans_2020[(loans_2020['loan_status'] == "Fully Paid") |
                        (loans_2020['loan_status'] == "Charged Off")]
# 将全部还清和违约的贷款信息映射成一个二分类，用0，1 表示
status_replace = {
    "loan_status": {
        "Fully Paid": 1, 	# 完全还清
        "Charged Off": 0,	# 违约
    }
}

loans_2020 = loans_2020.replace(status_replace)   # replace：执行的是查找并替换的操作

查看一下转换的效果，并输出到“filtered_loans_2020.csv”文件

print(loans_2020['loan_status'].value_counts())#计算该列特征的属性的个数
loans_2020.to_csv('filtered_loans_2020.csv', index=False)

3.2.3 缺失值的处理

当筛选出特征和标签之后，还要做缺失值、字符值、标点符号、%号、str值等处理，才能将数据交给sklearn进行训练。
删除缺失值（仅仅适合缺失数量较少的情况）
填充缺失值（数值变量使用均值或中位数进行填充，类别变量使用众数填充或单独作为一个类别）

重新加载数据集，首先查看缺失值情况：

loans = pd.read_csv('filtered_loans_2020.csv')
null_counts = loans.isnull().sum()  # 用pandas的isnull统计一下每列的缺失值，给累加起来
print(null_counts) 
------------------------------------------
loan_amnt                  0
term                       0
int_rate                   0
installment                0
emp_length              1073
home_ownership             0
annual_inc                 0
verification_status        0
loan_status                0
pymnt_plan                 0
purpose                    0
title                     11
addr_state                 0
dti                        0
delinq_2yrs                0
earliest_cr_line           0
inq_last_6mths             0
open_acc                   0
pub_rec                    0
revol_bal                  0
revol_util                50
total_acc                  0
last_credit_pull_d         1
pub_rec_bankruptcies     449
dtype: int64

从统计出的结果可以看出‘title’、‘revol_util’和’last_credit_pull_d’ 相对于数据总量来说较少，可以直接去掉缺失值所在的行。而‘pub_rec_bankruptcies ’和’emp_length’缺失值较多，需要根据它们的数据类型进行相应的缺失值填充，所以先查看它们的数据类型：

print(loans['emp_length'].dtypes)
print(loans['pub_rec_bankruptcies'].dtypes)
--------------------
object
float64

根据它们的数据类型进行相应的缺失值填充，并删除数据量较少的缺失值：

# 使用中位数填充数值变量
loans.fillna({"pub_rec_bankruptcies": loans["pub_rec_bankruptcies"].median()}, inplace=True)
# 使用众数填充类别变量
loans.fillna({"emp_length": loans["emp_length"].mode().iloc[0]}, inplace=True)
loans = loans.dropna(axis=0)      # 删除其余缺失值
loans.isnull().sum()              # 查看处理之后的效果

3.2.4 数据类型转换

由于sk-learn库不接受字符型的数据，所以还需将特征中字符型的数据进行处理。

首先查看数据类型：

print(loans.dtypes.value_counts())
----------------------------------
object     12
float64    11
int64       1
dtype: int64

查看一下object类型的数据：

# Pandas里select_dtypes只选定“object”的类型，然后进行数据查看
object_columns_df = loans.select_dtypes(include=["object"])
print(object_columns_df.iloc[0])
---------------------------------------
term                     36 months
int_rate                    10.65%
emp_length               10+ years
home_ownership                RENT
verification_status       Verified
pymnt_plan                       n
purpose                credit_card
title                     Computer
addr_state                      AZ
earliest_cr_line            Jan-85
revol_util                  83.70%
last_credit_pull_d          Nov-16
Name: 0, dtype: object
"""
term：分期多少个月
int_rate：利息，10.65%，后面还要把%去掉
emp_length：10年的映射成10，9年的映射成9
home_ownership：房屋所有权，是租的、还是自己的、还是抵押出去了，那就用0 1 2来代替
...
"""

仔细分析一下数据，发现还有一些数据列可以进行删除：

"""
last_credit_pull_d：LC撤回最近的月份   
earliest_cr_line：第一次借贷时间
addr_state：家庭邮编
title：标题，内容和"purpose表达的意思相近，保留一个即可
pymnt_plan：是否已为贷款实施付款计划，里面都为N，可直接删除
"""
loans = loans.drop(
    ["last_credit_pull_d", "earliest_cr_line", "addr_state", "title", "pymnt_plan"], axis=1)

使用 Label Encoding 进行数据的转换：

# 包含%的，直接删除%，然后再转换类型即可
loans["int_rate"] = loans["int_rate"].str.rstrip("%").astype("float")
loans["revol_util"] = loans["revol_util"].str.rstrip("%").astype("float")

# emp_length做成字典，emp_length当做key ，value里还是字典 ，"10+ years": 10...
mapping_dict = {
    "emp_length": {
        "10+ years": 10,
        "9 years": 9,
        "8 years": 8,
        "7 years": 7,
        "6 years": 6,
        "5 years": 5,
        "4 years": 4,
        "3 years": 3,
        "2 years": 2,
        "1 year": 1,
        "< 1 year": 0,
        "n/a": 0
    }
}
# 调用replace函数，进行类型转换
loans = loans.replace(mapping_dict)

使用 One-Hot Encoding 进行剩余数据的转换，此处选择使用pandas的get_dummies()函数，直接映射为数值型：

"""
home_ownership：房屋所有权
verification_status：身份保持证明
emp_length：客户公司名称
purpose：贷款的意图
term：贷款分期的时间
"""
cat_columns = ["home_ownership", "verification_status", "emp_length", "purpose", "term"]
dummy_df = pd.get_dummies(loans[cat_columns])    # pd.get_dummies() 实现独热编码
loans = pd.concat([loans, dummy_df], axis=1)	# concat() 连接处理之后的列,
loans = loans.drop(cat_columns, axis=1)			# 将原有的列删除

查看一下现在数据的形状，并将其输出到“cleaned_loans_2020.csv”文件：

print(loans.shape)
--------------------     # 列数变多是因为进行独热编码之后，一列会变成多列
(39243, 49)

print(loans.dtypes.value_counts())    # 查看现在数据的类型
-------------------
uint8      35
float64    13
int64       1
dtype: int64

loans.to_csv('cleaned_loans_2020.csv', index=False)

3.2.5 重复值处理

查看是否有重复值，有的话直接删除：

print(loans.duplicated().sum())    # 查看重复值的数量
--------------------------------  # 没有重复值，不需要处理
0

4、模型训练

前面花费了大量的时间在进行数据处理，这足以说明在数据分析中数据准备的工作有多重要，有了好的数据才能预测出好的分类结果。
此处预测客户是否有还款能力，属于二分类问题，而对于二分类问题，一般情况下，首选逻辑回归。
首先定义模型效果的评判标准。根据贷款行业的实际情况，在这里我们假设将钱借给了没有还款能力的人，结果损失一千，将钱借给了有偿还能力的人，从每笔中赚0.1的利润，而其余情况收益为零，就相当于预测对十个人才顶上预测错一个人的收益，所以精度不再适用于此模型，为了实现利润最大化，不仅要求模型预测recall率较高，同时是需要让fall-out率较低，故这里采用两个指标TPR和FPR（直接使用auc也可以）。

4.1 使用逻辑回归训练

使用逻辑回归算法进行模型训练：

from sklearn.linear_model import LogisticRegression 
from sklearn.model_selection import train_test_split

loans = pd.read_csv("cleaned_loans_2020.csv")		# 加载处理好之后的数据集
train_cols = loans.columns.drop("loan_status")    # 删除loan_status这一列

X = loans[train_cols]        # 特征值
y = loans["loan_status"]     # loan_status作为目标值

# 切分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=0)

lr = LogisticRegression() 
lr.fit(X_train, y_train) 			# 开始训练
y_hat = lr.predict(X_test) 			# 开始预测
y_hat[:10]      # 0:代表没有偿还  1:代表偿还
-----------------------------------
array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int64)

lr.predict_proba(X_test)  # 获取预测的概率值，包含数据属于每个类别的概率。
------------------------------------------------------
array([[0.20101861, 0.79898139],
       [0.22535089, 0.77464911],
       [0.15100305, 0.84899695],
       ...,
       [0.21337007, 0.78662993],
       [0.16564957, 0.83435043],
       [0.11056326, 0.88943674]])

建立混淆矩阵，查看模型预测情况：

from sklearn.metrics import confusion_matrix

# 传入真实值与预测值，创建混淆矩阵。
matrix = confusion_matrix(y_true=y_test, y_pred=y_hat) 
print(matrix)
--------------------------------
[[ 3 1067]
 [ 3 6776]]

从以上结果可以看出，假正例和真正例比例约为1：6.7，说明预测错误的正例太多了，模型效果不好，需要进一步进行处理。

分析原因可能为样本不均衡造成的，考虑权重后使用逻辑回归进行训练：

"""
class_weight：可以调整正反样本的权重
balanced:希望正负样本平衡一些
"""
lr = LogisticRegression(class_weight="balanced")
lr.fit(X_train, y_train) 			# 开始训练
y_hat = lr.predict(X_test) 			# 开始预测
matrix = confusion_matrix(y_true=y_test, y_pred=y_hat)  
print(matrix)
-------------------------------
[[ 668  402]
 [2963 3816]]

考虑权重之后，假正例和真正例比例情况有所改善，但是假负例太多了，说明很多能够还款的客户都预测为不能还款，这样就损失了一些客户，结果也是不好的，可以看一下AOC值：

from sklearn.metrics import roc_curve
from sklearn.metrics import auc

probo = lr.predict_proba(X_test)    # 使用概率来作为每个样本数据的分值
fpr, tpr, thresholds = roc_curve(y_true=y_test, y_score=probo[:, 1], pos_label=1)
print("AUC面积值：", auc(fpr, tpr))
-----------------------------------
AUC面积值： 0.6307932827188969

可以看出AUC值也不是很大，效果一般，可以考虑使用其它算法进行模型的训练。

4.2 使用KNN训练

使用KNN算法进行模型训练：

from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV

knn = KNeighborsClassifier()

# 使用网格交叉验证方法选取合适的超参数
grid = {"n_neighbors": range(1, 20, 1), "weights": ['uniform', 'distance']}
gs = GridSearchCV(estimator=knn, param_grid=grid, scoring="accuracy", n_jobs=-1, cv=5, verbose=10, iid=True)
gs.fit(X_train, y_train)

print(" 最好的分值：", gs.best_score_)
print(" 最好的超参数组合：", gs.best_params_)
print(" 最好的超参数训练好的模型：", gs.best_estimator_)
------------------------------------
最好的分值： 0.8555456456647768
最好的超参数组合： {'n_neighbors': 19, 'weights': 'uniform'}
最好的超参数训练好的模型： KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=19, p=2,
                     weights='uniform')

建立混淆矩阵，查看模型预测情况：

estimator = gs.best_estimator_        # 最好的超参数训练好的模型
y_hat = estimator.predict(X_test)
matrix = confusion_matrix(y_true=y_test, y_pred=y_hat)  
print(matrix)
--------------------------------------
[[   1 1069]
 [   7 6772]]

查看AUC值：

probo = lr.predict_proba(X_test)    # 使用概率来作为每个样本数据的分值
fpr, tpr, thresholds = roc_curve(y_true=y_test, y_score=probo[:, 1], pos_label=1)
print("AUC面积值：", auc(fpr, tpr))
---------------------------------
AUC面积值： 0.6269799669953802

从结果可以看出，KNN算法得出来的情况和逻辑回归差不多。

5、总结

通过以上例子，对某P2P平台发生借贷的业务数据进行了处理，并使用两种不同的算法进行模型的训练，虽然模型的效果不太好，但还是可以看出数据分析建模的一般流程为：数据处理和模型学习。
数据处理，需要对原始数据进行清洗以及特征提取。
模型学习，涉及长时间的模型参数调整和算法选择。
模型效果不理想时，可以考虑的调整策略有：

（1）调整正负样本的权重参数

（2）调整模型参数

（3）使用原数据，生成新特征。

（4）更换模型算法

（5）同时几个使用，进行模型预测，然后取最好的结果。

Python数据分析：从入门到精通
引言在当今数据驱动的时代，数据分析已成为企业和组织做出明智决策的关键。Python作为一种强大的编程语言，因其简洁性和丰富的数据分析库而成为数据科学领域的首选工具。无论你是初学者还是有一定经验的数据分析师，本指南都将带你从入门到精通Python数据分析，掌握必备技能和最佳实践。数据分析的重要性与Python的角色数据分析涉及收集、处理和解释数据，以揭示模式、趋势和见解。它有助于解决复杂问题，优化业
Python数据分析案例｜从模拟数据到可视化：零售门店客流量差异分析全流程
1.依赖库导入importmatplotlib.pyplotaspltimportnumpyasnpimportpandasaspdfrommatplotlibimportfont_managerfromdatetimeimportdatetimematplotlib.pyplot：用于绘制图表。numpy：numpy：pandas：虽然代码中未font_manager：设置datetime：生成
Python数据分析学习笔记：字符串统计 NIKEeri python pandas 字符串匹配 python 数据分析学习
一、题目来源KagglePandas-Exercise:SummaryFunctionsandMaps章节二、题目要求描述一瓶葡萄酒时，可用的词汇有限。哪种词出现频率更高：“tropical”还是“fruity”？统计description列中这两个词的出现次数。忽略大小写。三、我的思路（使用str.contains统计总次数）tropical_count=reviews['description
python数据分析scipy库安装与使用范哥来了 python 数据分析 scipy
安装scipy库scipy是一个用于科学计算的Python库，它依赖于numpy。如果你还没有安装scipy，可以使用以下命令来安装：pipinstallscipy或者，如果你使用的是Anaconda环境，可以通过conda来安装：condainstallscipy使用scipy库scipy提供了许多用于科学计算的功能，包括统计、优化、积分、线性代数等。下面是一些常见的用法示例。1.导入scipy
Python,C++开发上市辅导方法与实操APP Geeker-2025 python c++
#上市辅导方法与实操APP-Python与C++综合解决方案下面是一个完整的上市辅导方法与实操APP的实现方案，结合Python和C++的优势，涵盖金融建模、合规分析、流程管理等多个方面：```mermaidgraphTDA[上市辅导系统]-->B[核心引擎]A-->C[应用平台]B-->D[C++金融计算引擎]B-->E[Python数据分析]B-->F[合规检查系统]C-->G[Web管理平台
《python 数据分析从入门到精通》读书笔记｜了解数据分析｜数据分析基础知识
《python数据分析从入门到精通》读书笔记第一章：了解数据分析1.1什么是数据分析数据分析是利用数学、统计学理论与实践相结合的科学统计分析方法，对Excel数据、数据库中的数据、收集的大量数据、网页抓取的数据进行分析，从中提取有价值的信息并形成结论进行展示的过程。数据分析实际上是通过数据的规律来解决业务问题，以帮助实际工作中的管理者做出判断和决策。数据分析包括以下几个主要内容：（1）现状分析：分
【python数据分析】数据建模之Kmeans聚类斑点鱼 SpotFish python 数据建模聚类 python 数据分析
K-means聚类：最常用的机器学习聚类算法，且为典型的基于距离的聚类算法。K均值：基于原型的、划分的距离技术，它试图发现用户指定个数(K)的簇以欧式距离作为相似度测度Kmeans聚类案例分析：make_blobs聚类数据生成器#导入模块from sklearn.cluster import KMeansfromsklearn.datasetsimportmake_blobs#创建数据x,y_tr
Python 数据分析与机器学习入门 (一)：环境搭建与核心库概览程序员阿超的博客 Python python 数据分析机器学习入门教程环境搭建 Anaconda JupyterNotebook
Python数据分析与机器学习入门(一)：环境搭建与核心库概览本文摘要本文是Python数据分析与机器学习入门系列的第一篇，专为初学者设计。文章首先阐明了Python在数据科学领域的优势，然后手把手指导读者如何使用Anaconda搭建一个无痛、专业的开发环境，并介绍了强大的交互式工具JupyterNotebook的基本操作。最后，简要概览了NumPy、Pandas、Scikit-learn等核心库
物流数据行业分析（包含完整代码和流程）------python数据分析师项目Anaconda 欲梦yhd 数据分析项目大数据 conda python
一、引言数据分析流程为明确目的、获取数据、数据探索和预处理、分析数据、得出结论、验证结论、结果展现。物流业务中对数据进行深入挖掘和分析的过程，旨在提高运输效率、降低运输成本、提高客户满意度，以及提高公司的竞争力。本案例物流数据分析目的：a、配送服务是否存在问题b、是否存在尚有潜力的销售区域c、商品是否存在质量问题二、详细流程1、数据预处理（数据清洗）（1）数据导入使用panda库读取数据，编码方式
Python 数据分析实践经验与学习心得 lzzy_sj_0999 python 数据分析开发语言
在当今数据驱动的时代，Python以其丰富的库和便捷的语法，成为数据分析领域的首选语言。本文将结合实际案例，分享Python数据分析的学习心得与实践经验，涵盖数据读取、清洗、分析及可视化等关键环节，希望能为大家的学习和工作提供帮助。一、数据分析必备库介绍在Python数据分析中，有几个核心库是必须掌握的，它们就像我们手中的“神兵利器”，能够高效完成各种数据分析任务。Pandas：用于数据处理和分析
《Python数据分析与挖掘实战》Chapter8中医证型关联规则挖掘笔记茫茫大地真干净机器学习 Python 数据挖掘
最近在学习《Python数据分析与挖掘实战》中的案例，写写自己的心得。代码分为两大部分：1.读取数据并进行聚类分析2.应用Apriori关联规则挖掘规律1.聚类部分函数分析：defprogrammer_1():datafile="C:/Users/longming/Desktop/chapter8/data/data.xls"processedfile="C:/Users/longming/Des
python数据分析张俊红_Python数据分析实战基础 | 初识Pandas weixin_39678531 python数据分析张俊红
这是Python数据分析实战基础的第一篇内容，主要是和Pandas来个简单的邂逅。已经熟练掌握Pandas的同学，可以加快手速滑动浏览或者直接略过本文。01重要的前言这段时间和一些做数据分析的同学闲聊，我发现数据分析技能入门阶段存在一个普遍性的问题，很多凭着兴趣入坑的同学，都能够很快熟悉Python基础语法，然后不约而同的一头扎进《利用Python进行数据分析》这本经典之中，硬着头皮啃完之后，好像
python数据分析第9天雪球滚滚滚数据分析 python 数据挖掘
python数据分析第9天电商网站用户/订单/活动数据分析项目商业模式B2B：商家对商家（企业卖家对企业买家），交易双方都是企业，最典型的案例就是阿里巴巴，汇聚了各行业的供应商，特点是订单量一般较大。B2C：商家对个人（企业卖家对个人买家），例如：唯品会，聚美优品。B2B2C：商家对商家对个人，例如：天猫、京东。C2C：个人（卖家）对个人（买家），例如：淘宝、人人车。O2O：线上（售卖）到线下（提
Python数据处理三剑客：NumPy、Pandas和xarray全面详解 AI开发学习分享 python 数据分析 python numpy pandas
在Python数据分析领域，NumPy、Pandas和xarray是最核心的三个库。本文将详细介绍它们的功能、用法和区别，并提供大量实用代码示例。一、NumPy：科学计算基础库NumPy是Python科学计算的基础包，提供了高性能的多维数组对象和各种计算工具。1.1基本数组操作importnumpyasnp#创建数组arr1=np.array([1,2,3,4])#一维数组arr2=np.arra
100个Pandas练习题：从入门到精通的实战指南陆骊咪Durwin
100个Pandas练习题：从入门到精通的实战指南100-pandas-puzzles100datapuzzlesforpandas,rangingfromshortandsimpletosupertricky(60%complete)项目地址:https://gitcode.com/gh_mirrors/10/100-pandas-puzzles前言Pandas作为Python数据分析的核心库，
Python 数据分析与可视化实践与python数据分析绘图表的实现，和实际的完整案例 Q_ytsup5681 python 数据分析开发语言 plotly matplotlib
本文链接：Python数据分析与可视化实践与python数据分析绘图表的实现，和实际的完整案例-CSDN博客学习Python数据可视化对于数据分析和数据科学领域是至关重要的，它有着许多作用，包括但不限于以下几个方面：1.数据理解与探索：可视化使得数据更加直观，通过图表和图形，可以更容易地观察数据的分布、趋势和模式。这有助于深入理解数据，识别异常值和发现潜在的关联性。2.决策支持：数据可视化为决策提
python数据分析期末测验,python数据分析基础题库 Leospanb87 python 开发语言人工智能
大家好，小编来为大家解答以下问题，python数据分析与应用选择题答案，python数据分析与应用课后题，现在让我们一起来看看吧！文章目录一、选择题二、填空题三、判断题四、代码分析题五、程序题一、选择题1.sum(range(0,101)的结果是（）A.5050B.5151C.0D.101A2.下面哪个不是python合法的标识符（）A.int32B.70XLC.selfD.__name__B3.
python数据分析与可视化蓝宗林 python 数据分析信息可视化
一、Python数据分析概述Python是一种解释型、交互式的编程语言，其设计理念强调代码的可读性和简洁性。Python的语法结构简单，支持面向对象、过程式和函数式三种编程范式，使得Python成为一种强大而灵活的编程语言。Python数据分析主要包括数据清洗、数据探索和数据可视化三个部分。数据清洗是数据分析的重要环节，主要是对数据进行预处理，包括缺失值处理、异常值处理、数据类型转换等。数据探索则
Python数据分析与可视化理论知识
Python数据分析概述Python数据分析依赖的两个对象表格对象实现统计分析数据预处理Matplotlib数据可视化总结Python数据分析概述数据分析的概述数据分析：用适当的统计分析方法将收集来的大量数据进行分析，将他们加以汇总和理解并消化，以求最大化地开发数据的功能，发挥数据的作用。为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析的类别：描述性数据分析、探索性数据分析
3648766 天浊海 python pycharm sklearn
1.Python数据分析介绍及环境搭建1.1python数据分析简介【了解】1.1.1python做数据分析的优势可以独立完成数据分析的各种任务功能强大,有海量的开源包(pandas,numpy…)处理海量数据效率高开源免费1.1.2常用python数据分析开源库numpy:用于数组计算pandas:分析结构化数据的工具集series:类似一维数组的对象(一行数据或者一列数据)dataframe:
Python数据分析的基本步骤在焦虑的沙漠里种一棵树 python 数据分析开发语言
数据分析的基本步骤（基于Python）一、引言在当今数字化时代，数据已成为企业、科研机构等组织的重要资产。有效地进行数据分析可以帮助我们从海量的数据中提取有价值的信息，从而支持决策制定、优化流程、发现趋势等。Python作为一种强大的编程语言，拥有丰富的数据分析库，如Pandas、NumPy、Matplotlib等，为数据分析工作提供了极大的便利。本文将详细阐述基于Python的数据分析基本步骤，
Python数据分析从小白到高手--数据可视化分析王国平信息可视化 python 数据分析人工智能大数据数据挖掘开发语言
Python是一种功能强大的编程语言，也是一种流行的数据分析工具，其数据可视化能力也非常强大，本章我们将结合实际案例介绍Python的主要数据可视化库，包括Matplotlib、Pyecharts、Seaborn、Plotly、Altair、NetworkX等。7.1Matplotlib7.1.1Matplotlib库简介Matplotlib是Python中最流行的数据可视化库之一，基于Numpy
【无痛学Python】Pandas数据载入与预处理，看这一篇就够了！ Skrrapper Python python pandas 数据库
【Python数据分析】Pandas数据载入与预处理，看这一篇就够了！对于数据分析而言，数据大部分来源于外部数据，例如CSV文件、Excel文件以及数据库文件等等。我们要把各种格式的数据转换成Pandas可处理的Series和DataFrame数据格式，进行完数据分析与处理之后再重新存储到外部文件中，这就是Pandas的数据载入与预处理。数据载入其实对于读/写文件和存储文件来说，不同类型文件的函数
Python 数据分析：NumPy 库的使用小张在编程 python 数据分析 numpy
引言：为什么说NumPy是Python数据分析的“基石”？在Python数据分析领域，有这样一句话：“没有NumPy，就没有Pandas、Matplotlib和Scikit-learn”。作为Python科学计算的核心库，NumPy（NumericalPython）凭借高效的多维数组（ndarray）和向量化运算能力，成为了所有数据分析工具的底层支撑。无论是处理百万级别的销售数据，还是实现复杂的机
python数据分析期末_Python数据分析期末作业 xander Sun python数据分析期末
Python数据分析期末作业(50分)一、名称：国民经济核算季度数据分析可视化处理；二、需求：根据文件《国民经济核算季度数据.npz》提供的各年中每个季度的数据，完成如下操作处理：1、绘制直方图：(1)在一个画板中绘制2000年、2017年第一季度国民生产总值产业构成分布、行业构成分布直方图，其效果形式如下；(2)要求：?每个图形的标题、轴标签、刻度、图形颜色、柱形宽度与效果图中的完全一致；?在每
1、Python数据分析：数据的采集数字化与智能化 Python数据分析 python数据分析 python数据的采集
一、数据的采集数据采集是系统性工程，需平衡技术、成本与合规性。在实际操作中，建议从最小可行采集方案（MVP）起步，逐步迭代优化，同时建立数据治理规范，确保长期可持续性。1.数据采集的核心目标全面性：覆盖关键维度，避免信息缺失。准确性：确保数据真实反映现实，减少误差。时效性：数据需满足实时或近实时需求（如金融交易监控）。合规性：遵守隐私保护（如GDPR）、数据安全等法律法规。2.数据来源分类（1）第
如何进行Python数据分析？正确的“入门之路”三部曲白帽黑客麦叔 Python python 数据分析开发语言职场和发展 Python教程
前言Python是一种面向对象、直译式计算机程序设计语言，由于他简单、易学、免费开源、可移植性、可扩展性等特点，Python又被称之为胶水语言。下图为主要程序语言近年来的流行趋势，Python受欢迎程度扶摇直上。由于Python拥有非常丰富的库，使其在数据分析领域也有广泛的应用。一、为什么要用Python做数据分析？在我看来，大概有3大理由。广度：各行各业都有自己的商业场景，每一个行业都需要使用数
如何进行Python数据分析？正确的“入门之路”三部曲！_python医学数据分析入门 2401_84301948 程序员网络安全学习面试
给大家的福利零基础入门对于从来没有接触过网络安全的同学，我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。同时每个成长路线对应的板块都有配套的视频提供：因篇幅有限，仅展示部分资料网络安全面试题绿盟护网行动还有大家最喜欢的黑客技术网络安全源码合集+工具包所有资料共282G，朋友们如果有需要全套《网络安全入门+黑客进阶学习资源包》，可以扫描下方二维码
【数据分析】第四章 pandas简介（1）神秘敲码人数据分析 python pandas
4.1pandas:Python数据分析库pandas是一个专门为数据分析量身定制的开源Python库。在当今的Python数据科学界，无论是专业研究还是进行统计分析和决策，pandas都是每一位数据专业人士不可或缺的基础工具。这个强大的库由WesMcKinney于2008年开始设计和开发。到了2012年，他的同事SienChang也加入了开发团队。正是他们二人的共同努力，造就了Python社区中
一篇文章搞定Python数据分析用到的所有库花小姐的春天跟着花姐学Python python 数据分析开发语言 0基础学Python Python教程 Python基础教程数据挖掘
想做数据分析，却不知道从哪里入手？别担心，花姐今天就来告诉你，想搞定数据分析，掌握以下这些Python库就够了！准备好了吗？跟着我一起看看这些实用的库吧！1.数据处理库在数据分析的世界里，数据处理是最基础也是最重要的部分。如果你想要做一份高质量的报告，或者让数据“乖乖”地为你服务，首先必须得把数据弄清楚、整理好。今天，我们就从四个强大的数据处理库说起——pandas、numpy、dask和modi
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =