艾派森

大数据分析案例-基于LightGBM算法构建糖尿病确诊预测模型

‍♂️ 个人主页：@艾派森的个人主页

✍作者简介：Python学习者
希望大家多多支持，我们一起进步！
如果文章对你有帮助的话，
欢迎评论点赞收藏加关注+

喜欢大数据分析项目的小伙伴，希望可以多多支持该系列的其他文章

大数据分析案例合集
大数据分析案例-基于随机森林算法预测人类预期寿命
大数据分析案例-基于随机森林算法的商品评价情感分析
大数据分析案例-用RFM模型对客户价值分析(聚类)
大数据分析案例-对电信客户流失分析预警预测
大数据分析案例-基于随机森林模型对北京房价进行预测
大数据分析案例-基于RFM模型对电商客户价值分析
大数据分析案例-基于逻辑回归算法构建垃圾邮件分类器模型
大数据分析案例-基于决策树算法构建员工离职预测模型
大数据分析案例-基于KNN算法对茅台股票进行预测
大数据分析案例-基于多元线性回归算法构建广告投放收益模型
大数据分析案例-基于随机森林算法构建返乡人群预测模型
大数据分析案例-基于决策树算法构建金融反欺诈分类模型

1.项目背景

2.项目简介

2.1项目说明

2.2数据说明

2.3技术工具

3.算法原理

4.项目实施步骤

4.1理解数据

4.2数据预处理

4.3探索性数据分析

4.3.1糖尿病确诊比例

4.3.2查看年龄和IBM的分布

4.3.3分析身体/心里健康对糖尿病的影响

4.3.4分析吸烟对糖尿病的影响

4.3.5饮食对糖尿病的影响

4.3.6喝酒对糖尿病的影响

4.3.7相关性分析

4.4特征工程

4.5模型构建

4.6模型评估

4.7模型预测

5.实验总结

源代码

1.项目背景

糖尿病是一种严重的慢性代谢性疾病，其主要特征是血糖水平持续升高，导致机体内多个系统和器官受损。据世界卫生组织（WHO）的数据，全球有大约4.60亿成年人患有糖尿病，这个数字在过去几十年里持续增长。糖尿病不仅对患者的生活质量造成了严重影响，还会增加心血管疾病、肾脏疾病、神经系统疾病等多种并发症的风险，对医疗资源和社会经济产生了巨大压力。

早期的糖尿病诊断对于控制疾病进程、减少并发症风险具有重要意义。然而，糖尿病的早期症状不明显，很多患者在确诊时已经存在一定的并发症。因此，开发一种准确、可靠的糖尿病确诊预测模型对于早期干预和治疗至关重要。

机器学习和人工智能技术在医疗领域的应用日益广泛，尤其是在疾病诊断、预测和患者管理方面。基于机器学习算法构建糖尿病确诊预测模型，可以利用大量的临床数据和生物指标来辅助医生进行糖尿病的早期筛查和诊断。LightGBM（Light Gradient Boosting Machine）作为一种梯度提升树算法，在处理高维、非线性数据方面具有出色的性能，能够从复杂的数据中挖掘出潜在的模式和关联关系，因此被广泛用于医疗数据分析和预测建模。

2.项目简介

2.1项目说明

本研究旨在基于LightGBM算法构建糖尿病确诊预测模型，通过分析临床数据中的生物特征、生活习惯、家族病史等因素，实现对患病风险的预测。通过该模型，可以为医生提供更多的客观数据支持，帮助其做出更准确的诊断和治疗决策，同时也可以为患者提供个性化的健康管理建议，从而有效降低糖尿病的发病率和并发症风险，改善患者的生活质量。

2.2数据说明

本实验数据集来源于Kaggle，原始数据集共有70692条数据，18列特征变量，具体各变量解释如下：

Age:13级年龄组(1 = 18-24 / 2 = 25-29 / 3 = 30-34 / 4 = 35-39 / 5 = 40-44 / 6 = 45-49 / 7 = 50-54 / 8 = 55-59 / 9 = 60-64 / 10 = 65-69 / 11 = 70-74 / 12 = 75-79 / 13 = 80以上)

Sex:患者的性别(1:男性;0:女)

HighChol:0 =无高胆固醇1 =高胆固醇

CholCheck: 0 = 5年内无胆固醇检查1 = 5年内有胆固醇检查

BMI:身体质量指数

Smoker:你一生中抽过至少100支烟吗?[注:5包= 100支]0 =否1 =是

HeartDiseaseorAttack:冠心病(CHD)或心肌梗死(MI) 0 =否1 =有

PhysActivity:过去30天内的体力活动(不包括作业0 =否1 =有)

Fruits:每天至少吃一次水果0 =不吃1 =吃

Veggies:每天吃蔬菜1次或更多0 =不1 =是

HvyAlcoholConsump:(成年男性>=每周14杯，成年女性>=每周7杯)0 =否1 =是

GenHlth:你认为你的总体健康状况是:1-5级1 =极好2 =很好3 =好4 =一般5 =差

MentHlth:心理健康状况差的天数1-30天

PhysHlth:过去30天内身体疾病或受伤天数1-30

DiffWalk:你走路或爬楼梯有严重困难吗?0 =否1 =是

Stroke:你曾经中风过。0 =否，1 =是

HighBP: 0 =不高，BP 1 =高BP

Diabetes:0 =没有糖尿病，1 =有糖尿病

2.3技术工具

Python版本:3.9

代码编辑器：jupyter notebook

3.算法原理

LightGBM算法基本原理

GBDT算法的基本思想是把上一轮的训练残差作为下一轮学习器训练的输入，即每一次的输入数据都依赖于上一次训练的输出结果。因此，这种训练迭代过程就需要多次对整个数据集进行遍历，当数据集样本较多或者维数过高时会增加算法运算的时间成本，并且消耗更高的内存资源。

而XGBoost算法作为GBDT的一种改进，在训练时是基于一种预排序的思想来寻找特征中的最佳分割点，这种训练方式同样也会导致内存空间消耗极大，例如算法不仅需要保存数据的特征值，还需要保存特征排序的结果；在遍历每一个分割点的时候，都需要进行分裂增益的计算，消耗的代价大，特别是当数据量级较大时，这种方式会消耗过多时间。

为了对这些问题进行优化，2017年微软公司提出了LightGBM算法（Light Gradient Boosting Machine），该算法也是基于GBDT算法的改进，，但相较于GBDT、XGBoost算法，LightGBM算法有效地解决了处理海量数据的问题，在实际应用中取得出色的效果。LightGBM算法主要包括以下几个特点：直方图算法（寻找最佳分裂点、直方图差加速）、Leaf-wise树生长策略、GOSS、EFB、支持类别型特征、高效并行以及Cache命中率优化等。

（1）直方图Histogram算法（减少大量计算与内存占用）

XGBoost算法在进行分裂时需要预先对每一个特征的原始数据进行预排序，而直方图Histogram算法则是对特征的原始数据进行“分桶#bin”，把数据划分到不同的离散区域中，再对离散数据进行遍历，寻找最优划分点。这里针对特征值划分的每一个“桶”有两层含义，一个是每个“桶”中样本的数量；另一个是每个“桶”中样本的梯度和（一阶梯度和的平方的均值等价于均方损失）。

可以看出，通过直方图算法可以让模型的复杂度变得更低，并且特征“分桶”后仅保存了的离散值，大大降低内存的占用率。其次，这种“分桶”的方式从某种角度来看相当于对模型增加了正则化，可以避免模型出现过拟合。

值得注意的是，直方图算法是使用了bin代替原始数据，相当于增加了正则化，这也意味着有更多的细节特征会被丢弃，相似的数据可能被划分到相同的桶中，所以bin的数量选择决定了正则化的程度，bin越少惩罚越严重，过拟合的风险就越低。

另外，在LightGBM直方图算法中还包括一种直方图作差优化，即LightGBM在得到一个叶子的直方图后，能够通过直方图作差的方式用极小的代价得到其兄弟叶子的直方图，如上图所示，当得到某个叶子的直方图和父节点直方图后，另一个兄弟叶子直方图也能够很快得到，利用这种方式，LightGBM算法速度得到进一步提升。

（2）带深度限制的Leaf-wise的叶子生长策略（减少大量计算、避免过拟合）

GBDT与XGBoost模型在叶子生长策略上均采用按层level-wise分裂的方式，这种方式在分裂时会针对同一层的每一个节点，即每次迭代都要遍历整个数据集中的全部数据，这种方式虽然可以使每一层的叶子节点并行完成，并控制模型的复杂度，但也会产生许多不必要搜索或分裂，从而消耗更多的运行内存，增加计算成本。

而LightGBM算法对其进行了改进，使用了按叶子节点leaf-wise分裂的生长方式，即每次是对所有叶子中分裂增益最大的叶子节点进行分裂，其他叶子节点则不会分裂。这种分裂方式比按层分裂会带来更小的误差，并且加快算法的学习速度，但由于没有对其他叶子进行分裂，会使得分裂结果不够细化，并且在每层中只对一个叶子不断进行分裂将增大树的深度，造成模型过拟合[25]。因此，LightGBM算法在按叶子节点生长过程中会限制树的深度来避免过拟合。

（3）单边梯度采样技术 (减少样本角度)

在梯度提升算法中，每个样本都有不同梯度值，样本的梯度可以反映对模型的贡献程度，通常样本的梯度越大贡献给模型的信息增益越多，而样本的梯度越小，在模型中表现的会越好。

举个例子来说，这里的大梯度样本可以理解为“练习本中的综合性难题”，小梯度样本可以理解为“练习本中的简单题”，对于“简单题”平时做的再多再好，而“难题”却做的很少，在真正的“考试”时还是会表现不好。但并不意味着小梯度样本（“简单题”）就可以直接剔除不用参与训练，因为若直接剔除小梯度样本，数据的分布会发生改变，从而影响模型的预测效果。

因此，LightGBM算法引入了单边梯度采样技术（Gradient-based One-Side Sampling，GOSS），其基本思想就是从减少样本的角度出发，利用样本的梯度大小信息作为样本重要性的考量，保留所有梯度大的样本点（“保留所有难题”），对于梯度小的样本点（“简单题”）按比例进行随机采样，这样既学习了小梯度样本的信息，也学习了大梯度样本的信息（“平时难题都做，简单题做一部分，在面临真正的考试时才可能稳定发挥，甚至超水平发挥”），在不改变原始数据分布的同时，减小了样本数量，提升了模型的训练速度。

（4）互斥特征捆绑（减少特征角度）

高维度的数据通常是非常稀疏的，并且特征之间存在互斥性（例如通过one-hot编码后生成的几个特征不会同时为0），这种数据对模型的效果和运行速度都有一定的影响。

通过互斥特征捆绑算法（Exclusive Feature Bundling，EFB）可以解决高维度数据稀疏性问题，如下图中，设特征1、特征2以及特征3互为互斥的稀疏特征，通过EFB算法，将三个特征捆绑为一个稠密的新特征，然后用这一个新特征替代原来的三个特征，从而实现不损失信息的情况下减少特征维度，避免不必要0值的计算，提升梯度增强算法的速度。

总的来说，LightGBM是一个性能高度优化的GBDT 算法，也可以看成是针对XGBoost的优化算法，可以将LightGBM的优化用公式表达，如下式：LightGBM = XGBoost + Histogram + GOSS + EFB

4.项目实施步骤

4.1理解数据

导入数据挖掘常用的第三方库，然后加载数据集

查看数据集大小

查看数据基本信息

查看数值型变量的描述性统计

4.2数据预处理

统计缺失值情况

发现原始数据集中各变量不存在缺失值

检测原始数据集是否存在重复值

结果为True，说明原始数据集存在重复值需要处理

这里我们直接删除即可

4.3探索性数据分析

4.3.1糖尿病确诊比例

可以发现数据集还是平衡的，确诊和非确诊比例几乎相同。

4.3.2查看年龄和IBM的分布

年龄和BMI均为正态分布

4.3.3分析身体/心里健康对糖尿病的影响

总体健康呈正态分布，中位数为3.0

Physical Health仍然很重，但在30时增加

心理健康问题很严重，这意味着更多人的心理健康问题更少

4.3.4分析吸烟对糖尿病的影响

男女比例相对相等，但女性略占优势

吸烟者与非吸烟者的比例相对相等，但非吸烟者占主导地位

更多的人拥有健康的心脏

越来越多的人进行体育锻炼

4.3.5饮食对糖尿病的影响

越来越多的人经常吃水果

越来越多的人经常吃蔬菜

4.3.6喝酒对糖尿病的影响

少量的酗酒者

更多从未经历过中风的人

高血压患者的数量很高

4.3.7相关性分析

4.4特征工程

准备建模用到的数据集，然后拆分数据集为训练集和测试集

4.5模型构建

对比四个模型，我们发现LightGBM算法模型准确率最高，故我们最终选取其作为实验模型。

4.6模型评估

打印特征重要性评分并可视化

可以发现BMI、年龄、身心健康对糖尿病的影响最大，重要性程度最大。

4.7模型预测

随机抽取10个预测结果来检测模型效果，发现10个中错误一个，模型效果还不错。

5.实验总结

本研究旨在基于LightGBM算法构建糖尿病确诊预测模型，通过分析临床数据中的生物特征、生活习惯、家族病史等因素，实现对糖尿病患病风险的预测。经过数据采集、特征工程和模型训练等一系列步骤，我们得出以下总结：

数据收集和预处理： 我们收集了大量包括生物特征、生活习惯、家族病史等信息的临床数据。在数据预处理阶段，我们进行了缺失值填充、特征标准化等操作，确保数据的完整性和一致性。
特征工程： 通过对数据进行特征选择和提取，我们选择了对糖尿病预测具有重要影响的特征。这些特征可以包括血糖水平、体质指数、年龄、性别等因素。
模型构建和训练： 我们选择了LightGBM作为预测模型，这是一种基于梯度提升树的算法，能够有效处理高维、非线性数据，并能从复杂数据中学习出准确的模式。我们将经过特征工程处理后的数据分为训练集和测试集，利用训练集对模型进行训练，然后通过测试集进行模型的验证和评估。
模型评估： 我们使用一系列评估指标如准确率、精确率、召回率、F1-score等来评估模型的性能。通过与其他常见的机器学习算法进行比较，我们验证了LightGBM在糖尿病确诊预测上的优越性。
结果分析和应用前景： 实验结果显示，基于LightGBM构建的糖尿病确诊预测模型具有较高的准确率和预测性能，能够在早期辅助医生进行糖尿病的诊断和风险评估。该模型在临床实际中具有重要的应用前景，可以为医生提供更多的决策支持，帮助患者实现早期干预和管理，降低并发症风险，提高生活质量。

总之，本研究为糖尿病预测领域的深入探索提供了有力支持，展示了机器学习在医疗领域的应用潜力。然而，仍需要进一步的临床验证和数据积累，以不断优化模型性能，并确保其在实际应用中的稳定性和可靠性。

心得与体会：

通过这次Python项目实战，我学到了许多新的知识，这是一个让我把书本上的理论知识运用于实践中的好机会。原先，学的时候感叹学的资料太难懂，此刻想来，有些其实并不难，关键在于理解。

在这次实战中还锻炼了我其他方面的潜力，提高了我的综合素质。首先，它锻炼了我做项目的潜力，提高了独立思考问题、自我动手操作的潜力，在工作的过程中，复习了以前学习过的知识，并掌握了一些应用知识的技巧等

在此次实战中，我还学会了下面几点工作学习心态：

1）继续学习，不断提升理论涵养。在信息时代，学习是不断地汲取新信息，获得事业进步的动力。作为一名青年学子更就应把学习作为持续工作用心性的重要途径。走上工作岗位后，我会用心响应单位号召，结合工作实际，不断学习理论、业务知识和社会知识，用先进的理论武装头脑，用精良的业务知识提升潜力，以广博的社会知识拓展视野。

2）努力实践，自觉进行主角转化。只有将理论付诸于实践才能实现理论自身的价值，也只有将理论付诸于实践才能使理论得以检验。同样，一个人的价值也是透过实践活动来实现的，也只有透过实践才能锻炼人的品质，彰显人的意志。

3）提高工作用心性和主动性。实习，是开端也是结束。展此刻自我面前的是一片任自我驰骋的沃土，也分明感受到了沉甸甸的职责。在今后的工作和生活中，我将继续学习，深入实践，不断提升自我，努力创造业绩，继续创造更多的价值。

这次Python实战不仅仅使我学到了知识，丰富了经验。也帮忙我缩小了实践和理论的差距。在未来的工作中我会把学到的理论知识和实践经验不断的应用到实际工作中，为实现理想而努力。

源代码

import pandas as pd
import numpy as np
import matplotlib.pylab as plt
import seaborn as sns
sns.set_style('whitegrid')
plt.rcParams['font.sans-serif'] = ['SimHei'] #解决中文显示
plt.rcParams['axes.unicode_minus'] = False   #解决符号无法显示
import warnings
warnings.filterwarnings('ignore')

df = pd.read_csv('diabetes_data.csv')
df.head()
df.shape
df.info()
df.describe().T
df.isnull().sum()  # 统计缺失值情况
any(df.duplicated())  # 检测原始数据是否存在重复值
df.drop_duplicates(inplace=True)
df.shape
df['Diabetes'].value_counts()
# 查看目标变量是否平衡
sns.countplot(x='Diabetes', data=df, palette=("mako"))
plt.title("Balanced data",size=12, fontstyle='italic', weight=900)
plt.ylabel("Total Count", size=16, family='monospace')
plt.show()
# 查看年龄和IBM的分布
fig1, ax = plt.subplots(3, 2, figsize=(16,12))
fig1.suptitle('Age and BMI Histograms')
fig1.delaxes(ax[2,1]) 
fig1.delaxes(ax[2,0])
fig1.delaxes(ax[1,1])
fig1.delaxes(ax[1,0])
ax[0,0].set_title('Age Description')
sns.histplot(data = df
            ,x = 'Age'
            ,color = 'navy'
            ,alpha = 1
            ,kde = True
            , ax = ax[0,0]
            )
ax[0,1].set_title('BMI Description')
sns.histplot(data = df
            ,x = 'BMI'
            ,color = 'indigo'
            ,alpha = 1
            ,kde = True 
            ,ax = ax[0,1]
            )

fig1.tight_layout()
年龄和BMI均为正态分布
# 分析身体/心里健康对糖尿病的影响
fig2, ax = plt.subplots(3, 2, figsize=(16,12))
fig2.suptitle('Health Histograms')
fig2.delaxes(ax[2,1]) 
fig2.delaxes(ax[2,0])
fig2.delaxes(ax[1,1])
ax[0,0].set_title('General Health Description')
sns.histplot(data = df
            ,x = 'GenHlth'
            ,color = 'darkslateblue'
            ,alpha = 1
            ,kde = True 
            ,ax = ax[0,0]
             
            )
ax[0,1].set_title('Pyshical Health Description')
sns.histplot(data = df
            ,x = 'PhysHlth'
            ,color = 'navy'
            ,alpha = 1
            ,kde = True 
            ,ax = ax[0,1]
            )
ax[1,0].set_title('Mental Health Description')
sns.histplot(data = df
            ,x = 'MentHlth'
            ,color = 'navy'
            ,alpha = 1
            ,kde = True 
            ,ax = ax[1,0]
            , bins = 12
            )

fig2.tight_layout()
总体健康呈正态分布，中位数为3.0
Physical Health仍然很重，但在30时增加
心理健康问题很严重，这意味着更多人的心理健康问题更少
fig3, ax = plt.subplots(2, 2, figsize=(16,12))

fig3.suptitle('General Health')
sns.countplot(x='Sex', data=df, palette=("Blues_d"), ax = ax[0,0])

ax[0,0].set_xlabel('Sex (0 = Female & 1 = Male)', size=16, fontstyle='italic', weight=500 )
ax[0,0].set_ylabel('Total Count', size=16, family='monospace')
ax[0,0].set_title('Sex',size=12, fontstyle='italic', weight=900)

sns.countplot(x='Smoker', data=df, palette=("Blues_d"),ax = ax[0,1])

ax[0,1].set_title('Smokers',size=12, fontstyle='italic', weight=900)
ax[0,1].set_xlabel('Smoker (0 = no & 1 = yes)', size=16, fontstyle='italic', weight=500)
ax[0,1].set_ylabel('Total Count', size=16, family='monospace')

sns.countplot(x='HeartDiseaseorAttack', data=df, palette=("Blues_d"),ax = ax[1,0])

ax[1,0].set_xlabel('Heart Disease (0 = Healthy Heart & 1 = Has Heart Problem)', size=16, fontstyle='italic', weight=500)
ax[1,0].set_ylabel('Total Count', size=16, family='monospace')
ax[1,0].set_title('Heart Disease or Attack',size=12, fontstyle='italic', weight=900)

sns.countplot(x='HeartDiseaseorAttack', data=df, palette=("Blues_d"),ax = ax[1,0])

ax[1,0].set_xlabel('Heart Disease (0 = Healthy Heart & 1 = Has Heart Problem)', size=16, fontstyle='italic', weight=500)
ax[1,0].set_ylabel('Total Count', size=16, family='monospace')
ax[1,0].set_title('Heart Disease or Attack',size=12, fontstyle='italic', weight=900)

sns.countplot(x='PhysActivity', data=df, palette=("Blues_d"),ax = ax[1,1])

ax[1,1].set_xlabel('Physical Activity (0 = Non-Physically Acitve & 1 = Physically Active)', size=16, fontstyle='italic', weight=500)
ax[1,1].set_ylabel('Total Count', size=16, family='monospace')
ax[1,1].set_title('Physical Activity',size=12, fontstyle='italic', weight=900)
fig3.tight_layout()

男女比例相对相等，但女性略占优势
吸烟者与非吸烟者的比例相对相等，但非吸烟者占主导地位
更多的人拥有健康的心脏
越来越多的人进行体育锻炼
fig4, ax = plt.subplots(1, 2, figsize=(10,5))

fig4.suptitle('Healthy eating')
sns.countplot(x='Fruits', data=df, palette=("Blues_d"), ax = ax[0])
ax[0].set_xlabel('Eats Fruits (0 = Non-Regulary Acitve & 1 = Regularly)', size=9, fontstyle='italic', weight=500)
ax[0].set_ylabel('Total Count', size=9, family='monospace')
ax[0].set_title('Fruit Consumption',size=12, fontstyle='italic', weight=900)
sns.countplot(x='Veggies', data=df, palette=("Blues_d"), ax= ax[1])
ax[1].set_xlabel('Eats Vegtables (0 = Non-Regulary Acitve & 1 = Regularly)', size=9, fontstyle='italic', weight=500)
ax[1].set_ylabel('Total Count', size=9, family='monospace')
ax[1].set_title('Vegtable Consumption',size=12, fontstyle='italic', weight=900)

fig4.tight_layout()
越来越多的人经常吃水果
越来越多的人经常吃蔬菜
fig5, ax = plt.subplots(3, 2, figsize=(16,12))

fig5.suptitle('Health Disorders')
fig5.delaxes(ax[2,1]) 
fig5.delaxes(ax[2,0])
fig5.delaxes(ax[1,1])
sns.countplot(x='HvyAlcoholConsump', data=df, palette=("Blues_d"), ax = ax[0,0])
ax[0,0].set_xlabel('Alcohol Consumption (0 = Non-Heavy Active & 1 = Heavy)', size=16, fontstyle='italic', weight=500)
ax[0,0].set_ylabel('Total Count', size=16, family='monospace')
ax[0,0].set_title('Alcohol Consumption',size=12, fontstyle='italic', weight=900)
sns.countplot(x='Stroke', data=df, palette=("Blues_d"), ax = ax[0,1])
ax[0,1].set_xlabel('Stroke (0 = Never Experienced a Stroke & 1 = Has Experienced a Stroke)', size=16, fontstyle='italic', weight=500)
ax[0,1].set_ylabel('Total Count', size=16, family='monospace')
ax[0,1].set_title('Stroke',size=12, fontstyle='italic', weight=900)
sns.countplot(x='HighBP', data=df, palette=("Blues_d"),ax = ax[1,0])
ax[1,0].set_xlabel('Blood-Pressure(0 = Normal Blood-Pressure & 1 = High Blood-Pressure)', size=16, fontstyle='italic', weight=500)
ax[1,0].set_ylabel('Total Count', size=16, family='monospace')
ax[1,0].set_title('Blood-Pressure',size=12, fontstyle='italic', weight=900)
fig5.tight_layout()
少量的酗酒者
更多从未经历过中风的人
高血压患者的数量很高
# 相关系数热力图
plt.figure(figsize=(15,15))
correlation_mat = df.corr()
sns.heatmap(correlation_mat, annot = True)
plt.show()
from sklearn.model_selection import train_test_split
# 准备建模的数据
X = df.drop('Diabetes',axis=1)
y = df['Diabetes']
# 划分数据集
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=42)
print('训练集大小：',X_train.shape[0])
print('测试集大小：',X_test.shape[0])
# 构建逻辑回归模型
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression()
lr.fit(X_train,y_train)
print('逻辑回归模型准确率：',lr.score(X_test,y_test))
# 构建KNN模型
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier()
knn.fit(X_train,y_train)
print('KNN模型准确率：',knn.score(X_test,y_test))
# 构建决策树模型
from sklearn.tree import DecisionTreeClassifier
tree = DecisionTreeClassifier()
tree.fit(X_train,y_train)
print('决策树模型准确率：',tree.score(X_test,y_test))
# 构建lightgbm模型
from lightgbm import LGBMClassifier
gbm = LGBMClassifier()
gbm.fit(X_train,y_train)
print('lightgbm模型准确率：',gbm.score(X_test,y_test))
from sklearn.metrics import f1_score,r2_score,confusion_matrix,classification_report,auc,roc_curve
# 模型评估
y_pred = gbm.predict(X_test)
print('模型的F1值：',f1_score(y_test,y_pred))
print('模型混淆矩阵:','\n',confusion_matrix(y_test,y_pred))
print('模型分类报告:','\n',classification_report(y_test,y_pred))
# 画出ROC曲线
y_prob = gbm.predict_proba(X_test)[:,1]
false_positive_rate, true_positive_rate, thresholds = roc_curve(y_test, y_prob) 
roc = auc(false_positive_rate, true_positive_rate)
plt.title('ROC')
plt.plot(false_positive_rate,true_positive_rate, color='red',label = 'AUC = %0.2f' % roc)
plt.legend(loc = 'lower right')
plt.plot([0, 1], [0, 1],linestyle='--')
plt.axis('tight')
plt.ylabel('True Positive Rate')
plt.xlabel('False Positive Rate')
plt.show()
# 特征重要性评分
feat_labels = X_train.columns[0:]
importances = gbm.feature_importances_
indices = np.argsort(importances)[::-1]
index_list = []
value_list = []
for f,j in zip(range(X_train.shape[1]),indices):
    index_list.append(feat_labels[j])
    value_list.append(importances[j])
plt.figure(figsize=(10,6))
plt.barh(index_list[::-1],value_list[::-1])
plt.yticks(fontsize=12)
plt.title('feature importance',fontsize=14)
plt.show()
# 模型预测
res = pd.DataFrame()
res['真实值'] = y_test
res['预测值'] = y_pred
res.sample(10)

你可能感兴趣的:(大数据分析案例合集,数据分析,数据挖掘,算法,python,人工智能)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
Kafka 消息丢失如何处理？架构文摘JGWZ 学习
今天给大家分享一个在面试中经常遇到的问题：Kafka消息丢失该如何处理？这个问题啊，看似简单，其实里面藏着很多“套路”。来，咱们先讲一个面试的“真实”案例。面试官问：“Kafka消息丢失如何处理？”小明一听，反问：“你是怎么发现消息丢失了？”面试官顿时一愣，沉默了片刻后，可能有点不耐烦，说道：“这个你不用管，反正现在发现消息丢失了，你就说如何处理。”小明一头雾水：“问题是都不知道怎么丢的，处理起来
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
2022现在哪个打车软件比较好用又便宜实惠的打车软件合集高省APP珊珊
这是一个信息高速传播的社会。信息可以通过手机，微信，自媒体，抖音等方式进行传播。但同时这也是一个交通四通发达的社会。高省APP，是2022年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。珊珊导师，高省邀请码777777，注册送2皇冠会员，送万元推广大礼包，教你如何1年做到百万团队。高
走向以教育叙事为载体的教育叙事研究 666小飞鱼
今天我读了吴松超老师的《给教师的68条建写作建议》中的第23条《如何通过教育叙事走向研究》，吴老师在文中与我们分享了一个德育案例，这是一个反面的案例，意在告知我们在处理问题时，不能就考虑的点太窄，思考要全面。走向教育叙事研究，教师要有敏锐的“感知力”，这个感知力来自于背后专业知识的支撑，思维能力以及广阔的视野和见识等。所以对于同一件事处理方法不同，这个就是教师背后“敏锐力”的不同造成的，也就是说是
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s