一一张xi

【数据挖掘】金融风控 Task01 赛题理解

1.赛题介绍
- 1.1赛题概况
- 1.2 数据概况
- 1.3 预测指标
- - 1.3.1 混淆矩阵
  - 1.3.2 准确率、精确率、召回率、F1 Score
  - 1.3.3 P-R曲线
  - 1.3.4 ROC曲线
  - 1.3.5 AUC面积
  - 1.3.6 金融风控常见评估指标
1.4 赛题流程
1.5 评分卡
=====================================
课程一总结赛题理解&基线（baseline）方案
- 1.金融风控相关知识
- 2.竞赛中主要模块
- - 2.1 问题建模
  - 2.2 数据探索性分析（EDA）
- 3.赛题理解部分
- 4.基线方案（baseline）

学习地址：https: //github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl
天池竞赛地址：https://tianchi.aliyun.com/competition/entrance/531830/introduction

1.赛题介绍

1.1赛题概况

比赛要求参赛选手根据给定的数据集，建立模型，预测金融风险。

赛题以预测金融风险为任务，数据集来自某信贷平台的贷款记录，总数据量超过120w，包含47列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取80万条作为训练集，20万条作为测试集A，20万条作为测试集B，同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。

1.2 数据概况

包含47列变量信息，其中15列为匿名变量，通过info()查看数据类型及缺失情况

变量	含义	数据量及类型	备注
id	为贷款清单分配的唯一信用证标识	800000 non-null int64
loanAmnt	贷款金额	800000 non-null float64
term	贷款期限（year）	800000 non-null int64
interestRate	贷款利率	800000 non-null float64
installment	分期付款金额	800000 non-null float64
grade	贷款等级	800000 non-null object	用A、B、C、D、E、F、G表示的
subGrade	贷款等级之子级	800000 non-null object	每类有五个子类用如A1、A2…A5表示
employmentTitle	就业职称	799999 non-null float64	用数字表示
employmentLength	就业年限（年）	`753201` non-null object	2 year
homeOwnership	借款人在登记时提供的房屋所有权状况	800000 non-null int64	有0、1、2、3、4、5六种
annualIncome	年收入	800000 non-null float64
verificationStatus	验证状态	800000 non-null int64	有0、1、2三种
issueDate	贷款发放的月份	800000 non-null object	2014-07-01形式
isDefault	是否违约	0或者1
purpose	借款人在贷款申请时的贷款用途类别	800000 non-null int64	0~13
postCode	借款人在贷款申请中提供的邮政编码的前3位数字	799999 non-null float64
regionCode	地区编码	800000 non-null int64
dti	债务收入比	`799761` non-null float64
delinquency_2years	借款人过去2年信用档案中逾期30天以上的违约事件数	800000 non-null float64
ficoRangeLow	借款人在贷款发放时的fico所属的下限范围	800000 non-null float64
ficoRangeHigh	借款人在贷款发放时的fico所属的上限范围	800000 non-null float64
openAcc	借款人信用档案中未结信用额度的数量	800000 non-null float64
pubRec	贬损公共记录的数量	800000 non-null float64
pubRecBankruptcies	公开记录清除的数量	`799595` non-null float64
revolBal	信贷周转余额合计	800000 non-null float64
revolUtil	循环额度利用率，或借款人使用的相对于所有可用循环信贷的信贷金额	799469 non-null float64
totalAcc	借款人信用档案中当前的信用额度总数	800000 non-null float64
initialListStatus	贷款的初始列表状态	800000 non-null int64	0或者1
applicationType	表明贷款是个人申请还是与两个共同借款人的联合申请	800000 non-null int64
earliesCreditLine	借款人最早报告的信用额度开立的月份	800000 non-null object	Aug-2001
title	借款人提供的贷款名称	799999 non-null float64	0或1
policyCode	公开可用的策略_代码=1新产品不公开可用的策略_代码=2	800000 non-null float64
n0		`759730` non-null float64
n1		`759730` non-null float64
n2		`759730` non-null float64
n2.1		`759730` non-null float64
n4		`766761` non-null float64
n5		`759730` non-null float64
n6		`759730` non-null float64
n7		`759730` non-null float64
n8		`759729` non-null float64
n9		`759730` non-null float64
n10		`766761` non-null float64
n11		`730248` non-null float64
n12		`759730` non-null float64
n13		`759730` non-null float64
n14		`759730` non-null float64

1.3 预测指标

采用AUC作为评价指标，AUC（Area Under Curve）被定义为 ROC曲线下与坐标轴围成的面积。

1.3.1 混淆矩阵

（1）若一个实例是正类，并且被预测为正类，即为真正类TP(True Positive )
（2）若一个实例是正类，但是被预测为负类，即为假负类FN(False Negative )
（3）若一个实例是负类，但是被预测为正类，即为假正类FP(False Positive )
（4）若一个实例是负类，并且被预测为负类，即为真负类TN(True Negative )
使用方法：

from sklearn.metrics import confusion_matrix#混淆矩阵
sklearn.metrics.confusion_matrix(y_true, y_pred, labels=None, sample_weight=None)
#y_true:是样本真实分类结果
#y_pred 是样本预测分类结果 
#labels是所给出的类别，通过这个可对类别进行选择 #sample_weight 是样本权重

例子

#导入相关包
import numpy as np
from sklearn.metrics import confusion_matrix#混淆矩阵
y_pred=[0,1,0,1] #预测值
y_true=[0,1,1,0] #真实值
#混淆矩阵
#真正1 真负1 假正1 假负1
print('混淆矩阵为：\n',confusion_matrix(y_true,y_pred))

1.3.2 准确率、精确率、召回率、F1 Score

（1）准确率（Accuracy）准确率是常用的一个评价指标，但是不适合样本不均衡的情况，即所有预测准确的/总预测样本数。 $\frac{TP + TN}{TP + TN + FP + FN}$

（2）精确率（Precision）又称查准率，正确预测为正样本（TP）占预测为正样本(TP+FP)的百分比。 $\frac{TP}{TP + FP}$

（3）召回率（Recall）又称为查全率，正确预测为正样本（TP）占正样本(TP+FN)的百分比。 $\frac{TP}{TP + FN}$

（4）F1 Score 精确率和召回率是相互影响的，精确率升高则召回率下降，召回率升高则精确率下降，如果需要兼顾二者，就需要精确率、召回率的结合F1 Score。 $\frac{2}{\frac{1}{Precision} + \frac{1}{Recall}}$
使用方法

#计算准确率精确率召回率和F1分数
from sklearn import  metrics
y_pred=[0,1,0,1] #预测值
y_true=[0,1,1,0] #真实值
#准确率=预测准确的/所有预测
print('准确率为：',metrics.accuracy_score(y_true,y_pred))
#精确率=真正确的/所有预测正确的=0.5
print('精确率为：',metrics.precision_score(y_true,y_pred))
#召回率=真正确的/正样本数=0.5
print('召回率为：',metrics.recall_score(y_true,y_pred))
#F1分数=2/4=0.5
print('F1分数为：',metrics.f1_score(y_true,y_pred))

也可以使用sklearn中的classification_report函数用于显示主要分类指标的文本报告．在报告中显示每个类的精确度，召回率，F1值等信息。

使用方法

sklearn.metrics.classification_report(y_true, y_pred, labels=None, target_names=None, sample_weight=None, digits=2, output_dict=False)

参数	作用
y_true	1 维数组，真实数据的分类标签
y_pred	1 维数组，模型预测的分类标签
labels	列表，需要评估的标签名称
target_names	列表，指定标签名称
sample_weight	1 维数组，不同数据点在评估结果中所占的权重
digits	评估报告中小数点的保留位数，如果 output_dict=True，此参数不起作用，返回的数值不作处理
output_dict	若真，评估结果以字典形式返回返回字符串或者字典

例子

#精确率、召回率以及f-分数可使用classification_report模块
from sklearn.metrics import classification_report
# 精确率、召回率以及f1-score
print(classification_report(y_train,pred))

1.3.3 P-R曲线

P-R曲线（Precision-Recall Curve） P-R曲线是描述精确率和召回率变化的曲线，横坐标为召回率，纵坐标为精确率

#P-R曲线
import matplotlib.pyplot as plt
%matplotlib inline
#PR曲线横坐标为召回率，纵坐标为精确率
from sklearn.metrics import precision_recall_curve
y_pred = [0, 1, 1, 0, 1, 1, 0, 1, 1, 1]
y_true = [0, 1, 1, 0, 1, 0, 1, 1, 0, 1]
precision,recall,thresholds=precision_recall_curve(y_true,y_pred)
plt.plot(recall,precision)
plt.ylabel('precision')
plt.xlabel('recall')

1.3.4 ROC曲线

ROC空间将假正例率（FPR）定义为 X 轴，真正例率（TPR）定义为 Y 轴。
TPR：在所有实际为正例的样本中，被正确地判断为正例之比率（也就是召回率） $\frac{TP}{TP + FN}$ FPR：在所有实际为负例的样本中，被错误地判断为正例之比率。 $\frac{FP}{FP + TN}$

横轴FPR:1-TNR,1-Specificity，FPR越大，预测正类中实际负类越多。
纵轴TPR：Sensitivity(正类覆盖率),TPR越大，预测正类中实际正类越多。

使用方法
在sklearn中sklearn.metrics.roc_curve() 函数用于绘制ROC曲线，使用前需要调用from sklearn.metrics import roc_curve模块

参数	作用
y_true	真实的样本标签，默认为{0，1}或者{-1，1}。如果要设置为其它值，则 pos_label 参数要设置为特定值。例如要令样本标签为{1，2}，其中2表示正样本，则pos_label=2。
y_score	对每个样本的预测结果。
pos_label	正样本的标签。

roc_curve() 函数有3个返回值，即假阳率FPR、真阳率TPR、阈值thresholds，阈值thresholds为将预测结果scores从大到小排列的结果。这里的thresholds指的是大于等于这个阈值为正类，负责为负类。所以通过改变不同的阈值，预测结果也将发生变化

例子

##ROC曲线,横坐标FPR，纵坐标TPR
from sklearn.metrics import roc_curve
y_pred = [0, 1, 1, 0, 1, 1, 0, 1, 1, 1]
y_true = [0, 1, 1, 0, 1, 0, 1, 1, 0, 1]
FPR,TPR,thresholds=roc_curve(y_true,y_pred)
plt.title('ROC')
plt.plot(FPR,TPR,'b')
plt.plot([0,1],[0,1],'r--')
plt.ylabel('TPR')
plt.xlabel('FPR')

1.3.5 AUC面积

AUC(Area Under Curve) AUC（Area Under Curve）被定义为 ROC曲线下与坐标轴围成的面积。
显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方，所以AUC的取值范围在0.5和1之间。AUC越接近1.0，检测方法真实性越高;等于0.5时，则真实性最低，无应用价值。

#计算AUC面积
import numpy as np
from sklearn.metrics import roc_auc_score
y_true = np.array([0, 0, 1, 1])
y_scores = np.array([0.1, 0.4, 0.35, 0.8])
print('AUC值为：',roc_auc_score(y_true,y_scores))

1.3.6 金融风控常见评估指标

KS(Kolmogorov-Smirnov) K-S曲线与ROC曲线类似，不同在于

ROC曲线将真正例率和假正例率作为横纵轴
K-S曲线将真正例率和假正例率都作为纵轴，横轴则由选定的阈值来充当。公式如下： $K S = m a x (T P R - F P R)$ KS不同代表的不同情况，一般情况KS值越大，模型的区分能力越强，但是也不是越大模型效果就越好，如果KS过大，模型可能存在异常，所以当KS值过高可能需要检查模型是否过拟合。以下为KS值对应的模型情况，但此对应不是唯一的，只代表大致趋势。
KS值<0.2,一般认为模型没有区分能力。
KS值[0.2,0.3],模型具有一定区分能力，勉强可以接受
KS值[0.3,0.5],模型具有较强的区分能力。
KS值大于0.75，往往表示模型有异常。

#KS值 在实际操作时往往使用ROC曲线配合求出KS值
from sklearn.metrics import roc_curve
y_pred = [0, 1, 1, 0, 1, 1, 0, 1, 1, 1]
y_true = [0, 1, 1, 0, 1, 0, 1, 1, 1, 1]
FPR,TPR,thresholds=roc_curve(y_true, y_pred)
print(FPR)
print(TPR)
print(thresholds)
KS=abs(FPR-TPR).max()
print('KS值：',KS)

1.4 赛题流程

1.5 评分卡

什么是评分卡（信贷场景中）

以分数的形式来衡量风险几率的一种手段
对未来一段时间内违约/逾期/失联概率的预测
通常评分越高越安全
根据使用场景分为反欺诈评分卡、申请评分卡、行为评分卡、催收评分卡

评分卡开发的常用模型

逻辑回归
决策树

构建风控评分卡模型介绍（WOE/KS/ROC)

#评分卡 不是标准评分卡
def Score(prob,P0=600,PDO=20,badrate=None,goodrate=None):
    P0 = P0
    PDO = PDO
    theta0 = badrate/goodrate
    B = PDO/np.log(2)
    A = P0 + B*np.log(2*theta0)
    score = A-B*np.log(prob/(1-prob))
    return score

=====================================

课程一总结赛题理解&基线（baseline）方案

1.金融风控相关知识

在贷款前会去填写一些信息数据，并且还有一定的历史数据，贷款违约便是根据这些进行预测，计算分数，决定是否进行借贷或投资最小化相关风险

2.竞赛中主要模块

2.1 问题建模

考虑是否存在实现序列，比如天气。此时可以使用时序验证

使用k折交叉验证可以使得数据更稳定些，结果更稳定些，提高泛化性

2.2 数据探索性分析（EDA）

多多尝试几类经验

3.赛题理解部分

两个测试集替换，避免造成过拟合


查看n列先进行区分（查看哪些是正向的，哪些是负向的，避免正负相抵消）之后再做融合

更重要的是一个排序作用即正样本的值大于负样本的概率

4.基线方案（baseline）

类别特征中对于高维的使用rank进行转换，使用rank更具有鲁棒性

特征提取是提分的一个很好的提分项

原来的数据中职称的类别太多了，某类别可能只出现了一次其又恰好没有违约，以这个结果来判断这个职位的都不会违约是不合适的，对于这种情况可以考虑平滑处理或者用catboost来对数值特征目标特征进行编码

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python实现关联规则推荐这孩子谁懂哈 Python Machine Learning python 关联规则机器学习
1.什么关联规则关联规则（AssociationRules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关
sublime个人设置 bawangtianzun sublime text 编辑器
如何拥有jiangly蒋老师同款编译器(sublimec++配置竞赛向）_哔哩哔哩_bilibiliSublimeText4的安装教程（新手竞赛向）-知乎(zhihu.com)创建文件自动保存为c++打开SublimeText软件。转到"Tools"（工具）>"Developer"（开发者）>"NewPlugin"（新建插件）。在打开的新文件中，粘贴以下代码：importsublimeimport
【高中数学/三角函数/判别式法求极值】已知：实数a,b满足a^2/4-b^2=1 求：3a^2+2ab的最小值普兰店拉马努金高中数学之三角函数高中数学三角函数判别式
【问题】已知：实数a,b满足a^2/4-b^2=1求：3a^2+2ab的最小值【来源】App"网易新闻"中up主“我服子佩”的数学视频专辑，据其称是北京市某年的竞赛题。【解答】由a^2/4-b^2=1，联想到secθ^2-tanθ^2=1故设a/2=1/cosθ,b=sinθ/cosθ将a=2/cosθ,b=sinθ/cosθ代入3a^2+2ab得f(θ)=(12+4sinθ)/(1-sinθ^2
2024年华为杯数学建模研赛C题思路代码+论文助攻 DS数模 2024华为杯数学建模华为 2024华为杯 2024研究生数学建模 2024研赛
2024年华为杯研究生数学建模竞赛（以下简研赛）将于9月21日上午8时正式开始。下文包含：2024研赛思路解析、研赛参赛时间及规则信息说明、好用的数模技巧及如何备战数学建模竞赛C君将会第一时间发布选题建议、所有题目的思路解析、相关代码、参考文献、参考论文等多项资料，帮助大家取得好成绩。2024年研赛将于9月21日上午8时正式开始这里有些资料，大家可以看看：【2024最全国赛研赛数模资料包】C君珍贵
服务器状态监控php源码,服务器状态监控_监控Linux服务器网站状态的SHELL脚本温糯米服务器状态监控php源码
摘要腾兴网为您分享:监控Linux服务器网站状态的SHELL脚本，蜗牛集市，同花顺，探客宝，手柄助手等软件知识，以及日期倒计时插件，云南省教育资源公共，rui手机桌面，小屁孩桌面便签，合金装备崛起复仇，朝夕日历，photoshop图像处理软件,一年级学生每日计划表，悟空找房，饿了吗外卖商家版，逃生，中国民宿网，realpolitiks，交通安全知识竞赛，雅思流利说等软件it资讯，欢迎关注腾兴网。1
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
LiteBee Wing测评：走进中小学课堂，合适的编程无人机非常重要！ song_bcbd
“国务院在《新一代人工智能发展规划》中明确，要广泛开展人工智能科普活动，实施全民智能教育项目，要在中小学阶段设置人工智能相关课程，逐步推广编程教育，鼓励社会力量参与寓教于乐的编程教学软件、游戏的开发和推广，而且要进行人工智能竞赛。”作为从事创客教育多年的老师，感谢在这个大环境，让学生能够了解人工智能，接触到前沿科技，同时也鼓励更多学生学习编程，因为没有学编程，可能就会像现在的我们后悔以前没有学习好
平昌冬奥，人生竞赛不要给对手和裁判任何机会小猫_003e
如火如荼的平昌冬奥会拉下了帷幕，但是自从某年的伦敦奥运会之后，我们中国队自从好像就“最爱干犯规的事儿”。2月20日，短道速滑女子3000米接力赛，可以说是相当令人痛心了。比赛中，韩国队交接棒失误“扑街”，阻拦了加拿大队，带来的连锁反应也影响了中国队。中国队以微弱劣势落后韩国队，第二个冲线！韩国队这次失误犯规那么明显，应该唱费玉清的我送你离开千里之外。但···最终赛场上裁判宣布：韩国队冠军，中国队、
不跑马拉松的四个理由杨然谦
过去十年，马拉松受到了许多人的欢迎。光是2018年，就有456,700名美国人完成了马拉松，参与率较2008年增加了10%。人们认为参与这场42公里的竞赛以及对应的训练，会对心脏造成不利影响。例如造成动脉硬化以及炎症等。过度的跑步会让皮质醇(又叫压力激素)水平长期升高，导致体重增加、疲劳以及免疫力下降等。现在有许多人将马拉松爱好者视为“最高身体素质所有者”，他们有着精瘦的体格，较低的心率，承受着非
系统架构师软考历年论文题目（2009-2024年）及分析 pccai-vip 系统架构师系统架构
时间题目20091.论基于DSSA的软件架构设计与应用；2.论信息系统建模方法；3.论基于REST服务的Web应用系统设计；4.论软件可靠性设计与应用20101.论软件的静态演化和动态演化及其应用；2.论数据挖掘技术的应用；3.论大规模分布式系统缓存设计策略；4.论软件可靠性评价20111.论模型驱动架构在系统开发中的应用；2.论企业集成平台的架构设计；3.论企业架构管理与应用；4.论软件需求获取
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
VLSI电路单元的自动布局：全局布局基础介绍 Jaaiko 数学建模算法开源图论 matlab
2024年华数杯全国大学生数学建模竞赛B题为：VLSI电路单元的自动布局。本题主要关注的是全局布局问题。学术界针对全局布局的评估模型和优化方法的研究历史悠久。本文借题顺势介绍全局布局的一些重点基础内容和相关工具/资料，以期为对EDA算法设计领域感兴趣、对数学建模感兴趣的人降低研究门槛。VLSI是超大规模集成电路的简称。完成一个VLSI设计的流程十分复杂，包含多种数据格式的转化，其中将逻辑网表转变为
大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
扬长避短，重拾微课录制王焱_铁文
几年前刚开始有微课时我给别人做了不少，有一些还获得了省市级的奖励。但为自己做的却很少，仅有的几次也是为了就付检查，或是有人听课。后来微课逐渐淡出了“竞赛”的要求，做得也就少了，这次新网师“极简移动微课”的作业是录制1分钟以内的微课……我做的是小学绘图软件中“曲线工具的使用”一课的微课，做完了感觉挺好，忽然有个念头把信息课的操作都制成视频放网上供学生学习不是更好，尤其是现在疫情促成了线上教学，对丰富
纯生信很难发表？只是你没有及时抓住研究热点 SCI狂人团队
当你还做meta分析的时候，你会发现meta分析很难发或者单位已经不承认了，而聪明的人已经开始做常规的生信GEO、TCGA数据挖掘这些（这个时候生信比较好发）。当你开始做常规的生信GEO、TCGA数据挖掘的时候，你会发现这些一样也是比较难发了，而聪明的人已经开始抓免疫评分这个热点进行生信数据挖掘（这个时候免疫评分比较好发）。当你开始对免疫评分这个热点进行生信数据挖掘的时候，你会发现自己的研究方向差
【2023年】云计算金砖牛刀小试3 geekgold 云计算 linux 运维容器 kubernetes 云原生
A场次题目：OpenStack平台部署与运维业务场景：某企业拟使用OpenStack搭建一个企业云平台，用于部署各类企业应用对外对内服务。云平台可实现IT资源池化，弹性分配，集中管理，性能优化以及统一安全认证等。系统结构如下图：企业云平台的搭建使用竞赛平台提供的两台云服务器，配置如下表：设备名称主机名接口ip地址云服务器1controllereth0，eth1私网：192.168.100.10/2
【2023年】云计算金砖牛刀小试2 geekgold 云计算运维容器 jenkins kubernetes devops docker
A场次题目：Openstack平台部署与运维control172.17.31.10compute172.17.31.20compute任务1私有云平台环境初始化1.初始化操作系统使用提供的用户名密码，登录竞赛云平台。根据表1中的IP地址规划，设置各服务器节点的IP地址，确保网络正常通信，设置控制节点主机名为Controller，计算节点主机名为Compute，并修改hosts文件将IP地址映射为主
K-means 算法的介绍与应用小魏冬琅 matlab 算法 kmeans 机器学习
目录引言K-means算法的基本原理表格总结：K-means算法的主要步骤K-means算法的MATLAB实现优化方法与改进K-means算法的应用领域表格总结：K-means算法的主要应用领域结论引言K-means算法是一种经典的基于距离的聚类算法，在数据挖掘、模式识别、图像处理等多个领域中得到了广泛应用。其核心思想是将相似的数据对象聚类到同一个簇中，而使得簇内对象的相似度最大、簇间的相似度最小
「中国奥数国家队夺冠」数学虐我千百遍，我待数学如初恋 d35156f6a0a9
宇宙之大，粒子之微，火箭之速，化工之巧，地球之变，生物之谜，日用之繁，无处不用数学。2019年国际数学奥林匹克竞赛结果在英国巴斯出炉，中国队时隔4年后重登冠军宝座，以227分的总成绩与美国队并列世界第一，中国队全体队员获得金牌。这是一份迟来，但却令人骄傲的成绩单。这里附上前20名国家与地区成绩及排名IMO官网中国队6名成员个人成绩作为国际最高水平的数学竞赛，IMO一向以题目出其不意，选拔过程以严苛
数学建模笔记——动态规划 liangbm3 数学建模笔记数学建模笔记动态规划 python 背包问题算法优化问题
数学建模笔记——动态规划动态规划1.模型原理2.典型例题2.1例1凑硬币2.2例2背包问题3.python代码实现3.1例13.2例2动态规划1.模型原理动态规划是运筹学的一个分支，通常用来解决多阶段决策过程最优化问题。动态规划的基本想法就是将原问题转换为一系列相互联系的子问题，然后通过逐层地推来求得最后的解。目前，动态规划常常出现在各类计算机算法竞赛或者程序员笔试面试中，在数学建模中出现的相对较
leetcode 1811 寻找面试候选人(postgresql) 奋斗哼哼 leetcode 面试 postgresql 数据库 sql
需求表:Contests±-------------±-----+|ColumnName|Type|±-------------±-----+|contest_id|int||gold_medal|int||silver_medal|int||bronze_medal|int|±-------------±-----+contest_id是该表的主键.该表包含LeetCode竞赛的ID和该场比赛中
Matlab,Python,Java,C++的比较 Codefengfeng python java c++
Matlabmatlab是一个大型计算机，擅长矩阵计算与科学计算，适合构建模型；然而，编译软件的运行效率低，不适合大型软件开发。Pythonpython的优势是简单，入门快。适合做数据挖掘、数据分析、机器学习、人工智能、自然语言处理、爬虫、批量文件处理等，此外，Python开源免费，有很多的库，开发环境开发社区都比较友好；不过，Python是动态型的语言，需要更多的测试，并且错误仅仅是在运行的时候
A类竞赛-保研-打比赛-机器人及人工智能大赛土豆打工仔机器人人工智能考研
大赛简介中国机器人及人工智能大赛属于全国高校学科竞赛A类赛事，由中国人工智能学会、教育部高等学校计算机课程教学指导委员会联合主办，旨在引导和激励广大青年学生弘扬创新精神，搭建良好的科技创新赛事平台，助力人工智能、机器人产业发展，推动“人工智能+”“机器人+”新经济产业体系建设，积极推动广大学生参与机器人、人工智能科技创新实践，通过竞赛培养出一批爱创新、会动手、能协作、勇于拼搏的科技精英人才。大赛内
王莹|我的新老师《蓝田县灞源镇学生习作》乡土蓝田
我的新老师王莹我的新老师，是一位退伍军人，大概六十多岁。他的个子不高，长着一个国字脸，国字脸上镶嵌着一双炯炯有神的大眼睛，一个能说会道的嘴巴，黑黑的眉毛，鼻子大大的。在暑假培训课堂上，他讲述了他的故事：他在小学五年级就开始自学初中的内容，在自学的过程中，遇到了一个个难题，他都一个个解开了。果然，功夫不负有心人，蓝田县举办了一次数学竞赛，大约有300多个学生参加。当公布成绩时，他以82分取得了第一名
突破自己的枷锁人生如梦001
过往的经历正在将我们固化，包括我们的长相、穿着、性格、行为、能力等等，在别人的眼中都成为一个特定的样子。从而，我们应该说什么话做什么事都有了别人眼中特定的模式。比如某人是老师和同学眼中的标准好学生，生性沉稳，学习努力，成绩优秀，从不参与跟学习无关的事情。那么跟学习相关的事情竞赛啊讲解习题啊，大家肯定都会去找他，但是嬉笑打闹等娱乐活动想必不是他应该干的事情。再比如公司的一个优秀员工，他工作勤勤恳恳，
如何搞定数据挖掘？这篇文章告诉你！ isNotNullX 数据挖掘人工智能
在数字化的时代，数据是我们日常生活中不可或缺的一部分。数据所蕴含的信息具有重要价值，而数据挖掘和数据分析就是解读这些信息的重要工具。本文从明晰数据概念入手，再探讨数据挖掘。一·什么是数据？数据定义：数据（Data）是指对客观事物的属性、数量、位置、关系等进行记录和描述的原始材料或信息。数据可以是数字、文字、图像、声音等多种形式，它们是信息的载体，用于表示、传递和存储信息。简单来说，数据就是观测值。
一些机器学习不错的书籍 jimmyleeee 机器学习人工智能
最近，在学习一些机器学习的相关知识，在Github上居然找到了一个可以下载一些不错的介绍机器学习和大数据挖掘和分析的书籍。具体的书籍的信息可以参考一下链接：Books/DataSciencefromScratch.pdfatmaster·varunkashyapks/Books·GitHub
网络攻防WEB入门指南 youhao108 网络攻防 web 渗透测试网络安全网络攻防
网络攻防WEB入门指南（大佬绕路）文章目录前言学习网络攻防该如何入门前言我对网络攻防的理解，分为比赛和实战两个部分，两者所学习的知识虽有共通之处，但还是有很大区别，我也在向实战的状态转换，不过二者入门所要掌握的知识差别不大。下面主要从网络攻防竞赛角度，也就是知名的CTF夺旗赛，来谈谈网络攻防知识如何入门。学习网络攻防该如何入门常规CTF比赛主要分为线上做题，以及线下AWD攻防（AttackWith
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本

【数据挖掘】金融风控 Task01 赛题理解