aggressive2019

第四章数据的预处理与特征构建(续)

申请评分卡模型

数据的预处理与特征构建(续)

课程简介：逻辑回归模型的特征需要是数值型，因此类别型变量不能直接放入模型中去，需要对其进行编码。此外，为了获取评分模型的稳定性，建模时需要对数值型特征做分箱的处理。最终在带入模型之前，我们还需要对特征做单变量与多变量分析的工作。

目录：

特征的分箱
WOE与特征信息值
单变量分析与多变量分析

特征的分箱

分箱的概念

在评分卡模型开发中，变量需要进行分箱操作才能放入模型当中。分箱操作的定义如下：

对于数值型变量，将其分为若干有限的几个分段。例如，将收入分为<5K, 5K~10K, 10k~20k, >20k等
对于类别型变量，如果取值个数很多，将其合并为个数较少的几个分段。例如，将省份分为{北，上，广}，{苏，浙，皖}，{黑，吉，辽}，{闽，粤，湘}，其他。

评分卡模型引入变量分箱操作的原因

评分结果需要有一定的稳定性。例如，当借款人的总体信用资质不变时，评分结果也应保持稳定。某些变量（如收入）的一点波动，不应该影响评分结果。例如，当收入按照上述划分时，即使月收入从6k变为7k，在其他因素不变的情况下评分结果也不会发生改变。
类别型变量，当取值个数很多时，如果不分箱将会导致变量膨胀。例如，对于31个省级行政区（不含港澳台），使用onehot编码将会产生31个变量；采用哑变量编码将会产生30个变量。

分箱的要求

不需要分箱的变量

对于类别型变量，如果取值个数较少，一般无需分箱

分箱结果的有序性

对于有序型变量（包括数值型和有序离散型，例如学历），分箱要求保证有序性

分箱的平衡性

在较严格的情况下，分箱后的每一箱的占比不能相差太大。一般要求占比最小的占，占比不低于5%

分箱的单调性

在较严格的情况下，有序型变量分箱后每箱的坏样本率要求与箱呈单调关系。

例如，将收入分为<5K, 5K~10K, 10k~20k, >20k后，坏样本率分别是20%，15%，10%，5%。

或者，将学历分为{低于高中}，{高中，大专}，{本科，硕士}，{博士}后，坏样本率分别是15%，10%，5%，1%。

分箱的个数

通常要求分箱后，箱的个数不能太多，一般在7或5个以内

分箱的优点与缺点

优点：

稳定：分箱后，变量原始值在一定范围内的波动不会影响到评分结果

缺失值处理：缺失值可以作为一个单独的箱，或者与其他值进行合并作为一个箱

异常值处理：异常值可以和其他值合并作为一个箱

无需归一化：从数值型变为类别型，没有尺度的差异

缺点：

有一定的信息丢失：数值型变量在分箱后，变为取值有限的几个箱

需要编码：分箱后的变量是类别型，不能直接带入逻辑回归模型中，需要进行一次数值编码

常用的分箱的方法

a)卡方分箱法

在有监督的分箱算法中，卡方分箱法是常用的一种方法。它以卡方分布和卡方值为基础，判断某个因素是否会影响目标变量。例如，在检验性别是否会影响违约概率时，可以用卡方检验来判断。

卡方检验的无效假设H0是：观察频数与期望频数没有差别，即该因素不会影响到目标变量。基于该假设计算出χ2值，它表示观察值与理论值之间的偏离程度。根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。如果P值很小，说明观察值与理论值偏离程度太大，应当拒绝无效假设，表示比较资料之间有显著差异；否则就不能拒绝无效假设，尚不能认为样本所代表的实际情况和理论假设有差别。

卡方值的计算：

m:该因素取值个数; k：类别数
：因素i组中，k类别的观察频数
：原假设下的期望。

当样本总量比较大时，χ2统计量近似服从(m-1)(k-1)个自由度的卡方分布。

卡方检验的案例

总的违约率是（120+80）/（320+300）=32.25%

如果性别与违约不相关，意味着这男性与女性的违约率是同等的，都是32.25%，则：

男性违约的期望值为320*32.25% 104，非违约的期望=320-104=216

女性违约的期望值为300*32.25% 97，非违约的期望=300-97=203

由于有随机因素的存在，即使"性别与违约不相关"的假设成立，观察到的男性与女性的实际违约人群也不会精确地等于104和97。卡方检验的思想就是衡量预测值与观察值的差究竟有多大的概率是随机因素引起的。如果这个概率很小， "性别与违约不相关"的假设是不成成立的，因此男、女性的违约率是不同的。此处概率需要以卡方值对应的概率来描述：

由于性别与违约状况各有2种类别，卡方检验的自由度为（2-1）（2-1）=1，=8.05 对应的p值=0.005,因此性别在违约行为上有显著地影响。

卡方(ChiMerge)分箱法（续）

ChiMerge法采取自底向上不断合并的方法完成分箱操作。在每一步的合并过程中，依靠最小的卡方值来寻找最优的合并项。其核心思想是，如果某两个区间可以被合并，那么这两个区间的坏样本需要有最接近的分布，进而意味着两个区间的卡方值是最小的。于是ChiMerge的步骤如下：

将数值变量排序后分成区间较多的若干组，设为
计算合并后的卡方值，合并后的卡方值，直至合并后的卡方值
找出上一步所有合并后的卡方值中最小的一个，假设为,将其合并形成新的
不断重复2和3，直至满足终止条件

通用的ChiMerge的终止条件是：

某次合并后，最小的卡方值的p值超过0.9（或0.95，0.99等），或者
某侧合并后，总的未合并的区间数达到指定的数目（例如5，10，15等）

坏样本率非单调情形下的分箱合并

如前所述，当卡方分箱法完成分箱后，每一箱的坏样本率不一定满足单调的要求，此时需要做进一步的合并。此时有2种方案：

利用卡方分箱法缩减分箱数目。例如，当前分为5箱时出现坏样本率非单调情形，可以在卡方分箱法中设置分箱数为4，检验分箱数目为4时候的单调性。如果满足，即停止分箱；如不满足，可进一步地缩减分箱数目。分箱数目最小为2，因为只有两箱的情况下，单调性的存在性失去意义了。
对于当前不满足单调性的箱，可以与之前或之后的箱进行合并。如上一页图中，第3箱的的坏样本率低于前后两箱，于是需要合并。选择与之前或者之后的箱进行合并，可以依据以下原则：
合并之后，非单调的程度减轻。例如将第3箱和第4箱进行合并后，整体的单调性得到保证，于是执行该方案
如果两种方案都可以减轻非单调性，则可以选择"较优"的一种。一般来讲，可以从2点考量是否"较优"。假设合并2、3箱优于合并3、4箱，因为

合并2、3箱后的卡方值低于合并3、4箱后的卡方值，或者
合并2、3箱后，所有箱的占比比合并3、4箱后的占比更加平衡。

判断分箱后的分布均匀性

假设将原变量分为m箱，每箱的占比分别是.
可以用以下公式衡量占比的均匀性：
由施瓦茨不等式可以知道，当时，最小，

等于。当中有一个为1其余为0时，最大，等于1.于是可以看出，Balance越小表明越均匀。

带有特殊值的分箱

在实际业务工作中，一些正常的观测值之外有时会有一些特殊值的存在，例如缺失。从之前的分析可以知道，本次案例的数据中部分变量含有一些缺失值。在评分卡模型中，对于缺失值通常我们将其看成一种特殊的值。连续型变量的分箱工作需要预先将这些特殊值排除在外，即特殊值不参与分箱。

当连续型变量存在特殊值时，需要将特殊值看成单独的一箱，其余正常值参与分箱，且分箱个数为预设个数减去特殊值的个数。这里需要注意：

由于特殊值无法和其他数值进行比较，故检验坏样本率的单调性时，不考虑特殊值的坏样本率
当特殊值的占比很小（例如低于5%），可以考虑将特殊值与正常值中的一箱进行合并，且通常与最小的一箱或者最大的一箱进行合并

类别型（无序）变量的分箱

上述介绍的ChiMerge分箱法是针对数值型变量，例如收入、年龄等。分箱过程要保持原变量的有序性。对于类别型变量，如果是无序且取值个数较大，此时进行ChiMerge分箱之前需要先进行一次数值编码，用数字代替原来的类别型值。常用的数值编码是该数值对应的平均坏样本率。

例如，在评分模型里省份是一个常用的变量。在31个省级行政区（不含港澳台）中，我们用每个省在样本里的坏样本率代替原先的省级行政区。在这样的转换之下，类别型变量就转换成数值型变量。进而可以使用ChiMerge分箱法进行分箱操作。分箱后的省份可能是{北上广深}，{苏浙鲁闽}，{其他}等。

类别型（有序）变量的分箱

对于有序的类别型变量，例如学历={小学，初中，高中，大专，本科，硕士，博士}，先将该变量进行排序，然后依然可以按照数值型变量的ChiMerge分箱法来进行分箱。"学历"这一边量最终的分箱结果可能是{小学，初中，高中}，{大专，本科}，{硕士，博士}

ChiMerge分箱法的优点与缺点

WOE与特征信息值

WOE编码

编码操作是一种用数值代替非数值的操作，目的是为了让模型能够对其进行数学运算。例如，可以用3组0~255之间的整数来对颜色进行编码。在评分卡模型开发中，完成变量的分箱后所有的变量都变成了组别。此时需要对其进行编码才能下一步的建模。评分卡模型里常用WOE（Weight of Evidence）的形式进行分箱后的编码。其计算公式如下：

WOE编码的含义

注意到WOE公式

我们有：

WOE的符号性质：

即如果某箱的WOE是正的，表明该箱的坏样本率低于整个样本的平均坏样本率，相对更加容易出现好样本

WOE的单调性质:

即WOE的单调性与坏样本率的单调性相反。

使用WOE编码的注意点

从WOE的计算公式可以看出，要使得某一箱的有意义，则与必须为大于0的正数。这也意味着在上一步的分箱操作中，每一箱都必须同时包含好坏样本。
上式的对数计算中，好、坏样本的占比分别在分子和分母上。也可以好、坏样本的占比分别在分母和分子上，但是要求某一个模型里，所有变量的处理方式是一致的。同时，WOE的计算方式对后续逻辑回归模型的变量的符号是有一定的要求的。

WOE编码的优点与缺点

WOE编码的优点

提高模型的性能：以每一箱中的相对全体的log odds的超出作为编码依据，能够提高模型的预测精度

统一变量的尺度：经验上来看，WOE编码后的取值范围一般介意-4与4之间

分层抽样中的WOE不变性：如果建模需要对好坏样本进行分层抽样，则抽样后计算的WOE与未抽样计算的WOE是一致的

WOE编码的缺点

要求每箱中同时包含好坏样本：已在之前有过说明

对多类别标签无效：如果目标变量取值个数超过2个，分箱后的WOE是无法计算的

特征信息值（IV）

在评分卡模型中，衡量变量重要性的工作是一项必要的工作。在特征工程的初期我们往往能够衍生出数量较多的变量，但是并不能保证这些变量对于模型开发来说都很重要。通过衡量变量重要性，能够让我们从中挑选出相对更加重要的变量，为后续的分析提供降维的能力。此处我们通过计算特征信息值（Information Value）来衡量其重要性。其计算公式如下：

从上式的计算可以看出，某变量的IV是该变量每个箱的WOE的加权，权重是。如前所述，WOE的计算也可以是。则此时权重也影响修正为。关于IV，我们有：

非负性：如果,则, 且, 进而有, 从而,于是IV>0.

权重性：WOE反映的是每箱中好坏比相对全体样本好坏比的超出（excess），而IV反映的是在该箱体量的意义下，这种超出的显著性。例如，某一箱的好、坏各自占了2%和1%，另一箱中的好、坏各自占了20%和10%。从WOE的角度看，二者是一致的，都是ln(2)。但是前者的体量较少而后者的体量较大，分别是（2%-1%）=1%与（20%-10%）=10%。所以后者的显著性更强一些。

关于IV，我们需要注意几点：

IV衡量的是特征总体的重要性，而非每一箱的重要性。IV值越大，则表明该变量的重要程度越高。但是IV的值不宜太大，否则有可能有过拟合的风险。
与WOE一样，IV也要求每一箱中同时包含好坏样本
IV不仅受到变量重要性的影响，同时也与分箱方式有关。通常来讲，一个变量分箱的粒度越细，则IV会升高。所以需要注意到分箱的合理性。若干个变量分箱的个数差异不大时，才能比较IV。

3. 单变量分析与多变量分析

单变量分析（Single Factor Analysis）

完成变量分箱、WOE编码与IV计算后，我们需要做单变量分析。一般而言从两个角度进行分析：

变量的重要性。变量的重要性可以从IV值的判断出发。不同的IV值反映出变量不同程度的重要性。一般而言，IV的选择如下：

但是当IV异常高，例如超过1时，需要注意此时变量的分箱方式可能是不稳定的。

变量分布的稳定性。合适的变量，各箱的占比不会很悬殊。如果某变量有一箱的占比远低于其他箱，则该变量的稳定性也较弱。

单变量分析是从重要性及分布的稳定性两个角度来考虑。通常先选择IV高于阈值（如0.2）的变量，再挑选出分箱较均匀的变量。

多变量分析（Multi Factors Analysis）

完成单变量分析后，我们还需要对变量的整体性做把控，利用多变量分析的技术进一步缩减变量规模，形成全局更优的变量体系。多变量分析从以下两个角度分析变量的特性并完成挑选工作:

变量间的两两线性相关性
变量间的多重共线性

变量间不允许存在太强的两两线性相关性。主要原因是：

若变量和变量的两两线性相关性较强，说明这两个变量间存在一定的信息冗余。同时保留在模型里，即无必要，同时也增加了模型开发、部署与维护的负担
较强的线性相关性甚至会影响回归模型的参数估计。在回归模型的参数估计中，当两个变量间存在较强的线性相关性时，参数的估计会有较大的偏差

多变量分析（续）

完成变量间的两两线性相关性检验后，我们还需要检验是否存在多重共线性（multicolinearity）。多重共线性是指，一组变量中，某一个变量与其他变量的线性组合存在较强的线性相关性。同样地，存在较强的多重共线性意味着存在信息冗余，且对模型的参数估计产生影响。多重共线性通常用方差膨胀因子（VIF）来衡量，其计算方式如下：

其中是对的线性回归的决定系数。

一般而言，我们用10来衡量是否存在多重共线性。对于VIF>10，可以认为变量间存在多重共线性。此时，需要逐步从剔除一个变量，剩余的变量与计算VIF。如果发现当剔除后剩余变量对的VIF低于10，则从与中剔除IV较低的一个。如果每次剔除一个变量还不能降低VIF，则每次剔除2个变量，直至变量间不存在多重共线性。

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
瑶池防线谜影梦蝶
冥华虽然逃过了影梦的军队，但他是一个忠臣，他选择上报战况。败给影梦后成逃兵，高层亡尔还活着，七重天失守......随便一条，即可处死冥华。冥华自然是知道以仙界高层的习性此信一发自己必死无疑，但他还选择上报实情，因为责任。同样此信送到仙宫后，知道此事的人，大多数人都认定冥华要完了，所以上到仙界高层，下到扫大街的，包括冥华自己，全都准备好迎接冥华之死。如果仙界现在还属于两方之争的话，冥华必死无疑。然而
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag

第四章 数据的预处理与特征构建(续)

申请评分卡模型

你可能感兴趣的:(第四章 数据的预处理与特征构建(续))

第四章数据的预处理与特征构建(续)

你可能感兴趣的:(第四章数据的预处理与特征构建(续))