jiajia_wu

信用评分与数据挖掘

转载自：http://www.cnblogs.com/nxld/p/6364958.html

1、数据挖掘思维导图

思维导图为：Dr. Saed Sayad总结的An Introduction to Data Mining
个人更喜欢的分类方式为：
1、分类与预测
2、关联
3、聚类
4、异常检测
2、信用评分中的常见算法
信用评分中主要包括申请评分、行为评分、催收评分卡、反欺诈。

其中，申请评分和行为评分比较成熟的是逻辑回归，其次层次聚类和判别分析、决策树。
申请和信用评分需要比较好的解释性，也有的使用神经网络做，只是个噱头。
在反欺诈中，不需要有好的解释性，神经网络在这方面这方面使用的比较多。

其实，当前在评分中，几乎没有单一的算法，都是综合处理。即使是传统的逻辑回归，针对变量的共线性分析也会采用很多方法，另外针对单一变量的分段也采用决策树来进行最优划分。
3、总结
实际上处理数据，主要包括：
1、针对数据进行数据的探索，各种统计指标，单个变量的情况分析，针对单变量的数据预处理和规范化
2、针对数据中变量和变量之间的关系进行分析
3、基于变量和变量之间的分析或者变量的分析，做出结论
4、通过原始数据验证模型和数据的吻合程度，通过新数据验证模型的预测程度
数据处理工具选择：
1、小数据量，spss比较简单好用，你可以不需要写代码，但是方法原理和结果还是要搞懂
2、中等数据量：sas不错，stat没用过
3、大数据量：Spark或者Hadoop，spark上有一些算法实现，有些算法还是要自己按照spark或者hadoop的变成模型来实现。从传统的算法变为可以在spark和hadoop上可以运行的算法也有很多工作量，需要既懂算法，又懂spark或者hadoop原理。
开发语言选择：
1、工具类，spss和sas都有自己的语言，sas在数据处理上还是很强大

2、开发类：如果只是分析，R和Python都很流行，看个人喜好；如果和程序的集成，相对来说Java更合适，虽然python集成也比较方便。

信用评分与数据挖掘－http://blog.csdn.net/everlasting_188/article/details/52294973

信用评分之一---P2P的逾期、坏账与违约定义

为“逾期”正名
所谓逾期，在金融领域是指借款人没有按照约定或承诺的时间点履行还本付息义务所导致的债务延期现象，说白了，就是借了钱，没有在说好的时间还，之前主要应用于银行贷款和信用卡领域。
对银行来说，逾期是指借款方在银行规定的最后还款日或缴息日，未能及时足额还款或缴息的情形。通常出现这种情况，银行会将借款方暂时列为催收对象，并于7日内打电话提醒，借款方如果在7日内补足，银行一般不会收取滞纳金，但如果超过7天仍未缴款，银行就会将这笔贷款正式列为“催收”并收取滞纳金。
信用卡逾期不是指到了最后还款日不还，而是到了下个月账单日不还才算逾期，一旦持卡人逾期，银行会从次日起按每天万分之五计息，逾期会计复利，因此逾期时间越长，每日利息就会越高。
在P2P行业，逾期率并没有一个统一的计算标准，目前使用率比较高的标准出自中国小额信贷联盟P2P行业委员会发布的《个人对个人(P2P)小额信贷信息咨询服务机构行业自律公约》，计算公式是“逾期90天以上的未还剩余资本金总额/可能产生90天+预期累计合同总额”，也就是说，当前已经产生90天以上的逾期，是分子，剩余的有可能产生的90天以上的逾期，是分母，而那些不可能产生90天以上逾期的，则被剔除在分母之外(如那些到期日期至当前不足90天或当前还处于正常借款期内的借款)。
翻阅P2P平台的季报、半年报、年报等信息，我们会发现这类报告格式普遍简洁明了，多以可视化形式展现。其中，披露的内容主要集中于累计成交额、注册用户数、为投资者赚取收益、平均年化收益等可以给平台增光添彩的部分，而对于逾期率、坏账率、营业收入、净利润等指标多有意绕过。目前，会在报告中正规、真实披露相关内容的多为在海外或新三板上市的平台。
除了避而不谈，还有一些平台故意压低逾期率等指标的比例，当然，这其中包括了合理压低与恶意压低两种。合理压低有以下几种方法：1、因为平台上线时间很多，所有借款都未到期，所以对外宣称自己逾期率为零;2、由第三方担保的平台，担保公司代偿的部分不计入逾期率;3、平台抵押类项目，因为有足值抵押物，所以不计入逾期率;4、平台用自有资金或风险拨备把逾期借款换上。恶意压低主要指不合理的扩大逾期率的分母，手段包括：1、将历史以来所有的成交额作为分母;2、将所有待收作为分母，这样逾期率看起来都会很低。
今年3月，当时还未正式挂牌的中国互联网金融协会曾出台一份《互联网金融信息披露规范(初稿)》，其中对P2P从业机构的应披露内容做了要求，其中就包括了累计违约率、平台项目逾期率、近三月项目逾期率、借款逾期金额、代偿金额、借贷逾期率、借贷坏账率等运营信息。6月，上海互金行业协会发布P2P平台信息披露工作指引，要求P2P会员单位定期披露主体、产品、业务、财务和其他等五大类49项信息，其中也包括了交易逾期情况、主要产品90天以上逾期金额和90天以上逾期率。
在此，希望监管层能够尽早对P2P平台逾期率的计算方法和披露方式进行出统一、规范的要求和标准，这将对P2P行业的健康发展起到很大帮助。
坏账与违约
不少分析P2P的文章中，往往将预期与坏账不加分辨或直接等同，这是不对的，实际上两者是有区别的。逾期的意思，上文已经解释，其重要的时间点是超过90天以上，也就是三个月左右。而坏账是在逾期的基础上，在对借款方进行了相关的催收等资产处置工作后，债权人依然无法收回本息，且在今后一段时间内都可能无法收回本息，在P2P行业内，这个时间段是超过120天。所以说，逾期并不意味着坏账。
所谓违约，是指借款方未能按照借款合同上的约定，偿还贷款本息，这是一个覆盖性更广的概念，逾期和坏账，其实都属于违约，因为它们都没有遵守合同上的约定时间还款。两者的区别是，逾期虽然没有遵守还款时间，但是在超过还款期限后的90天-120天这个时间段内还是还了，而坏账则是超过约定还款日期120天后还是没有还款，而且有可能一直不会还了。

转载于：http://blog.csdn.net/everlasting_188/article/details/51768611

信用评分之二--信用评分中的评分卡中的A卡、B卡和C卡

A卡（Application score card）申请评分卡
B卡（Behavior score card）行为评分卡
C卡（Collection score card）催收评分卡
评分机制的区别在于：
1.使用的时间不同。分别侧重贷前、贷中、贷后；
2.数据要求不同。A卡一般可做贷款0-1年的信用分析，B卡则是在申请人有了一定行为后，有了较大数据进行的分析，一般为3-5年，C卡则对数据要求更大，需加入催收后客户反应等属性数据。
3.每种评分卡的模型会不一样。在A卡中常用的有逻辑回归，AHP等，而在后面两种卡中，常使用多因素逻辑回归，精度等方面更好。

评分卡是综合个人客户的多个维度信息（如基本情况、偿债能力、信用状况等，重点关注借贷意愿、偿债能力、还款意愿），基于这些信息综合运用数学分析模型，给个人综合评分，判断违约的可能性的工具。
生活中存在许多“显性”或“隐性”的“评分卡”。例如：选购汽车--综合价格、油耗、安全系数、性能、外观等来因素。买还是不买？包括之前小编实习中参与的车联网交通数据清理，如何评价车主是否为“中国好司机”会涉及到车辆是否绿色出行（早晚高峰、周末是否出行），车主的驾驶行为（是否疲劳驾驶、是否夜间驾驶、急加速急转弯百公里次数等）以及月出行次数的合理程度等。
就分析方法发而言，现在分类算法有很多种，决策树，逻辑回归，支持向量机，神经网络等等，都可以实现这个目的。但要明确一点是：数据是决定模型的核心，什么样的数据决定什么样的模型。

转载于：http://blog.csdn.net/everlasting_188/article/details/52084094

信用评分之三--逻辑回归中的统计方法

逻辑回归汇总的变量选择
1、使用所有的变量：这是拟合模型的最简单的方法；
2、正向选择：这种模型如要如下步骤。第一步，用截距对模型进行拟合，接下来，检验没有纳入模型的变量并选择卡方统计量最大、符合进入条件的变量，这个条件可以通选选项SLE确定。一旦这个变量被纳入模型就不会被移出，重复这个过程知道所有变量纳入。
3、逆向选择：与正向相反，第一步，使用所有的变量进行拟合，然后，在每一步，移出Wald卡方统计量P值最大的变量，一旦移出，将不会纳入。
4、 stepwise选择：刚开始模型只有截距项，正向选择最优，逆向选择最差，通过SLE和SLS的值控制纳入和移出模型变量的p值。
5、得分最有统计模型：最优得分法与stepwise方法相似，但是使用分支界定算法找出木偶性的分数统计量最高变量的子集，从而找出最优解。
相关方法
MLE极大似然估计
极大似然原理的直观想法是：一个随机试验如有若干个可能的结果A，B，C，…。若在仅仅作一次试验中，结果A出现，则一般认为试验条件对A出现有利，也即A出现的概率很大。一般地，事件A发生的概率与参数a相关，A发生的概率记为P(A，a)，则a的估计应该使上述概率达到最大，这样的a顾名思义称为极大似然估计。
极大似然估计是能沟通通过模型以最大概率在线样本观察数据，逻辑回归模型主要使用极大似然法来进行估计
SLE
sas中在变量选举进入的参数，SLE(sets criterion for entry into model) 是变量进入模型的标准即统计意义水平值P<0.3，是定逻辑回归中变量纳入的主要条件。
SLS
sas中在变量选举进入的参数，SLS(sets criterion for staying in model)是变量在模型中保留的标准即统计意义水平值P<0.3，是定逻辑回归中变量保留的主要条件。逻辑回归变量进入后，因为新的变量进入导致老的变量对整个模型的贡献不足，从中移出的阀值。
卡方校验
原理
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，卡方值越大，越不符合；卡方值越小，偏差越小，越趋于符合，若两个值完全相等时，卡方值就为0，表明理论值完全符合。
卡方检验的两个应用是拟合性检验和独立性检验。拟合性检验是用于分析实际次数与理论次数是否相同，适用于单个因素分类的计数数据。独立性检验用于分析各有多项分类的两个或两个以上的因素之间是否有关联或是否独立的问题。
应用场景
卡方校验的场景
1.应用实例——适合度检验
　　实际执行多项式试验而得到的观察次数，与虚无假设的期望次数相比较，称为卡方适度检验，即在于检验二者接近的程度，利用样本数据以检验总体分布是否为某一特定分布的统计方法。
2.应用实例2——独立性检验
　　卡方独立性检验是用来检验两个属性间是否独立。一个变量作为行，另一个变量作为列。
3．应用实例3——统一性检验
　　检验两个或两个以上总体的某一特性分布，也就是各“类别”的比例是否统一或相近，一般称为卡方统一性检验或者卡方同质性检验。
具体参考例子
见文档：http://wiki.mbalib.com/wiki/%E5%8D%A1%E6%96%B9%E6%A3%80%E9%AA%8C

卡方分布与皮尔逊卡方检验的关系
摘录自知乎，总结的比较到位
我们知道，从正态分布里随机抽取n个值的平方的和构成了自由度为n-1的卡方分布，在使用卡方分布表进行假设检验时，我们需要用样本方差除总体方差进行标准化。现在的问题是使用皮尔逊卡方检验的时候，为什么用的不是总体方差进行标准化，而是使用理论频数进行标准化？
理论证明，实际观察次数（fo）与理论次数（fe），又称期望次数）之差的平方再除以理论次数所得的统计量，近似服从卡方分布。所以用理论次数标准化
模型选择的几种方法：AIC，BIC，HQ准则
引用：http://blog.csdn.net/xianlingmao/article/details/7891277
经常地，对一堆数据进行建模的时候，特别是分类和回归模型，我们有很多的变量可供使用，选择不同的变量组合可以得到不同的模型，例如我们有5个变量，2的5次方，我们将有32个变量组合，可以训练出32个模型。但是哪个模型更加的好呢？目前常用有如下方法：
AIC=-2 ln(L) + 2 k 中文名字：赤池信息量 akaike information criterion
BIC=-2 ln(L) + ln(n)*k 中文名字：贝叶斯信息量 bayesian information criterion
HQ=-2 ln(L) + ln(ln(n))*k hannan-quinn criterion
其中L是在该模型下的最大似然，n是数据数量，k是模型的变量个数。
注意这些规则只是刻画了用某个模型之后相对“真实模型”的信息损失【因为不知道真正的模型是什么样子，所以训练得到的所有模型都只是真实模型的一个近似模型】，所以用这些规则不能说明某个模型的精确度，即三个模型A, B, C，在通过这些规则计算后，我们知道B模型是三个模型中最好的，但是不能保证B这个模型就能够很好地刻画数据，因为很有可能这三个模型都是非常糟糕的，B只是烂苹果中的相对好的苹果而已。
这些规则理论上是比较漂亮的，但是实际在模型选择中应用起来还是有些困难的，例如上面我们说了5个变量就有32个变量组合，如果是10个变量呢？2的10次方，我们不可能对所有这些模型进行一一验证AIC, BIC，HQ规则来选择模型，工作量太大。
总结
逻辑回归比较复杂，推荐《Logistic回归模型——方法与应用》王济川郭志刚著，这本书不错

转载于：http://blog.csdn.net/everlasting_188/article/details/51603530

信用评分之四--What Is a Hard Inquiry?(Fico信用查询之“硬查询”)

您或许听说过一次硬查询可能使您的信用记录受影响。但是您可能并不知道这到底是为什么，到底什么是硬查询？

　　(因审核贷款业务申请原因而查询信用报告叫硬查询。如贷款审批、信用卡审批。)
　　理解硬查询如何进行至关重要：通过低息贷款购物可以为您省钱。但是如果您忘了按时还款，很可能会在信用查询时为您的信用减分，使您之后的借款利率升高。对于类似车贷、房贷这样的大额贷款来说，哪怕信用分只降了一点，都意味着贷款人将支付更高的利率，进而导致您在还贷期支付更多的利息。所以避免不必要的违约其实是为自己省钱。
　　在您查询信用信息时，会标注在贷款人信用报告里。比如说您申请一项汽车贷款，借款方通过Experian征信公司调用了您的信息记录和FICO分数。“您的信用信息被一家特定公司使用了”这一记录将记录在您的Experian公司报告中，标注了索取报告的公司名以及查询的方式。
　　在我们谈论硬查询如何工作的细节之前，宏观的判断很重要。除非您真的是一个重度刷卡消费者（不止是一时使用），硬查询不会对您的信用分造成多大的影响。“建立新的信用账户”占到您FICO信用评分的10%，查询只是这类中的一部分。所以单次查询不会使您的信用分降低5分以上，但这只是在硬查询时，而且有一些限制条件。
　　另外，这样的一次询价将在您的信用记录上保留两年，但是只有一年内的记录会对您的FICO信用分产生影响，至少现在大部分评分模型是这样设计的。而过久的查询记录早已被忽略。
　　硬查询 VS. 软查询
　　硬查询是那些会影响您信用评分的查询行为，他们表明您正在积极地获取信用额度，不管是车贷、抵押、学生贷款还是信用卡贷款。
　　恰恰相反，软查询并不是为使用信用卡或贷款购物而发生，不会影响您的信用评分。比如说，如果一个借款人给您发来一个预授权的信用额度，这样的查询被称为“奖励”查询，是一种软查询。这时当您查询自己的信用评分时，也会被定义为软查询。类似的，如果您已经持有一张信用卡或者得到一笔贷款，征信公司将不定期地查询您的账户，而这种查询将不会记录在您的信用报告中。
　　雇主或者保险公司出于对您信用分数的计算目的而进行的查询也不会被记录。
　　避免信用损失
　　有几种方式来最小化您因为硬查询而导致的个人信用损失。
　　做好决定再出手：正在寻找一份按揭贷款，车贷，或是学生贷款？请在两周的时间内完成所有消费。这样的话，所有申请仅算作一次查询。因为大部分信用评分模型会把14到45天内的查询行为统一视为一次（具体时间取决于被使用的是哪种模型）。
　　时刻监控您的信用账户：在您要使用信用消费之前检查一下您的信用报告和信用评分。然后做些功课，申请您最有可能得到的贷款额。通过Credit.com的免费信用报告卡，您能每月免费查看您的信用分数。在查看期间，我们会根据您的个人信用档案和信用评分为您推荐适合您的信用卡和贷款项目，您帮助您省钱。
　　谁在访问我的信用账户
　　您阅览您的信用报告时，您会看到一个查询清单，但是您不会看到清单中的公司名字。首先确定这些查询是不是奖励询价。如果是，那么您很可能是得到了一个预授权的信用贷款，请不要担心（您可以在OptOutPrescreen.com网站上拒绝预授权）。如果不是这种情况，那么公司的联系方式一定会显示在清单上，所以您能够联系到他们。如果这些信息没有被提供，可以请信用报告代理商帮您取得。

转载于:http://blog.csdn.net/everlasting_188/article/details/51706312

信用评分之五--并行逻辑回归

逻辑回归（Logistic Regression，简称LR）是机器学习中十分常用的一种分类算法，在互联网领域得到了广泛的应用，无论是在广告系统中进行CTR预估，推荐系统中的预估转换率，反垃圾系统中的识别垃圾内容……都可以看到它的身影。LR以其简单的原理和应用的普适性受到了广大应用者的青睐。实际情况中，由于受到单机处理能力和效率的限制，在利用大规模样本数据进行训练的时候往往需要将求解LR问题的过程进行并行化，本文从并行化的角度讨论LR的实现。
1. LR的基本原理和求解方法
LR模型中，通过特征权重向量对特征向量的不同维度上的取值进行加权，并用逻辑函数将其压缩到0~1的范围，作为该样本为正样本的概率。逻辑函数为，曲线如图1。

图1 逻辑函数曲线
给定M个训练样本并行逻辑回归,其中Xj={xji|i=1,2,…N} 为N维的实数向量（特征向量，本文中所有向量不作说明都为列向量）；yj取值为+1或-1，为分类标签，+1表示样本为正样本，-1表示样本为负样本。在LR模型中，第j个样本为正样本的概率是：
其中W是N维的特征权重向量，也就是LR问题中要求解的模型参数。
求解LR问题，就是寻找一个合适的特征权重向量W，使得对于训练集里面的正样本，并行逻辑回归值尽量大；对于训练集里面的负样本，这个值尽量小（或并行逻辑回归尽量大）。用联合概率来表示：

对上式求log并取负号，则等价于：
公式(1)
公式(1)就是LR求解的目标函数。
寻找合适的W令目标函数f(W)最小，是一个无约束最优化问题，解决这个问题的通用做法是随机给定一个初始的W0，通过迭代，在每次迭代中计算目标函数的下降方向并更新W，直到目标函数稳定在最小的点。如图2所示。

图2 求解最优化目标函数的基本步骤
不同的优化算法的区别就在于目标函数下降方向Dt的计算。下降方向是通过对目标函数在当前的W下求一阶倒数（梯度，Gradient）和求二阶导数（海森矩阵，Hessian Matrix）得到。常见的算法有梯度下降法、牛顿法、拟牛顿法。
(1) 梯度下降法(Gradient Descent)
梯度下降法直接采用目标函数在当前W的梯度的反方向作为下降方向：

其中并行逻辑回归为目标函数的梯度，计算方法为：

(2) 牛顿法(Newton Methods)
牛顿法是在当前W下，利用二次泰勒展开近似目标函数，然后利用该近似函数来求解目标函数的下降方向:

其中Bt为目标函数f(W)在Wt处的海森矩阵。这个搜索方向也称作牛顿方向。
(3) 拟牛顿法(Quasi-Newton Methods)：
拟牛顿法只要求每一步迭代中计算目标函数的梯度，通过拟合的方式找到一个近似的海森矩阵用于计算牛顿方向。最早的拟牛顿法是DFP（1959年由W. C. Davidon提出，并由R. Fletcher和M. J. D. Powell进行完善）。DFP继承了牛顿法收敛速度快的优点，并且避免了牛顿法中每次迭代都需要重新计算海森矩阵的问题，只需要利用梯度更新上一次迭代得到的海森矩阵，但缺点是每次迭代中都需要计算海森矩阵的逆，才能得到牛顿方向。
BFGS是由C. G. Broyden, R. Fletcher, D. Goldfarb和D. F. Shanno各自独立发明的一种方法，只需要增量计算海森矩阵的逆Ht=Bt-1，避免了每次迭代中的矩阵求逆运算。BFGS中牛顿方向表示为

L-BFGS(Limited-memory BFGS)则是解决了BFGS中每次迭代后都需要保存N*N阶海森逆矩阵的问题，只需要保存每次迭代的两组向量和一组标量即可：

在L-BFGS的第t次迭代中，只需要两步循环既可以增量计算牛顿方向：

2. 并行LR的实现
由逻辑回归问题的求解方法中可以看出，无论是梯度下降法、牛顿法、拟牛顿法，计算梯度都是其最基本的步骤，并且L-BFGS通过两步循环计算牛顿方向的方法，避免了计算海森矩阵。因此逻辑回归的并行化最主要的就是对目标函数梯度计算的并行化。从公式(2)中可以看出，目标函数的梯度向量计算中只需要进行向量间的点乘和相加，可以很容易将每个迭代过程拆分成相互独立的计算步骤，由不同的节点进行独立计算，然后归并计算结果。
将M个样本的标签构成一个M维的标签向量，M个N维特征向量构成一个M*N的样本矩阵，如图3所示。其中特征矩阵每一行为一个特征向量（M行），列为特征维度（N列）。

图3 样本标签向量 & 样本矩阵
如果将样本矩阵按行划分，将样本特征向量分布到不同的计算节点，由各计算节点完成自己所负责样本的点乘与求和计算，然后将计算结果进行归并，则实现了“按行并行的LR”。按行并行的LR解决了样本数量的问题，但是实际情况中会存在针对高维特征向量进行逻辑回归的场景（如广告系统中的特征维度高达上亿），仅仅按行进行并行处理，无法满足这类场景的需求，因此还需要按列将高维的特征向量拆分成若干小的向量进行求解。
(1) 数据分割
假设所有计算节点排列成m行n列（m*n个计算节点），按行将样本进行划分，每个计算节点分配M/m个样本特征向量和分类标签；按列对特征向量进行切分，每个节点上的特征向量分配N/n维特征。如图4所示，同一样本的特征对应节点的行号相同，不同样本相同维度的特征对应节点的列号相同。

图4 并行LR中的数据分割
一个样本的特征向量被拆分到同一行不同列的节点中，即：

其中Xr,k表示第r行的第k个向量，X(r,c),k表示Xr,k在第c列节点上的分量。同样的，用Wc表示特征向量W在第c列节点上的分量，即：

(2) 并行计算
观察目标函数的梯度计算公式(公式(2)),其依赖于两个计算结果：特征权重向量Wt和特征向量Xj的点乘，标量和特征向量Xj的相乘。可以将目标函数的梯度计算分成两个并行化计算步骤和两个结果归并步骤
① 各节点并行计算点乘，计算并行逻辑回归，其中k=1,2,…,M/m，d(r,c),k,t表示第t次迭代中节点(r,c)上的第k个特征向量与特征权重分量的点乘，Wc,t为第t次迭代中特征权重向量在第c列节点上的分量。
② 对行号相同的节点归并点乘结果

计算得到的点乘结果需要返回到该行所有计算节点中，如图5所示。

图5 点乘结果归并
③ 各节点独立算标量与特征向量相乘

G(r,c),t可以理解为由第r行节点上部分样本计算出的目标函数梯度向量在第c列节点上的分量。
④ 对列号相同的节点进行归并：

Gc,t就是目标函数的梯度向量Gt在第c列节点上的分量，对其进行归并得到目标函数的梯度向量：

这个过程如图6所示。

综合上述步骤，并行LR的计算流程如图7所示。比较图2和图7，并行LR实际上就是在求解损失函数最优解的过程中，针对寻找损失函数下降方向中的梯度方向计算作了并行化处理，而在利用梯度确定下降方向的过程中也可以采用并行化（如L-BFGS中的两步循环法求牛顿方向）

3. 实验及结果
利用MPI，分别基于梯度下降法（MPI_GD）和L-BFGS（MPI_L-BFGS）实现并行LR，以Liblinear为基准，比较三种方法的训练效率。Liblinear是一个开源库，其中包括了基于TRON的LR（Liblinear的开发者Chih-Jen Lin于1999年创建了TRON方法，并且在论文中展示单机情况下TRON比L-BFGS效率更高）。由于Liblinear并没有实现并行化（事实上是可以加以改造的），实验在单机上进行，MPI_GD和MPI_L-BFGS均采用10个进程。
实验数据是200万条训练样本，特征向量的维度为2000，正负样本的比例为3:7。采用十折交叉法比较MPI_GD、MPI_L-BFGS以及Liblinear的分类效果。结果如图8所示，三者几乎没有区别。

将训练数据由10万逐渐增加到200万，比较三种方法的训练耗时，结果如图9，MPI_GD由于收敛速度慢，尽管采用10个进程，单机上的表现依旧弱于Liblinear，基本上都需要30轮左右的迭代才能达到收敛；MPI_L-BFGS则只需要3~5轮迭代即可收敛（与Liblinear接近），虽然每轮迭代需要额外的开销计算牛顿方向，其收敛速度也要远远快于MPI_GD，另外由于采用多进程并行处理，耗时也远低于Liblinear。

图9 训练耗时对比
转载于： http://blog.sina.com.cn/s/blog_6cb8e53d0101oetv.html

信用评分之六--逻辑回归模型梯度下降法跟牛顿法比较

1、综述
机器学习的优化问题中，梯度下降法和牛顿法是常用的两种凸函数求极值的方法，他们都是为了求得目标函数的近似解。梯度下降的目的是直接求解目标函数极小值，而牛顿法则变相地通过求解目标函数一阶导为零的参数值，进而求得目标函数最小值。在逻辑回归模型的参数求解中，一般用改良的梯度下降法，也可以用牛顿法。
2 梯度下降法
2.1算法描述
1、确定误差范围和下降的步长,确定函数的导函数
2、while(|新值 -旧值| >误差）
3、旧值=新值
4、新值=初始值-步长*导函数值，来进行梯度下降
算法的一些问题：每一步走的距离在极值点附近非常重要，如果走的步子过大，容易在极值点附近震荡而无法收敛。解决办法：将alpha设定为随着迭代次数而不断减小的变量，但太小会导致迭代次数很多。
2.2、java代码示例
代码转自：http://www.lailook.net/klxx/04/2016-01-05/51426.html
[java] view plain copy

* 梯度下降算法，求解 f(x)=x^4-3x^3+2 最小值

* 导数为: f'(x)=4x^3-9x^2

* @author Zealot

* @date 2015年12月13日

public class GradientDescent {

// 经过计算, we expect that the local minimum occurs at x=9/4

double x_old = 0;

static double x_new = 6; // 从 x=6 开始迭代

double gamma = 0.01; // 每次迭代的步长

double precision = 0.00001;//误差

static int iter = 0;//迭代次数

//目标函数的导数

private double derivative(double x) {

return 4 * Math.pow(x, 3) - 9 *Math.pow(x, 2);

}

private void getmin() {

while (Math.abs(x_new - x_old) > precision){

iter++;

x_old = x_new;

x_new = x_old - gamma * derivative(x_old);

}

}

public static void main(String[] args) {

GradientDescent gd = new GradientDescent();

gd.getmin();

System.out.println(iter+": "+x_new);

}

}

3、牛顿法
3.1算法描述
求解f(x)=0，如果f(x)可导，等价为迭代x = x-f(x)/f'(x)的最小值，算法如下:
输入：初始值x0，误差荣制TOL；最大迭代次数m
输入: 近似解p或者失败信息
1、 p0=x0
2、while (小于迭代次数）
3、 p= p0-f(p0)/f'(p0)
4、若|p-p0| 3.2例子

4、参考文档
机器学习中梯度下降法跟牛顿法的比较
http://www.myexception.cn/cloud/1987100.html
梯度下降法（一）入门
http://blog.csdn.NET/nupt123456789/article/details/8281923
Java实现梯度下降算法
http://blog.csdn.Net/nupt123456789/article/details/8281923
梯度下降、牛顿法、拟牛顿法
http://blog.csdn.net/luo86106/article/details/40510383
讲解更深入和详细的如下：
梯度下降法与牛顿法的解释与对比
http://www.cnblogs.com/happylion/p/4172632.html
牛顿法、雅克比矩阵、海森矩阵
http://blog.csdn.net/ubunfans/article/details/41520047

信用评分之七--逻辑回归中的虚拟变量设置

系列文章收集在比特币与互联网金融风控专栏中
虚拟变量定义
在实际建模过程中，被解释变量不但受定量变量影响，同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。
由于定性变量通常表示的是某种特征的有和无，所以量化方法可采用取值为1或0。这种变量称作虚拟变量，用D表示。虚拟变量应用于模型中，对其回归系数的估计与检验方法与定量变量相同。
虚拟变量对模型的意义
通常，我们假设的因变量与自变量之间的关系既是线性的，又是可以叠加，如果这些假设条件被违背，参数估计将发生偏差。
将连续变量分成不同组表并用一套虚拟变量来表达，这不仅有助于检查这一变量的非线性模式，还提供在非线性关系存在条件下的无偏参数估计，这实际上是在建立回归模型时对方非线性关系的一个常用的方法。
如何设置虚拟变量
虚拟变量通常是对无序分类资料而言。在线性回归中，如果自变量中有分类变量，那么一定要事先把这些分类变量事先重新编码，生成多个二分类虚拟变量。
在模型中引入多个虚拟变量时，虚拟变量的个数应按下列原则确定：
（1）如果回归模型有截距项
有m种互斥的属性类型，在模型中引入（m-1）个虚拟变量。
（2）如果回归模型无截距项，有m个特征，设置m个虚拟变量
虚拟变量在计算广告和信用评分中很常用。
人大经济论坛这个例子讲的非常好
http://bbs.pinggu.org/thread-3702024-1-1.html
假如现有4个省份，分别是山西，山西，江苏，江西，要纳入到模型中。
理解虚拟变量的真正含义：是要体现出不同省份之间的差异，而并不是所谓的控制变量。而其要充分理解多元线性回归当中参数估计量的真正含义：是偏回归系数，即自变量的边际量，表明了在其他条件不变的情况下，自变量每增加一个单位因变量的变化。
如果按照你的理解假设X为地区变量，X的取值为1代表山西；2代表陕西；3代表江苏；4代表江西，那么回归完了以后如何来解释X前面的参数：X前面的参数表示X每增加一个单位因变量增加多少，而此时按照X的取值，陕西和山西之间相差一个单位，陕西和江苏之间也是差一个单位、江苏和江西之间也差一个单位，那么这个系数究竟是说明陕西和山西之间的差别呢？还是陕西和江苏还是江苏和江西之间的差别呢？这显然无法解释。还有X前面的回归参数是一个常数，那么就是说陕西和山西、陕西和江苏、江苏和江西之间因变量的差异是相同的，这显然是不合理的。
要把四个省份用数值区分开来，用1，2，3，4呢？那用10，20，30，40也可以，那样的话参数估计量就更没法解释。所以，虚拟变量的定义一定是按照1和0来定义，即是就等于1，不是就等于0，比如，假设模型中有常数项，那么可以定义3个虚拟变量，D1为陕西（是陕西D1=1,不是陕西D1=0）；D2为江苏（是江苏D2=1，不是江苏D2=0）；D3为江西（是江西D3=1，不是江西D3=0），那么山西呢？如果D1,D2,D3都同时为0，肯定就是山西了，这样回归之后D1前面的参数表明了陕西与山之间的差别；D2前面的参数表明了江苏与山西之间的差异；D3前面的参数表明了江西与山西之间的差异，参数的经济意义非常明确。从深层次上讲虚拟变量模型实际上是解决了方差分析只能说明不同省份之间有无差异，而不能说明不同省份之间的这种差异究竟有多大的问题。
spss中设置虚拟变量
http://cos.name/cn/topic/306/
摘要
如果自变量是多分类的，如果数据类型是（ordinal）整序变量，则不用设置哑变量，如果是多分类名义变量（观测类型是norminal）则必须设置哑变量，SPSS会自动设置，但具体设置也可以自己选择，一般默认的情况下，是以最后一个组为对照组。
ordinal的时候，和nomial会有比较大的不同的处理方式，可以参考专门讲ordinal变量分析的资料，或者logistic方面的资料，总之要谨慎使用。

你可能感兴趣的:(信用评分与数据挖掘)

钰泰ETA3000电池均衡IC 展嵘-杨 15909469118 正则表达式单片机嵌入式硬件
描述ETA3000是电池平衡IC，可面向上下两串电池组，其可以通过无限级联，实现3节-24节动力电池组的均衡，ETA3000是主动开关式均衡，其均衡电流可以达到1.5A。ETA3000是钰泰半导体独有专利池内的新型电池均衡器，与传统的无源平衡技术不同，ETA3000利用具有电感器的控制方案来在两个电池之间source和sink电流，直到相邻两节电池电势均等。在传统的线性平衡技术中，会产生较大功耗，
主推ETA产品
ETA1061是一款1uA超低待机功耗的同步升压转换器，集成了上、下侧功率管，提供5.0V输出或自定义电压调节。ETA1038是一款高效同步升压转换器，可从低电压源提供高达1.5A的升压输出，最高可达5V。它集成了在关断、短路、输出电流过载或输出高于输入的其他事件期间断开输入与输出的电路ETA1090高频同步升压转换器，能够在5V输出下从3.6V输入提供高达3A的输出电流。ETA1189是一种从宽
WIFI7新特性浅析及Linux内核对其的支持 winter91 Linux NetWork linux WIFI
WIFI7新特性浅析及Linux内核对其的支持|DD'NotesWIFI7新特性浅析及Linux内核对其的支持wifi7新特性Wi-Fi7（IEEE802.11be）作为下一代无线网络标准，在速度、延迟、容量和稳定性等方面实现了显著提升。以下是其核心新特性：1.更高带宽与速率320MHz信道带宽支持连续320MHz或非连续160+160MHz带宽（6GHz频段），相比WiFi6的160MHz实现速
明天的明天你还要如此？ 88兰猫
六年前你就想做出的决定却推迟到现在还没有去执行，你还指望下一个六年会是什么样子？你希望时光刻在你脸上的是木纳无神，还是坚毅与睿智？我想，没有人会选择前者。曾经，昨天的昨天，你许下了一个愿望，立下多个大志。当到了昨天的未来却没能实现几个，那你明天的明天还要如此吗？人生是没有多少个明天的。为什么会如此？我们应该多问几个“为什么”。一眼就看到头的未来你不能要！真实的现实是你根本不知道下一秒钟会发生什么，
“空中的士”上架淘宝工业品后,要登录交个朋友淘宝直播间? 氧惠爱高省
3月20日消息，交个朋友官微发文宣布，20日晚上七点，全球首个获得适航认证的“飞行的士”将亮相交个朋友淘宝直播间。据悉，这款无人驾驶载人航空器可搭载两人，长6.05米，宽5.73米，高1.93米，由16个螺旋桨组成，为全智能无人驾驶航空器，能够垂直起降，主要在低空空域飞行。通过【氧恵】APP，可以免费领取淘宝及各大电商隐藏优惠券及返利，还能分享赚钱，与朋友一起享受购物乐趣！【氧恵邀请码：00088
C++-linux 7.文件IO（二）文件描述符、阻塞与非阻塞 HHRL-yx C++-linux系统编程 linux c++服务器
文件IO进阶：文件描述符、阻塞与非阻塞在前文我们介绍了文件IO的核心系统调用，本章将深入探讨Linux文件IO的底层机制，包括文件描述符的本质、阻塞与非阻塞IO模型、文件偏移量控制（lseek）以及系统调用中的参数传递规则，帮助你构建更完整的系统编程知识体系。一、文件描述符：进程与文件的桥梁在Linux系统中，当我们打开或创建一个文件（或套接字）时，操作系统会提供一个文件描述符（FileDescr
高省官方邀请码是多少？(附靠谱的高省app邀请码及获取与填写方法)汇总桃朵十三
在数字经济的浪潮下，各类购物应用层出不穷，而高省APP以其独特的购物赚佣金模式，在众多应用中脱颖而出。为了更好地体验高省app，请填写高省邀请码【GQ6H92】。特别提醒，龙年最新高省邀请码【GQ6H92】是全网唯一且专属于技术指导老师的码。正确填写后，您将直接提升至2皇冠总裁等级，并获得价值百万的引流技术推广绝密大礼包。《桃朵导师GQ6H92》也在后台为您准备，欢迎加入高省官方群与更多用户交流。
打球心得经书
今年开始与金沙洲医院的医生一起打羽毛球了，我们每周五晚上6-8点打两个小时。刚开始时，参加的人数不少，后来慢慢的去的人也开始固定了，就那么七八个人，然后双打轮流上。这几个月的时间，是我自从毕业后运动最多的日子，以前在昆明和来广州的一年都没有持续的锻炼，只有隔三差五的运动，所以身体体质也不是很好。羽毛球是我一直在玩的运动，从小时候到现在，一直没间断过。羽毛球是全民运动，大家都会打几下，但是业务与专业
推荐算法召回：架构理解 Jay Kay c++推荐算法推荐算法架构算法
一、召回服务的定位与挑战召回层是推荐系统的第一道漏斗，负责从亿级候选集中筛选出千级别的相关项，其效果直接决定推荐效果的天花板。核心挑战包括：低延迟约束：需在50ms内完成海量候选检索；高召回率要求：98%的召回率需覆盖用户多样化兴趣；数据漂移应对：实时用户行为分布变化需动态适应；误杀控制：避免优质内容被过度过滤引发用户投诉。⚙️二、召回服务核心架构1.多路召回并行召回策略实现方式适用场景规则召回基
A*算法详解
A*算法详解一、A*算法基础概念1.1算法定位1.2核心评估函数1.3关键数据结构二、A*算法的核心步骤三、启发函数设计3.1网格地图中的启发函数3.2启发函数的选择原则三、Java代码实现四、启发函数的设计与优化4.1启发函数的可采纳性4.2启发函数的效率影响4.3常见启发函数对比五、A*算法的应用场景与拓展5.1典型应用5.2算法拓展六、A*算法的优缺点优点缺点从游戏中的角色寻路到机器人导航，
分层图最短路径算法详解 GG不是gg 数据结构与算法分析 #算法分析与设计图搜索算法
分层图最短路径算法详解一、分层图算法的核心思想1.1问题引入：带约束的最短路径1.2分层图的核心思路二、分层图的构建方法2.1分层图的结构定义2.2构建步骤（以“最多k次边权改为0”为例）三、分层图最短路径的求解3.1算法步骤3.2Java代码实现（以Dijkstra为例）四、分层图算法的关键细节4.1状态表示与空间优化4.2边的处理4.3复杂度分析五、典型应用场景5.1带次数约束的路径优化5.2
SmartX 用户建云实践｜明日控股：构建基于超融合架构的企业云平台，逐步推进数字化转型
作为全国塑化分销领域的领先企业，明日控股近年来在数字化转型上持续加码。面对业务扩张与产业协同的双重挑战，明日控股自2018年全面启动“数字化、金融化、国际化”三化战略，并将“数字化”置于最核心的位置。在IT基础架构层面，明日控股通过引入SmartX榫卯企业云平台*，完成了从传统ERP管理系统到云原生微服务架构平台的演进，推动单一平台向统一企业级私有云的基础设施转型。通过三期云平台建设，明日控股以榫
2022-07-01 T_1315759305
问一个人天空是什么颜色，答案往往是蓝色，晴空万里，正希望如我们的心情一样，积极而阳光，但当我们自己于忙碌中抬头仰望时，却发现更多是灰色或者黑色，乌云密布，阴雨绵绵，况且肩上来源于生活，工作各方面的禁锢与束缚早已剥夺了我们许多抬头仰望的时间与权利，相比于天气与衣服的搭配，我们更关注于锅里的鸡蛋是否已经熟透，手机的电量是否足够，地铁列车里的空间是否还富裕。厨房里的炊具总能先于我们尝遍食物的味道，在经历
MySQL 索引详解：从原理到实战的全方位指南一切皆有迹可循 mysql mysql 数据库后端 java sql
前言索引是MySQL高性能查询的核心驱动力，合理设计索引能将查询性能提升几个数量级，而不当使用则可能导致严重的性能瓶颈。本文从索引的基础概念出发，深入解析数据结构、分类特性、设计原则及实战优化，帮助开发者掌握索引的核心原理与最佳实践。一、索引基础概念1.索引定义与本质索引是存储引擎用于快速查找数据的一种数据结构，本质是「数据项→数据地址」的映射表类比：相当于书籍的目录，通过目录（索引）快速定位章节
MySQL 锁详解：从原理到实战的并发控制指南一切皆有迹可循 mysql mysql 数据库后端 java sql
前言在高并发场景下，锁是MySQL保证数据一致性的核心机制。正确理解锁的类型、行为及适用场景，能有效避免数据竞争、死锁等问题，是构建可靠数据库应用的关键。本文从锁的分类、存储引擎差异到实战优化，结合代码示例，系统解析MySQL锁机制的核心原理与最佳实践。一、锁分类：按粒度与功能划分1.按锁粒度划分（1）全局锁（GlobalLock）作用范围：锁定整个数据库实例典型场景：全库逻辑备份（FLUSHTA
拉姆拉措圣湖遐想渭水湾湾
第一次听到有关拉姆拉措圣湖的故事，内心一阵阵热浪席卷而来，莫名的震撼与感动不断的交织。图片发自App以前看了《酥油》，总想去藏区支教，去追寻仓央嘉措的足迹，希翼能在美丽的青海湖畔邂逅世间最美的新娘，像他一样有段令人艳羡的美好爱情。就这样时光正好，相伴到老，但终究败给了现实，也一直未能前往。图片发自App突然今天听到了有关拉姆拉措的故事，我的心又被重燃起来，很想去看看，不为前世的深情回眸，也不为来世
Tomcat生命周期原理深度剖析
Tomcat生命周期原理深度剖析本文围绕Tomcat生命周期机制，结合架构图、源码精讲、设计思想、实际案例、调优技巧等全方位解读，帮助读者系统掌握Tomcat生命周期的本质与应用。一、Tomcat生命周期概述Tomcat作为JavaWeb服务器的代表，其架构中每个核心组件（如Server、Service、Engine、Host、Context、Wrapper等）都拥有独立的生命周期。Tomcat通
2018国庆之旅（一）车之旅陌上花开qzy
9.30晚上孙梅打电话：明天上午我去替你值班，你安心去旅游！感动之余当然是安心出行。坐上“青岛――额济纳”的专列，一路向西，直抵与外蒙接壤的策克口岸……火车是绿皮车，黄金周特开的山东专列。想像一下，青山绿水中，火车蜿蜒穿行，靠在窗边，心无旁骛地欣赏不同地区的地貌植被……快哉？且慢，昨天下午14:30坐上车，到此时，第二天上午9:50，火车还在呼和浩特！正如导游所说：你睡一觉醒来，还在内蒙，再睡一觉
信息学奥赛-一本通-第二部分基础算法 --＞第五章搜索与回溯算法攻城丶狮 C++比赛信息算法深度优先图论 c++青少年编程
1317：【例5.2】组合的输出【题目描述】排列与组合是常用的数学方法，其中组合就是从n个元素中抽出r个元素(不分顺序且r≤n)，我们可以简单地将n个元素理解为自然数1，2，…，n，从中任取r个数。现要求你用递归的方法输出所有组合。例如n＝5，r＝3，所有组合为：123124125134135145234235245345【题目分析】1.搜索函数参数:上一次搜索的数字i(i(n)>=i(n-1))
信息系统监理师·信息系统监理基础软考和人工智能学堂信息系统监理师数据库
目录一、考试定位与命题脉搏二、知识框架：一张思维导图三、四星考点速记口诀四、典型题型与秒杀套路五、2024-2025命题风向预测六、5分钟速查清单----------------------------------------------------------------一、考试定位与命题脉搏1.角色定位：国家强制监理制度下的“第三方守门人”，核心任务是“四控三管一协调”。2.命题规律：•近3年
Python 数据分析与可视化：从基础到进阶的技术实现与优化策略女码农的重启 python 数据分析开发语言
数据分析与可视化是数据科学领域的核心技能，Python凭借其丰富的库生态和灵活的编程范式，成为该领域的首选工具。本文将系统讲解Python数据分析与可视化的技术栈实现，从基础操作到性能优化，结合实战场景提供可复用的解决方案。数据分析核心库技术解析Pandas数据处理引擎原理Pandas作为数据分析的基石，其核心优势在于基于NumPy的矢量运算和高效的内存管理。与Excel的单元格级操作不同，Pan
AI-Compass宝藏资源库
AI-Compass宝藏资源库：构建最全面的AI学习与实践生态，服务AI全群体AI-Compass致力于构建最全面、最实用、最前沿的AI技术学习和实践生态，通过六大核心模块的系统化组织，为不同层次的学习者和开发者提供从完整学习路径。github地址：AI-Compass：https://github.com/tingaicompass/AI-Compassgitee地址：AI-Compass：ht
容器中敏感信息泄露路径排查与修复机制：构建、运行与发布全链条实战指南观熵 Docker Docker 安全
容器中敏感信息泄露路径排查与修复机制：构建、运行与发布全链条实战指南关键词：容器安全、敏感信息泄露、环境变量、构建路径排查、Dockerfile安全、CI/CD安全、镜像扫描、密钥管理摘要：在容器化构建与交付流程中，敏感信息泄露问题屡见不鲜，覆盖了硬编码密钥、构建残留、环境变量注入、配置文件外泄等多个维度。本文将基于真实的工程实践，梳理容器生命周期中潜在的敏感信息泄露路径，结合Trivy、Dock
【第三十二天】STM32 平台全景解析与型号选择实战指南观熵每日一练：嵌入式 C++开发 365 天 stm32 嵌入式硬件单片机学习 C++
STM32平台全景解析与型号选择实战指南关键词：STM32、MCU选型、STM32F1、STM32G4、STM32H7、Flash/RAM、外设资源、封装选型、低功耗方案、嵌入式平台摘要：STM32系列是目前嵌入式开发中应用最广泛的ARMCortex-M微控制器平台之一，覆盖从入门级控制器到高性能边缘处理器的多种应用场景。本文从STM32的平台分类、架构演进、性能指标、外设组合、功耗管理等角度展开
互联网大厂Java求职面试：基于Spring AI与云原生架构的RAG系统设计与实现在未来等你 Java场景面试宝典 Java SpringAi RAG系统云原生
互联网大厂Java求职面试：基于SpringAI与云原生架构的RAG系统设计与实现场景背景郑薪苦，一位自称“代码界的段子手”的程序员，正在参加某互联网大厂的技术总监面试。面试官是技术总监李总，拥有丰富的架构设计经验，尤其擅长AI与大模型技术、云原生架构等领域。今天的面试主题围绕企业知识库与AI大模型的深度融合架构展开，重点探讨如何设计一个高性能、可扩展的RAG（Retrieval-Augmente
2019.07.12 浅简的
姓名：蔡江燕公司：海南蔚蓝时代实业有限公司组别：365期谦虚3组学员【日精进打卡第468天】【知～学习】《六项精进》大纲0遍共1542遍《大学》0遍共1542遍《六项精进》通篇0遍共472遍《活法.壹》每天必读2页，今日未完成。《5分钟商学院》每天听书10分钟，未完成。【经典名句】路宽不如心宽，命好不如心好【行～实践】一、修身：（对自己个人）无二、齐家：（对家庭和家人）1、与家人聊天三、建功：（对
力扣 hot100 Day47 qq_51397044 Hot100 leetcode 数据结构算法
114.二叉树展开为链表给你二叉树的根结点root，请你将它展开为一个单链表：展开后的单链表应该同样使用TreeNode，其中right子指针指向链表中下一个结点，而左子指针始终为null。展开后的单链表应该与二叉树先序遍历顺序相同。//抄的classSolution{public:voidflatten(TreeNode*root){TreeNode*dummy=newTreeNode();Tr
微服务能解决高并发？高并发微服务架构详解：本质、痛点与标准化解决方案
在过去几年中，很多企业希望通过微服务架构来“提升系统性能、支撑高并发”，但在实践中却经常遇到失败的微服务改造，原因大多是对微服务的理解存在偏差。微服务从来不是为了解决高并发问题而存在的，它真正解决的是大规模系统协作标准化和演化解耦的问题。本文将结合一个真实的在线教育平台案例，详细讲解微服务架构的本质作用、技术设计与演进路径。一、微服务不是用来“抗高并发”的某大型在线教育平台在最初上线时，采用的是典
Keepalived + VIP 高可用架构设计与实践详解：实现 Nginx 入口层的高可用要阿尔卑斯吗. nginx 运维分布式架构 java
一、背景与目标在大型网站或企业系统中，“高可用性（HighAvailability,HA）”是衡量系统稳定性的关键指标之一。任何一个节点故障都不应影响整体服务的可达性。问题背景举例：Tomcat部署了集群（后端高可用）Redis配置了主从+Sentinel（缓存高可用）数据库使用了主备或分库分表（存储高可用）但入口Nginx只有一个……Nginx宕机=全站瘫痪为了解决这个“最顶层的单点问题”，我们
UGUI 性能优化系列：第三篇——渲染与像素填充率优化吉良吉影NeKoSuKi 性能优化 unity 游戏引擎 c#开发语言
在UnityUGUI性能优化之旅中，我们已经学习了基础的资源管理和Canvas与UI元素的管理。现在，我们将把目光转向更深层次的渲染层面，特别是如何优化像素填充率（PixelFillRate）。在这个环节中，Overdraw（过度绘制）是一个我们必须理解和解决的关键问题，因为它直接关系到GPU的工作效率。一、Overdraw（过度绘制）的危害与检测1.什么是Overdraw？为什么会影响性能？想象
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts