https://github.com/LeronQ/score_logistic
入门级代码,作者就一篇python把逻辑回归从数据处理到最终产生评分卡都写出来了,备注也比较清晰明了,代码没有写过多的函数,所以假设出错,调试成本也不高。
https://github.com/0zone/LogisticRegression/blob/master/LogisticRegression.py
这个代码是第一个的进阶,作者把牛顿法的实现过程用代码表示出来了,假设你用了上面那个代码效果不好,可以用下面这个代码再训练一下参数,这个代码有个缺点就是,注释很少。这个代码只是实现了逻辑回归的牛顿法拟合过程,没有前面的数据处理,数据探索,变量挑选,转化woe ,也没有后面的生成标准的评分卡。这个代码的好处就是配合牛顿法的理论,可以加深一下python代码的实现。
https://github.com/LeronQ/score_logistic
作者把每一步的代码都分文件上传,主要懂一点python的人基本都可以把这个代码跑通了,注释也比较清晰,不过这是一个两年前的项目,看到近期也没有更新了,可能会存在某些包升级,参数错误的情况,所以在跑代码的时候,报错的话,可以搜索一下原因,解决一下就好了。
https://github.com/gui1bin2/LogisticRegression
这个代码比较简单,也属于入门级的,跟第一个的区别是,这个代码模型拟合部分写的比较简洁,预测概率那部分也是简洁表达,他跟第一个都没有自动筛选变量的功能,就是你给他什么变量,他就给你出几个变量的权重,当然你可以自己写一个循环,把权重很小,或者权重不合理的变量剔掉之后再拟合。这个代码同时也没有产出评分卡的代码,最后只是有一个对数据产出预测概率而已。
以上这四个代码融和一下,再自己稍微改下,基本你自己的建模习惯的逻辑回归代码就出来了,我的习惯是我学代码的前提是,我先要看懂别人的代码,这样比我自己干写要学的快一些。接下来的这几个就是xgboost的实现代码了。
https://github.com/yongyehuang/DC-hi_guides
这是一个比赛的,作者把他打比赛以后的代码还有数据都留下来,适合想让自己的代码还属于初级,想模型和代码都有提升的情况下学习的一个项目,里面写了很多调参的函数,如果你在xgboost调参上遇到一些困难也可以在这里面找到函数去提高你的调参的效果。作者的代码都是以类的形式写的,项目是两年前的了,也是存在部分包更新,函数参数报错的情况,作者的注释也比较少,所以如果python还不是太熟的,不建议看这个代码,你会疯掉的。不过这个项目的代码真的是干货,推荐进阶的你。
https://github.com/JingChunzhen/churn_analysis_SDK
这是一个分析用户流失的程序,通过解析一个数据库形式的埋点数据,进行游戏用户流失分析,其使用方式在信用评分卡场景下是可以迁移的,他的代码结构是以函数开发好对应的功能,然后使用一个main.py的代码把这个引用功能函数,再根据具体数据,做具体的实现,项目中对其使用到的包以及镜像也写的很清楚啦。
https://github.com/R-Stalker/xgboost-python
这个xg代码要理解起来比之前两个要简单很多,前面两个就是你可以在代码里面学习一些处理技巧,你搞懂了前面两个代码之后,你感觉就是,哇擦,原来可以这么处理,好用好用。然后这个代码就是,他的归类会比较乱,但是他的注释还是比较多,理解起来要比之前两个简单,作者在readmede 文件也写的比较清晰,不知道代码在干嘛的,查下readme 大概也可以看懂了。
https://github.com/junyu-Luo/xgboos_classification
这个代码属于暖心的男孩那种感觉,因为为什么呢??他怕你不会跑,他给了数据给你了,这就是大部分要的呀,给代码还给数据给你,你跑一遍他给的数据,看每一步的产出是什么,大概就知道这个代码就在干嘛,然后再拿你自己的数据跑的时候,报错你也可以大概知道什么情况,感谢这个作者贡献的数据呀。
https://github.com/Jack-Cherish/Machine-Learning
这个项目里面包含 adaboost、决策树、逻辑回归、朴素贝叶斯、回归树、回归、支持向量机、神经网络,项目中对应的算法也有对应的代码,其中的注释也是写的非常清晰,包括理论在哪里的链接都备注了非常清晰,是你学习更多算法的一个很好的项目了,推荐5颗星啊,朋友。
https://github.com/SmallVagetable/machine_learning_python
这个项目的体贴程度比上面那个博主还要在贴心,这个项目的博主的各个模型实现代码是在自己在网上阅读之后加工的,每个代码都有py格式的也有jupyter格式,py存的是jupyter要用到的函数,jupyter保留每一步的代码结果。
往期推荐:
多分类利器-保姆级告诉你什么是SoftMax
互联网金融大洗牌之后,你还好吗?
python 系列-100条处理dataframe的语句
NLP入门之gensim包入门
python serise处理 60句 +字符串处理 40句
用户运营中的数据挖掘思考