BUPT-WT

风控特征学习笔记

总体业务建模流程:

1、将业务抽象为分类or回归问题

2、定义标签，得到y

3、选取合适的样本，并匹配出全部的信息作为特征的来源

4、特征工程 + 模型训练 + 模型评价与调优（相互之间可能会有交互）

5、输出模型报告

6、上线与监控

什么是特征？

在机器学习的背景下，特征是用来解释现象发生的单个特性或一组特性。当这些特性转换为某种可度量的形式时，它们被称为特征。

举个例子，假设你有一个学生列表，这个列表里包含每个学生的姓名、学习小时数、IQ和之前考试的总分数。现在，有一个新学生，你知道他/她的学习小时数和IQ，但他/她的考试分数缺失，你需要估算他/她可能获得的考试分数。

在这里，你需要用IQ和study_hours构建一个估算分数缺失值的预测模型。所以，IQ和study_hours就成了这个模型的特征。

特征工程可能包含的内容：

1、基础特征构造

2、数据预处理

3、特征衍生

4、特征变换

5、特征筛选

这是一个完整的特征工程流程，但不是唯一的流程，每个过程都有可能会交换顺序。

一、基础特征构造

""" 预览数据 """

import pandas as pd
import numpy as np

df_train = pd.read_csv('train.csv')
df_train.head(3)

"""查看数据基本情况"""

df_train.shape
df_train.info()
df_train.describe()

"""可以画3D图对数据进行可视化，例子下面所示"""

from pyecharts import Bar3D

bar3d = Bar3D("2018年申请人数分布", width=1200, height=600)
x_axis = [
    "12a", "1a", "2a", "3a", "4a", "5a", "6a", "7a", "8a", "9a", "10a", "11a",
    "12p", "1p", "2p", "3p", "4p", "5p", "6p", "7p", "8p", "9p", "10p", "11p"
]
y_axis = [
    "Saturday", "Friday", "Thursday", "Wednesday", "Tuesday", "Monday", "Sunday"
]
data = [
    [0, 0, 5], [0, 1, 1], [0, 2, 0], [0, 3, 0], [0, 4, 0], [0, 5, 0],
    [0, 6, 0], [0, 7, 0], [0, 8, 0], [0, 9, 0], [0, 10, 0], [0, 11, 2],
    [0, 12, 4], [0, 13, 1], [0, 14, 1], [0, 15, 3], [0, 16, 4], [0, 17, 6],
    [0, 18, 4], [0, 19, 4], [0, 20, 3], [0, 21, 3], [0, 22, 2], [0, 23, 5],
    [1, 0, 7], [1, 1, 0], [1, 2, 0], [1, 3, 0], [1, 4, 0], [1, 5, 0],
    [1, 6, 0], [1, 7, 0], [1, 8, 0], [1, 9, 0], [1, 10, 5], [1, 11, 2],
    [1, 12, 2], [1, 13, 6], [1, 14, 9], [1, 15, 11], [1, 16, 6], [1, 17, 7],
    [1, 18, 8], [1, 19, 12], [1, 20, 5], [1, 21, 5], [1, 22, 7], [1, 23, 2],
    [2, 0, 1], [2, 1, 1], [2, 2, 0], [2, 3, 0], [2, 4, 0], [2, 5, 0],
    [2, 6, 0], [2, 7, 0], [2, 8, 0], [2, 9, 0], [2, 10, 3], [2, 11, 2],
    [2, 12, 1], [2, 13, 9], [2, 14, 8], [2, 15, 10], [2, 16, 6], [2, 17, 5],
    [2, 18, 5], [2, 19, 5], [2, 20, 7], [2, 21, 4], [2, 22, 2], [2, 23, 4],
    [3, 0, 7], [3, 1, 3], [3, 2, 0], [3, 3, 0], [3, 4, 0], [3, 5, 0],
    [3, 6, 0], [3, 7, 0], [3, 8, 1], [3, 9, 0], [3, 10, 5], [3, 11, 4],
    [3, 12, 7], [3, 13, 14], [3, 14, 13], [3, 15, 12], [3, 16, 9], [3, 17, 5],
    [3, 18, 5], [3, 19, 10], [3, 20, 6], [3, 21, 4], [3, 22, 4], [3, 23, 1],
    [4, 0, 1], [4, 1, 3], [4, 2, 0], [4, 3, 0], [4, 4, 0], [4, 5, 1],
    [4, 6, 0], [4, 7, 0], [4, 8, 0], [4, 9, 2], [4, 10, 4], [4, 11, 4],
    [4, 12, 2], [4, 13, 4], [4, 14, 4], [4, 15, 14], [4, 16, 12], [4, 17, 1],
    [4, 18, 8], [4, 19, 5], [4, 20, 3], [4, 21, 7], [4, 22, 3], [4, 23, 0],
    [5, 0, 2], [5, 1, 1], [5, 2, 0], [5, 3, 3], [5, 4, 0], [5, 5, 0],
    [5, 6, 0], [5, 7, 0], [5, 8, 2], [5, 9, 0], [5, 10, 4], [5, 11, 1],
    [5, 12, 5], [5, 13, 10], [5, 14, 5], [5, 15, 7], [5, 16, 11], [5, 17, 6],
    [5, 18, 0], [5, 19, 5], [5, 20, 3], [5, 21, 4], [5, 22, 2], [5, 23, 0],
    [6, 0, 1], [6, 1, 0], [6, 2, 0], [6, 3, 0], [6, 4, 0], [6, 5, 0],
    [6, 6, 0], [6, 7, 0], [6, 8, 0], [6, 9, 0], [6, 10, 1], [6, 11, 0],
    [6, 12, 2], [6, 13, 1], [6, 14, 3], [6, 15, 4], [6, 16, 0], [6, 17, 0],
    [6, 18, 0], [6, 19, 0], [6, 20, 1], [6, 21, 2], [6, 22, 2], [6, 23, 6]
]
range_color = ['#313695', '#4575b4', '#74add1', '#abd9e9', '#e0f3f8', '#ffffbf',
               '#fee090', '#fdae61', '#f46d43', '#d73027', '#a50026']
bar3d.add(
    "",
    x_axis,
    y_axis,
    [[d[1], d[0], d[2]] for d in data],
    is_visualmap=True,
    visual_range=[0, 20],
    visual_range_color=range_color,
    grid3d_width=200,
    grid3d_depth=80,
    is_grid3d_rotate=True,  # 自动旋转
    grid3d_rotate_speed=180,  # 旋转速度
)
bar3d

二、数据预处理

缺失值－主要用到的两个包：1、pandas fillna 2、sklearn Imputer

"""均值填充"""

df_train['Age'].fillna(value=df_train['Age'].mean()).sample(5)


""" 另一种均值填充的方式 """

from sklearn.preprocessing import Imputer
imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
age = imp.fit_transform(df_train[['Age']].values).copy()
df_train.loc[:,'Age'] = df_train['Age'].fillna(value=df_train['Age'].mean()).copy()
df_train.head(5)


数值型 － 数值缩放

"""取对数等变换"""

import numpy as np
log_age = df_train['Age'].apply(lambda x:np.log(x))
df_train.loc[:,'log_age'] = log_age

df_train.head(5)

""" 幅度缩放，最大最小值缩放到[0,1]区间内 """

from sklearn.preprocessing import MinMaxScaler
mm_scaler = MinMaxScaler()
fare_trans = mm_scaler.fit_transform(df_train[['Fare']])

""" 幅度缩放，将每一列的数据标准化为正态分布 """

from sklearn.preprocessing import StandardScaler
std_scaler = StandardScaler()
fare_std_trans = std_scaler.fit_transform(df_train[['Fare']])

""" 中位数或者四分位数去中心化数据，对异常值不敏感 """

from sklearn.preprocessing import robust_scale
fare_robust_trans = robust_scale(df_train[['Fare','Age']])

""" 将同一行数据规范化,前面的同一变为1以内也可以达到这样的效果 """

from sklearn.preprocessing import Normalizer
normalizer = Normalizer()
fare_normal_trans = normalizer.fit_transform(df_train[['Age','Fare']])
fare_normal_trans

统计值

""" 最大最小值 """

max_age = df_train['Age'].max()
min_age = df_train["Age"].min()

""" 分位数,极值处理，我们最粗暴的方法就是将前后1%的值替换成前后两个端点的值 """

age_quarter_01 = df_train['Age'].quantile(0.01)
print(age_quarter_01)
age_quarter_99 = df_train['Age'].quantile(0.99)
print(age_quarter_99)

""" 四则运算 """

df_train.loc[:,'family_size'] = df_train['SibSp']+df_train['Parch']+1
df_train.head(2)

df_train.loc[:,'tmp'] = df_train['Age']*df_train['Pclass'] + 4*df_train['family_size']
df_train.head(2)


""" 多项式特征 """

from sklearn.preprocessing import PolynomialFeatures

poly = PolynomialFeatures(degree=2)
df_train[['SibSp','Parch']].head()

poly_fea = poly.fit_transform(df_train[['SibSp','Parch']])
pd.DataFrame(poly_fea,columns = poly.get_feature_names()).head()

""" 等距切分 """

df_train.loc[:, 'fare_cut'] = pd.cut(df_train['Fare'], 20)
df_train.head(2)

""" 等频切分 """

df_train.loc[:,'fare_qcut'] = pd.qcut(df_train['Fare'], 10)
df_train.head(2)

""" badrate 曲线 """

df_train = df_train.sort_values('Fare')

alist = list(set(df_train['fare_qcut']))
badrate = {}
for x in alist:
    
    a = df_train[df_train.fare_qcut == x]
    
    bad = a[a.label == 1]['label'].count()
    good = a[a.label == 0]['label'].count()
    
    badrate[x] = bad/(bad+good)
    
f = zip(badrate.keys(),badrate.values())
f = sorted(f,key = lambda x : x[1],reverse = True )
badrate = pd.DataFrame(f)
badrate.columns = pd.Series(['cut','badrate'])
badrate = badrate.sort_values('cut')
print(badrate.head())
badrate.plot('cut','badrate')

""" 一般采取等频分箱，很少等距分箱，等距分箱可能造成样本非常不均匀 """

""" 一般分5-6箱，保证badrate曲线从非严格递增转化为严格递增曲线 """

""" OneHot encoding/独热向量编码 """

""" 一般像男、女这种二分类categories类型的数据采取独热向量编码, 转化为0、1  主要用到 pd.get_dummies """

embarked_oht = pd.get_dummies(df_train[['Embarked']])
embarked_oht.head(2)


fare_qcut_oht = pd.get_dummies(df_train[['fare_qcut']])
fare_qcut_oht.head(2)


时间型 日期处理

car_sales = pd.read_csv('car_data.csv')
car_sales.head(2)

car_sales.loc[:,'date'] = pd.to_datetime(car_sales['date_t'])
car_sales.head(2)

""" 取出关键时间信息  """

""" 月份 """

car_sales.loc[:,'month'] = car_sales['date'].dt.month
car_sales.head()

""" 几号 """

car_sales.loc[:,'dom'] = car_sales['date'].dt.day

""" 一年当中第几天 """

car_sales.loc[:,'doy'] = car_sales['date'].dt.dayofyear

""" 星期几 """

car_sales.loc[:,'dow'] = car_sales['date'].dt.dayofweek

car_sales.head(2)

文本型数据

from pyecharts import WordCloud

name = [
 'bupt', '金融', '涛涛', '实战', '人长得帅' ,
 '机器学习', '深度学习', '异常检测', '知识图谱', '社交网络', '图算法',
 '迁移学习', '不均衡学习', '瞪噔', '数据挖掘', '哈哈',
 '集成算法', '模型融合','python', '聪明']
value = [
 10000, 6181, 4386, 4055, 2467, 2244, 1898, 1484, 1112,
 965, 847, 582, 555, 550, 462, 366, 360, 282, 273, 265]
wordcloud = WordCloud(width=800, height=600)
wordcloud.add("", name, value, word_size_range=[30, 80])

""" 词袋模型 """

from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
corpus = [
    'This is a very good class',
    'students are very very very good',
    'This is the third sentence',
    'Is this the last doc',
    'PS teacher Mei is very very handsome'
]

X = vectorizer.fit_transform(corpus)
X.toarray()  """ one-hot 编码"""

vec = CountVectorizer(ngram_range=(1,3))
X_ngram = vec.fit_transform(corpus)
X_ngram.toarray()

""" TF-IDF """

from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vec = TfidfVectorizer()
tfidf_X = tfidf_vec.fit_transform(corpus)
tfidf_vec.get_feature_names()
tfidf_X.toarray()

组合特征

""" 根据条件去判断获取组合特征  """

df_train.loc[:,'alone'] = (df_train['SibSp']==0)&(df_train['Parch']==0)
df_train.head(3)

""" 词云图可以直观的反应哪些词作用权重比较大 """

from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()

corpus = [
    'This is a very good class',
    'students are very very very good',
    'This is the third sentence',
    'Is this the last doc',
    'teacher Mei is very very handsome'
]

X = vectorizer.fit_transform(corpus)

L = []

for item in list(X.toarray()):
    L.append(list(item))

value = [0 for i in range(len(L[0]))]

for i in range(len(L[0])):
    for j in range(len(L)):
        value[i] += L[j][i]

from pyecharts import WordCloud

wordcloud = WordCloud(width=800,height=500)
#这里是需要做的
wordcloud.add('',vectorizer.get_feature_names(),value,word_size_range=[20,100])
wordcloud

三、特征衍生

data = pd.read_excel('textdata.xlsx')
data.head()

""" ft 和 gt 表示两个变量名 1-12 表示对应12个月中每个月的相应数值 """

""" 基于时间序列进行特征衍生 """

""" 最近p个月，inv>0的月份数 inv表示传入的变量名 """

def Num(data,inv,p):

    df=data.loc[:,inv+'1':inv+str(p)]
    auto_value=np.where(df>0,1,0).sum(axis=1)

    return data,inv+'_num'+str(p),auto_value

data_new = data.copy()

for p in range(1,12):
    for inv in ['ft','gt']:
        data_new,columns_name,values=Num(data_new,inv,p)
        data_new[columns_name]=values

# -*- coding:utf-8 -*-

'''

    @Author : wangtao
    @Time : 19/9/3 下午6:28
    @desc :  构建时间序列衍生特征

'''

import numpy as np
import pandas as pd

class time_series_feature(object):

    def __init__(self):
        pass

    def Num(self,data,inv,p):

        """
        :param data:
        :param inv:
        :param p:
        :return: 最近p个月，inv大于0的月份个数
        """
        df = data.loc[:,inv+'1':inv+str(p)]
        auto_value = np.where(df > 0,1,0).sum(axis=1)

        return inv+'_num'+str(p),auto_value

    def Nmz(self,data,inv,p):

        """
        :param data:
        :param inv:
        :param p:
        :return: 最近p个月，inv＝0的月份个数
        """

        df = data.loc[:, inv + '1':inv + str(p)]
        auto_value = np.where(df == 0, 1, 0).sum(axis=1)

        return inv + '_nmz' + str(p), auto_value

    def Evr(self,data,inv, p):

        """
        :param data:
        :param inv:
        :param p:
        :return: 最近p个月，inv>0的月份数是否>=1
        """

        df = data.loc[:, inv + '1':inv + str(p)]
        arr = np.where(df > 0, 1, 0).sum(axis=1)
        auto_value = np.where(arr, 1, 0)

        return inv + '_evr' + str(p), auto_value

    def Avg(self,data,inv, p):

        """
        :param p:
        :return: 最近p个月，inv均值

        """

        df = data.loc[:, inv + '1':inv + str(p)]
        auto_value = np.nanmean(df, axis=1)

        return inv + '_avg' + str(p), auto_value

    def Tot(self,data,inv, p):

        """
        :param data:
        :param inv:
        :param p:
        :return: 最近p个月，inv和

        """

        df = data.loc[:, inv + '1':inv + str(p)]
        auto_value = np.nansum(df, axis=1)

        return inv + '_tot' + str(p), auto_value

    def Tot2T(self,data,inv, p):

        """
        :param data:
        :param inv:
        :param p:
        :return: 最近(2,p+1)个月，inv和  可以看出该变量的波动情况
        """

        df = data.loc[:, inv + '2':inv + str(p + 1)]
        auto_value = df.sum(1)

        return inv + '_tot2t' + str(p), auto_value

    def Max(self,data,inv, p):

        """
        :param data:
        :param inv:
        :param p:
        :return: 最近p个月，inv最大值

        """

        df = data.loc[:, inv + '1':inv + str(p)]
        auto_value = np.nanmax(df, axis=1)

        return inv + '_max' + str(p), auto_value

    def Min(self,data,inv, p):

        """
        :param data:
        :param inv:
        :param p:
        :return: 最近p个月，inv最小值

        """

        df = data.loc[:, inv + '1':inv + str(p)]
        auto_value = np.nanmin(df, axis=1)

        return inv + '_min' + str(p), auto_value

    def Msg(self,data,inv, p):

        """
        :param data:
        :param inv:
        :param p:
        :return: 最近p个月，最近一次inv>0到现在的月份数

        """

        df = data.loc[:, inv + '1':inv + str(p)]
        df_value = np.where(df > 0, 1, 0)
        auto_value = []
        for i in range(len(df_value)):
            row_value = df_value[i, :]
            if row_value.max() <= 0:
                indexs = '0'
                auto_value.append(indexs)
            else:
                indexs = 1
                for j in row_value:
                    if j > 0:
                        break
                    indexs += 1
                auto_value.append(indexs)

        return inv + '_msg' + str(p), auto_value

    def Msz(self,data,inv, p):

        """
        :param data:
        :param inv:
        :param p:
        :return: 最近p个月，最近一次inv=0到现在的月份数

        """

        df = data.loc[:, inv + '1':inv + str(p)]
        df_value = np.where(df == 0, 1, 0)
        auto_value = []
        for i in range(len(df_value)):
            row_value = df_value[i, :]
            if row_value.max() <= 0:
                indexs = '0'
                auto_value.append(indexs)
            else:
                indexs = 1
                for j in row_value:
                    if j > 0:
                        break
                    indexs += 1
                auto_value.append(indexs)

        return inv + '_msz' + str(p), auto_value

    def Cav(self,data,inv, p):

        """
        :param p:
        :return: 当月inv/(最近p个月inv的均值)

        """

        df = data.loc[:, inv + '1':inv + str(p)]
        auto_value = df[inv + '1'] / np.nanmean(df, axis=1)

        return inv + '_cav' + str(p), auto_value

    def Cmn(self,data,inv, p):

        """
        :param data:
        :param inv:
        :param p:
        :return: 当月inv/(最近p个月inv的最小值)

        """

        df = data.loc[:, inv + '1':inv + str(p)]
        auto_value = df[inv + '1'] / np.nanmin(df, axis=1)

        return inv + '_cmn' + str(p), auto_value

    def Mai(self,data,inv, p):

        """
        :param data:
        :param inv:
        :param p:
        :return: 最近p个月，每两个月间的inv的增长量的最大值

        """

        arr = np.array(data.loc[:, inv + '1':inv + str(p)])
        auto_value = []

        for i in range(len(arr)):
            df_value = arr[i, :]
            value_lst = []
            for k in range(len(df_value) - 1):
                minus = df_value[k] - df_value[k + 1]
                value_lst.append(minus)
            auto_value.append(np.nanmax(value_lst))

        return inv + '_mai' + str(p), auto_value

    def Mad(self,data,inv, p):

        """
        :param data:
        :param inv:
        :param p:
        :return: 最近p个月，每两个月间的inv的减少量的最大值

        """

        arr = np.array(data.loc[:, inv + '1':inv + str(p)])
        auto_value = []
        for i in range(len(arr)):
            df_value = arr[i, :]
            value_lst = []
            for k in range(len(df_value) - 1):
                minus = df_value[k + 1] - df_value[k]
                value_lst.append(minus)
            auto_value.append(np.nanmax(value_lst))

        return inv + '_mad' + str(p), auto_value

    def Std(self,data,inv, p):

        """
        :param data:
        :param inv:
        :param p:
        :return: 最近p个月，inv的标准差

        """

        df = data.loc[:, inv + '1':inv + str(p)]
        auto_value = np.nanvar(df, axis=1)

        return inv + '_std' + str(p), auto_value

    def Cva(self,data,inv, p):

        """
        :param p:
        :return: 最近p个月，inv的变异系数

        """

        df = data.loc[:, inv + '1':inv + str(p)]
        auto_value = np.nanmean(df, axis=1) / np.nanvar(df, axis=1)

        return inv + '_cva' + str(p), auto_value

    def Cmm(self,data,inv, p):

        """
        :param data:
        :param inv:
        :param p:
        :return: (当月inv) - (最近p个月inv的均值)

        """

        df = data.loc[:, inv + '1':inv + str(p)]
        auto_value = df[inv + '1'] - np.nanmean(df, axis=1)

        return inv + '_cmm' + str(p), auto_value

    def Cnm(self,data,inv, p):

        """
        :param p:
        :return: (当月inv) - (最近p个月inv的最小值)
        """

        df = data.loc[:, inv + '1':inv + str(p)]
        auto_value = df[inv + '1'] - np.nanmin(df, axis=1)

        return inv + '_cnm' + str(p), auto_value

    def Cxm(self,data,inv, p):

        """
        :param data:
        :param inv:
        :param p:
        :return: (当月inv) - (最近p个月inv的最大值)

        """

        df = data.loc[:, inv + '1':inv + str(p)]
        auto_value = df[inv + '1'] - np.nanmax(df, axis=1)

        return inv + '_cxm' + str(p), auto_value

    def Cxp(self,data,inv, p):

        """
        :param p:
        :return: （ (当月inv) - (最近p个月inv的最大值) ） / (最近p个月inv的最大值) ）

        """

        df = data.loc[:, inv + '1':inv + str(p)]
        temp = np.nanmin(df, axis=1)
        auto_value = (df[inv + '1'] - temp) / temp

        return inv + '_cxp' + str(p), auto_value

    def Ran(self,data,inv, p):

        """
        :param data:
        :param inv:
        :param p:
        :return: 最近p个月，inv的极差
        """

        df = data.loc[:, inv + '1':inv + str(p)]
        auto_value = np.nanmax(df, axis=1) - np.nanmin(df, axis=1)

        return inv + '_ran' + str(p), auto_value

    def Nci(self,data,inv, p):

        """
        :param data:
        :param inv:
        :param p:
        :return: 最近min( Time on book，p )个月中，后一个月相比于前一个月增长了的月份数
        """

        arr = np.array(data.loc[:, inv + '1':inv + str(p)])
        auto_value = []
        for i in range(len(arr)):
            df_value = arr[i, :]
            value_lst = []
            for k in range(len(df_value) - 1):
                minus = df_value[k] - df_value[k + 1]
                value_lst.append(minus)
            value_ng = np.where(np.array(value_lst) > 0, 1, 0).sum()
            auto_value.append(np.nanmax(value_ng))

        return inv + '_nci' + str(p), auto_value

    def Ncd(self,data,inv, p):

        """
        :param data:
        :param inv:
        :param p:
        :return: 最近min( Time on book，p )个月中，后一个月相比于前一个月减少了的月份数
        """

        arr = np.array(data.loc[:, inv + '1':inv + str(p)])
        auto_value = []
        for i in range(len(arr)):
            df_value = arr[i, :]
            value_lst = []
            for k in range(len(df_value) - 1):
                minus = df_value[k] - df_value[k + 1]
                value_lst.append(minus)
            value_ng = np.where(np.array(value_lst) < 0, 1, 0).sum()
            auto_value.append(np.nanmax(value_ng))

        return inv + '_ncd' + str(p), auto_value

    def Ncn(self,data,inv, p):

        """
        :param data:
        :param inv:
        :param p:
        :return: 最近min( Time on book，p )个月中，相邻月份inv 相等的月份数
        """

        arr = np.array(data.loc[:, inv + '1':inv + str(p)])
        auto_value = []
        for i in range(len(arr)):
            df_value = arr[i, :]
            value_lst = []
            for k in range(len(df_value) - 1):
                minus = df_value[k] - df_value[k + 1]
                value_lst.append(minus)
            value_ng = np.where(np.array(value_lst) == 0, 1, 0).sum()
            auto_value.append(np.nanmax(value_ng))

        return inv + '_ncn' + str(p), auto_value

    def Bup(self,data,inv, p):

        """
        :param p:
        :return:
        desc:If  最近min( Time on book，p )个月中，对任意月份i ，都有 inv[i] > inv[i+1]  即严格递增，且inv > 0则flag = 1 Else flag = 0

        """
        arr = np.array(data.loc[:, inv + '1':inv + str(p)])
        auto_value = []
        for i in range(len(arr)):
            df_value = arr[i, :]
            index = 0
            for k in range(len(df_value) - 1):
                if df_value[k] > df_value[k + 1]:
                    break
                index = + 1
            if index == p:
                value = 1
            else:
                value = 0
            auto_value.append(value)

        return inv + '_bup' + str(p), auto_value

    def Pdn(self,data,inv, p):

        """
        :param data:
        :param inv:
        :param p:
        :return:
        desc: If  最近min( Time on book，p )个月中，对任意月份i ，都有 inv[i] < inv[i+1] ,即严格递减，且inv > 0则flag = 1 Else flag = 0

        """

        arr = np.array(data.loc[:, inv + '1':inv + str(p)])
        auto_value = []
        for i in range(len(arr)):
            df_value = arr[i, :]
            index = 0
            for k in range(len(df_value) - 1):
                if df_value[k + 1] > df_value[k]:
                    break
                index = + 1
            if index == p:
                value = 1
            else:
                value = 0
            auto_value.append(value)

        return inv + '_pdn' + str(p), auto_value

    def Trm(self,data,inv, p):

        """
        :param data:
        :param inv:
        :param p:
        :return: 最近min( Time on book，p )个月，inv的修建均值
        """

        df = data.loc[:, inv + '1':inv + str(p)]
        auto_value = []
        for i in range(len(df)):
            trm_mean = list(df.loc[i, :])
            trm_mean.remove(np.nanmax(trm_mean))
            trm_mean.remove(np.nanmin(trm_mean))
            temp = np.nanmean(trm_mean)
            auto_value.append(temp)

        return inv + '_trm' + str(p), auto_value

    def Cmx(self,data,inv, p):

        """
        :param data:
        :param inv:
        :param p:
        :return: 当月inv / 最近p个月的inv中的最大值
        """

        df = data.loc[:, inv + '1':inv + str(p)]
        auto_value = (df[inv + '1'] - np.nanmax(df, axis=1)) / np.nanmax(df, axis=1)

        return inv + '_cmx' + str(p), auto_value

    def Cmp(self,data,inv, p):

        """
        :param data:
        :param inv:
        :param p:
        :return: ( 当月inv - 最近p个月的inv均值 ) / inv均值
        """

        df = data.loc[:, inv + '1':inv + str(p)]
        auto_value = (df[inv + '1'] - np.nanmean(df, axis=1)) / np.nanmean(df, axis=1)

        return inv + '_cmp' + str(p), auto_value

    def Cnp(self,data,inv, p):

        """
        :param p:
        :return: ( 当月inv - 最近p个月的inv最小值 ) /inv最小值
        """

        df = data.loc[:, inv + '1':inv + str(p)]
        auto_value = (df[inv + '1'] - np.nanmin(df, axis=1)) / np.nanmin(df, axis=1)

        return inv + '_cnp' + str(p), auto_value

    def Msx(self,data,inv, p):

        """
        :param data:
        :param inv:
        :param p:
        :return: 最近min( Time on book，p )个月取最大值的月份距现在的月份数
        """

        df = data.loc[:, inv + '1':inv + str(p)]
        df['_max'] = np.nanmax(df, axis=1)
        for i in range(1, p + 1):
            df[inv + str(i)] = list(df[inv + str(i)] == df['_max'])
        del df['_max']
        df_value = np.where(df == True, 1, 0)
        auto_value = []
        for i in range(len(df_value)):
            row_value = df_value[i, :]
            indexs = 1
            for j in row_value:
                if j == 1:
                    break
                indexs += 1
            auto_value.append(indexs)

        return inv + '_msx' + str(p), auto_value

    def Rpp(self,data,inv, p):

        """
        :param data:
        :param inv:
        :param p:
        :return: 近p个月的均值/((p,2p)个月的inv均值)
        """

        df1 = data.loc[:, inv + '1':inv + str(p)]
        value1 = np.nanmean(df1, axis=1)
        df2 = data.loc[:, inv + str(p):inv + str(2 * p)]
        value2 = np.nanmean(df2, axis=1)
        auto_value = value1 / value2

        return inv + '_rpp' + str(p), auto_value

    def Dpp(self,data,inv, p):

        """
        :param data:
        :param inv:
        :param p:
        :return: 最近p个月的均值 - ((p,2p)个月的inv均值)

        """

        df1 = data.loc[:, inv + '1':inv + str(p)]
        value1 = np.nanmean(df1, axis=1)
        df2 = data.loc[:, inv + str(p):inv + str(2 * p)]
        value2 = np.nanmean(df2, axis=1)
        auto_value = value1 - value2

        return inv + '_dpp' + str(p), auto_value

    def Mpp(self,data,inv, p):

        """
        :param data:
        :param inv:
        :param p:
        :return: (最近p个月的inv最大值)/ (最近(p,2p)个月的inv最大值)
        """

        df1 = data.loc[:, inv + '1':inv + str(p)]
        value1 = np.nanmax(df1, axis=1)
        df2 = data.loc[:, inv + str(p):inv + str(2 * p)]
        value2 = np.nanmax(df2, axis=1)
        auto_value = value1 / value2

        return inv + '_mpp' + str(p), auto_value

    def Npp(self,data,inv, p):

        """
        :param data:
        :param inv:
        :param p:
        :return: (最近p个月的inv最小值)/ (最近(p,2p)个月的inv最小值)

        """

        df1 = data.loc[:, inv + '1':inv + str(p)]
        value1 = np.nanmin(df1, axis=1)
        df2 = data.loc[:, inv + str(p):inv + str(2 * p)]
        value2 = np.nanmin(df2, axis=1)
        auto_value = value1 / value2

        return inv + '_npp' + str(p), auto_value


    def auto_var(self,data_new,inv,p):

        """
        :param data:
        :param inv:
        :param p:
        :return: 批量调用双参数函数

        """
        try:
            columns_name, values = self.Num(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Nmz(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Evr(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Avg(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Tot(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Tot2T(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Max(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Max(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Min(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Msg(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Msz(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Cav(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Cmn(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Std(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Cva(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Cmm(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Cnm(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Cxm(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Cxp(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Ran(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Nci(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Ncd(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Ncn(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Pdn(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Cmx(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Cmp(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Cnp(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Msx(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Nci(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Trm(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Bup(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Mai(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Mad(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Rpp(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Dpp(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Mpp(data_new,inv, p)
            data_new[columns_name] = values

            columns_name, values = self.Npp(data_new,inv, p)
            data_new[columns_name] = values

        except:
            pass

        return data_new


if __name__ == "__main__":
    
    file_dir = ""
    file_name = "textdata.xlsx"
    data_ = pd.read_excel(file_dir + file_name)
    
    auto_var2 = time_series_feature()
    
    for p in range(1,12):
        for inv in ['ft','gt']:
            data_ = auto_var2.auto_var(data_,inv,p)

四、特征筛选

常用特征选择三种方法：

1、Filter

移除低方差的特征 (Removing features with low variance)

单变量特征选择 (Univariate feature selection)

2、Wrapper

递归特征消除 (Recursive Feature Elimination)

3、Embedded

使用SelectFromModel选择特征 (Feature selection using SelectFromModel)

将特征选择过程融入pipeline (Feature selection as part of a pipeline)

当数据预处理完成后，我们需要选择有意义的特征输入机器学习的算法和模型进行训练。

通常来说，从两个方面考虑来选择特征：

1、特征是否发散

如果一个特征不发散，例如方差接近于0，也就是说样本在这个特征上基本上没有差异，这个特征对于样本的区分并没有什么用。

2、特征与目标的相关性

这点比较显见，与目标相关性高的特征，应当优选选择。除移除低方差法外，可从相关性考虑

根据特征选择的形式又可以将特征选择方法分为3种：

Filter：过滤法，按照发散性或者相关性对各个特征进行评分，设定阈值或者待选择阈值的个数，选择特征。

Wrapper：包装法，根据目标函数（通常是预测效果评分），每次选择若干特征，或者排除若干特征。

Embedded：嵌入法，先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征。类似于Filter方法，但是是通过训练来确定特征的优劣。

特征选择主要有两个目的：

减少特征数量、降维，使模型泛化能力更强，减少过拟合；

增强对特征和特征值之间的理解。

拿到数据集，一个特征选择方法，往往很难同时完成这两个目的

Filter

1）移除低方差的特征 (Removing features with low variance)

假设某特征的特征值只有0和1，并且在所有输入样本中，95%的实例的该特征取值都是1，那就可以认为这个特征作用不大。

如果100%都是1，那这个特征就没意义了。当特征值都是离散型变量的时候这种方法才能用，如果是连续型变量，就需要将连续变量离散化之后才能用。

而且实际当中，一般不太会有95%以上都取某个值的特征存在，所以这种方法虽然简单但是不太好用。可以把它作为特征选择的预处理，

先去掉那些取值变化小的特征，然后再从接下来提到的的特征选择方法中选择合适的进行进一步的特征选择。

from sklearn.feature_selection import VarianceThreshold


X = [[0, 0, 1], [0, 1, 0], [1, 0, 0], [0, 1, 1], [0, 1, 0], [0, 1, 1]]
sel = VarianceThreshold(threshold=(.8 * (1 - .8)))
sel.fit_transform(X)

2）单变量特征选择 (Univariate feature selection)

单变量特征选择的原理是分别单独的计算每个变量的某个统计指标，根据该指标来判断哪些变量重要，剔除那些不重要的变量。

对于分类问题(y离散)，可采用：

卡方检验
f_classif
mutual_info_classif
互信息

对于回归问题(y连续)，可采用：

皮尔森相关系数
f_regression,
mutual_info_regression
最大信息系数

这种方法比较简单，易于运行，易于理解，通常对于理解数据有较好的效果（但对特征优化、提高泛化能力来说不一定有效）。

SelectKBest 移除得分前 k 名以外的所有特征(取top k)

SelectPercentile 移除得分在用户指定百分比以后的特征(取top k%)

对每个特征使用通用的单变量统计检验：假正率(false positive rate) SelectFpr, 伪发现率(false discovery rate) SelectFdr, 或族系误差率 SelectFwe.

GenericUnivariateSelect 可以设置不同的策略来进行单变量特征选择。同时不同的选择策略也能够使用超参数寻优，从而让我们找到最佳的单变量特征选择策略。

Notice:
　The methods based on F-test estimate the degree of linear dependency between two random variables.

(F检验用于评估两个随机变量的线性相关性)

On the other hand, mutual information methods can capture any kind of statistical dependency, but being nonparametric, they require more samples for accurate estimation.

(另一方面，互信息的方法可以捕获任何类型的统计依赖关系，但是作为一个非参数方法，估计准确需要更多的样本)

卡方(Chi2)检验

经典的卡方检验是检验定性自变量对定性因变量的相关性。

比如，我们可以对样本进行一次chi2 测试来选择最佳的两项特征：

from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

iris = load_iris()
X, y = iris.data, iris.target
print(X.shape)

X_new = SelectKBest(chi2, k=2).fit_transform(X, y)
print(X_new.shape)

Pearson相关系数 (Pearson Correlation)

皮尔森相关系数是一种最简单的，能帮助理解特征和响应变量之间关系的方法，

该方法衡量的是变量之间的线性相关性，结果的取值区间为[-1，1]，-1表示完全的负相关，+1表示完全的正相关，0表示没有线性相关

import numpy as np
from scipy.stats import pearsonr

np.random.seed(0)
size = 300
x = np.random.normal(0, 1, size)

""" pearsonr(x, y)的输入为特征矩阵和目标向量，能够同时计算 相关系数 和p-value. """

print("Lower noise", pearsonr(x, x + np.random.normal(0, 1, size)))
print("Higher noise", pearsonr(x, x + np.random.normal(0, 10, size)))

""" 比较了变量在加入噪音之前和之后的差异。当噪音比较小的时候，相关性很强，p-value很低 """
""" 使用Pearson相关系数主要是为了看特征之间的相关性，而不是和因变量之间的。 """

Wrapper

递归特征消除 (Recursive Feature Elimination)

递归消除特征法使用一个基模型来进行多轮训练，每轮训练后，移除若干权值系数的特征，再基于新的特征集进行下一轮训练。

对特征含有权重的预测模型(例如，线性模型对应参数coefficients)，RFE通过递归减少考察的特征集规模来选择特征。

首先，预测模型在原始特征上训练，每个特征指定一个权重。之后，那些拥有最小绝对值权重的特征被踢出特征集。如此往复递归，直至剩余的特征数量达到所需的特征数量。

RFECV 通过交叉验证的方式执行RFE，以此来选择最佳数量的特征：对于一个数量为d的feature的集合，他的所有的子集的个数是2的d次方减1(包含空集)。

指定一个外部的学习算法，比如SVM之类的。通过该算法计算所有子集的validation error。选择error最小的那个子集作为所挑选的特征。

from sklearn.feature_selection import RFE
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

rf = RandomForestClassifier()
iris=load_iris()
X,y=iris.data,iris.target
rfe = RFE(estimator=rf, n_features_to_select=3)
X_rfe = rfe.fit_transform(X,y)
X_rfe.shape

Embedded

使用SelectFromModel选择特征 (Feature selection using SelectFromModel)

基于L1的特征选择 (L1-based feature selection)

使用L1范数作为惩罚项的线性模型(Linear models)会得到稀疏解：大部分特征对应的系数为0。

当你希望减少特征的维度以用于其它分类器时，可以通过 feature_selection.SelectFromModel 来选择不为0的系数。

特别指出，常用于此目的的稀疏预测模型有 linear_model.Lasso（回归）， linear_model.LogisticRegression 和 svm.LinearSVC（分类）

from sklearn.feature_selection import SelectFromModel
from sklearn.svm import LinearSVC

lsvc = LinearSVC(C=0.01, penalty="l1", dual=False).fit(X,y)
model = SelectFromModel(lsvc, prefit=True)
X_embed = model.transform(X)
X_embed.shape

首先来回顾一下我们在业务中的模型会遇到什么问题。

1、模型效果不好：大概率数据有问题

2、训练集效果好，跨时间测试(一般测试样本是训练数据的1/10)效果不好：

测试数据分布与训练数据不太一样导致的，说明选入特征变量有问题波动比较大，查看分析比较波动的特征变量

3、跨时间测试效果也好，上线之后效果不好：线下和线上和变量的逻辑出了问题，线下特征信息可能包含未来变量

4、上线之后效果还好，几周之后分数分布开始下滑：说明模型效果不行，说明一两个变量在跨时间上效果比较差

5、一两个月内都比较稳定，突然分数分布骤降：可能是外部因素，如运营部门一些操作或国家政策导致

6、没有明显问题，但模型每个月逐步失效：

然后我们来考虑一下业务所需要的变量是什么。

变量必须对模型有贡献，也就是说必须能对客群加以区分

逻辑回归要求变量之间线性无关

逻辑回归评分卡也希望变量呈现单调趋势

（有一部分也是业务原因，但从模型角度来看，单调变量未必一定比有转折的变量好）

客群在每个变量上的分布稳定，分布迁移无可避免，但不能波动太大

为此我们从上述方法中找到最贴合当前使用场景的几种方法。

from statsmodels.stats.outliers_influence import variance_inflation_factor
import numpy as np

data = [[1,2,3,4,5],
        [2,4,6,8,9],
        [1,1,1,1,1],
       [2,4,6,4,7]]
X = np.array(data).T

variance_inflation_factor(X,0)

3）单调性

- bivar图

""" 等频切分 """
df_train.loc[:,'fare_qcut'] = pd.qcut(df_train['Fare'], 10)
df_train.head()
df_train = df_train.sort_values('Fare')
alist = list(set(df_train['fare_qcut']))
badrate = {}
for x in alist:
    
    a = df_train[df_train.fare_qcut == x]
    
    bad = a[a.label == 1]['label'].count()
    good = a[a.label == 0]['label'].count()
    
    badrate[x] = bad/(bad+good)
f = zip(badrate.keys(),badrate.values())
f = sorted(f,key = lambda x : x[1],reverse = True )
badrate = pd.DataFrame(f)
badrate.columns = pd.Series(['cut','badrate'])
badrate = badrate.sort_values('cut')
print(badrate)
badrate.plot('cut','badrate')

def var_PSI(dev_data, val_data):
    dev_cnt, val_cnt = sum(dev_data), sum(val_data)
    if dev_cnt * val_cnt == 0:
        return None
    PSI = 0
    for i in range(len(dev_data)):
        dev_ratio = dev_data[i] / dev_cnt
        val_ratio = val_data[i] / val_cnt + 1e-10
        psi = (dev_ratio - val_ratio) * math.log(dev_ratio/val_ratio)
        PSI += psi
    return PSI

注意分箱的数量将会影响着变量的PSI值。

PSI并不只可以对模型来求，对变量来求也一样。只需要对跨时间分箱的数据分别求PSI即可。

import pandas as pd
from sklearn.metrics import roc_auc_score,roc_curve,auc
from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.linear_model import LogisticRegression
import numpy as np
import random
import math

data = pd.read_csv(file_dir + 'data.txt')
data.head()

""" 看一下月份分布，我们用最后一个月做为跨时间验证集合  """
data.obs_mth.unique()

train = data[data.obs_mth != '2018-11-30'].reset_index().copy()
val = data[data.obs_mth == '2018-11-30'].reset_index().copy()

feature_lst = ['person_info','finance_info','credit_info','act_info','td_score','jxl_score','mj_score','rh_score']

x = train[feature_lst]
y = train['bad_ind']

val_x =  val[feature_lst]
val_y = val['bad_ind']

lr_model = LogisticRegression(C=0.1)
lr_model.fit(x,y)

y_pred = lr_model.predict_proba(x)[:,1]
fpr_lr_train,tpr_lr_train,_ = roc_curve(y,y_pred)
train_ks = abs(fpr_lr_train - tpr_lr_train).max()
print('train_ks : ',train_ks)

y_pred = lr_model.predict_proba(val_x)[:,1]
fpr_lr,tpr_lr,_ = roc_curve(val_y,y_pred)
val_ks = abs(fpr_lr - tpr_lr).max()
print('val_ks : ',val_ks)

from matplotlib import pyplot as plt
plt.plot(fpr_lr_train,tpr_lr_train,label = 'train LR')
plt.plot(fpr_lr,tpr_lr,label = 'evl LR')
plt.plot([0,1],[0,1],'k--')
plt.xlabel('False positive rate')
plt.ylabel('True positive rate')
plt.title('ROC Curve')
plt.legend(loc = 'best')
plt.show()

""" 做特征筛选 """

from statsmodels.stats.outliers_influence import variance_inflation_factor

X = np.array(x)

for i in range(X.shape[1]):
    print(variance_inflation_factor(X,i))

import lightgbm as lgb
from sklearn.model_selection import train_test_split

train_x,test_x,train_y,test_y = train_test_split(x,y,random_state=0,test_size=0.2)

def  lgb_test(train_x,train_y,test_x,test_y):
    
    clf =lgb.LGBMClassifier(boosting_type = 'gbdt',
                           objective = 'binary',
                           metric = 'auc',
                           learning_rate = 0.1,
                           n_estimators = 24,
                           max_depth = 5,
                           num_leaves = 20,
                           max_bin = 45,
                           min_data_in_leaf = 6,
                           bagging_fraction = 0.6,
                           bagging_freq = 0,
                           feature_fraction = 0.8,
                           )
    
    clf.fit(train_x,train_y,eval_set = [(train_x,train_y),(test_x,test_y)],eval_metric = 'auc')
    
    return clf,clf.best_score_['valid_1']['auc'],

lgb_model , lgb_auc  = lgb_test(train_x,train_y,test_x,test_y)

feature_importance = pd.DataFrame({'name':lgb_model.booster_.feature_name(),
                                   'importance':lgb_model.feature_importances_}).sort_values(by=['importance'],ascending=False)
feature_importance


feature_lst = ['person_info','finance_info','credit_info','act_info']
x = train[feature_lst]
y = train['bad_ind']

val_x =  val[feature_lst]
val_y = val['bad_ind']

lr_model = LogisticRegression(C=0.1,class_weight='balanced')
lr_model.fit(x,y)
y_pred = lr_model.predict_proba(x)[:,1]
fpr_lr_train,tpr_lr_train,_ = roc_curve(y,y_pred)
train_ks = abs(fpr_lr_train - tpr_lr_train).max()
print('train_ks : ',train_ks)

y_pred = lr_model.predict_proba(val_x)[:,1]
fpr_lr,tpr_lr,_ = roc_curve(val_y,y_pred)
val_ks = abs(fpr_lr - tpr_lr).max()
print('val_ks : ',val_ks)

from matplotlib import pyplot as plt
plt.plot(fpr_lr_train,tpr_lr_train,label = 'train LR')
plt.plot(fpr_lr,tpr_lr,label = 'evl LR')
plt.plot([0,1],[0,1],'k--')
plt.xlabel('False positive rate')
plt.ylabel('True positive rate')
plt.title('ROC Curve')
plt.legend(loc = 'best')
plt.show()

# 系数

print('变量名单：',feature_lst)
print('系数：',lr_model.coef_)
print('截距：',lr_model.intercept_)


"""报告"""
model = lr_model
row_num, col_num = 0, 0
bins = 20
Y_predict = [s[1] for s in model.predict_proba(val_x)]
Y = val_y
nrows = Y.shape[0]
lis = [(Y_predict[i], Y[i]) for i in range(nrows)]
ks_lis = sorted(lis, key=lambda x: x[0], reverse=True)
bin_num = int(nrows/bins+1)
bad = sum([1 for (p, y) in ks_lis if y > 0.5])
good = sum([1 for (p, y) in ks_lis if y <= 0.5])
bad_cnt, good_cnt = 0, 0

KS = []
BAD = []
GOOD = []
BAD_CNT = []
GOOD_CNT = []
BAD_PCTG = []
BADRATE = []
dct_report = {}

for j in range(bins):
    ds = ks_lis[j*bin_num: min((j+1)*bin_num, nrows)]
    bad1 = sum([1 for (p, y) in ds if y > 0.5])
    good1 = sum([1 for (p, y) in ds if y <= 0.5])
    bad_cnt += bad1
    good_cnt += good1
    bad_pctg = round(bad_cnt/sum(val_y),3)
    badrate = round(bad1/(bad1+good1),3)
    ks = round(math.fabs((bad_cnt / bad) - (good_cnt / good)),3)
    KS.append(ks)
    BAD.append(bad1)
    GOOD.append(good1)
    BAD_CNT.append(bad_cnt)
    GOOD_CNT.append(good_cnt)
    BAD_PCTG.append(bad_pctg)
    BADRATE.append(badrate)
    dct_report['KS'] = KS
    dct_report['BAD'] = BAD
    dct_report['GOOD'] = GOOD
    dct_report['BAD_CNT'] = BAD_CNT
    dct_report['GOOD_CNT'] = GOOD_CNT
    dct_report['BAD_PCTG'] = BAD_PCTG
    dct_report['BADRATE'] = BADRATE
val_repot = pd.DataFrame(dct_report)
val_repot


""" 映射分数 """
#['person_info','finance_info','credit_info','act_info']

def score(person_info,finance_info,credit_info,act_info):
    
    xbeta = person_info * ( 3.49460978) + finance_info * ( 11.40051582 ) + credit_info * (2.45541981) + act_info * ( -1.68676079) --0.34484897 
    score = 650-34* (xbeta)/math.log(2)
    
    return score

val['score'] = val.apply(lambda x : score(x.person_info,x.finance_info,x.credit_info,x.act_info) ,axis=1)

fpr_lr,tpr_lr,_ = roc_curve(val_y,val['score'])
val_ks = abs(fpr_lr - tpr_lr).max()

print('val_ks : ',val_ks)

#对应评级区间
def level(score):
    level = 0
    if score <= 600:
        level = "D"
    elif score <= 640 and score > 600 : 
        level = "C"
    elif score <= 680 and score > 640:
        level = "B"
    elif  score > 680 :
        level = "A"
    return level

val['level'] = val.score.map(lambda x : level(x) )

val.level.groupby(val.level).count()/len(val)


""" 画图展示区间分布情况 """
import seaborn as sns

sns.distplot(val.score,kde=True)

val = val.sort_values('score',ascending=True).reset_index(drop=True)
df2=val.bad_ind.groupby(val['level']).sum()
df3=val.bad_ind.groupby(val['level']).count()
print(df2/df3)

你可能感兴趣的:(机器学习,风控)

ES-LTR粗排模块 poins jenkins 运维
ES-LTR粗排模块官方资源：https://github.com/HeiBoWang/elasticsearch-learning-to-rankElasticsearch学习排名插件使用机器学习提高搜索相关性排名。它为维基媒体基金会和Snagajob等地方的搜索提供了动力！这个插件有什么功能此插件：允许您在Elasticsearch中存储特征（Elasticsearch查询模板）记录特征得分（
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
UNDERSTANDING HTML WITH LARGE LANGUAGE MODELS liferecords LLM 语言模型人工智能自然语言处理
UNDERSTANDINGHTMLWITHLARGELANGUAGEMODELS相关链接：arXiv关键字：大型语言模型、HTML理解、Web自动化、自然语言处理、机器学习摘要大型语言模型（LLMs）在各种自然语言任务上表现出色。然而，它们在HTML理解方面的能力——即解析网页的原始HTML，对于自动化基于Web的任务、爬取和浏览器辅助检索等应用——尚未被充分探索。我们为HTML理解模型（经过微调
OpenCV（一个C++人工智能领域重要开源基础库）简介愚梦者 OpenCV 人工智能人工智能 opencv c++图像处理计算机视觉开源
返回：OpenCV系列文章目录（持续更新中......）上一篇：OpenCV4.9.0配置选项参考下一篇：OpenCV4.9.0开源计算机视觉库安装概述引言：OpenCV（全称OpenSourceComputerVisionLibrary）是一个基于开放源代码发行的跨平台计算机视觉库，可以用来进行图像处理、计算机视觉和机器学习等领域的开发。该库由英特尔公司于1999年开始开发，最初是为了加速处理器
零基础机器学习(5)之线性回归模型的性能评估一只特立独行猪机器学习机器学习线性回归人工智能
文章目录线性回归模型的性能评估1.举例1-单一特征2.举例2-多特征线性回归模型的性能评估评估线性回归模型时，首先要建立评估的测试数据集（测试集不能与训练集相同），然后选择合适的评估方法，实现对线性回归模型的评估。回归任务中最常用的评估方法有均方误差、均方根误差和预测准确率（确定系数）。1.举例1-单一特征分别对两个模型进行评估，输入的测试集如表所示。面积/（m2）售价/（万元）面积/（m2）售价
2022-05-14 败者食尘_40a0
本文结构速览：一、SQL题二、机器学习&概率论三、开放性问题01SQL题面试真题：现有一张用户签到表（user_sign_d）,标记用户每日是否签到，表结构如下sign_date:日期user_id:用户IDif_sign:当日是否签到,1表示签到，0表示未签到问题①：请计算截止到当前每个用户已经连续签到的天数（输出表仅包含当天签到的所有用户，计算其连续签到的天数）输出表结构如下：user_id:
Android 实现照片抠出人像。 No Promises﹉ android
谢谢阅览、关注！！一、各平台的实现方式：1.Android实现方式：使用图像处理库（如OpenCV）：集成OpenCV库，利用其图像处理功能进行边缘检测和图像分割；使用机器学习模型（如TensorFlowLite）：集成TensorFlowLite和预训练的人像分割模型；使用第三方API服务：利用如百度AI、腾讯AI等提供的在线API进行图像处理。步骤：集成必要的库或API、加载和处理图像、应用抠
20240319金融读报：金融助力农业&科创企业风控模型墨_浅- 金融读报叭叭叭儿金融债券农业生产现代化风控模型新质生产力
1、农发行2023年第二十期金融债券票面利率为2.85%2、农业生产现代化转型-》农机：新疆尉犁县超级棉田里，农业无人机、采棉打包机、棉田打顶机器人等现代化机械设施，让两个人收种3000亩棉田成为了可能（金融机构可以结合农机购置补贴创新产品）3、金融支持三农短板：抵押物评估缺乏公信力-》农业供应链金融（类似于票据承兑、理财代销？）4、服务新质生产力：科创产业高地评估：“看未来、看技术、看团队”，针
Python机器学习笔记：CART算法实战战争热诚
完整代码及其数据，请移步小编的GitHub传送门：请点击我如果点击有误：https://github.com/LeBron-Jian/MachineLearningNote前言在python机器学习笔记：深入学习决策树算法原理一文中我们提到了决策树里的ID3算法，C4.5算法，并且大概的了
机器学习是什么三花学编程机器学习
机器学习是什么？机器学习，这一词汇在当今的科技领域中可谓炙手可热，其影响深远，不仅改变了科学研究的方式，也推动了社会的快速发展。那么，机器学习到底是什么呢？机器学习，顾名思义，是机器（通常指计算机）进行学习的过程。这个过程模仿了人类的学习方式，通过经验积累，不断优化自身性能，最终能够在没有人类直接干预的情况下，进行决策或预测。简单来说，机器学习就是让计算机具备从数据中学习并自动改进的能力。机器学习
最新ChatGPT支持下的PyTorch机器学习与深度学习 zkzhzy ChatGPT 机器学习 python 机器学习深度学习 pytorch chatgpt 数据分析人工智能
近年来，随着AlphaGo、无人驾驶汽车、医学影像智慧辅助诊疗、ImageNet竞赛等热点事件的发生，人工智能迎来了新一轮的发展浪潮。尤其是深度学习技术，在许多行业都取得了颠覆性的成果。另外，近年来，Pytorch深度学习框架受到越来越多科研人员的关注和喜爱。郁磊（副教授）主要从事AI人工智能、大语言模型及软件开发、生理系统建模与仿真、生物医学信号处理，具有丰富的科研经验，主编《MATLAB智能算
神奇的微积分科学的N次方人工智能人工智能 ai
微积分在人工智能（AI）领域扮演着至关重要的角色，以下是其主要作用：优化算法：•梯度下降法：微积分中的导数被用来计算损失函数相对于模型参数的梯度，这是许多机器学习和深度学习优化算法的核心。梯度指出了函数值增加最快的方向，通过沿着负梯度方向更新权重，可以最小化损失函数并优化模型。•反向传播：在神经网络训练中，微积分的链式法则用于计算整个网络中每个参数对于最终损失函数的影响（偏导数），这一过程就是反向
机器学习简介 Dayueban
@我的博客：有味写在前面在年前将要进行靶向代谢组学测定的样品送去公司，随之想想，还有一个半月的时间数据才会回来，那么这段时间是不是可以先学习下分类数据如何分析呢（PS:因为数据是属于分类性质的），所以不久前买的一本书——《机器学习与R语言》稍微系统学一遍，该书为美国的BrettLantz所著，翻译工作由我国学者李洪成、许金炜、李舰完成。学习本书的主要目的是了解机器学习的思想，以及所应用的领域，当然
regression机器学习回归预测模型参考学习后自我总结饮啦冰美式机器学习回归学习
简单来说，就是将样本的特征矩阵映射到样本标签空间。回归分析帮助我们理解在改变一个或多个自变量时，因变量的数值会如何变化。线性模型线性回归用于建立因变量和一个或多个自变量之间的线性关系模型。在线性回归中，假设因变量（被预测变量）与自变量（预测变量）之间存在着线性关系，也就是说，因变量的数值可以通过自变量的线性组合来预测。普通最小二乘线性回归。通过最小化实际观测值与模型预测值之间的误差平方和，可以找到
线性回归和逻辑回归对比学习-含代码和数据 M.D 线性回归逻辑回归学习
线性回归和逻辑回归是两种常见的机器学习算法，它们在一些方面相似，但在其他方面则有明显的不同。以下是它们的对比以及您提供的代码示例：线性回归(LinearRegression)线性回归用于预测连续的数值。这种模型假设自变量和因变量之间存在线性关系。fromsklearn.linear_modelimportLinearRegressionimportmatplotlib.pyplotaspltimp
【Conda】详细讲解程序员不想敲代码啊 conda
Conda1.前言2.关键特点3.Conda命令1.前言Conda是一个流行的包管理器和环境管理器，主要用于Python编程语言，但也可以用来安装、运行和更新包和环境中的任何语言，如R、Ruby、Lua、Scala、Java等。Conda主要是为了方便数据科学、机器学习和类似应用的需要而设计的，但它对任何类型的软件都是适用的。下面，我将概述Conda的几个关键特点和常用命令：2.关键特点环境管理：
机器学习常用框架碧落&凡尘机器学习人工智能
机器学习是人工智能的一个重要分支，它通过让计算机系统利用数据自我学习来改进任务执行的能力。在机器学习领域，有许多成熟的框架被广泛使用，这些框架提供了构建和训练机器学习模型的工具。以下是一些常用的机器学习框架：TensorFlow：由Google开发，是一个开源的软件库，用于数据流编程，广泛应用于各类机器学习任务。它支持分布式计算，能够在大规模数据集上训练复杂的模型。PyTorch：由Faceboo
一场持续三年的疫情，让我明白的道理周经年在读书写作
疫情三年感触颇多，生活无常，唯一不变的是变化本身。疫情三年让我明白了很多曾经都无法透彻理解的道理。1.人生百态，世事无常人生百态，世事无常，这句话我从小就听到很多人这么感慨，但我却没多少感触。也许是我的生活太过平常吧，按部就班平静如水。让我切身体会到人生百态，世事无常的是这场持续了三年并还将继续下去的疫情。疫情初期的风控居家，曾经以为在家宅着很快乐，疫情期间才发现宅家时间长了并不是一种幸福，伴随着
TensorFlow的介绍和简单案例科学的N次方人工智能 tensorflow 人工智能 python
TensorFlow是一个开源的机器学习框架，由Google开发和维护。它旨在使构建和训练机器学习模型变得更加容易，同时提供高度灵活性和可扩展性。TensorFlow基于数据流图的概念。数据流图是一个由节点和边组成的有向图，其中节点表示操作，边表示数据的流动。TensorFlow通过在数据流图中定义操作和变量来表示机器学习模型，并使用图的计算能力进行训练和推理。TensorFlow支持多种机器学习
基于Python和OpenCV的产品码识别与验证案例 GT开发算法工程师 python opencv 开发语言人工智能计算机视觉
引言：本案例展示了如何使用Python结合OpenCV库来实现产品码的识别与验证。首先，通过图像预处理技术（如灰度化、二值化、降噪等）优化产品码图像，然后利用OpenCV中的模板匹配或机器学习算法（如SVM、神经网络等）来定位并识别产品码。目录原理：代码部分：注意：原理：产品码识别与验证的核心在于图像处理与模式识别技术。首先，通过图像处理技术提取出产品码区域，去除背景干扰，增强产品码的可识别性。然
机器学习中的 K-均值聚类算法及其优缺点刘小董学习心得机器学习
K-均值聚类算法是一种常用的无监督学习算法，用于将样本数据划分为K个不同的簇。其基本思想是通过迭代去优化簇的中心位置，使得每个样本点到所属簇的中心点的距离最小。算法步骤如下：初始化K个簇的中心点，可以随机选择K个样本点作为初始中心点。对于每个样本点，计算其与各个簇中心点的距离，并将其划分到距离最近的簇中。更新每个簇的中心点，将其设为该簇中所有样本点的均值。重复步骤2和步骤3，直到达到停止条件（例如
挑战杯机器学习股票大数据量化分析与预测系统 - python 挑战杯 laafeer python
文章目录0前言1课题背景2实现效果UI界面设计web预测界面RSRS选股界面3软件架构4工具介绍Flask框架MySQL数据库LSTM5最后0前言优质竞赛项目系列，今天要分享的是机器学习股票大数据量化分析与预测系统该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：3分创新点：3分更多资料,项目分享：https://gitee.com
阿里云分布式深度学习训练架构Whale qwfys200 Reading 阿里云分布式深度学习
阿里云分布式深度学习训练架构Whale阿里云分布式深度学习训练架构Whale参考文献Whale基于Tensorflow深度学习分布式训练框架|学习笔记Whale:EfficientGiantModelTrainingoverHeterogeneousGPUs阿里云机器学习平台PAI论文高效大模型训练框架Whale入选USENIXATC’22
Python入门指南：从基础到应用袁公白 python 开发语言
引言：在这个数据驱动的时代，Python已经成为最受欢迎的编程语言之一。它以其简洁的语法、强大的库支持和广泛的应用领域而闻名。无论你是编程新手还是希望扩展你的技能集，学习Python都是一个明智的选择。在这篇博客中，我们将深入探讨Python的基础知诀，并通过实际代码示例来展示其在数据分析、网络爬虫和机器学习等领域的应用。I.Python基础知识A.数据类型Python提供了多种内置的数据类型，包
探索机器学习：智能时代的魔法 ChenDuBr 机器学习人工智能机器学习
在智能科技的浪潮中，机器学习如同一股神秘的力量，悄然改变着我们的世界。它不仅仅是编程代码的延伸，更是一种让机器通过“学习”来解决问题的魔法。本文将带你深入了解机器学习的奥秘，探索它的世界，并展望未来的无限可能。机器学习的奇幻定义想象一下，如果你的电脑或手机能够像孩子一样学习新事物，而且速度更快、记忆力更好，那就是机器学习的魅力所在。机器学习让机器通过海量数据的“熏陶”，自我进化，无需人类一步步指导
【机器学习】支持向量机 | 支持向量机理论全梳理对偶问题转换，核方法，软间隔与过拟合 Qodicat 支持向量机机器学习算法
支持向量机走的路和之前介绍的模型不同之前介绍的模型更趋向于进行函数的拟合，而支持向量机属于直接分割得到我们最后要求的内容1支持向量机SVM基本原理当我们要用一条线（或平面、超平面）将不同类别的点分开时，我们希望这条线尽可能地远离最靠近它的点。这些最靠近线的点被称为支持向量。而这条线到最靠近它的点的距离被称为间隔。支持向量机就是要找到一个最大间隔的线（或平面、超平面），这样可以更好地区分不同类别的点
ChatGPT GPT4科研应用、数据分析与机器学习、论文高效写作、AI绘图技术夏日恋雨人工智能 chatgpt 数据分析 AI大数据机器学习 python 数据挖掘
原文链接：ChatGPTGPT4科研应用、数据分析与机器学习、论文高效写作、AI绘图技术https://mp.weixin.qq.com/s?__biz=MzUzNTczMDMxMg==&mid=2247596849&idx=3&sn=111d68286f9752008bca95a5ec575bb3&chksm=fa823ad6cdf5b3c0c446eceb5cf29cccc3161d746bd
深度学习如何入门？ nanshaws yolov5 深度学习
深度学习是机器学习的一个子领域，它基于人工神经网络的研究。入门深度学习可以分为以下几个步骤：基础知识准备：（1）掌握基础数学知识，特别是线性代数、概率论和统计学、微积分。（2）学习编程语言，Python是目前最流行的深度学习语言，因其简洁易学且有大量的库支持。（3）了解机器学习基础，包括监督学习和非监督学习的概念、模型评估与选择等。学习深度学习理论：（1）理解神经网络的基本组成，如神经元、激活函数
机器学习、深度学习、神经网络之间的关系你好，工程师 AI 机器学习
机器学习（MachineLearning）、深度学习（DeepLearning）和神经网络（NeuralNetworks）之间存在密切的关系，它们可以被看作是一种逐层递进的关系。下面简要介绍它们之间的关系：机器学习（MachineLearning）：机器学习是一种人工智能的分支，关注如何通过数据让计算机系统从经验中学习，提高性能。机器学习算法可以分为监督学习、无监督学习、半监督学习和强化学习等不同
随机森林原理&sklearn实现一稻道人机器学习算法&预测模型 Python 随机森林 sklearn 算法
原理定义随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一大分支——集成学习（EnsembleLearning）方法。随机森林的名称中有两个关键词，一个是“随机”，一个就是“森林”。随机森林应该是机器学习算法时最先接触到的集成算法，集成学习的家族：Bagging：个体评估器之间不存在强依赖关系，一系列个体学习器可以并行生成。代表算法：随机森林（R
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam