云流寂川

Kaggle竞赛——桑坦德银行客户满意度预测（一）

桑坦德银行客户满意度预测

数据及具体目标
实施流程
代码实现
- 导入数据包
- 导入数据
- 探索性数据分析（EDA）
- - 删除零方差特征
  - 删除稀疏特征
  - 删除重复特征
  - 判断并删除缺失值
- 进一步探索性分析
- - 定义绘图函数
  - 目标变量的分布
  - 选取部分特征进行分析
  - - 1、var3(Region)
    - 2、var15（Age）
    - 3、var38(Mortgage values)
    - 4、var36 & var21

本文所用代码及教学内容均来自于B站：讯飞AI大学堂 kaggle教学合集

从一线支持团队到最高管理层，客户满意度是衡量成功的关键。不满意的客户不会留下来，更重要的是，不满意的顾客很少在离开前表达他们的不满。
因此，桑坦德银行（Santander Bank）向 Kaggle 社区求助，希望帮助他们在早期识别不满意的客户。这样做就可以让桑坦德银行采取积极措施，来改善客户的满意度，以免为时已晚。在本次比赛中，你将使用数百个匿名特征来预测客户是否对他们的银行业务体验感到满意或不满意。

数据及具体目标

★ 文件描述
train.csv - 包含目标变量的训练集
test.csv - 不包含目标变量的测试集
sample_submission.csv - 格式正确的示例提交文件
★ 数据字段
训练集是一个包含大量数值变量的匿名数据集，匿名数据集是指所有变量丧失原有的业务含义，所有变量经过了脱敏变换，这样我们就很难从业务角度去寻找突破口。来看一下里面具体的数据字段：
第一列是ID，中间有 369 列是经过处理的匿名变量，最后一列是目标变量 TARGET，取值为 0 表示满意的客户，取值为 1 表示不满意的客户。测试集不包含目标变量列，其余列与训练集一致，因此不再赘述。
★ 最终目标：对于测试集中的每个 ID，预测 TARGET 变量的概率。
★ 评估指标：要求用 AUC 作为评判标准，即预测概率和观察到的目标之间的 ROC 曲线下的区域面积。

实施流程

代码实现

导入数据包

# 数据处理
import numpy as np
import pandas as pd
import random
import itertools
from scipy import stats
from scipy.sparse import hstack

# 数据可视化
import matplotlib.pyplot as plt
import seaborn as sns

# 特征工程
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import OneHotEncoder

# 模型
from sklearn.model_selection import train_test_split
from sklearn.model_selection import RandomizedSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.calibration import CalibratedClassifierCV
from sklearn.ensemble import RandomForestClassifier
import xgboost as xgb
import lightgbm as lgb
from sklearn.metrics import roc_curve, roc_auc_score, log_loss

# 杂项
from tqdm import tqdm
import warnings

warnings.filterwarnings("ignore")
%matplotlib inline
sns.set(palette='muted', style='whitegrid')
np.random.seed(13154)

导入数据

train = pd.read_csv('./data/santander-customer-satisfaction/train.csv')
test = pd.read_csv('./data/santander-customer-satisfaction/test.csv')
print('训练集样本数为 %i, 变量数为 %i' % (train.shape[0],train.shape[1]))
print('测试集样本数为 %i, 变量数为 %i' % (test.shape[0],test.shape[1]))

训练集和测试集的shape为：

训练集样本数为 76020, 变量数为 371
测试集样本数为 75818, 变量数为 370

我们打印出训练集的前五行：

train.head()

探索性数据分析（EDA）

在基于机器学习方法的数据分析过程中，我们往往要面临数据格式的不规范，单位的不统一，数据的分布不符合模型的需求等等问题。事实上，这也是在数据分析行业中人们更多的选择传统统计分析方法的原因之一。为了让数据易于被模型拟合，提升测试集的分类效果，我们需要对数据进行一定的调整。那么，应该如何选择调整策略呢？对于这种具有300多个特征的高维数据，逐个分析显然是不现实的，这里我们采取探索性数据分析方法对数据的特点进行提取。

在最初的数据处理过程中，我们有一些基本的原则是可以借鉴采纳的：
1、一个特征如果具有0方差，即对每一行记录该字段的数据都相同，那么我们认为他对目标变量是没有影响的，这样的特征我们选择删除。
2、通常来说，我们会将信息很少的特征称为稀疏特征，这里我们对“稀疏”一词作如下定义：该特征的0值的个数占到了所有值的99%。
3、判断特征是否重复。如果发现，我们仅保留其一，并删除重复特征之外的所有特征
4、删除/插补特征中带有缺失值的行

删除零方差特征

i = 0
for col in train.columns:
    if train[col].var() == 0:
        i += 1
        del train[col]
        del test[col]
print('%i 个特征具有零方差并且已被删除' % i)

删除稀疏特征

#过滤稀疏特征
#函数numpy.percentile():百分位数是统计中使用的度量，表示小于这个值的观察值的百分比。
i=0
for col in train.columns:
    if np.percentile(train[col],99) == 0:
        i += 1
        del train[col]
        del test[col]
print('%i 个特征是稀疏的并且已被删除' % (i))

删除重复特征

#获取所有列的两两组合
#来自 itertools 模块的函数 combinations(list_name, x) 将一个列表和数字 ‘x’ 作为参数，并返回一个元组列表，每个元组的长度为 ‘x’，其中包含x个元素的所有可能组合。
# 列表中元素不能与自己结合，不包含列表中重复元素
combinations = list(itertools.combinations(train.columns,2))
print(combinations[:20])
'''
[('ID', 'var3'), ('ID', 'var15'), ('ID', 'imp_ent_var16_ult1'), ('ID', 'imp_op_var39_comer_ult1'), ('ID', 'imp_op_var39_comer_ult3'), ('ID', 'imp_op_var41_comer_ult1'), ('ID', 'imp_op_var41_comer_ult3'), ('ID', 'imp_op_var41_efect_ult1'), ('ID', 'imp_op_var41_efect_ult3'), ('ID', 'imp_op_var41_ult1'), ('ID', 'imp_op_var39_efect_ult1'), ('ID', 'imp_op_var39_efect_ult3'), ('ID', 'imp_op_var39_ult1'), ('ID', 'ind_var1_0'), ('ID', 'ind_var5_0'), ('ID', 'ind_var5'), ('ID', 'ind_var8_0'), ('ID', 'ind_var8'), ('ID', 'ind_var12_0'), ('ID', 'ind_var12')]
'''
len(combinations)#11026
#删除重复特征，保留其一
remove = []
keep = []
for f1,f2 in combinations:
    if (f1 not in remove) & (f2 not in remove):
        if train[f1].equals(train[f2]):
            remove.append(f1)
            keep.append(f2)
train.drop(remove,axis=1,inplace=True)
test.drop(remove,axis=1,inplace=True)
print('%i 个特征是重复的,并且 %i个特征已被删除' % (len(remove)*2,len(remove)))
print('其中特征 %s被删除\n特征 %s 被保留下来' % (remove,keep))
del remove
del keep
del combinations
'''
12 个特征是重复的,并且 6个特征已被删除
其中特征 ['ind_var26_0', 'ind_var25_0', 'ind_var37_0', 'num_var26_0', 'num_var25_0', 'num_var37_0']被删除
特征 ['ind_var26', 'ind_var25', 'ind_var37', 'num_var26', 'num_var25', 'num_var37'] 被保留下来
'''

判断并删除缺失值

print('训练集缺失值数量和: %i' % (train.isnull().sum().sum()))
print('测试集缺失值数量和: %i' % (test.isnull().sum().sum()))
'''训练集缺失值数量和: 0
测试集缺失值数量和: 0'''

进一步探索性分析

定义绘图函数

def countplot_target(df,h=500):
    '''
        :desc  绘制目标变量的频率分布，并输出满意客户和不满意客户的数量
        :param h:数据标签的附加高度
    '''
    plt.figure(figsize=(5,5))
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False#运行配置参数总的轴（axes）正常显示正负号（minus）
    ax = sns.countplot(x='TARGET',data=df)
     # ax.patches 表示条形图中的每一个矩形
    for p in ax.patches:
        height = p.get_height()
        ax.text(p.get_x()+p.get_width()/2,height + h,'{:1.2f}%'.format(height*100/df.shape[0]),ha='center')#指定文字显示的位置
    plt.title('TARGET变量的频率分布图')
    print('满意客户的数量为%i,不满意客户的数量为 %i' % (
        df[df['TARGET']==0].shape[0],
        df[df['TARGET']==1].shape[0]
    ))
    plt.show()

#定义绘制函数hisplot_comb
def hisplot_comb(col,train=train,test=test,size=(20,5),bins=20):
    '''
        绘制训练集和测试集某一特征的直方图
    '''
    plt.subplots(1,2,figsize=size)#分割界面为1行2列
    plt.subplot(121)
    plt.title('训练集特征{}的分布'.format(col))
    plt.ylabel('频数')
    plt.xlabel(col)
    plt.hist(train[col],bins=bins)

    plt.subplot(122)
    plt.title('测试集特征{}的分布'.format(col))
    plt.ylabel('频数')
    plt.xlabel(col)
    plt.hist(test[col],bins=bins)#bins：直方图的柱数，即要分的组数
    plt.show()

def valuecounts_plot(col,train=train,test=test):
    '''
        绘制训练集和测试集特定列的频数分布折线图，并输出出现百分比最高的前5个值和最低的前5个值
    '''
    plt.subplots(1,2,figsize=(15,6))
    plt.subplot(121)
    df = train[col].value_counts().sort_index()
    sns.lineplot(x=df.index,y=df.values)
    plt.title("%s的频数分布折线图" % (col))
    plt.ylabel('频数')

    plt.subplot(122)
    df = test[col].value_counts().sort_index()
    sns.lineplot(x=df.index,y = df.values)
    plt.title("%s的频数分布折线图" % (col))
    plt.ylabel('频数')

    plt.tight_layout()
    #tight_layout会自动调整子图参数，使之填充整个图像区域。
    # 这是个实验特性，可能在一些情况下不工作。它仅仅检查坐标轴标签、刻度标签以及标题的部分。
    plt.show()

    print("*"*100)
    print("训练集特征'%s'其值占比(top 5): " % (col))
    print("值\t 占比%")
    print((train[col].value_counts()*100/train.shape[0]).iloc[:5])
    print("*"*100)
    print("训练集特征'%s'其值占比(bottom 5): " % (col))
    print("值\t 占比%")
    print((train[col].value_counts()*100/train.shape[0]).iloc[-5:])

    print("测试集特征'%s'其值占比(top 5): " % (col))
    print("值\t 占比%")
    print((test[col].value_counts()*100/test.shape[0]).iloc[:5])
    print("*"*100)
    print("测试集特征'%s'其值占比(bottom 5): " % (col))
    print("值\t 占比%")
    print((test[col].value_counts()*100/test.shape[0]).iloc[-5:])

#定义绘图函数hisplot_target
def histplot_target(col,df=train,height=6,bins=20):
    '''
    :param col: 特征
    :param df: 数据集
    :param height: 附加高度
    :param bins: 柱子数量
    :return:
    '''
    sns.FacetGrid(data=df,hue='TARGET',height=height).map(plt.hist,col,bins=bins).add_legend()
    plt.title('特征%s在不同目标变量下的频数分布' % (col))
    plt.ylabel('频数')
    plt.show()

目标变量的分布

满意客户的数量为73012,不满意客户的数量为 3008

我们可以看到数据集高度不平衡，96.04%是满意客户，只有3.96%是不满意客户

选取部分特征进行分析

1、var3(Region)

我们首先将var3的唯一值进行降序排序

np.array(sorted(train.var3.unique()))
print('共有%i个唯一值' % (len(np.array(sorted(train.var3.unique())))))

结果如下：

ID	Value
0	-999999
1	0
2	1
3	2
4	3

在这里，我们可以看到var3唯一值的范围踩那个0到238，例外-999999可能是缺失值。这可能表明特定客户的国籍/地区，因为208对于想桑坦德这样的全球性公司来说是一个合理的数字

这里我们发现，可能是地区的var3中出现了值为-999999的取值，我们考虑可能是系统录入数据错误，那么，这样的数据有多少呢？

print("值\t  计数")
print((train['var3'].value_counts()[:5]))
print("值\t  占比%")
print(train['var3'].value_counts()[:5]/train.shape[0]*100)

值	  		计数
2         	 74165
8            138
-999999      116
 9           110
 3           108
Name: var3, dtype: int64

值	  		占比%
 2          97.559853
 8          0.181531
-999999     0.152591
 9          0.144699
 3          0.142068

这里我们输出了数量排名前五的唯一值及其占比，可以发现，-999999共有116个，占比0.15%，总体来讲对整体影响不大。因此我们可以考虑将-999999替换为出现次数最多的2，当然我们删除也可以，为了保证数据的完整性，我们选择前者。那么，替换后是否对我们目标变量的分布产生了影响呢？所以这里我们还需要查看替换后var3=2和var3≠2时训练集目标变量的分布

train['var3'].replace(-999999,2,inplace=True)
test['var3'].replace(-999999,2,inplace=True)
countplot_target(train[train['var3'] == 2],h=20)
countplot_target(train[train['var3'] != 2],h=10)

替换缺失值后基本不改变目标变量在var3中的一个分布情况

2、var15（Age）

print('var15 最小值为: %i,最大值为: %i' % (train['var15'].min(),train['var15'].max()))
#var15 最小值为: 5,最大值为: 105

var15的取值范围在5到105之间，与年龄较为相似，我们可以假定该特征为年龄进一步分析

hisplot_comb('var15')
#stats.percentileofscore  计算分数相对于分数列表的一个排名情况 第一个参数是分数列表第二个是分数
print("训练集中年龄在30岁以下的客户约占所有数据的 %.2f%%" % (stats.percentileofscore(train['var15'].values,30)))
print("测试集中年龄在30岁以下的客户约占所有数据的 %.2f%%" % (stats.percentileofscore(test['var15'].values,30)))
#训练集中年龄在30岁以下的客户约占所有数据的 56.15%
#测试集中年龄在30岁以下的客户约占所有数据的 56.58%

输出结果为：

由此可见，该银行的客户主要以年轻人为主，那么年轻人对银行业务的满意程度如何呢？

ax = histplot_target('var15',bins=10)
plt.figure(figsize=(6,6))
mask = train[train['TARGET']==1]
plt.hist(mask['var15'],color='orange')
plt.title('特征var15在target=1下的频数分布')
plt.xlabel('var15')
plt.show()

结果如下：

从上图可以看出，不满意客户的年龄范围是23-102岁。所以我们可以进一步提取年龄信息，创建一个特征，用来判断客户是否小于23岁，是的话就取值为1，不是就取值为0

# 创建新特征用来判断客户是否小于23岁
for df in [train,test]:
    df['var15_below_23'] = np.zeros(df.shape[0],dtype=int)
    df.loc[df['var15'] < 23,'var15_below_23'] = 1#把var15列小于23的行记录中的var15_below_23的部分赋值为1

年龄是一个数值型变量且取值只有一百个左右，但我们面临的是一个分类问题，一个分类型变量对我们的模型拟合过程显然是更有帮助的，所以我们对var15，即年龄字段进行等距分箱操作，转化为分类变量

_,bins = pd.cut(train['var15'].values , 5,retbins=True)#retbins： 是否显示分箱的分界值。默认为False，当bins取整数时可以设置retbins=True以显示分界值，得到划分后的区间
print(_)

[(4.9, 25.0], (25.0, 45.0], (4.9, 25.0], (25.0, 45.0], (25.0, 45.0], ..., (45.0, 65.0], (25.0, 45.0], (4.9, 25.0], (4.9, 25.0], (45.0, 65.0]]

此时我们再输出变量的分布

train['var15'] = pd.cut(train['var15'].values,bins,labels=False)
test['var15'] = pd.cut(test['var15'].values,bins,labels=False)
histplot_target('var15')

结果如下：

在不满意的客户（图中橙色柱）中，分箱值为1的数据最多，也就是说，绝大部分不满意的客户都在1至2之间，即25到45岁

3、var38(Mortgage values)

print('最小值是 %i,最大值为 %i' % (train['var38'].min(),train['var38'].max()))
sorted(train['var38'].unique())
train.var38.value_counts()

最小值是 5163,最大值为 22034738
[5163.75,
 6480.66,
 6773.13,
 8290.86,
 8394.93,
 8856.21,
 9213.75,
 9342.33,
 9486.36...]

再查看一下唯一值的分布：

train.var38.value_counts()

通过上述分析我们几乎不能得到任何信息，因为一个值具有非常高的分布频率。我们将输出每个百分位值进一步探索

for i in np.arange(0,1.1,0.1):
    print('%i percentile : %i' % (i*100,np.quantile(train.var38.values,i)))

结果如下：

0 percentile : 5163
10 percentile : 48070
20 percentile : 61496
30 percentile : 74152
40 percentile : 88571
50 percentile : 106409
60 percentile : 117310
70 percentile : 117310
80 percentile : 132859
90 percentile : 182585
100 percentile : 22034738

我们可以看到，0百分值和10百分位值之间存在巨大差异，90百分位值和100百分位值也是相同情况
查看一下特征var38在不同目标变量下的频数分布。因为最大值太大，所以只绘制小于0.975分位数的取值分布

mask = train[train['var38'] <= np.quantile(train.var38.values,0.975)]
histplot_target('var38',df=mask,bins=20)

数据整体呈现右偏分布，我们可以对其进行对数变换

mask['var38'] = np.log(mask.var38).values
histplot_target('var38',df=mask,bins=20)

可以看到经过对数变换，分布比前者好看很多。因此，我们将对数转换应用于特征var38

for df in [train,test]:
    df['var38'] = np.log(df['var38']).values
histplot_target('var38',bins=20)

4、var36 & var21

因为特征var36和var21唯一值都比较少，所以可以不用对其转换。当然，如果觉得特征var21的唯一值比较多，也可以将出现频数小于100的值比如4500一起合并为一类，看看这样能否提高后期的预测能力

地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
特殊的拜年飘雪的天堂
文/雪儿大年初一，家家户户没有了轰响的鞭炮声，大街上没有了人流涌动的喧闹，几乎看不到人影，变得冷冷清清。天刚亮不大会儿，村里的大喇叭响了起来：由于当前正值疾病高发期，流感流行的高峰期。同时，新型冠状病毒感染的肺炎进入第二波流行的上升期。为了自己和他人的健康安全着想，请大家尽量不要串门拜年，不要在街里走动。可以通过手机微信，视频，电话，信息拜年……今年的春节真是特别。禁止燃放鞭炮，烟花爆竹，禁止出村
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
log4j配置 yy爱yy
#log4j.rootLogger配置的是大于等于当前级别的日志信息的输出#log4j.rootLogger用法:（注意appenderName可以是一个或多个）#log4j.rootLogger=日志级别,appenderName1,appenderName2,....#log4j.appender.appenderName2定义的是日志的输出方式，有两种：一种是命令行输出或者叫控制台输出，另一
MYSQL面试系列-04 king01299 面试 mysql 面试
MYSQL面试系列-0417.关于redolog和binlog的刷盘机制、redolog、undolog作用、GTID是做什么的？innodb_flush_log_at_trx_commit及sync_binlog参数意义双117.1innodb_flush_log_at_trx_commit该变量定义了InnoDB在每次事务提交时，如何处理未刷入（flush）的重做日志信息（redolog）。它
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
2022现在哪个打车软件比较好用又便宜实惠的打车软件合集高省APP珊珊
这是一个信息高速传播的社会。信息可以通过手机，微信，自媒体，抖音等方式进行传播。但同时这也是一个交通四通发达的社会。高省APP，是2022年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。珊珊导师，高省邀请码777777，注册送2皇冠会员，送万元推广大礼包，教你如何1年做到百万团队。高
没有邀请码怎么注册买手妈妈? 氧惠评测
买手妈妈怎么注册小编为大家带来买手妈妈没有邀请码怎么注册。打开买手妈妈APP，点击“马上注册”，输入邀请信息“邀请码”点击下一步，没有邀请码是登录不上的，所以这个必须要填写，那我们没有怎么办？填写成功就可以登录下一步。这里面有手机登录和淘宝登录，手机登录以后也需要用淘宝授权的，所以基本上都是淘宝登录。购物、看电影、点外卖、用氧惠APP！更优惠！氧惠（全网优惠上氧惠）——是与以往完全不同的抖客+淘客
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key

Kaggle竞赛——桑坦德银行客户满意度预测（一）

桑坦德银行客户满意度预测

数据及具体目标

实施流程

代码实现

导入数据包

导入数据

探索性数据分析（EDA）

删除零方差特征

删除稀疏特征

删除重复特征

判断并删除缺失值

进一步探索性分析

定义绘图函数

目标变量的分布

选取部分特征进行分析

1、var3(Region)

2、var15（Age）

3、var38(Mortgage values)

4、var36 & var21

你可能感兴趣的:(python,信息可视化,数据分析)