maomaona

[Kaggle] kernel中常用方法和语句总结

目录

读取数据

表格类型数据

读数据，看行数、列数，前几行

EDA

查看目标变量分布

目标变量为分类变量

查看缺失值

目标dataframe缺失数据的分布

查看不同类型变量情况

Category/分类变量预处理

object类型的变量是分类变量，查看所有分类变量的取值个数

Label Encoder - 注意要同时code train和test集！

OneHot Encoder

检查异常值

检查是否有不合常理的值

特征和目标相关性

全部特征和目标变量的相关性

深入探索某个连续特征和目标变量（类别变量）的相关性

同时探索几个相关连续特征对目标变量（类别变量）的影响

读取数据

表格类型数据

读数据，看行数、列数，前几行

df = pd.read_csv("./Data/application_train.csv")
print("Training data shape: ", df.shape)
df.head()

EDA

查看目标变量分布

目标变量为分类变量

df['TARGET'].value_counts()
df['TARGET'].plot.hist()

查看缺失值

目标dataframe缺失数据的分布

输入：目标dataframe

输出：dataframe里所有有缺失值的变量为列，行为缺失值的个数，和缺失值比例

def missing_values_table(df):
    # Total missing values
    mis_val = df.isnull().sum()
    
    # Percentage of missing values
    mis_val_percent = 100 * df.isnull().sum() / df.shape[0]
    
    # Make a table with the result
    mis_val_table = pd.concat([mis_val, mis_val_percent], axis=1)
    
    # Rename columns
    mis_val_table_re_columns = mis_val_table.rename(
        columns = {0: 'Missing Values',
                                1: '% of Total Missing Values'})
    
    # Sort the table by percentage of missing, descending
    mis_val_table_re_columns = mis_val_table_re_columns[
        mis_val_table_re_columns["Missing Values"]!=0
    ].sort_values(by=["% of Total Missing Values"], ascending=False)
    
    # Print summary information
    print("Your selected df has " + str(df.shape[1]) + " columns.\n",
                 "There are " + str(mis_val_table_re_columns.shape[0]) + "columns have missing values.")
    
    return mis_val_table_re_columns

查看不同类型变量情况

df.dtypes.value_counts()

Category/分类变量预处理

object类型的变量是分类变量，查看所有分类变量的取值个数

df.select_dtypes('object').apply(pd.Series.nunique, axis=0)

Label Encoder - 注意要同时code train和test集！

# Create a label encoder object
le = LabelEncoder()
le_count = 0

# Iterate through the columns
for col in app_train:
    if app_train[col].dtype == 'object':
        # If 2 or fewer unique categories
        if len(list(app_train[col].unique())) <= 2:
            # Train on the training data
            le.fit(app_train[col])
            
            #Transform both trainin and testing data
            app_train[col] = le.transform(app_train[col])
            app_test[col] = le.transform(app_test[col])
            
            # Keep track of how many columns are label encoded
            le_count += 1

print("{} columns were label encoded.".format(le_count))

OneHot Encoder

# OneHot encoding of categorical variables
app_train = pd.get_dummies(app_train)
app_test = pd.get_dummies(app_test)

注意在train集和test集上，feature(column)的数量应当是相同的，但在OneHot Encoding之后，如果train和test集的特征取值范围不同，有些train集的特征取值在test集上没有，则需要align train和test集 -

train_labels = app_train['TARGET']

# Align the training and testing data, keep only columns present in both dataframes
app_train, app_test = app_train.align(app_test, join='inner', axis=1)

# Add the target back in train data
app_train['TARGET'] = train_labels

print('Training Features shape: ', app_train.shape)
print('Testing Features shape: ', app_test.shape)

在OneHot Encoding之后，特征个数显著增多，如果需要，做PCA

检查异常值

检查是否有不合常理的值

检查最大和最小值

app_train['DAYS_EMPLOYED'].describe()

如果在数据里发现异常值，不要草率处理，如全部填零等。

safest way是首先看异常值的分布是否有特点，比如是否异常值都相同，有异常值的观测值是否对目标变量有影响（为查看这一点，可以把观测值按是否有异常值分组，看各组的目标变量均值是否相等）。

如果异常值的分布有其特点，处理方法可以是 - 另外创建一列，用来表明其对应的列是否为异常值，然后给所有异常值填充np.nan，以备后续处理。

注意 - 任何在training set上做的处理，需要同样在test set上做！

特征和目标相关性

Some general interpretations of the absolute value of the correlation coefficent are:

.00-.19 “very weak”
.20-.39 “weak”
.40-.59 “moderate”
.60-.79 “strong”
.80-1.0 “very strong”

全部特征和目标变量的相关性

# Find correlations with the target and sort
correlations = app_train.corr()['TARGET'].sort_values()

# Display correlations
print('Most Positive Correlations:\n', correlations.tail(15))
print('\nMost Negative Correlations:\n', correlations.head(15))

深入探索某个连续特征和目标变量（类别变量）的相关性

首先画histgram查看分布 -

# Set the style of plots
plt.style.use('fivethirtyeight')

#Plot the distribution of ages in years
plt.hist(app_train['DAYS_BIRTH'] / 365, edgecolor = 'k', bins=25)
plt.title('Age of Client')
plt.xlabel('Age(years)')
plt.ylabel('Count')

然后做KDE图，看目标变量取值不同时，特征的分布情况

# KDE plot of loans that were repaid on time
sns.kdeplot(app_train.loc[app_train['TARGET']==0, 'DAYS_BIRTH'] / 365, label = 'target==0')

# KDE plot of loans that were not repaid on time
sns.kdeplot(app_train.loc[app_train['TARGET']==1, 'DAYS_BIRTH'] / 365, label = 'target==1')

尝试将连续特征转换成离散特征，探索其和目标变量的关系

# Age data saved in another dataframe
age_data = app_train[['TARGET', 'DAYS_BIRTH']]
age_data['YEARS_BIRTH'] = age_data['DAYS_BIRTH'] / 365

# BIn the age data
age_data['YEARS_BINNED'] = pd.cut(age_data['YEARS_BIRTH'], bins=np.linspace(20, 70, num=11))
age_data.head(10)

np.linspace(start, end, num) - 在[start, end]返回num个均匀的样本

pd.cut(array-like x, bins) - 返回一个array-like对象，按照bins分箱

做bar plot

# Draw a bar plot for the age bins
plt.bar(age_groups.index.astype(str), 100*age_groups['TARGET'])

#Plot labeling
plt.xticks(rotation=75)
plt.xlabel('Age Group (years)')
plt.ylabel('Failure to Repay (%)')
plt.title('Failure to Repay by Group')

同时探索几个相关连续特征对目标变量（类别变量）的影响

查看特征间关系，及其与目标变量间的关系，热力图，KDE图

ext_data = app_train[['EXT_SOURCE_1', 'EXT_SOURCE_2', 'EXT_SOURCE_3', 'TARGET', 'DAYS_BIRTH']]
corr_ext = ext_data.corr()
corr_ext

sns.heatmap(corr_ext, cmap=plt.cm.RdYlBu_r, vmin=-0.25, annot=True, vmax=0.6)
plt.title('Correlation Heatmap')

特征工程

Polynomial Features (多项式特征)

生成多项式特征，调用sklearn包中的PolynomialFeatures

# Import Polynomial features tool
from sklearn.preprocessing import PolynomialFeatures

poly_transformer = PolynomialFeatures(degree=3)

# Train the polynomial features
poly_transformer.fit(poly_features)

# Transform the features
poly_features = poly_transformer.transform(poly_features)
poly_features_test = poly_transformer.transform(poly_features_test)

print('Polynomial features shape: ', poly_features.shape)

注意PolynomialFeatures的transform方法输出的是一个numpy array，需要特别转换成Dataframe，并且用get_feature_names方法得到新的特征名。得到的特征，需要添加primary key，然后merge回原本的train和test集，注意这点与get_dummies()方法不同。

# Create a dataframe of the features
poly_features = pd.DataFrame(poly_features, 
                             columns = poly_transformer.get_feature_names(['EXT_SOURCE_1', 'EXT_SOURCE_2', 
'EXT_SOURCE_3', 'DAYS_BIRTH']))

# Put test features into dataframe
poly_features_test = pd.DataFrame(poly_features_test, 
                                  columns = poly_transformer.get_feature_names(['EXT_SOURCE_1', 'EXT_SOURCE_2', 
                                                                                'EXT_SOURCE_3', 'DAYS_BIRTH']))

# Merge polynomial features into training dataframe
poly_features['SK_ID_CURR'] = app_train['SK_ID_CURR']
app_train_poly = app_train.merge(poly_features, on = 'SK_ID_CURR', how = 'left')

# Merge polnomial features into testing dataframe
poly_features_test['SK_ID_CURR'] = app_test['SK_ID_CURR']
app_test_poly = app_test.merge(poly_features_test, on = 'SK_ID_CURR', how = 'left')

# Align the dataframes
app_train_poly, app_test_poly = app_train_poly.align(app_test_poly, join = 'inner', axis = 1)

# Print out the new shapes
print('Training data with polynomial features shape: ', app_train_poly.shape)
print('Testing data with polynomial features shape:  ', app_test_poly.shape)

Domain Knowledge

你可能感兴趣的:(机器学习基础,Kaggle)

小白零基础学数学建模系列-引言与课程目录川川菜鸟数学建模小白到精通系列数学建模
目录引言一、我们的专辑包含哪些内容？第一周：数学建模基础与工具第二周：高级数学建模技巧与应用第三周：机器学习基础与数据处理第四周：监督学习与无监督学习算法第五周：神经网络二、学完本专辑能收获到什么？三、适合什么样的人群学习？四、如何学习本专辑？课程目录第1周：数学建模基础与工具第1天：数学建模入门介绍第2天：数学建模工具介绍第3天：线性回归与曲线拟合第4天：线性规划第5天：动态规划第2周：高级数学
直方图梯度提升：大数据时代的极速决策引擎万事可爱^ 大数据机器学习深度学习直方图梯度提升 GBDT 算法
一、为什么需要直方图梯度提升？在Kaggle竞赛的冠军解决方案中，超过70%的获奖方案都使用了梯度提升算法。但当数据量突破百万级时，传统梯度提升树（GBDT）面临三大致命瓶颈：训练耗时剧增：每个特征的分割点计算都需要全量数据排序内存消耗爆炸：存储排序后的特征值需要额外空间处理效率低下：无法有效利用现代CPU的多核特性而梯度提升决策树（GBDT）作为集成学习的代表算法，通过迭代构建决策树实现预测能力
【人工智能机器学习基础篇】——深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理猿享天开人工智能数学基础专讲人工智能机器学习无监督学习降维
深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理在当今数据驱动的世界中，数据维度的增多带来了计算复杂性和存储挑战，同时也可能导致模型性能下降，这一现象被称为“维度诅咒”（CurseofDimensionality）。降维作为一种重要的特征提取和数据预处理技术，旨在通过减少数据的维度，保留其主要信息，从而简化数据处理过程，并提升模型的性能。本文将深入探讨两种广泛应用于无监督学习中的降
【十自然语言处理项目实战】【10.2 数据收集与预处理】再见孙悟空_ #自然语言处理人工智能知识图谱 transformer 自然语言处理数据收集自然语言处理预处理自然语言处理项目
各位在数据泥潭里打滚的勇士们，今天咱们要聊的这个话题，就像学做川菜必须掌握的"火锅底料炒制法"——数据收集与预处理！这玩意儿看着像脏活累活，实则是决定你模型上限的生死关卡。作为一个曾把BERT训成人工智障的老司机，这就把五年掉坑经验熬成一锅十全大补汤！（戴上橡胶手套准备掏数据）一、数据收集的野路子：比盗墓还刺激的冒险1.1公开数据集寻宝图（附藏宝坐标）①正道的光：Kaggle（数据界的沃尔玛）：搜
Python 机器学习基础之学习基础环境搭建仙魁XAN Python 机器学习基础+实战案例 python 学习开发语言机器学习 machine learning
Python机器学习基础之学习基础环境搭建目录Python机器学习基础之学习基础环境搭建一、简单介绍二、什么是机器学习三、python环境的搭建1、Python安装包下载2、这里以下载Python3.10.9为例3、安装Python3.10.94、检验python是否安装成功，win+R快捷打开运行，输入cmd，打开cmd四、Pycharm环境搭建1、下载Pycharm安装包2、安装Pycharm
人工智能直通车系列24【机器学习基础】（机器学习模型评估指标（回归））浪九天人工智能直通车开发语言 python 机器学习深度学习神经网络人工智能
目录机器学习模型评估指标（回归）1.均方误差（MeanSquaredError,MSE）2.均方根误差（RootMeanSquaredError,RMSE）3.平均绝对误差（MeanAbsoluteError,MAE）4.决定系数（CoefficientofDetermination,R2）机器学习模型评估指标（回归）1.均方误差（MeanSquaredError,MSE）详细解释均方误差是回归问
新手村：数据预处理-异常值检测方法嘉羽很烦机器学习机器学习
机器学习中异常值检测方法一、前置条件知识领域要求编程基础Python基础（变量、循环、函数）、JupyterNotebook或PyCharm使用。统计学基础理解均值、中位数、标准差、四分位数、正态分布、Z-score等概念。机器学习基础熟悉监督/无监督学习、分类、聚类、回归等基本概念。数据预处理数据清洗、特征缩放（标准化/归一化）、数据可视化（Matplotlib/Seaborn）。二、渐进式学习
【人工智能基础2】机器学习、深度学习总结 roman_日积跬步-终至千里人工智能习题人工智能机器学习深度学习
文章目录一、人工智能关键技术二、机器学习基础1.监督、无监督、半监督学习2.损失函数：四种损失函数3.泛化与交叉验证4.过拟合与欠拟合5.正则化6.支持向量机三、深度学习基础1、概念与原理2、学习方式3、多层神经网络训练方法一、人工智能关键技术领域基础原理与逻辑机器学习机器学习基于数据，研究从观测数据出发寻找规律，利用这些规律对未来数据进行预测。基于学习模式，机器学习可以分为监督、无监督、强化学习
kaggle-ISIC 2024 - 使用 3D-TBP 检测皮肤癌-学习笔记 supernova121 学习笔记
问题描述：通过从3D全身照片(TBP)中裁剪出单个病变来识别经组织学确诊的皮肤癌病例数据集描述：图像+临床文本信息评价指标：pAUC，用于保证敏感性高于指定阈值下的AUC主流方法分析（文本）基于CatBoost、LGBM和XGBoost三者的组合，为每个算法创建了XX个变体，总共XX个模型，进行集成学习。CatBoost在传统梯度提升决策树（GBDT）基础上，引入了一系列关键技术创新，以提升处理类
机器学习驱动的智能化电池管理技术与应用萌萌可爱郭德纲机器学习人工智能
电池管理技术概述电池的工作原理与关键性能指标电池管理系统的核心功能ØSOC估计ØSOH估计Ø寿命预测Ø故障诊断人工智能机器学习基础人工智能的发展机器学习的关键概念机器学习在电池管理中的应用案例介绍人工智能在电池荷电状态估计中的应用荷电状态估计方法概述基于迁移学习的SOC估计(1)基于迁移学习的SOC估计方法数据集、估计框架、估计结果(2)全生命周期下的SOC估计方法数据集、估计框架、估计结果基于数
基于python的手写数字识别knn_用sklearn中的KNN实现Kaggle手写数字识别普和司
importcsvfromsklearnimportneighbors#导入训练数据和测试数据defloadData(filename1,filename2,trainDataSet,trainTargetSet,testDataSet):withopen(filename1,'r')ascsvfile1:lines1=csv.reader(csvfile1)dataSet=list(lines1
机器学习专栏博文汇总 python游乐园机器学习机器学习人工智能合集
本篇汇集了Python游乐园中机器学习专栏博文，会持续更新，需要的小伙伴可以收藏一下Python机器学习实战：基于不同机器学习算法的鸢尾花数据集分析机器学习常见问题：过拟合及其处理方式结构化数据和非结构化数据的区别是什么如何选择合适的机器学习算法来处理非结构化数据可用于文本分析的机器学习算法都有哪些Python机器学习实战：遗传算法机器学习基础：什么是启发式算法机器学习中常用的调节参数的方法（附P
如何增强机器学习基础，提升大模型面试通过概率 weixin_40941102 机器学习面试人工智能
我的好朋友没有通过面试所以我给我的好朋友准备了这一篇学习路线随着大模型（如Transformer、GPT-4、LLaMA等）在自然语言处理（NLP）、计算机视觉（CV）和多模态任务中的广泛应用，AI行业的招聘竞争愈发激烈。面试官不仅要求候选人熟练使用深度学习框架（如PyTorch、TensorFlow），还希望他们具备扎实的机器学习理论基础、算法实现能力和实际问题解决经验。本文将从机器学习基础入手
kaggle竞赛（初识）薛定谔的码* 人工智能
PART0:Kaggle介绍Kaggle是什么？答案很简单Kaggle是数据挖掘比赛火起来的，以至于中国兴起了很多很多类似的比赛；Kaggle是一个数据科学竞赛的平台，很多公司会发布一些接近真实业务的问题，吸引爱好数据科学的人来一起解决。Kaggle提供了一个介于“完美”与真实之间的过渡，问题的定义基本良好，却夹着或多或少的难点，一般没有完全成熟的解决方案。在参赛过程中与论坛上的其他参赛者互动，能
机器学习入门指南：从 TensorFlow 到 PyTorch 6v6-博客机器学习 tensorflow pytorch
机器学习入门指南：从TensorFlow到PyTorch机器学习（MachineLearning）是人工智能的核心领域之一，近年来在图像识别、自然语言处理、推荐系统等领域取得了巨大进展。本文将从基础概念入手，介绍机器学习的核心知识，并带你快速上手两大主流框架：TensorFlow和PyTorch。机器学习基础什么是机器学习？机器学习是一种通过数据训练模型，使计算机能够自动学习和改进的技术。它主要分
1.动手学习深度学习课程安排及深度学习数学基础 Unknown To Known 动手学习深度学习深度学习人工智能
视频资源B站：动手学习深度学习——李沐目录目标内容将学到什么1.N维数组样例2.访问2维数组元素3.数据操作4.线性代数5.矩阵计算6.自动求导目标介绍深度学习景点和最新模型LeNetAlexNetVGGResNetLSTMBERT…机器学习基础损失函数，目标函数，过拟合，优化实践使用pytorch实现介绍的知识点在真实数据上体验算法效果内容深度学习基础——线性神经网络，多层感知机卷积神经网络——
python3中的os.path模块 hgz_dm 编程语言 python3 os.path
os.path模块主要用于获取文件的属性，这里对该模块中一些常用的函数做些记录。os.abspath(path):获取文件的绝对路径。这里path指的是路径，例如我这里输入“data.csv”[In]os.path.abspath('data.csv')[Out]'E:\\kaggle\\Titanic\\data.csv'os.path.basename(path):获取文件名称。该函数默认通过
基于机器学习的恶意软件检测系统的详细设计与实现源码空间站11 机器学习人工智能课程设计 python 网络安全信息安全恶意软件检测
以下是一个基于机器学习的恶意软件检测系统的详细设计与实现，适合作为课程作业或项目开发。我们将实现一个通过机器学习模型分析恶意软件特征来检测文件是否为恶意软件的系统。总体思路数据准备：选择现有的恶意软件数据集（如Kaggle的恶意软件数据集）或构造模拟数据集。数据集中包含文件的特征（如二进制特征、字符串特征、API调用特征等）和标签（"恶意"或"正常"）。特征提取：提取文件的静态特征（如文件大小、字
PyTorch 学习路线 gorgor在码农 #python入门基础 python pytorch
学习PyTorch需要结合理论理解和实践编码，逐步掌握其核心功能和实际应用。以下是分阶段的学习路径和资源推荐，适合从入门到进阶：1.基础知识准备前提条件Python基础：熟悉Python语法（变量、函数、类、模块等）。数学基础：了解线性代数、微积分、概率论（深度学习的基础）。机器学习基础：理解神经网络、损失函数、优化器（如梯度下降）等概念。学习资源Python入门：Python官方教程机器学习基础
Python 机器学习基础之算法链与管道【算法链与管道/预处理进行参数选择/构建管道/在网格搜索中使用管道】的简单说明仙魁XAN Python 机器学习基础+实战案例 python 机器学习算法链管道网格搜索
Python机器学习基础之算法链与管道【算法链与管道/预处理进行参数选择/构建管道/在网格搜索中使用管道】的简单说明目录Python机器学习基础之算法链与管道【算法链与管道/预处理进行参数选择/构建管道/在网格搜索中使用管道】的简单说明一、简单介绍二、算法链与管道1、算法链与管道的概念2、使用Pipeline的示例3、关键点说明三、用预处理进行参数选择四、构建管道五、在网格搜索中使用管道1、举例说
机器学习基础（4） yyc_audio 深度学习 python 机器学习神经网络人工智能
超越基于常识的基准除了不同的评估方法，还应该利用基于常识的基准。训练深度学习模型就好比在平行世界里按下发射火箭的按钮，你听不到也看不到。你无法观察流形学习过程，它发生在数千维空间中，即使投影到三维空间中，你也无法解释它。唯一的反馈信号就是验证指标，就像隐形火箭的高度计。特别重要的是，我们需要知道火箭是否离开了地面。发射地点的海拔高度是多少？模型似乎有15%的精度——这算是很好吗？在开始处理一个数据
chatglm3如何进行微调 learner_ctr 人工智能 chatglm3 llm
一、需要的环境内存：因为在loadmodel时，是先放在内存里面，所以内存不能小，最好在30GB左右显存：如果用half()精度来loadmodel的话(int4是不支持微调的)，显存在16GB就可以，比如可以用kaggle的t4gpu，这款性能相当于2070系列，但是显存翻倍python：3.10即可需要安装的包和版本：!pipinstallmodelscope-ihttps://pypi.tu
Python 机器学习基础之模型评估与改进【评估指标与评分】的简单说明仙魁XAN Python 机器学习基础+实战案例 python 机器学习模型评估与改进评估指标与评分召回率
Python机器学习基础之模型评估与改进【评估指标与评分】的简单说明目录Python机器学习基础之模型评估与改进【评估指标与评分】的简单说明一、简单介绍二、评估指标与评分1、牢记最终目标2、二分类指标1）错误类型2）不平衡数据集3）混淆矩阵4）考虑不确定性5）准确率-召回率曲线6）受试者工作特征（ROC）与AUC3、多分类指标4、回归指标5、在模型选择中使用评估指标附录一、参考文献一、简单介绍Py
机器学习—赵卫东阅读笔记（一）走在考研路上深度学习了解机器学习笔记人工智能
第一章：机器学习基础1.1.2机器学习主要流派1.符号主义2.贝叶斯分类——基础是贝叶斯定理3.联结主义——源于神经学，主要算法是神经网络。——BP算法：作为一种监督学习算法，训练神经网络时通过不断反馈当前网络计算结果与训练数据之间的误差来修正网络权重，使误差足够小。4.进化计算——通过迭代优化，找到最佳结果。——具有自组织、自适应、自学习的特性，能够有效处理传统优化算法难以解决的复杂问题（例如N
Python在机器学习与数据分析领域的深度应用：从基础到实战 CodeJourney. python 算法
在当今数字化时代，数据如同宝贵的矿产资源，蕴含着无尽的价值等待挖掘。Python作为一门强大而灵活的编程语言，凭借其丰富的库和工具，在机器学习和数据分析领域扮演着举足轻重的角色。它不仅为数据科学家和开发者提供了高效处理和分析数据的手段，还助力构建各种智能模型，实现精准预测和决策支持。本文将深入探讨Python在机器学习和数据分析领域的应用，涵盖机器学习基础概念、Pandas库的使用技巧、数据分析实
编程小白冲Kaggle每日打卡（6）--kaggle学堂：＜Python＞功能和获取帮助 AZmax01 编程小白冲Kaggle每日打卡 python 开发语言
Kaggle官方课程链接：FunctionsandGettingHelp本专栏旨在Kaggle官方课程的汉化，让大家更方便地看懂。目录FunctionsandGettingHelpGettingHelpDefiningfunctionsDocstringsFunctionsthatdon'treturnDefaultargumentsFunctionsAppliedtoFunctionsYourT
1.7 Kaggle大白话：Eedi竞赛Transformer框架解决方案07-调用AI模型输出结果 AI量金术师 Kaggle竞赛人工智能 transformer 深度学习 python 算法
目录0.本栏目竞赛汇总表1.本文主旨2.调用AI模型输出结果架构3.模型准备3.1代码实现3.2大白话模型准备4.数据处理4.1代码实现4.2大白话数据处理5.特征提取5.1代码实现5.2大白话特征提取6.相似度匹配6.1代码实现6.2大白话相似度匹配7.系列总结7.1章节回顾7.2竞赛排名7.3其他优秀项目（皆为竞赛金牌）0.本栏目竞赛汇总表Kaggle竞赛汇总1.本文主旨大白话：上一篇文章中，
编程小白冲Kaggle每日打卡（17）--kaggle学堂：＜机器学习简介＞随机森林 AZmax01 编程小白冲Kaggle每日打卡机器学习随机森林人工智能
Kaggle官方课程链接：RandomForests本专栏旨在Kaggle官方课程的汉化，让大家更方便地看懂。RandomForests使用更复杂的机器学习算法。介绍决策树给你留下了一个艰难的决定。一棵有很多叶子的深树会被过度拟合，因为每一个预测都来自它叶子上少数房子的历史数据。但是，叶子很少的浅树表现不佳，因为它无法在原始数据中捕捉到尽可能多的区别。即使是当今最复杂的建模技术也面临着欠拟合和过拟
0. Kaggle实战：Kaggle竞赛实战记录列表（持续更新） AI量金术师 Kaggle竞赛人工智能 python 开发语言机器学习金融
目录1.专栏描述2.Kaggle竞赛列表2.1Eedi-MiningMisconceptionsinMathematics（持续更新中）1.专栏描述本专栏专注于记录与分享Kaggle竞赛的解题思路、项目框架及代码实现。通过通俗易懂的讲解和简单明了的测试数据，帮助每位读者轻松掌握参赛技巧，快速提升实战能力，一起探索数据科学的魅力！2.Kaggle竞赛列表2.1Eedi-MiningMisconcep
编程小白冲Kaggle每日打卡（7）--kaggle学堂：＜Python＞布尔型和条件形 AZmax01 编程小白冲Kaggle每日打卡 python 开发语言
Kaggle课程官网链接：BooleansandConditionals本专栏旨在Kaggle官方课程的汉化，让大家更方便地看懂。目录BooleansandConditionalsBooleansComparisonOperationsCombiningBooleanValuesConditionalsBooleanconversionYourTurnBooleansandConditionals
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他