数据挖掘竞赛第2页

kaggle-titanic实战--数据挖掘实例

kaggle是一个国外的数据挖掘竞赛平台，大家做完竞赛之后会写一些指导，因此可以通过其他人写的指导文件进行学习，kaggle传送门。

weixin_30901729·2020-07-28 17:21

kaggle数据挖掘竞赛初步--Titanic

Titanic是kaggle上的一道justforfun的题，没有奖金，但是数据整洁，拿来练手最好不过啦。这道题给的数据是泰坦尼克号上的乘客的信息，预测乘客是否幸存。这是个二元分类的机器学习问题，但是由于数据样本相对较少，在当时慌乱的情况下幸存者有一定的随机性，还是有一定挑战的。https://www.kaggle.com/c/titanic-gettingStarted/一载入数据首先，我们要先

dichuqi8803·2020-07-27 21:35

Kaggle数据挖掘竞赛冠军及优胜者代码汇总

原文：http://www.chioka.in/kaggle-competition-solutions/Welearnmorefromcode,andfromgreatcode.Notnecessarilyalwaysthe1strankingsolution,becausewealsolearnwhatmakesastellarandjustagoodsolution.Iwillpostsol

kuaileyichu·2020-07-27 14:02

人工智障也刷题！Kaggle 入门之实战泰坦尼克号

Kaggle是一个用来学习、分享和竞赛的线上数据实验平台，有点类似KDD—CUP（国际知识发现和数据挖掘竞赛），企业或者研究者可以将背景、数据、期望指标等发布在kaggle上，用竞赛的方式向全世界的数据科学家和爱好者寻求解决方案

weixin_34323858·2020-07-27 13:28

数据挖掘竞赛总结——津南数字制造算法赛

用十天左右的时间参加了阿里天池最近的津南数字制造算法赛的赛场一，名次159，复赛都没进去，但是通过这次比赛，了解到了理论如何应用于实际，也发现了算法理论并不是实际应用唯一的部分。以下是我认为实际应用中重要的几个点：1、异常值检测、处理。2、特征的连续值和离散值处理。3、特征工程——根据领域知识制造特征。4、特征选择。5、算法选择、参数调优。在实际参赛中，往往会感受到“玄学”的力量，一些很有道理的特

落在地上的乐乐·2020-07-16 06:07

数据预处理系列：（二）创建试验样本数据

风雪夜归子（英文名:Allen），机器学习算法攻城狮，喜爱钻研MachineLearning的黑科技，对DeepLearning和ArtificialIntelligence充满兴趣，经常关注kaggle数据挖掘竞赛平台

风雪夜归子·2020-07-15 01:34

jupyter notebook的项目管理——.ipynb中调用.py文件

做课题和数据挖掘竞赛用python比较多，比较常用的是在服务器终端输入jupyternotebook--ip0.0.0.0，打开jupyternotebook的一个后台，并在本地windows电脑浏览器进入该服务端写

dev_zyx·2020-07-12 21:09

kaggle数据挖掘竞赛----信用评分卡模型分析（一）数据预处理+特征工程阶段

原文地址：https://www.jianshu.com/p/f931a4df202chttps://www.jianshu.com/p/159f381c661dhttps://blog.csdn.net/zs15321583801/article/details/81234446https://blog.csdn.net/shenxiaoming77/article/details/787716

weixin_41065383·2020-07-12 11:49

spark Tokenization的用法

：风雪夜归子（Allen），机器学习算法攻城狮，喜爱钻研MeachineLearning的黑科技，对DeepLearning和ArtificialIntelligence充满兴趣，经常关注Kaggle数据挖掘竞赛平台

风雪夜归子·2020-07-12 03:27

数据预处理系列：（五）分类变量处理

风雪夜归子（英文名:Allen），机器学习算法攻城狮，喜爱钻研MachineLearning的黑科技，对DeepLearning和ArtificialIntelligence充满兴趣，经常关注kaggle数据挖掘竞赛平台

风雪夜归子·2020-07-12 03:27

数据挖掘竞赛预测模型一——逻辑回归

逻辑回归sklearn中主要有LogisticRegression和LogisticRegressionCV：LogisticRegressionCV使用交叉验证选择正则化参数C，而LogisticRegression需要每次手动指定一个正则化参数#LogisticRegressionfromsklearn.linear_modelimportLogisticRegressionlr=Logist

o0xgw0o·2020-07-11 14:22

数据挖掘竞赛预测模型——贝叶斯参数搜索

bayes_opt库实现贝叶斯自动调参本案例使用xgboost算法实现bayes_opt自动搜索调参importpandasaspdimportxgboostasxgbfromsklearn.model_selectionimportcross_val_scorefrombayes_optimportBayesianOptimizationtrain_data=pd.read_csv('...')

o0xgw0o·2020-07-11 14:22

数据挖掘竞赛预测模型——五折交叉验证

使用catboost进行五折交叉验证importnumpyasnpimportpandasaspdimportcatboostascbtfromsklearn.metricimportf1_scorefromsklearn.model_selectionimporttrain_test_splitfromsklearn.model_selectionimportStratifiedKFoldtra

o0xgw0o·2020-07-11 14:22

数据挖掘竞赛预测模型——GridSearch参数网格搜索

本案例使用lightGBM算法实现参数网格搜索importpandasaspdfromsklearn.model_selectionimporttrain_test_splitfromsklearn.model_selectionimportGridSearchCVimportlightgbmaslgbtrain_data=pd.read_csv('...')train_label=pd.read

o0xgw0o·2020-07-11 14:21

Spark CountVectorizer处理文本特征

：风雪夜归子（Allen），机器学习算法攻城狮，喜爱钻研MeachineLearning的黑科技，对DeepLearning和ArtificialIntelligence充满兴趣，经常关注Kaggle数据挖掘竞赛平台

风雪夜归子·2020-07-08 11:42

零基础入门CV之模型训练与验证

1、验证集的构造在数据挖掘竞赛中一般给出的数据有两种，一种是直接给出训练集、验证集和测试集，另一种是只给出训练集和测试机，就需要我们自己来划分验证机。为什么要划分验证集呢？

zhangxiaolinxin·2020-07-06 12:41

机器学习系列：（七）用PCA降维

风雪夜归子（英文名:Allen），机器学习算法攻城狮，喜爱钻研MachineLearning的黑科技，对DeepLearning和ArtificialIntelligence充满兴趣，经常关注kaggle数据挖掘竞赛平台

风雪夜归子·2020-07-05 18:03

KDD CUP 2018 | 北京监测站点空气质量可视化分析

起KDDCUP作为全球顶级数据挖掘竞赛，幸得师弟鼓励拉上本拖油瓶一起参赛~~5.31日比赛就结束了，这次的kddcup作为我们的练习赛吧，本来早就要做这个可视化分析的，但是工作太忙，一直抽不出时间，抱歉了

邓莎·2020-07-05 13:01

论坛评论提取\论坛内容提取\论坛用户信息提取

同时欢迎加入社交媒体数据交流群：99918768背景参加泰迪杯数据挖掘竞赛，这次真的学习到了不少东西，最后差不多可以完成要求的内容，准确率也还行。

yuboona·2020-07-05 03:59

数据挖掘竞赛预测模型二——SVM

分类预测SVCfromsklearn.svmimportSVCsvm=SVC(C=1,kernel='rbf',degree=3,gamma='auto',class_weigth=None)svm.fit(train_data,train_label)test_pred=svm.predict(test_data)参数：（1）C：惩罚参数（0.0001-10000）表示对错误案例惩罚程度，C越大

o0xgw0o·2020-07-05 01:29

Artificial Neural Networks Applied to Taxi Destination Prediction（阅读笔记）20171207

ArtificialNeuralNetworksAppliedtoTaxiDestinationPrediction》201520171207第一次更###一、简介本文的作者也参加了Kaggle的ECML/PKDD出租车数据挖掘竞赛

jasonyanxx·2020-07-04 23:37

全球最强大脑在哪里？阿里小蜜算法团队在寻找

阿里妹导读：阿里小蜜的算法专家们最近在意大利都灵筹备一场国际数据挖掘竞赛。这场竞赛的名字叫CIKMAnalytiCup，是全球著名的公开、公正的大数据开放式竞赛。

我只是一个小小的搬运工·2020-06-30 20:45

数据挖掘竞赛题目 -- 电影推荐

竞赛简介通过对用户评分行为的分析，挖掘用户的兴趣及其变化规律，然后预测用户对其他电影的评分。数据描述本次比赛，我们提供了1千万左右的电影评分数据，每条评分记录都有时间戳（隐匿了具体时间，只保证顺序不变）。评分分为5级，1分最低，5分最高。我们抽取了超过800万条评分记录，作为训练集，数据文件名为r1.train,字段格式为：UserID::MovieID::Rating::Timestamp用户i

zrc199021·2020-06-30 19:01

算法工程师：双非渣硕是如何获得百度、京东双SP

先说一下个人经历吧，学校比较水，实验室没有项目，实习经历：腾讯实习+滴滴实习比赛经历：几个数据挖掘竞赛Top5的名次。

牛客网·2020-06-28 21:06

【Kaggle入门级竞赛top5%排名经验分享】— 分析篇

作者：xiaoyu微信公众号：Python数据科学知乎：python数据分析师Kaggle作为公认的数据挖掘竞赛平台，有很多公开的优秀项目，而其中作为初学者入门的一个好的项目就是：泰坦尼克号生还者预测。

weixin_33725515·2020-06-28 04:25

数据可视化漫谈（三）

：风雪夜归子（Allen），机器学习算法攻城狮，喜爱钻研MeachineLearning的黑科技，对DeepLearning和ArtificialIntelligence充满兴趣，经常关注Kaggle数据挖掘竞赛平台

风雪夜归子·2020-06-27 07:52

数据可视化漫谈（二）

：风雪夜归子（Allen），机器学习算法攻城狮，喜爱钻研MeachineLearning的黑科技，对DeepLearning和ArtificialIntelligence充满兴趣，经常关注Kaggle数据挖掘竞赛平台

风雪夜归子·2020-06-27 07:52

spark机器学习笔记：（六）用Spark Python构建回归模型

风雪夜归子（英文名：Allen），机器学习算法攻城狮，喜爱钻研MeachineLearning的黑科技，对DeepLearning和ArtificialIntelligence充满兴趣，经常关注Kaggle数据挖掘竞赛平台

风雪夜归子·2020-06-27 07:51

数据可视化漫谈（一）

：风雪夜归子（Allen），机器学习算法攻城狮，喜爱钻研MeachineLearning的黑科技，对DeepLearning和ArtificialIntelligence充满兴趣，经常关注Kaggle数据挖掘竞赛平台

风雪夜归子·2020-06-27 07:51

spark机器学习笔记：（三）用Spark Python构建推荐系统

风雪夜归子（英文名：Allen），机器学习算法攻城狮，喜爱钻研MeachineLearning的黑科技，对DeepLearning和ArtificialIntelligence充满兴趣，经常关注Kaggle数据挖掘竞赛平台

风雪夜归子·2020-06-27 07:51

机器学习系列：（六）K-Means聚类

风雪夜归子（英文名:Allen），机器学习算法攻城狮，喜爱钻研MachineLearning的黑科技，对DeepLearning和ArtificialIntelligence充满兴趣，经常关注kaggle数据挖掘竞赛平台

风雪夜归子·2020-06-27 07:19

机器学习系列：（二）线性回归

风雪夜归子（英文名:Allen），机器学习算法攻城狮，喜爱钻研MachineLearning的黑科技，对DeepLearning和ArtificialIntelligence充满兴趣，经常关注kaggle数据挖掘竞赛平台

风雪夜归子·2020-06-27 07:19

机器学习系列：（一）机器学习基础

风雪夜归子（英文名:Allen），机器学习算法攻城狮，喜爱钻研MachineLearning的黑科技，对DeepLearning和ArtificialIntelligence充满兴趣，经常关注kaggle数据挖掘竞赛平台

风雪夜归子·2020-06-27 07:18

数据预处理系列：（九）用主成分分析（PCA）降维

风雪夜归子（英文名:Allen），机器学习算法攻城狮，喜爱钻研MachineLearning的黑科技，对DeepLearning和ArtificialIntelligence充满兴趣，经常关注kaggle数据挖掘竞赛平台

风雪夜归子·2020-06-27 07:48

【分享】互联网用户行为日志数据集

本数据也是首届中国互联网数据平台数据挖掘竞赛使用数据，竞赛网址：cnnicdata.da

狗熊不偷白菜·2020-06-26 19:10

2019年计算机类专业保研经历（清华软院、中科院计算所、中科院软件所、南大计算机、清华深圳）

338，预推免排名4/338大二加入实验室，做了一个项目，无论文省级大创项目一个数模国赛国二，亚太一等，mathercup二等，密码数学挑战赛二等，蓝桥省二，数学竞赛预赛国二，校级市级比赛几个，网上的数据挖掘竞赛两个六级

jiangyu98·2020-06-25 09:03

面试问题：2018年泰迪杯数据挖掘竞赛赛题(自然语言处理、搜索引擎、文本检索模型)

1、赛题背景日常生活中人们需要阅读大量的文本。很多情况下我们只需要从文本中查找某一些片段来解决我们的问题，这是并不需要阅读整篇文章。因此我们希望智能阅读技术能够在这方面提供一些帮助。2、系统流程图初步设计3、面试问题3.1简单介绍一下文本预处理文本预处理主要包括三个步骤：分词、停用词过滤以及词频统计。首先是分词。分词即依据中文词汇表将各个词语单独提炼出来。例如将“我们在教室学习”分为“我们/在/教

吮指原味张·2020-06-24 13:42

kaggle数据挖掘竞赛初步--Titanic

完整代码：https://github.com/cindycindyhi/kaggle-Titanic特征工程系列：Titanic系列之原始数据分析和数据处理Titanic系列之数据变换Titanic系列之派生属性&维归约之前的三篇博文已经进行了一次还算完整的特征工程，分析字符串类型的变量获取新变量，对数值变量进行规范化，获取派生属性并进行维规约。现在我们已经有了一个特征集，可以进行训练模型了。由

dichuqi8803·2020-06-23 04:54

全球邀请开发者滴滴启动KDD Cup 2020强化学习挑战赛

KDDCup（国际知识发现和数据挖掘竞赛）由美国计算机协会知识发现与数据挖掘专委会（ACMSIGKDD）发起，从1997年开始，每年举办一次，是国际公认的数据挖掘领域的最高水平的赛事。

CSDN 程序人生·2020-06-23 01:21

滴滴 KDD CUP 2020 赛题详解

KDDCup（国际知识发现和数据挖掘竞赛）由美国计算机协会知识发现与数据挖掘专委会（ACMSIGKDD）发起，从1997年开始，每年举办一次，是国际公认的数据挖掘领域的最高水平的赛事。

PaperWeekly·2020-06-22 19:21

kaggle上近一段时间数据挖掘竞赛的获奖队伍的源代码

kaggle上近一段时间数据挖掘竞赛的获奖队伍的源代码，对掌握相应的数据挖掘技术很有帮助。这些代码和技术都是经过竞赛实际检验的，比很多华而不实的学术论文要接地气得多。

苦海无边怎回头·2020-06-22 13:58

spark机器学习笔记：（二）用Spark Python进行数据处理和特征提取

风雪夜归子（英文名：Allen），机器学习算法攻城狮，喜爱钻研MeachineLearning的黑科技，对DeepLearning和ArtificialIntelligence充满兴趣，经常关注Kaggle数据挖掘竞赛平台

风雪夜归子·2020-06-21 09:31

spark机器学习笔记：（一）Spark Python初探

风雪夜归子（英文名：Allen），机器学习算法攻城狮，喜爱钻研MeachineLearning的黑科技，对DeepLearning和ArtificialIntelligence充满兴趣，经常关注Kaggle数据挖掘竞赛平台

风雪夜归子·2020-06-21 09:31

机器学习实验（五）：用迁移学习方法基于keras建立卷积神经网络进行人体动作识别(HAR)

风雪夜归子（英文名：Allen），机器学习算法攻城狮，喜爱钻研MeachineLearning的黑科技，对DeepLearning和ArtificialIntelligence充满兴趣，经常关注Kaggle数据挖掘竞赛平台

风雪夜归子·2020-06-20 21:44

写一手漂亮的代码，走向极致的编程二、代码运行时内存分析

说到内存，就想起之前在搞数据挖掘竞赛的时候，往往要跑很大的数据集，经常就是炸内存。

ITryagain·2020-06-03 20:00

使用jupyter notebook将文件保存为Markdown,HTML等文件格式

补充知识：jupyternotebook的project管理——.ipynb中调用.py文件做课题和数据挖掘竞赛用python比较多，比较常用的是在服务器终端输入jupyternotebook--ip0.0.0.0

Aminokk·2020-04-14 09:54

机器学习技术在达观数据的实践

达观数据（htttp://www.datagrand.com）技术团队长期以来一直致力于钻研和积累各种大数据技术，曾获得cikm2014数据挖掘竞赛冠军，也开发过智能文本内容审核系统、作弊监测系统、用户建模系统等多个基于大数据

达观数据·2020-04-04 23:14

Kaggle数据挖掘竞赛入门系列：（二）机器学习环境搭建

想要参加Kaggle，首先要搭建好我们的机器学习环境。参加Kaggle竞赛的第一步，选定一个平台。目前，在数据分析方向最主流的两个平台是R语言和python，相比较之下，我更推荐大家使用Python来完成Kaggle上的竞赛。原因主要包括以下几点：Python的生态系统比较完善，针对数据分析、机器学习的各个领域都有相对应的包来解决我们的问题，比如：sklearn，pandas，xgboost等。P

王十二的·2020-03-29 16:10

PowerBI分析Titanic数据

Kaggle是一个数据分析建模的应用竞赛平台，有点类似KDD-CUP（国际知识发现和数据挖掘竞赛），企业或者研究者可以将问题背景、数据、期望指标等发布到Kaggle上，以竞赛的形式向广大的数据科学家征集解决方案

痞圈圈·2020-03-25 11:57

Kaggle数据挖掘竞赛入门系列：（一）Kaggle简介

Kaggle是全球最大的数据分析在线平台，吸引了全球范围内数十万的顶级数据科学家，同时也是检测我们机器学习技能的最佳平台。一、Kaggle简介Kaggle成立于2010年，网址：https://www.kaggle.com/。这里写图片描述Kaggle是全球范围内最大的数据众包平台。企业或者研究者与Kaggle合作之后，可以将数据、问题描述、期望的指标发布到Kaggle上，以竞赛的形式向广大的数据

王十二的·2020-03-16 20:25

推荐频道

数据挖掘竞赛

kaggle-titanic实战--数据挖掘实例

kaggle数据挖掘竞赛初步--Titanic

Kaggle数据挖掘竞赛冠军及优胜者代码汇总

人工智障也刷题！Kaggle 入门之实战泰坦尼克号

数据挖掘竞赛总结——津南数字制造算法赛

数据预处理系列：（二）创建试验样本数据

jupyter notebook的项目管理——.ipynb中调用.py文件

kaggle数据挖掘竞赛----信用评分卡模型分析（一）数据预处理+特征工程阶段

spark Tokenization的用法

数据预处理系列：（五）分类变量处理

数据挖掘竞赛预测模型一——逻辑回归

数据挖掘竞赛预测模型——贝叶斯参数搜索

数据挖掘竞赛预测模型——五折交叉验证

数据挖掘竞赛预测模型——GridSearch参数网格搜索

Spark CountVectorizer处理文本特征

零基础入门CV之 模型训练与验证

机器学习系列：（七）用PCA降维

KDD CUP 2018 | 北京监测站点空气质量可视化分析

论坛评论提取\论坛内容提取\论坛用户信息提取

数据挖掘竞赛预测模型二——SVM

Artificial Neural Networks Applied to Taxi Destination Prediction（阅读笔记）20171207

全球最强大脑在哪里？阿里小蜜算法团队在寻找

数据挖掘竞赛题目 -- 电影推荐

算法工程师：双非渣硕是如何获得百度、京东双SP

【Kaggle入门级竞赛top5%排名经验分享】— 分析篇

数据可视化漫谈（三）

数据可视化漫谈（二）

spark机器学习笔记：（六）用Spark Python构建回归模型

数据可视化漫谈（一）

spark机器学习笔记：（三）用Spark Python构建推荐系统

机器学习系列：（六）K-Means聚类

机器学习系列：（二）线性回归

机器学习系列：（一）机器学习基础

数据预处理系列：（九）用主成分分析（PCA）降维

【分享】互联网用户行为日志数据集

2019年计算机类专业保研经历（清华软院、中科院计算所、中科院软件所、南大计算机、清华深圳）

面试问题：2018年泰迪杯数据挖掘竞赛赛题(自然语言处理、搜索引擎、文本检索模型)

kaggle数据挖掘竞赛初步--Titanic

全球邀请开发者 滴滴启动KDD Cup 2020强化学习挑战赛

滴滴 KDD CUP 2020 赛题详解

kaggle上近一段时间数据挖掘竞赛的获奖队伍的源代码

spark机器学习笔记：（二）用Spark Python进行数据处理和特征提取

spark机器学习笔记：（一）Spark Python初探

机器学习实验（五）：用迁移学习方法基于keras建立卷积神经网络进行人体动作识别(HAR)

写一手漂亮的代码，走向极致的编程 二、代码运行时内存分析

使用jupyter notebook将文件保存为Markdown,HTML等文件格式

机器学习技术在达观数据的实践

Kaggle数据挖掘竞赛入门系列：（二）机器学习环境搭建

PowerBI分析Titanic数据

Kaggle数据挖掘竞赛入门系列：（一）Kaggle简介

零基础入门CV之模型训练与验证

全球邀请开发者滴滴启动KDD Cup 2020强化学习挑战赛

写一手漂亮的代码，走向极致的编程二、代码运行时内存分析