传送门:https://www.kaggle.com/competitions点击打开链接
这里仅列出前50个比赛,全部的271个比赛word版下载地址:
1、 Home Credit Default Risk
利用各种替代数据(包括电信和交易信息)预测客户的还款能力。
2、 TrackML Particle TrackingChallenge
CERN探测器中的高能物理粒子追踪。
比赛中,要构建一种算法,以快速重建硅探测器中剩余三维点的粒子轨迹。
3、 The 2nd YouTube-8M VideoUnderstanding Challenge
创建一个约束大小的模型来预测视频标签。
对于每个视频,您将提交预测标签列表及其相应的置信度分数。
4、 Avito Demand PredictionChallenge
预测在线分类广告的需求。可利用信息:广告的标题、描述、图片、广告发布的位置、相似广告的历史需求。
5、 House Prices: AdvancedRegression Techniques
利用回归技术预测房价。
6、 Digit Recognizer
识别手写数字。数据:MNIST数据集。
分类方法:简单的神经网络,SVM,K-nearest neighbors
7、 Titanic: Machine Learning fromDisaster
预测泰坦尼克号上每个乘客是否会存活下来。
测试集:包含乘客的性别,年龄、乘登港口、是否存活下来等。
8、 ImageNet Object DetectionChallenge
识别并标记图像中的日常物体。
目标:构建一个算法,能够识别和标记超过200个类别的图像的目标。
比赛概述:
图像中所有类别的边界框已被标记。“数据”选项卡上提供了200种类别的对象。这些类别是从各种因素中选择的,包括对象实例的平均数量,图像混乱以及其他几种。
训练集包含超过475k的对象,用于从超过450k的图像中进行分类。测试集包括40k图像。
已经使用场景级查询从Flickr和其他搜索引擎收集图像。平均图像尺寸是482x415像素。
9、 ImageNet Object LocalizationChallenge。
目标:要识别图像中的所有对象,然后可以对这些图像进行分类和注释。进一步提高准确度
技术背景:2010年至2014年间,图像分类误差(从28.2%降至6.7%)降低了4.2倍,定位误差降低了1.7倍(从42.5%降至25.3%)。
概述:
验证和测试数据包含150k张图片,有1000个对象类别。1000个对象类别包含ImageNet的内部节点和叶节点,但不相互重叠。
评估标准:
每张图片的误差可定义为:e=〖min〗_i (〖min〗_j (max(d_ij,f_ij ) ))
每张图片的最小误差为0或者1。总误差是计算测试集中所有图片最小误差的平均值。
10、 Predict Future Sales
预测下个月每个产品和商店的总销售额。
11、 Freesound General-Purpose AudioTagging Challenge
Freesound通用音频标签挑战。
建立通用自动音频标签系统,能够自动识别出声音来自哪里。
12、 Humpback Whale IdentificationChallenge
识别图像中的鲸鱼种类。
数据集包含25k张图像
评估标准:
MAP@5,每张图片最多预测5个标签。
13、 ImageNet Object Detection fromVideo Challenge
要求在30类物体的各种视频剪辑中识别和标记静态图像。
1、CVPR 2018 WAD Video Segmentation Challenge
将车辆拍摄的图像帧中的每个物体进行分割。
2、iNaturalist Challenge at FGVC5
长尾物种分类。
iNat Challenge 2018数据集包含8,000多种物种,450k张图像。
评估:每张图片可以预测3个类别标签。击中误差为0,否则误差为1。
3、iMaterialist Challenge (Fashion) at FGVC5
根据图片识别出时尚产品所属类别。
评估:使用Mean F1 得分。
4、iMaterialist Challenge (Furniture) at FGVC5
家具和家居用品的图像分类。
每张图片只能预测一个类别。
5、Google Landmark Retrieval Challenge
给定一幅图像,你能找到数据集中所有相同的地标吗?
一个图像检索问题
评估:MAP@100
6、Google Landmark Recognition Challenge
预测图像中包含的地标,并给出置信度。
要求:最多只能预测一个地标,图像中可能无地标。
7、TalkingData AdTracking Fraud Detection Challenge
检测移动应用广告的欺诈性点击流量
8、DonorsChoose.org Application Screening
预测教师的项目建议是否被接受
9、2018 Data Science Bowl
在不同的图像中自动识别细胞核
10、Google Cloud & NCAA® ML Competition 2018-Men's
预测篮球锦标赛每两支队伍比赛结果。
11、Google Cloud & NCAA® ML Competition 2018-Women's
12、Toxic Comment Classification Challenge
识别和分类有毒的在线评论。
有毒:威胁,淫秽,侮辱和身份仇恨等不同类型的毒性。
13、Plant SeedlingsClassification
从图像中确定植物幼苗的种类。
Dog BreedIdentification
确定狗的品种。
要求:对于每个图像,必须预测每个不同品种的概率。
Mercari Price Suggestion Challenge
预测在线商品价格。
14、 Nomad2018 PredictingTransparent Conductors
预测新型透明半导体的关键性能
IEEE's Signal Processing Society - CameraModel Identification
识别图像被拍摄的相机。
解决方案:通过使用本质上留在图像中的迹线来识别哪个相机模型捕获了图像。
15、 Recruit Restaurant VisitorForecasting
使用预订和访问数据来预测未来日期访问餐厅的总人数。
16、 Statoil/C-CORE IcebergClassifier Challenge
预测图像包含一个冰山的概率(介于0和1之间的数字)。
17、 TensorFlow Speech RecognitionChallenge
语音理解
18、 Corporación Favorita GrocerySales Forecasting
你能准确预测大型食品连锁店的销售情况吗?
19、 Santa Gift Matching Challenge
圣诞礼物匹配挑战
20、 Zillow Prize: Zillow’s HomeValue Prediction (Zestimate)
参与者将开发一种算法,对房屋的未来销售价格进行预测。
21、 WSDM - KKBox's Churn PredictionChallenge
你能预测用户何时会流失吗?
22、 WSDM - KKBox's MusicRecommendation Challenge
你能建立最好的音乐推荐系统吗?
23、 Spooky Author Identification
预测Edgar Allan Poe,Mary Shelley和HP Lovecraft的恐怖故事片段的作者。
要求:分别给出该故事片段属于每个作者的概率。
24、 Passenger Screening AlgorithmChallenge
预测17个身体区域中每个身体区域存在威胁的概率。
25、 Cdiscount’s ImageClassification Challenge
根据图像预测产品的类别。
26、 Porto Seguro’s Safe DriverPrediction
预测明年司机是否会提出保险索赔。
27、 Text Normalization Challenge -English Language
将英文文本从书面表达转换为口头形式
28、 Text Normalization Challenge -Russian Language
将俄文文本从书面表达转换为口头形式
29、 Web Traffic Time SeriesForecasting
预测维基百科页面的未来流量
30、 Personalized Medicine:Redefining Cancer Treatment
自动分类遗传变异。
要求:对于测试集中的每个ID,必须预测基因突变可以分类到的每个不同类别的概率。
31、 NIPS 2017: Non-targetedAdversarial Attack
非针对性攻击的目标是稍微修改源图像,使得图像将被一般未知的机器学习分类器错误地分类。
32、 NIPS 2017: Targeted Adversarial Attack
目标攻击的目标是稍微修改源图像,使得图像将被一般未知的机器学习分类器分类为指定的目标类别。
33、 NIPS 2017: Defense Against Adversarial Attack
防御的目标是构建机器学习分类器,该分类器对抗例子是强健的,即可以正确分类敌对图像。
34、 Carvana Image Masking Challenge
自动识别图像中汽车的边界。
要求:开发一种自动删除照相馆背景的算法。
35、 New York City Taxi TripDuration
预测纽约市出租车行程的总时间。
主要数据集是纽约市出租车和豪华轿车委员会发布的数据集,其中包括取件时间,地理坐标,乘客人数和其他几个变量。
36、 Invasive Species Monitoring
开发算法来更准确地识别森林和树叶的图像是否含有侵入性绣球。
要求:预测图像是否包含入侵物种的目标变量的概率
37、 Instacart Market BasketAnalysis
预测用户将再次购买哪些产品。
数据:购物者以前的交易数据。
38、 Planet: Understanding theAmazon from Space
使用卫星数据追踪亚马逊热带雨林的人类足迹。
对于测试集中列出的每个图像,预测您认为与图像关联的标签的空格分隔列表。有17种可能的标签:农业,artisinal_mine,bare_ground,开花,吹,明确,阴天,常规,种植,居住,阴霾,partially_cloudy,小学,道路,selective_logging,slash_burn,水。
39、 Mercedes-Benz GreenerManufacturing
使用代表不同排列的梅赛德斯 - 奔驰汽车功能的数据集来预测通过测试所需的时间。
40、 iNaturalist Challenge at FGVC2017
动植物分类。
iNatChallenge 2017数据集包含5,089个物种,数据集包含675,000张图像。
对于测试集中的每个图像,您必须预测5个类别标签。
41、 iMaterialist Challenge at FGVC 2017
根据图片对服装产品进行分类。
对于每个图像i和任务t,可能存在多个标签g,只要产生的标签与一个基本事实标签相同,那么预测就被认为是正确的。
42、 Sberbank Russian Housing Market
预测俄罗斯波动的经济体中的房地产价格波动
43、 NOAA Fisheries Steller Sea LionPopulation Count
准确计算航拍照片中海狮的数量。
44、 Intel & MobileODT CervicalCancer Screening
基于图像准确识别女性子宫颈类型的算法。
要求:对于每张图片,提交每个类型的概率。
45、 Quora Question Pairs
确定具有相同意图的问题对,分类问题对是否重复。
要求:预测问题重复的概率。
46、 Google Cloud & YouTube-8M VideoUnderstanding Challenge
视频理解,制作视频标签。
使用新的和改进的YT-8M V2数据集精确分配视频级标签。该数据集由超过700万YouTube视频(450,000小时的视频)创建,包含来自4716个class(平均3.4个标签/视频)的词汇视频标签。它还具有每秒钟视频中预先提取的音频和视频功能(总共3.2B个特征向量)。
要求:对于每个视频,预测标签列表及其相应的置信度分数。
47、 Two Sigma Connect: RentalListing Inquiries
48、 The Nature ConservancyFisheries Monitoring
自动检测和分类渔船捕获的金枪鱼,鲨鱼等物种。
数据集:视频。
要求:8个类别,并给出8个类别的概率。
49、 Data Science Bowl 2017
竞赛的任务是创建一个自动化的方法,能够确定患者是否会在扫描日期的一年内被诊断为肺癌。ground truth标签通过病理诊断得到确认。
要求:对于每张图片,要提交1年内被诊断为肺癌的概率。
50、 March Machine Learning Mania2017
美国男子大学篮球联赛,预测那个团队能够获胜。