levy_cui

第一次参加Kaggle拿银总结

转载：http://scarletpan.github.io/summary-of-get-a-silver-medal-in-kaggle/

在这篇博客开始之前，我必须感谢@Prof. Cai给我提供服务器资源，@fenixlin学长从他自身经验出发耐心地为我解答一些困惑，素未谋面的@dnc1994学长的一篇非常优秀的博文帮助入门，以及广大Kaggler的无私分享，我确实在Kaggle举行的这场Rental Listing Inquiries比赛中收益良多，获得了不少知识。作为一个大三学生第一次参加，获得了Top 5%的成绩已经让我非常满意了。

这篇文章的目的是介绍自己第一次参加Kaggle的心历路程，总结遇到的问题和解决思路，为自己以后参赛做准备。同时这篇文章也可以作为一个初学者的入门Kaggle的参考，如果想要在入门kaggle的时候拿到一个好的名次，可以参考我的一些方法实践。本文可以随意转载，但务必注明出处和作者, 并且发邮件([email protected])通知与我。

初识Kaggle

什么是Kaggle

从刚接触machine learning的时候就有在学长口中、博文中、社区中听到过它的名字，当初我对它的理解还比较浮浅，只是知道是一个数据比赛的平台，有很多公开的数据集，比如大二寒假做的第一个ML练手项目就是一个用word2vec进行情感分析的Tutorial级比赛，并且写了一个research report。就只用到了教程和数据集。

后来重新接触Kaggle才发现，它的价值所在是各种高质量的比赛，以及每场比赛下面的社区讨论（包括比赛中的分享、答疑，和比赛后的top solution分享），因此如果想要获得关于数据挖掘，机器学习实战经验的话，打一场kaggle比赛绝对是一个高回报的工作。

因为还是学生，不知道kaggle比赛究竟是否会为自己求职工作有举足轻重的影响，但是单从Kaggle被google收购一点来看，它会在行业内一点点提升影响力的。

比赛组织

一场比赛通常持续2～3个月，在比赛的简介中会有规则、评价指标（比如这场比赛为mlogloss），时间轴等信息。另外还有数据区、Kernel区（一些Kagglers在kaggle上成功运行的ipython notebook或者代码），Discussion（讨论区），LeaderBoard（LB，分为公开的用户提交可以显示结果的榜单，和非公开的比赛结束后确定最终排名的榜单），当然还有提交区（一般为一定格式的csv文件提交）。

另外就是奖牌问题，一般来讲在1000+量级的比赛中，top 10+ 0.2%为金牌，5%为银牌，10%为铜牌，这里有更具体的奖牌发放方式。

讨论区

个人认为，如果想在入门Kaggle阶段就获得一个好的成绩的话，关注discussion是非常重要的，会有很多人分享自己的思路、困惑甚至代码和结果。有时候，一场比赛中比较关键的feature可能就是从讨论区中获得的，比如Rental Listing Inquiries这场比赛的最后几天，我以为自己特征提取得已经差不多了，没有任何idea了的时候，一个来自讨论区magic feature从天而降，从而使得榜单大变，一夜之间我的排名从70多掉到了120多。

数据探索和可视化（EDA）

首先拿到一个比赛题目，你需要下决心是否参加这个比赛，对我个人而言最重要的无非两点1. 是不是有rank point，也就是奖牌， 2. 数据集是否令我满意。因此对数据的探索首先需要你从Kaggle网站上查看数据的简介，并把数据下载下来。比如Rental Listing Inquiries包含了80G的图片数据，和几份json文件。

我们将下载下来的train.csv用python pandas 打开，取少量样本进行观测

In [1]: import pandas as pd
In [2]: train = pd.read_json("input/train.json")
In [3]: train.sample(2)

抛开图片数据不谈，我们可以看到给定的数据里包含多种多样的feature：

数值型feature
- bathrooms
- bedrooms
- price
高势集类别（High Categorical）型feature
- building_id
- display_address
- manager_id
- street_address
时间型feature
- created
地理位置型feature
- longitude
- latitude
文本feature
- description
稀疏特征集feature
- features
id型feature
- listing_id
- index

我们看到有这么多不同的feature，一看几乎每个feature都有深度挖掘的价值，何况还有80G的图片feature，无疑是让人兴奋的，因此我选择了这个比赛，因为它的数据集的确让我舒心。

另外一定要搞明白的一件事是这场比赛是一个预测比赛还是分类比赛，我们能看到最重要预测的是用户的interest_level，分为low，medium，high三级，很显然是个分类问题了。

接下来的是就是对数据进行可视化探索了，我因为是初期参赛的，所以自己做了一份可视化方案，从中可以发现很多有趣的分布、outlier等。在这里推荐三份在比赛中分享出来的比较好的EDA：

Simple Exploration Notebook
Two Sigma RentHop EDA
Data Exploration Two Sigma Renthop

一般的比赛初期就会有人共享出他的数据可视化方案，因此如果是新手的话，初期不必浪费时间在这上面，因为从别人的kernel中就能发现很多东西了。

然而，需要强调的是，EDA的过程并不是在初期进行后以后都不做了，在以后的不断找新的feature的时候，EDA会给予你灵感。本人的一个关键feature就是在后期重新做了一些可视化后获得的。

提取基础特征+模型训练

有了之前数据探索的基础，我们很快能提取到一些基础的feature，比如数值型feature进行简单的加减乘除，类别型feature用id顺序编码，稀疏特征集用one-hot编码，时间特征生成年、月、日等。将一些基础的特征转换成相应的输入input_X矩阵后，再将label也转换成数值形式：

in [2]: target_num_map = {'high':0, 'medium':1, 'low':2}
in [3]: y = data["interest_level"].apply(lambda x: target_num_map[x])

懂机器学习的人都知道，有了这些(X，y)对，我们就可以进行模型训练了。

我们用cross-validation（CV）的成绩来判断我们本地的实验结果，也就是将（X，y）训练集拆分成训练和验证集，训练相应分类器对训练集拟合，再在验证集上进行loss的计算来评估模型的好坏。

常见的分类器有Logistic Classifier，SVM， NN softmax，Random Forest等。但是在kaggle上用的比较多的还是一些封装好的库，如sklearn里的各种分类器，大名鼎鼎的xgboost，最近崭露头角的lightgbm等。

早就听闻xgboost的好用，我就直接在电脑上pip了xgboost，作为我接下来一两个月以来的核心分类器。将原先的（X，y）对中的训练部分输入xgboost进行fit，然后用验证部分predict计算mlogloss。

至此为止，比赛初期的第一个模型就已经训练好了。

跑出一个能提交的结果

训练完一个比较好的模型之后，就可以对测试集进行预测了，首先将训练集（X，y）对输入xgboost中重新训练，然后对测试集也像对训练集一样进行特征处理，预测出来的结果按照比赛指定的格式保存到文件（在这里还是建议用pandas），即可提交。

第一次提交意味着你正式进入比赛，提交的结果会在Leader Board上显示你当前的排名，当然这个排名只起到参考作用，因为你提交上去的大部分结果kaggle都没有进行评估。

特征工程（FE）

在一系列的初始操作以后，你就要踏上FE的漫漫长征了。本人断断续续在数据清洗、特征提取上做了约两个多月，在比赛最后一段时间模型融合完毕后还在继续地寻找、测试新的特征。后期评论区中magic feature的出现，让每个人的预测结果好了0.01～0.02个点。不得不说，特征工程才是Kaggle比赛获胜的关键所在，因此初学者耗费大量精力在这上面是没错的。而本博文也是重点想讲一下自己发现新特征的一些心历路程。

在对一些基础的特征进行生成之后，我开始了漫长地测试特征的长征路，测试的思路我后来发现并不是很好，因为是通过新增加一个或几个feature，如果cv分数上去了，就增加这个feature，如果cv分数没有上去，就舍弃这个feature，也就是相当于贪心验证。这样做的弊处在于，如果之前被舍弃的feature和之后被舍弃的feature联合在一起才会有正面影响，就相当于你错过了两个比较好的feature。因此特征的选择和联合显得非常关键。

在比赛阶段，花费大量力气去创建一个feature，到头来却选择放弃这个feature的事情很常见，我后期的特征有很多是新添加的，旧有的一些特征并没有保留。接下来就让我总结一下这场比赛中有哪些“好”的feature，为以后的比赛提供灵感和经验。

数值型feature的简单加减乘除

这个乍一看仿佛没有道理可言，但是事实上却能挖掘出几个feature之间的内在联系，比如这场比赛中提供了bathrooms和bedrooms的数量，以及价格price，合租用户可能会更关心每个卧室的价格，即bathrooms / price，也会关心是不是每个房间都会有一个卫生间bathrooms / price，这些数值型feature之间通过算数的手段建立了联系，从而挖掘出了feature内部的一些价值，分数也就相应地上去了。
高势集类别（High Categorical）进行经验贝叶斯转换成数值feature

什么是High Categorical的特征呢？一个简单的例子就是邮编，有100个城市就会有好几百个邮编，有些房子坐落在同一个邮编下面。很显然随着邮编的数量增多，如果用简单的one-hot编码显然效果不太好，因此有人就用一些统计学思想（经验贝叶斯）将这些类别数据进行一个map，得到的结果是数值数据。在这场比赛中有人分享了一篇paper里面就提到了具体的算法。详细就不仔细讲了，用了这个encoding之后，的确效果提升了很多。那么这场比赛中哪些数据可以进行这样的encoding呢，只要满足下面几点：1. 会重复，2. 根据相同的值分组会分出超过一定数量（比如100）的组。也就是说building_id, manager_id, street_address, display_address都能进行这样的encoding，而取舍就由最后的实验来决定了。
时间特征

针对于时间数据来讲，提取年、月、日、星期等可能还是不够的，有另外一些points可以去思考，用户的兴趣跟发布时间的久远是否有关系？可以构造如下的feature来进行测试：pythondata["latest"] = (data["created"]- data["created"].min())pythondata["passed"] = (data["created"].max()- data["created"])

可以看到latest指的是从有数据开始到该房创建为止一共过去了多少时间，而passed则是该房记录创建为止到最后有记录的时候一共过去了多少时间。

另外针对于时间特征还可以用可视化的方式来与其他特征建立联系，比如我们观察listing_id与时间变化到底有怎样的联系，能够绘制出如下的图来：

可能简单的相除就能获得很好的结果

地理位置特征

想到地理位置，就会想到聚类，一个简单的方式将每个房子划分到同一块区域中去；除了聚类以外，算出几个中心点坐标，计算曼哈顿距离或者欧式距离可能都会有神奇的效果。
文本特征

实话说自己是看中这次比赛中有文本数据才参加的，因此在文本挖掘中做了很大的努力，比如提取关键词、情感分析、word embedding聚类之类都尝试过，但效果都不是很好, 对于文本的特征的建议还是去找出一些除了停用词以外的高频词汇，寻找与这个房屋分类问题的具体联系。
图片特征

除了最后爆料出来的magic feature(后文会提到)以外，我只用了一个房子有几个照片这个信息。讨论区中都说对于图片特征用CNN提取、简单特征提取之类的效果都不是很好。
稀疏特征集

其实就相当于一系列标签，不同标签的个数也是挺多的，本次比赛我只是简单地采用了counterEncoding的方式进行one-hot编码。值得一提的是，有些标签是可以合并的，比如cat allowed 和 dog allowed可以合并成为 pet allowed，我在这场比赛中手工地合并了一些feature数据，最终结果略微有所提升。
特征重要程度（feature importance）

在树结构的分类器比如randomforest、xgboost中最后能够对每个特征在分类上面的重要程度进行一个评估。这时候如果已经选定了一些feature进行训练了之后，查看feature importance的反馈是非常重要的，比如本场比赛制胜的关键是运用manager_id这个feature，而它的feature importance反馈结果也是非常高。通过对重要特征的重新再提取特征，能够发现很多有意思的新特征，这才是用FE打好一场比赛的关键所在。

下面列出了一些比赛结束后获胜者分享的idea，这大概是我这场比赛中获益最大的一块地方了。

Top #1 solution @plantsgo
主要是针对manager_id生成了非常多的feature。如根据不同时间出现的manager_id判断一个manager是否活跃（manager与time进行group，manager掌管有几个不同的房子（manager与building_id进行group）、平均每天处理多少房子（比值）、活动范围（同个manager掌管的房子的最大最小经纬度group），经理的开价程度（选择bedroom和bathroom作为房子型号指标，把相同房型的均价来衡量经理对于所有房子的开价程度），对经纬度进行聚类再计算每个区域中有多少个manager竞争、一个manager同时经营几个区域、在同个区域中manager的开价水平等。从Top 1选手分享的代码来看，其对于manager的各种处理的确是让人大开眼界。
Top #2 solution @Faron
从更为经验老道的选手给出了一些特征提取建议。其中有一类被作者称为"Likelihood Features"，他对High Cardinal Categorical的特征用了一些额外的条件概率来计算其似然值，如p(y|manager_id, bathrooms)等，并且进行了点积操作来计算出一个合适的encoding值（类似于先前讨论区中出现的manager_skills，同时为了防止过拟合对这些似然估计出来的feature创建了2层嵌套。另外还有一种对我启发比较大的feature是对description出现频率最高的15k单词进行一个one-hot深度xgboost训练，将这个训练出来模型的预测结果作为description的encoding。
Top #3 solution @Little Boat
其FE的第一部分给出了group的一套方案，类似于我自己FE中的group方法。第二部分使用了magic feature相关的feature，方法与第一部分类似
Top #9 solution @James Trotman

没有细说，但是列出了一个feature name的详单，希望以后没有idea的时候能从中找到一些insight
Top #11 solution @KazAnova

KazAnova无疑是这场比赛中的明星选手，他分享了对初学者模型融合比较关键的StackNet，以及对最后榜单变动起到决定性作用的magic feature。几乎所有在榜上的Kagglers都要向他致敬。同时在FE这一块，他注意到了数据集中存在很多类似的数据（仅仅在价格上有区别），因此他建立了不同的group，并在这些group间创建了很多aggregated features，比如最高的price，平均price等
Top #12 solution @b.e.s

用到了基于高势集类别数据的group的一些统计量
Top #13 solution @qianqian

也是用了很多基于manager_id group的统计feature

模型调参（Grid Search）

模型调参的话，能够在FE完之后为你提升0.001～0.002分数，因此如何为我们的分类器，比如xgboost选择好正确的参数是非常关键的。

比较常用的是进行Grid Search，从你的输入组合中暴力地搜索cv结果最优的组合。我一般会设定一个learning rate，然后尝试不同的参数组合，取最优值，因为训search的代价比较高，最好选择一定范围，比如你事先cv的时候知道estimater会在700～1000的范围内，那就不要search这个范围以外的值了。

模型融合

如果你没有idea了的话，就模型融合吧！模型融合是能够快速提高比赛成绩的捷径，现在的比赛几乎没有人不用到这个技巧，通常获胜者会对很多很多模型进行融合，并且会选择不同的模型融合的方式。这里有一篇非常好的模型融合解析博文,相信每个看过它的人都会对模型融合有一个清楚的了解

本次比赛中我使用了两种模型融合方式，一种是Averaging，一种是Stacking。

先来说说Stacking，因为这场比赛一名贡献比较大的选手分享了一个叫StackNet的库，作为新手我就直接用了。首先我用我的xgboost cv集交叉预测出结果作为feature的一部分放到train data中，再对test data进行预测的结果作为feature的一部分放到test data中，再在第二层上选择了Logistic Classifer，GradientBoostingClassifer，AdaBoostClassifer，NNSoftemaxClassfier，RandomForestClassifer等进行交叉预测，第三层选取了一个randomForest作为最后的结果训练和预测。Stacking主要增多了模型的diversity，使我的成绩上升了至少0.003的量级，

然后是Averaging，之前提到过Stacking需要交叉预测，我就选取了10组随机种子分别对训练集进行10-kfold交叉预测取平均，以及每个flod训练预测的时候我都对我的xgboost选取5个随机种子取平均。也就是说，在第一层Stacking的CV集交叉预测时我总共训练了500个模型进行平均。分数的提升大约在0.002左右。

直到比赛结束看了排名靠前的选手的模型融合后，才发现自己对于模型融合只是做了一点微小的工作，提升空间还非常大。详情可以看FE部分分享的solution链接。

Tricks

在这场比赛中有一名在一开始的两个月一直遥遥领先的选手爆出这个比赛有个magic feature，大家陷入了疯狂找这个feature的过程中，直到那位分享了StackNet的选手分享出了这个magic feature：80G图片数据每个文件夹的创建时间，于是榜单大变，我一觉醒来后发现自己掉了很多就发现到了不对劲，便迅速加入到这个magic feature疯狂屠榜的大军中，从这里可以看见，一个信息量巨大的feature如果被发现的话，对比赛成绩会带来多么大的影响。

有一些group的feature能够起到非常重要的作用，详细见我比赛后发表的一个小样例discussion topic。但是一定要防止过拟合。

总结

这篇博文还有一些关键的点没有涉及到，比如数据的清洗，有些数据在记录中似乎是不同的，但是意思是一样的，就应该归位同一个类别，还有就是清除一些outlier等。

对这个比赛的top solution总结得还是没到位，基本没有coding实现他们的idea过。由于课程压力比较大，等到时候空了的时候再好好整理。

另外还有就是需要持之以恒地打这个比赛，因为你以为你idea都没有了，模型调参、融合完毕了的时候，可能大家都找出了另一个"magic feature"，轻松地把你挤出奖牌的范围内了。。

最后，Kaggle is fun!

大模型开源与国产化突围：技术路径与产业机遇深度解析梦玄海开源架构 golang 开发语言后端大数据
引言：大模型时代的双轨竞速2023年全球大语言模型（LLM）参数量突破万亿级，GPT-4、LLaMA等模型引领技术浪潮。中国在这场竞赛中面临双重命题：既要融入全球开源生态，又要构建自主可控的技术体系。本文将从技术架构、训练范式、生态建设三个维度，深入剖析大模型开源与国产化的突围路径。一、全球开源格局与中国大模型现状1.1国际开源生态的演进特征技术民主化加速：LLaMA-2（700亿参数）、BLOO
贪心算法（GREEDY ALGORITHM）证明实践 m0_72431373 贪心算法算法 leetcode
基础概念贪心算法Formal的解释这里就不介绍了，有兴趣的直接去wikipedia上理解。简单地来说，贪心算法就是在某种规律下不断选取局部最优解，从而达到全局最优。《挑战程序设计竞赛》中有一个很直观的解释：一直向前！证明方法既然贪心算法是利用规律选取局部最优解，那么我们选取规律所得出的全局解就不一定是全局最优解。因此，我们需要证明，我们所选这个规律是可以得出一个全局最优解的。注意这里所谓的可以得出
不止于稳定币：科技巨头涌入香港，RWA万亿赛道蓄势待发元话rwa 科技区块链 web3 业界资讯大数据 rwa
香港，作为全球金融中心，正再次成为科技与金融巨头们瞩目的焦点。随着其《稳定币条例》即将于2025年8月1日正式生效，一场围绕“合规稳定币”的竞赛已然打响。蚂蚁集团、京东、小米等“大厂”纷纷入局，但这盘大棋的目标，或许远不止于稳定币本身，而是指向其背后更广阔的蓝海——RWA（真实世界资产）的万亿级赛道(一)稳定币先行：巨头抢滩“数字港元”根据《每日经济新闻》的报道，蚂蚁集团旗下的蚂蚁国际与蚂蚁数科均
牛客周赛 Round 59(思维、构造、数论) mldl_ 数据结构与算法算法数论逆序数构造对角线处理范德蒙恒等式
文章目录牛客周赛Round59(思维、构造、数论)A.TDB.你好，这里是牛客竞赛C.逆序数（思维）D.构造mex（构造）E.小红的X型矩阵F.小红的数组回文值（数论、范德蒙恒等式）牛客周赛Round59(思维、构造、数论)E题，对于对角线的处理，常用。F题，范德蒙恒等式推论的应用。A.TD简单数学题。#includeusingnamespacestd;intmain(){doublen,m;ci
算法学习笔记：7.Dijkstra 算法——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学领域，图论算法一直占据着重要地位，其中Dijkstra算法作为求解单源最短路径问题的经典算法，被广泛应用于路径规划、网络路由等多个场景。无论是算法竞赛、实际项目开发，还是计算机考研408的备考，Dijkstra算法都是必须掌握的核心内容。一、Dijkstra算法的基本概念Dijkstra算法是由荷兰计算机科学家EdsgerW.Dijkstra在1956年提出的，用于解决带权有向图或无向
23国赛信息安全管理与评估理论题 KD杜小帅网络安全
理论技能与职业素养（100分）2023年全国职业院校技能大赛（高等职业教育组）“信息安全管理与评估”理论技能【注意事项】1.理论测试前请仔细阅读测试系统使用说明文档，按提供的账号和密码登录测试系统进行测试，账号只限1人登录。2.该部分答题时长包含在第三阶段比赛时长内，请在临近竞赛结束前提交。3.参赛团队可根据自身情况，可选择1-3名参赛选手进行作答，团队内部可以交流，但不得影响其他参赛队。一、单选
开发者必看！AI 时代提升效率的编程工具宝藏图鉴 AI_运维_攻城狮 ai 人工智能 AI编程 git svn github vscode
前言AI时代开发者效率飞升指南：揭秘让工作事半功倍的编程工具在AI技术深度渗透的当下，软件开发领域正经历着前所未有的变革，编程工作的复杂性与日俱增。选择适配的编程工具，已成为开发者在这场效率竞赛中脱颖而出的关键。从智能代码编辑器到自动化脚本，每一款工具都像是开发者手中的神兵利器，在提升编码速度、优化调试流程、增强团队协作等方面发挥着不可替代的作用。接下来，让我们一同深入探索那些能让开发者工作效率翻
脑机新手指南（十五）speechBCI 项目新手入门指南（上）：项目概述、代码结构与环境搭建 Brduino脑机接口技术答疑脑机新手指南 python 脑机接口新手入门
一、引言在脑机接口（BCI）领域，语音相关的研究正不断取得突破。speechBCI项目为语音脑机接口的研究提供了一个优秀的开源代码库。该项目与前沿的学术研究、丰富的数据集以及具有挑战性的机器学习竞赛紧密相连。本指南将分上下两篇，详细引导新手深入了解和使用speechBCI项目。二、项目概述speechBCI项目不仅仅是一个代码集合，它背后有着深厚的学术背景和实际应用价值。它与一篇发表在[Natur
Python 机器学习实战：泰坦尼克号生还者预测 (从数据探索到模型构建) 程序员阿超的博客 Python python 机器学习开发语言泰坦尼克号 Kaggle Scikit-learn 实战教程
引言：挑战介绍泰坦尼克号的沉没是历史上最著名的海难之一。除了其悲剧色彩，它还为数据科学提供了一个经典且引人入胜的入门项目。Kaggle平台上的“Titanic:MachineLearningfromDisaster”竞赛，要求我们利用乘客数据来预测哪些人更有可能在这场灾难中幸存。这是一个典型的二元分类问题：目标变量Survived只有两个值，0（遇难）或1（生还）。这个项目之所以经典，是因为它涵盖
近百万奖金！2024 Web3.0 创新大赛重磅来袭！ DataFountain数据科学 web3 数据竞赛大数据人工智能
10月30日，中国互联网协会与香港Web3.0协会共同组织举办的2024Web3.0创新大赛在上海举行启动会，宣布大赛正式在DataFountain竞赛平台（简称DF平台，http://www.datafountain.cn）启动上线。大赛面向社会各界征集参赛团队，不限年龄、国籍，高校、科研院所、企业人员均可参赛！两大赛区，六大赛道，近百万奖金，你不来吗：https://www.datafount
【题解】洛谷P1001 A+B Problem 炯炯目光 c++
写在前面第一篇博客，献给2020年的残夏。静听8月的热情与安宁，在竞赛中的时光如白驹过隙。也不惧未知的风雨，努力向着既往的通途。ACMACMACM的目标，希望能实现吧。同时，推荐一下我的个人博客，欢迎访问。https://www.cnblogs.com/jjmg/下面是页面编辑的测试。题目地址https://www.luogu.com.cn/problem/P1001题目描述输入两个整数a,ba,
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1001 A+B Problem 热爱编程的通信人 c++算法
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺
学而思编程周赛语言普及奠基组 | 2025年春第15周T1 新二进制热爱编程的通信人算法 c++
欢迎大家订阅我的专栏：算法题解：C++与Python实现！本专栏旨在帮助大家从基础到进阶，逐步提升编程能力，助力信息学竞赛备战！专栏特色1.经典算法练习：根据信息学竞赛大纲，精心挑选经典算法题目，提供清晰的代码实现与详细指导，帮助您夯实算法基础。2.系统化学习路径：按照算法类别和难度分级，从基础到进阶，循序渐进，帮助您全面提升编程能力与算法思维。适合人群：准备参加蓝桥杯、GESP、CSP-J、CS
学而思编程周赛语言普及奠基组 | 2025年春第15周T2 散步热爱编程的通信人算法 c++
欢迎大家订阅我的专栏：算法题解：C++与Python实现！本专栏旨在帮助大家从基础到进阶，逐步提升编程能力，助力信息学竞赛备战！专栏特色1.经典算法练习：根据信息学竞赛大纲，精心挑选经典算法题目，提供清晰的代码实现与详细指导，帮助您夯实算法基础。2.系统化学习路径：按照算法类别和难度分级，从基础到进阶，循序渐进，帮助您全面提升编程能力与算法思维。适合人群：准备参加蓝桥杯、GESP、CSP-J、CS
电赛DEEPSEEK 马职音人嵌入式硬件 stm32 学习单片机 HAL库
以下是针对竞赛题目的深度优化方案，重点解决频率接近时的滤波难题和相位测量精度问题：以下是使用NIMultisim14.3实现本项目的详细解决方案：一、基础要求实现方案（模块化设计）1.双频信号发生电路电路结构：[信号源1]XFG1（1kHz）->[电压跟随器U1A]->[加法器U2A][信号源2]XFG2（10kHz）->[电压跟随器U1B]->[加法器U2A]关键参数设置：元件清单：-运算放大器
GESP认证C++编程真题解析 | GESP202409 三级单选题和判断题热爱编程的通信人历年GESP CSP-J CSP-S真题解析 c++开发语言
欢迎大家订阅我的专栏：算法题解：C++与Python实现！本专栏旨在帮助大家从基础到进阶，逐步提升编程能力，助力信息学竞赛备战！专栏特色1.经典算法练习：根据信息学竞赛大纲，精心挑选经典算法题目，提供清晰的代码实现与详细指导，帮助您夯实算法基础。2.系统化学习路径：按照算法类别和难度分级，从基础到进阶，循序渐进，帮助您全面提升编程能力与算法思维。适合人群：准备参加蓝桥杯、GESP、CSP-J、CS
四个机器学习模型对比道路裂缝检测识别分类模型深度学习乐园深度学习实战项目机器学习分类人工智能
完整源码项目包获取→点击文章末尾名片！一、课题综述1.1.课题简介在机器学习的研究领域中，传统分类算法模型数量众多，适合的应用场景也各不相同。1.2.课题目标（示例）本课题使用的数据集来自于数据分析与数据挖掘竞赛Kaggle，该竞赛为数据科学领域著名的国际性赛事之一。课题使用的数据集为带标签的图像数据集，包含带有裂痕和不带有裂痕的桥梁、墙和人行道图片。课题的目标为对于目标数据集，搭建相应的传统机器
基于AFM注意因子分解机的推荐算法深度学习乐园深度学习实战项目深度学习科研项目推荐算法算法机器学习
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目数据集、代码、视频教程，请进入官网：zzgcz.com。竞赛/论文/毕设项目辅导答疑，v：zzgcz_com1.项目简介项目A033基于A
第十届“信也科技杯”全球 AI 算法大赛火热开赛！巅峰对决 · 超三十万奖金等你挑战猫头虎猫头虎精品博客专栏科技人工智能神经网络计算机视觉语音识别机器学习目标检测
巅峰对决·超三十万奖金等你挑战！第十届“信也科技杯”全球AI算法大赛火热开赛！第十届信也科技杯全球AI算法大赛活动目录合作单位赛事概况赛事奖励赛事日程速览即刻报名参赛电脑端报名报名选手交流群关于“信也科技杯”关于信也科技合作单位“信也科技杯”是由信也科技主办的数据算法竞赛平台，信也科技与两大全球顶级AI会议合作不仅是IJCAI2025官方合作单位，“信也科技杯”也被CIKM2025AnalytiC
算法竞赛备考冲刺必刷题（C++） | 洛谷 P8814 解密热爱编程的通信人算法 c++开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P8814[CSP-J2022]解密-洛
008 【入门】算法和数据结构简介要天天开心啊算法专栏算法数据结构
算法与数据结构系统概览|[算法]-[基础]-[通用]一、算法分类与应用1.硬计算类算法|[算法]-[中级]-[通用]特点应用场景复杂度特征-精确求解问题-可能带来较高计算复杂度-大厂笔试/面试-ACM竞赛-所有程序员岗位必考⏱️通常为O(n)~O(n²)//[示例]快速排序算法-分治思想核心实现publicvoidquickSort(int[]arr,intleft,intright){if(le
【C++算法竞赛】前缀和+桶数组 YLCHUP C++算法技巧算法 c++开发语言数据结构哈希算法 c语言笔记
文章目录1.前缀和基础2.算法原理3.例题讲解[P1114“非常男女”计划](https://www.luogu.com.cn/problem/P1114)[P11965[GESP202503七级]等价消除](https://www.luogu.com.cn/problem/P11965)[P10724[GESP202406七级]区间乘积](https://www.luogu.com.cn/pro
广东省第三届职业技能大赛网络安全项目模块B
广东省第三届职业技能大赛网络安全项目模块B网络安全事件响应、数字取证调查和应用程序安全目录目录1模块B竞赛项目样题2介绍2所需的设备和材料2评分方案2项目和任务的描述2工作任务3第一部分网络安全事件响应3任务1：应急响应3本任务素材清单：WebServer服务器虚拟机(Linux或Windows操作系统)3第二部分数字取证调查3任务2：操作系统取证3本任务素材清单：内存镜像(*.vmem)、存储镜
算法竞赛＞力扣＞周赛 | weekly-contest-455 字节幺零二四算法竞赛算法 leetcode 职场和发展
原文链接：算法竞赛>力扣>周赛|weekly-contest-4553591.检查元素频次是否为质数解题思路统计每个元素出现的次数，判断各次数是否为质数。由于次数&nums){unordered_mapmp;for(intv:nums)mp[v]++;for(auto[k,v]:mp)if(isPrime(v))returntrue;returnfalse;}时间复杂度O(n2)O(n^2)O(n
【信息安全管理与评估】2024年浙江省职业院校技能大赛高职组“信息安全管理与评估”赛项规程 2401_84302369 程序员 web安全网络安全
赛项归属产业：电子信息大类二、竞赛目的（一）引领教学改革通过本项目竞赛让参赛选手熟悉世界技能大赛网络安全项目的职业标准规范，检验参赛选手网络组建和安全运维、安全审计、网络安全应急响应、数字取证调查、应用程序安全和网络攻防渗透能力，检验参赛队计划组织和团队协作等综合职业素养，强调学生创新能力和实践能力培养，提升学生职业能力和就业质量。（二）强化专业建设该赛项衔接国家信息安全技术应用高职专业标准，竞赛
算法竞赛备考冲刺必刷题（Python） | 汇总热爱编程的通信人蓝桥杯 python 白名单
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！【排序】中等：蓝桥云课301实现基数排序-CSDN博客中等：蓝桥云课1264排个序-CSDN博客中等：蓝桥云
如果你近期考虑搭建一个电竞比分网，那么这篇文章你一定要看，希望能帮到你东奔西走的小喇叭大数据
要搭建一个基础的电竞比分网，首先需要处理以下几个关键部分：数据获取：通过API接口获取实时的电竞赛事数据。数据展示：将数据在前端呈现，展示实时比分、赛事信息等。后端管理：管理赛事信息，更新比分数据等。下面是一个简化版的电竞比分网代码框架，基于PythonFlask作为后端，使用JavaScript和HTML来显示数据，且通过某个电竞数据API（例如RiotGamesAPI或其他第三方提供的电竞AP
人脑 vs AI：一场耗能相差50万倍的智慧竞赛，当硅基智能决定重走碳基进化之路，我们如何跨越鸿沟？ AI、少年郎人工智能机器学习计算机视觉深度学习神经网络自然语言处理
一、人脑：自然界最高效的“超算”，让AI望尘莫及1.效率碾压：1杯咖啡的能量vs一座小镇的耗电人脑：仅需20瓦功耗（相当于一盏节能灯），每秒处理1千亿次神经信号，可连续工作数十年。顶级AI（如GPT-4）：单次训练耗电1300兆瓦时，相当于130个家庭全年用电量，却仅学会静态文本匹配。震撼对比：人脑学习《红楼梦全集》的能耗≈0.001度电，而AI训练同等数据需消耗1000年的人脑总能耗。2.多模态
OpenAI与微软的未来合作之路：充满挑战的AI竞赛与共赢人工智能我来了人工智能 AI microsoft 人工智能
在全球互联网巨头们的角力中，OpenAI与微软之间的合作关系无疑已成为焦点之一。自2019年微软向OpenAI投资10亿美元起，这对科技巨头便紧密地走在一起。在微软的Azure云平台上，OpenAI的软件工具得以独家销售，微软也因此获得优先使用这些创新技术的权利。然而，随着OpenAI不断发展壮大，这段合作关系正面临着一系列的挑战和考验。纷争的导火索OpenAI与微软的合作，初衷是通过资源共享来实
AI赋能地产行业，助力地产数字化转型升级 YesPMP平台官方人工智能 chatgpt AI应用开发
2023年，以AI为代表的各种新技术应用突然开始爆发。ChatGPT点燃全世界的热情，各个尖端公司就像一场军备竞赛，以超快的迭代更新AI的性能。目前，房地产科技中AI的主要功能和应用场景涵盖了房地产行业的多个方面，并且已经在助力投资人、开发商和业主、运营商提高效率和节省成本方面取得了成果。AI技术在房地产项目的设计和开发阶段的应用，不仅能够提高工作效率，还能提升项目的整体质量。YesPMP是专业的
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开