tiny_Sean

2019大数据挑战赛TOP5方案总结

2019 BDC 比赛总结（图片完整版访问请访问github上的pdf文件）

图片完整版访问请访问github上的pdf文件！！！！

2019中国高校计算机大赛已正式结束。对于我个人而言，这是第一次进入算法比赛的TOP10。我们队伍在初赛排在大概50名左右，复赛B榜8名，最终决赛第9名，这里是自己比赛的最终提交方案，求star。。。。。。。。。。本次总结是争对决赛TOP5方案的，毕竟自己做的跟他们比还有一些差距，我会尽自己所能的将他们做的全部方案融合进这一篇blog中，以此来帮助到我和大家。

blog中直接引用了很多TOP5方案的PPT，如果有哪些组不愿意将自己的PPT或者方案公开，请联系我邮箱[email protected]，我将第一时间在blog中删除。另外，相关nlp比赛想组队也可以联系我，求大佬carry。

总的来说，这次比赛前排TOP10的方案中几乎都包括了lgb和esim两个模型。而且在esim模型中除了第五名的一组，其他的都加入了手工特征。我记得评委在现场问过一句话–“我看过前面的很多方案，他们做的跟你们大体一样，但为啥各自的线上qAuc差别很大”，我已经记不得当时的大佬是怎么回答，前排的成绩相对来说还说还比较接近，各自的差异可能仅仅是由于一处到两处的做法不同，这一点在特征工程还不太明显，但是在后面nn结构设计尤为明显，TOP3都争对esim做了一些很小的改动，废话不多说了，下面直接进入到赛题分析部分。

赛题分析

搜索中一个重要的任务是根据query和title预测query下doc点击率，本次大赛参赛队伍需要根据脱敏后的数据预测指定doc的点击率。

训练集为10亿，A榜测试集为2KW， B榜测试集为1亿。

[外链图片转存失败(img-d9B596hv-1566973637025)(C:\Users\tinySean\AppData\Roaming\Typora\typora-user-images\1566959895666.png)]

第二名的队伍分析了queryid下title数目的分布情况，大家看一下这个柱状图，我们只列出来了title数目为3、4、5、6、7和20的分布情况，训练集中queryid下title数量为20的比较多，A榜测试集中queryid下title数量为3的比较多，我们通过线下测试发现，queryid下title数目为3的qauc值远低于title数目为20的qauc值，这也说明了为什么线上线下得分差异比较大，而B榜测试集的queryid下的title数量分布情况和训练差不多，因此B榜得分相对与A榜得分高了很多。

上面我原封不动的摘抄了他们的PPT，他们的大致意思就是相对于testA，testB query_id下title数目的分布情况更接近于训练集，但是他们这里并未给出testB的分布情况，可能是由于时间情况吧。假设testB和训练集的分布情况差异也很大的话，那么我们可能需要对训练集进行一些采样来拟合testB构建验证集进行本地验证，甚至可能需要拟合训练集分布来进行训练。

[外链图片转存失败(img-CqSSp1Ad-1566973637026)(C:\Users\tinySean\AppData\Roaming\Typora\typora-user-images\1566960083172.png)]

上图也来自第二名队伍的数据分析。其实这方面工作我们也做了，主要就是看看query和title对在测试集的重复率，当时我们是根据这重复率来对训练集进行采样拟合测试集A，我们考虑的是如果对于重复的title和query，nn预测出的点击率可能会比较高（因为它以前看过这个），而对于新的title和query，nn可能预测出的点击率可能会比较低（它以前没看过这个），因此如果测试集中大量都是训练集中没出现的query和title，那么整体预测出的点击率分布会偏低，qAuc这一排序指标就不太准，可惜的是当时我们做的这份工作反而把整体模型的性能拉低了。我猜测可能是由于训练集和测试集的时间戳是连续的，直接进行随机采样可能会打乱这时间戳的连续性，决赛中TOP10方案好像没有随机采样训练集的。（当然也存在另外一种可能，那就是我的代码有BUG，如果你有拟合测试集的成功案例的话希望能在讨论区跟我反馈一下）。

特征工程

特征工程大家做的差异很大，大致可以分为下列这几类

1、长度特征

query的长度和title的长度
query和title公共词的数量以及占比
query和title长度的差值和比值
query组内的title长度均值
…其实跟这方面相关的特征还有很多，比如可以对query和title去重之后再进行一次操作，但我认为这一个特征不是各自模型之间最大的差异。

2、频次特征（强特）

nunique特征，也可以理解为query和title出现的频次，不同query下title的数目，不同title下query的数目（对query id进行groupby之后再对title进行unique）

下面是第四名对上述特征的解释：query次数表示用户看到不同title的个数。个人理解看的越少说明有足够满意的title。（包含用户行为信息）title的频率包含了title的热度，频率越高说明该title的热度越高。

3、匹配特征

最长公共子序列，最长公共子序列在query中的跨度，最长公共子序列在title中的跨度，最长子序列长度/title长度等特征
前缀后缀特征
Difflib(计算query和title之间的diff ratio，marchs表示共现词长度和)， sequencematcher

[外链图片转存失败(img-wWw46MNU-1566973637031)(C:\Users\tinySean\AppData\Roaming\Typora\typora-user-images\1566966768765.png)]
LongShareRate，最长共现语句 s，计算

[外链图片转存失败(img-sbLVZYNh-1566973637032)(C:\Users\tinySean\AppData\Roaming\Typora\typora-user-images\1566966310763.png)]
fuzzywuzzy模糊匹配
N-gram特征
编辑距离（Levenshein)
jaccard距离

4、熵特征

query、title的信息熵

5、图特征

pagerank，分别以query和title为节点构建有向图，计算query和title的文本重要性。

[外链图片转存失败(img-8yNt6a8A-1566973637034)(C:\Users\tinySean\AppData\Roaming\Typora\typora-user-images\1566967056823.png)]

6、相似度特征

下面一些相似度特征可以只选取query的前m个词，以及title的前n个词，因为对于ctr问题，前面词的重要性更加高。

首先定义相似度函数：有欧氏距离、曼哈顿距离、Canberra距离、汉明距离、余弦距离等等，具体可在scipy的spatial.distance下搜寻。

下面是第四名队伍给出的距离函数重要性排序：

[外链图片转存失败(img-6uqi2NlS-1566973637036)(C:\Users\tinySean\AppData\Roaming\Typora\typora-user-images\1566967828521.png)]

之后就要选择争对哪些向量了，可以直接得到的有tfidfvectorizer和countvectorizer出来的稀疏向量，对于这类向量的相似度的计算可以尝试skelarn.pairwise下的那些函数（经测试，它们的计算速度较快）

而对于word2vec和fasttext出来的向量组，有下列三种方式转成句向量：

直接等权平均
根据tf_idf加权，
Smoothed Inverse Frequency Embedding，第二名队伍分析中指出这一种方法会比tf_IDF加权上升2个千

word2vec和fasttext转成句向量后就可以直接通过相似度函数计算相似度特征

除去上面这些相似度特征，还有下面一些函数库计算的相似度特征

bm25

7、点击率特征（目标编码特征）

自己也尝试过去构建点击率特征，在初赛的时候总体性能还行，但是到了复赛却崩了，这是一个相当容易导致模型过拟合的特征，使用的时候技巧性比较强，各组争对过拟合也有自己的方案。

首先说第五名的方案：他们组使用使用前9亿5000万数据进行统计title的ctr，使用后5000万做训练，最终出

现了严重的过拟合。解决策略是将训练两个lgb，第一个包括ctr但不包括title相关特征，第二个包括title相关特征，两个lgb的特征是完全没有重合的地方的。由于lgb能够自动组合特征，将ctr和title两个特征拉开，可以防止lgb记住ctr和title的组合（也就是防止lgb将ctr和title关联到一起），以此来遏制过拟合。同时这两个lgb差异性比较大，这样他们的最终融合收益也比较高。

第四名的方案：

[外链图片转存失败(img-3rOWscvx-1566973637037)(C:\Users\tinySean\AppData\Roaming\Typora\typora-user-images\1566968788827.png)]

第二名的方案：

[外链图片转存失败(img-dYCV0hQw-1566973637039)(C:\Users\tinySean\AppData\Roaming\Typora\typora-user-images\1566968806911.png)]

第三名的方案（这也是我觉得解决的最好的一个点击率特征方案）：

[外链图片转存失败(img-BdL85TMC-1566973637040)(C:\Users\tinySean\AppData\Roaming\Typora\typora-user-images\1566968885405.png)]

他们组跟前面组最大的差别就是对query和title提取关键词，这样可以大幅减少空值。

8、其余特征

词位置特征（query前10个词在title中的位置）
Proximity
title质量分数特征

[外链图片转存失败(img-RoSTpUpM-1566973637042)(C:\Users\tinySean\AppData\Roaming\Typora\typora-user-images\1566969454532.png)]
末词（tag）的信息数据挖掘

[外链图片转存失败(img-2TfqXfJI-1566973637043)(C:\Users\tinySean\AppData\Roaming\Typora\typora-user-images\1566969524271.png)]
word share特征

[外链图片转存失败(img-x3i4jggV-1566973637045)(C:\Users\tinySean\AppData\Roaming\Typora\typora-user-images\1566969575202.png)]

[外链图片转存失败(img-MF1Ug6n3-1566973637047)(C:\Users\tinySean\AppData\Roaming\Typora\typora-user-images\1566969588356.png)]

9、排序特征

每个特征内部也可以争对同一个query定义一个排名，尤其是相似度特征

9、 nn stacking特征

直接拿nn的某一嵌入曾输出作为lgb特征，拿esim来说，可以把maxpooling和averagepooling那层之后的作为lgb特征，这会是相似度特征的一个很好的刻画。

特征选择

每个特征计算耗时不同，重要性也不同，需要对他们进行一个统一的筛选，选择方案有大概下面三种（当然仅仅是TOP5方案中出现或者我自己使用的）：

直接根据lgb的feature_importance，这样做的特征，筛选，一般会使得性能有所降低
过滤法：相关系数、方差选择
包裹法：递归特征消除法

算法模型

机器学习

机器学习模型自然是以lgb为主的，lgb对数据不太敏感，它的性能高低完全取决于前面所做的特征，TOP5方案有人把lgb做到了0.626，最终也取得了较好的排名。

深度学习

深度学习主要就是esim模型，几乎所有队伍都得出一致的结论：在这题上面esim是最优nn，大家主要就是争对这一nn进行讨论。

对于esim，首先要讨论的就是要不要加入第三个输入，大部分组是直接选择加入手工特征来提高nn单模成绩，但这样做会降低nn和lgb的差异性，使得融合的收益减少。值得注意的是，第五名的队伍他们在nn中没有加入第三个输入，最终两个lgb（0.57， 0.59）和一个esim（0.58）融合出了0.627的成绩，也就是不加入第三个输入的nn融合收益很大。

接下来就说加入手工特征的nn，大部分队伍都是把lgb全部特征输入nn，对于我个人而言我是选取了lgb的部分特征输入了nn，我觉得加入太多特征会扰乱nn反向传播，会使得第三个输入反向传播的梯度比较大，第一个输入和第二个输入反向传播的梯度比较小，当然这仅仅是实验结论（打印nn的weights），但是这选取方法是纯手动的。esim融入手工特征有两种方案：

concat方案
gate方案（要略微优于concat）

eisim模型上的微调还有将两层BILSTM改成BIGRU和CNN进行融合，以此增加模型上的多样性，也就是即使对于同一组训练集，在不对模型做大的变动下仅仅改变那两层BILSTM就可以得到三个esim变体。对于我个人来说的话，我尝试过将esim的Embedding层进行替换，也就是我训练了两个词向量fasttext和word2vec，仅仅替换它们就可以得到两个esim变体。

在nn训练时，有的队伍采用了CLR修改学习率，以及SWA得到全局化的通用最优解。

最后说说自己队伍的一些在nn上做的主要变动吧，我们仅仅在手工特征的基础上加入lgb stacking特征（即五折lgb的预测值），就使得nn从0.602上升到了0.618，进入了前十

模型选择

下面是第三名的方案，用相关系数进行模型选择

[外链图片转存失败(img-s0DGuPwH-1566973637047)(C:\Users\tinySean\AppData\Roaming\Typora\typora-user-images\1566972577016.png)]

模型融合

模型融合最主要的就是增加模型的多样性，在增加模型多样性方面有下列方案

在nn中不加入额外特征与lgb融合，这个收益是相当大的
对nn进行结构上的调整
选择不同的数据集，比如拿第一亿做一个模型，第二亿再做一个模型，第一名拿了6亿数据，我觉得这是他们组取胜的刚关键，他们是所有方案中利用数据集最多的组，对于nn，越多的数据性能越好。
如果你争对同一个数据集有多个nn，比如esim、孪生lstm，孪生cnn等等，可以尝试在多个nn的基础用了multi model合成一个nn 然后使用snapshot集成寻找单个multi model多个局部最优值来进行融合,这个操作确实很惊艳

其他思考

二分类（bce loss）问题和排序问题（pairwise loss）的思考，大部分队伍都是将这一题视为前一类问题，对于后面一类问题我自己不太懂，但是第二名方案的实验结果表明lgb排序loss的性能比lgb二分类loss的性能要出色。

最后回过头来看前三名的方案，他们都使用了3亿以上的数据量，而我们自己队伍仅仅使用了一亿的数据量，我感觉对于这一题的关键点就是数据量的使用吧。

参考

TOP5方案的PPT
第三名完整解决方案
第五名完整解决方案
第九名完整解决方案，求star

机器学习是怎么一步一步由神经网络发展到今天的Transformer架构的？ yuanpan 机器学习神经网络 transformer
机器学习和神经网络的发展经历了一系列重要的架构和技术阶段。以下是更全面的总结，涵盖了从早期神经网络到卷积神经网络之前的架构演变：1.早期神经网络：感知机（Perceptron）时间：1950年代末至1960年代。背景：感知机由FrankRosenblatt提出，是第一个具有学习能力的神经网络模型。它由单层神经元组成，可以用于简单的二分类任务。特点：输入层和输出层之间直接连接，没有隐藏层。使用简单的
奇异值分解（SVD）文弱_书生乱七八糟神经网络人工智能
奇异值分解(SVD)介绍奇异值分解(SVD)，这是最强大的矩阵分解技术之一。SVD广泛应用于机器学习、数据科学和其他计算领域，用于降维、降噪和矩阵近似等应用。与仅适用于方阵的特征分解不同，SVD可以应用于任何矩阵，使其成为一种多功能工具。在这里煮啵将分解SVD背后的理论，通过手动计算示例进行分析，并展示如何在Python中实现SVD。在本节结束时，您将清楚地了解SVD的强大功能及其在机器学习中的应
yum install locate出现Error: Unable to find match: locate解决方案爱编程的喵喵 Linux解决方案 linux locate yum 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了yuminstalllocate出现
【人工智能机器学习基础篇】——深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理猿享天开人工智能数学基础专讲人工智能机器学习无监督学习降维
深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理在当今数据驱动的世界中，数据维度的增多带来了计算复杂性和存储挑战，同时也可能导致模型性能下降，这一现象被称为“维度诅咒”（CurseofDimensionality）。降维作为一种重要的特征提取和数据预处理技术，旨在通过减少数据的维度，保留其主要信息，从而简化数据处理过程，并提升模型的性能。本文将深入探讨两种广泛应用于无监督学习中的降
Flink启动任务 swg321321 flink 大数据
Flink以本地运行作为解读例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Flink前言StreamExecutionEnvironmentLocalExecutorMiniClusterStreamGraph二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
【机器学习】建模流程 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能线性回归逻辑回归
1、数据获取1.1来源数据获取是机器学习建模的第一步，常见的数据来源包括数据库、API、网络爬虫等。数据库是企业内部常见的数据存储方式，例如：MySQL、Oracle等关系型数据库，以及MongoDB等非关系型数据库，它们能够存储大量的结构化和非结构化数据API（应用程序编程接口）提供了从外部获取数据的便捷方式，例如：社交媒体平台的API可以获取用户发布的内容和互动信息网络爬虫则适用于从网页中提取
机器学习课堂4线性回归模型+特征缩放木尘152132 机器学习线性回归 python
一、实验2-2，线性回归模型，计算模型在训练数据集和测试数据集上的均方根误差代码：#2-2线性回归模型importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplt#参数设置iterations=3000#迭代次数learning_rate=0.0001#学习率m_train=3000#训练样本的数量flag_plot_lines=False
【机器学习】模型拟合 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能欠拟合过拟合
1、欠拟合1.1现象欠拟合是机器学习和统计建模中的一种常见问题，表现为模型无法充分捕捉数据中的潜在规律和模式。无论是训练数据还是测试数据，模型的预测误差都居高不下。在实际应用中，欠拟合的模型往往显得过于简单和粗糙，无法对数据进行有效的拟合和描述。1.2原因模型过于简单是导致欠拟合的主要原因：例如，使用直线去拟合具有明显曲线趋势的数据，或者使用低阶多项式去拟合高阶的复杂函数关系。这种情况下，模型的表
基于Python的智能决策支持系统：实现智能化决策的关键要素 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
文章目录基于Python的智能决策支持系统：实现智能化决策的关键要素11.背景介绍2.核心概念与联系数据收集与预处理模型构建与训练决策规则生成与优化决策结果评估与反馈3.核心算法原理具体操作步骤数据挖掘算法机器学习算法优化算法4.数学模型和公式详细讲解举例说明线性回归模型最小二乘法5.项目实践：代码实例和详细解释说明6.实际应用场景金融领域医疗领域供应链管理智能制造7.工具和资源推荐编程语言和开发
下一代模型技术演进与场景应用突破智能计算研究中心其他
内容概要当前模型技术正经历多维度的范式跃迁，可解释性模型与自动化机器学习（AutoML）成为突破传统黑箱困境的核心路径。在底层架构层面，边缘计算与量子计算的融合重构了算力分配模式，联邦学习技术则为跨域数据协作提供了安全可信的解决方案。主流框架如TensorFlow和PyTorch持续迭代优化能力，通过动态参数压缩与自适应超参数调优策略，显著提升模型部署效率。应用层创新呈现垂直化特征，医疗诊断模型通
TypeScript语言的计算机视觉苏墨瀚包罗万象 golang 开发语言后端
使用TypeScript进行计算机视觉：一个现代化的探索引言随着人工智能和机器学习的快速发展，计算机视觉（ComputerVision）成为了一个极具活力的研究领域。计算机视觉旨在使计算机能够“看”和“理解”数字图像或视频中的内容。近年来，TypeScript作为一种现代化的编程语言，因其类型安全和更好的开发体验，逐渐在前端和后端开发中得到了广泛应用。本文将探讨如何使用TypeScript进行计算
人工智能之数学基础：数学对人工智能技术发展的作用每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习机器学习神经网络自然语言处理数学
本文重点数学是人工智能技术发展的基础，它提供了人工智能技术所需的数学理论和算法，包括概率论、统计学、线性代数、微积分、图论等等。本文将从以下几个方面探讨数学对人工智能技术发展的作用。概率论和统计学概率论和统计学是人工智能技术中最为重要的数学分支之一。概率论和统计学的应用范围非常广泛，包括机器学习、数据挖掘、自然语言处理、计算机视觉等领域。在人工智能技术中，概率论和统计学主要用于处理不确定性的问题，
人工智能之数学基础：线性子空间每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习线性代数线性子空间线性空间
本文重点在前面的课程中，我们学习了线性空间，本文我们我们在此基础上学习线性子空间。在应用中，线性子空间的概念被广泛应用于信号处理、机器学习、图像处理等领域。子空间的性质子空间是线性空间的一部分，它需要满足下面的性质：设V是数域F上的线性空间，W是V的一个非空子集。如果W对于V中的加法运算和数乘运算也构成F上的一个线性空间，则称W为V的线性子空间（或称向量子空间）。具体来说，设V是一个线性空间，W是
详解离线安装Python库爱编程的喵喵 Python基础课程 python 离线安装 requirements
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了详解离线安装Python库，希望能对
ESG证书：AI预测未来十年职场人的黄金入场券 ESG学习圈 pandas python django
当ChatGPT开始撰写ESG报告，当机器学习模型精准预测企业碳排放轨迹，一场由AI驱动的ESG革命正在颠覆传统可持续发展领域。根据彭博新能源财经预测，到2030年全球ESG资产管理规模将突破50万亿美元，而AI技术将成为撬动这个万亿级市场的核心杠杆。一、AI透视下的ESG黄金时代在微软开发的AI模型ESG-NOW系统中，通过分析全球4300家上市公司近十年的环境数据，成功预测2025年新能源行业
【Dive Into Stable Diffusion v3.5】1：开源项目正式发布——深入探索SDv3.5模型全参/LoRA/RLHF训练 Donvink 大模型 #AIGC stable diffusion AIGC 人工智能机器学习深度学习
目录1引言2项目简介3快速上手3.1下载代码3.2环境配置3.3项目结构3.4下载模型与数据集3.5运行指令3.6核心参数说明3.6.1通用参数3.6.2优化器/学习率3.6.3数据相关4结语1引言在人工智能和机器学习领域，生成模型的应用越来越广泛。StableDiffusion作为其中的佼佼者，因其强大的图像生成能力而备受关注。今天，我的开源项目DiveIntoStableDiffusionv3
知识库在意图识别中扮演着**数据支撑**和**语义理解辅助**的双重角色 PersistDZ 大数据与AI 人工智能
知识库在意图识别中扮演着数据支撑和语义理解辅助的双重角色，而训练智能客服的意图识别Agent需要结合知识库的结构化数据与机器学习技术。以下是详细解析：一、知识库在意图识别中的作用1.提供标注数据意图标签定义：知识库中存储了预先定义的意图分类体系（如“订单查询”“退换货”“投诉”等），为模型提供明确的训练目标。标注样本：知识库包含大量用户对话历史及其对应的意图标签，是训练监督学习模型的核心数据源。2
近期计算机领域的热点技术 0dayNu1L 云计算量子计算人工智能
随着科技的飞速发展，计算机领域的新技术、新趋势层出不穷。本文将探讨近期计算机领域的几个热点技术趋势，并对它们进行简要的分析和展望。一、人工智能与机器学习人工智能（AI）和机器学习（ML）是近年来计算机领域最为热门的话题之一。AI和ML技术已经广泛应用于图像识别、自然语言处理、智能推荐等领域，并取得了显著的成果。随着技术的不断进步，AI和ML将更深入地渗透到各个行业，为人类社会带来更多便利和效益。在
计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
ChatGPT、DeepSeek、GIS与Python机器学习强强联合！地质灾害风险评估、易发性分析、信息化建库及灾后重建 WangYan2022 DeepSeek ChatGPT 地下水地质灾害 DeepSeek ChatGPT GIS 灾后重建
在地质灾害频繁肆虐的当下，精准开展风险评价刻不容缓。如今，一门极具创新性的教程震撼登场，它将ChatGPT、DeepSeek等前沿技术与GIS、Python以及机器学习深度交融，为学员打造出前所未有的学习体验，助力大家在地质灾害风险评价领域强势突围，一路领先。前沿技术融合，铸就智能学习核心动力教程最闪耀的亮点之一，便是大胆引入了ChatGPT和DeepSeek技术。它们恰似无所不能的“数据魔法师”
Hessian 矩阵是什么 ZhangJiQun&MXP 教学 2021 AI python 2024大模型以及算力矩阵线性代数算法人工智能机器学习
Hessian矩阵是什么目录Hessian矩阵是什么Hessian矩阵的性质及举例说明**1.对称性****2.正定性决定极值类型****特征值为2（正），因此原点(0,0)(0,0)(0,0)是极小值点。****3.牛顿法中的应用****4.特征值与曲率方向****5.机器学习中的实际意义**一、定义与公式二、实例分析Hessian矩阵是多元函数二阶偏导数构成的方阵，用于分析函数局部曲率、判断极
LoRA中黑塞矩阵、Fisher信息矩阵是什么 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵机器学习人工智能 transformer 深度学习算法线性代数
LoRA中黑塞矩阵、Fisher信息矩阵是什么1.三者的核心概念黑塞矩阵（Hessian）二阶导数矩阵，用于优化问题中判断函数的凸性（如牛顿法），或计算参数更新方向（如拟牛顿法）。Fisher信息矩阵（FisherInformationMatrix,FIM）统计学中衡量参数估计的不确定性，反映数据中包含的关于参数的信息量。在机器学习中常用于自然梯度下降（NaturalGradientDescent
神经网络基础之正则化硬水果糖人工智能神经网络人工智能机器学习
引言：正则化（Regularization）是机器学习中一种用于防止模型过拟合技术。核心思想是通过在模型损失函数中添加一个惩罚项（PenaltyTerm），对模型的复杂度进行约束，从而提升模型在新数据上的泛化能力。一、正则化目的防止过拟合：当模型过于复杂（例如神经网络层数过多、参数过多）时，容易在训练数据上“记忆”噪声或细节，导致在测试数据上表现差。简化模型：正则化通过限制模型参数的大小或数量，迫
决策树算法全解析：从零基础到Titanic实战，一文搞定机器学习经典模型吴师兄大模型 0基础实现机器学习入门到精通算法机器学习决策树人工智能深度学习编程开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
数据增强：扩充数据集提升模型泛化能力 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1.数据增强的重要性在机器学习领域，模型的泛化能力至关重要。一个泛化能力强的模型能够在未见数据上表现良好，而过拟合的模型则会在训练数据上表现出色，但在新数据上表现糟糕。数据增强是一种有效提升模型泛化能力的技术，它通过对现有数据进行各种变换，人为地扩充数据集，从而增加训练数据的数量和多样性。1.2.数据增强的应用场景数据增强广泛应用于各种机器学习任务中，包括：图像识别:对图像进行旋转
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它