Learning to Rank入门小结 + 漫谈

机器学习信息检索 Learning to rank

1 前言
2 LTR流程
3 训练数据的获取4 特征抽取
- 3.1 人工标注
- 3.2 搜索日志
- 3.3 公共数据集
5 模型训练
- 5.1 训练方法
  - 5.1.1 Pointwise
  - 5.1.2 Pairwise
  - 5.1.3 Listwise
6 效果评估7 参考
- 6.1 NDCG（Normalized Discounted Cumulative Gain）
  - 6.1.1 定义
  - 6.1.2 描述
- 6.2 MAP（Mean Average Precision）
  - 6.2.1 定义
  - 6.2.2 描述

1 前言

Web Search 的历史经历了

传统的 “text retrieval” 到 “基于link analysis的搜索引擎”，目前，由于机器学习和数据挖掘

的技术不断成熟，利用统计模型来解决rank问题已经成为一个hot topic： Learning to Rank

2 LTR的流程

Collect Training Data (Queries and their labeled documents)
Feature Extraction for Query-document Pairs
Learning the Ranking Model by Minimizing a Loss Function on the Training Data
Use the Model to Answer Online Queries

3 训练数据的获取

有2种获取训练数据的来源:1）人工标注；2）搜索日志。

3.1 人工标注

从搜索日志中随机选取一部分Query，让受过专业训练的数据评估员对”Query-Url对”给出

相关性判断。常见的是5档的评分:差、一般、好、优秀、完美。以此作为训练数据。人工标

注是标注者的主观判断，会受标注者背景知识等因素的影响。

3.2 搜索日志

使用点击日志的偏多。比如，结果ABC分别位于123位，B比A位置低，但却得到了更多的点击，

那么B的相关性可能好于A。点击数据隐式反映了同Query下搜索结果之间相关性的相对好坏。

在搜索结果中，高位置的结果被点击的概率会大于低位置的结果，这叫做”点击偏见”（Click Bias）。

但采取以上的方式，就绕过了这个问题。因为我们只记录发生了”点击倒置”的高低位结果，使用这

样的”偏好对”作为训练数据。关于点击数据的使用，后续再单独开帖记录，这里不展开。

在实际应用中，除了点击数据，往往还会使用更多的数据。比如通过session日志，挖掘诸如页面停

留时间等维度。在实际场景中，搜索日志往往含有很多噪音。且只有Top Query（被搜索次数较多

的Query）才能产生足够数量能说明问题的搜索日志。

3.3 公共数据集

现存一批公开的数据集可以使用

LETOR, http://research.microsoft.com/en-us/um/beijing/projects/letor/
Microsoft Learning to Rank Dataset, http://research.microsoft.com/en-us/projects/mslr/
Yahoo Learning to Rank Challenge, http://webscope.sandbox.yahoo.com/

4 特征抽取

搜索引擎会使用一系列特征来决定结果的排序。一个特征称之为一个“feature”。按照我的理解，

feature可以分为3大类：

Doc本身的特征：Pagerank、内容丰富度、是否是spam等
Query-Doc的特征：文本相关性、Query term在文档中出现的次数等

此阶段就是要抽取出所有的特征，供后续训练使用。

5 模型训练

5.1 训练方法

LTR的学习方法分为Pointwise、Pairwise和Listwise三类。Pointwise和Pairwise把排序问题转换成

回归、分类或 有序分类 问题。Lisewise把Query下整个搜索结果作为一个训练的实例。3种方法

的区别主要体现在损失函数（Loss Function）上：

Regression: treat relevance degree as real values
Classification: treat relevance degree as categories
Pairwise classification: reduce ranking to classifying the order between each pair of documents.

5.1.1 Pointwise

Pointwis方法的主要思想是将排序问题转化为多类分类问题或者回归问题。以多类分类为例

进行说明：假设对于查询query，与其相关的文档集合为：{d1, d2, …, dn}。那么首先对这n个pair：

(query, di)抽取特征并表示成特征向量。

Regression-based：

将query与di之间的相关度作为value，利用regression model来得到一个query与document之间相关

度的预测。

Classification-based：

将query与di之间的相关度的程度作为label，一般的label等级划分方式为：｛Perfect, Excellent,

Good, Fair, Bad｝，一共五个类别。于是，对于一个查询及其文档集，可以形成n个训练实例。有了

训练实例，我们可以使用任一种多类分类器进行学习，比如最大熵，SVM。下面是一个例子：

5.1.2 Pairwise

Pairwise方法是目前比较流行的方法，效果也非常不错。它的主要思想是将Ranking问题形式化为二元

分类问题。

下面这张图很直观地表达了pairwise方法的思想，同时也给出了构造训练实例的方法。

对于同一条query，在它的所有相关文档集里，对任两个不同label的文档，都可以得到一个训练实例

（pair），比如图中的（）分别对应label为5和3，那么对于这个pair实例，给它赋予类别+1（5>3），

反之则赋予类别-1。于是，按照这种方式，我们就得到了二元分类器训练所需的样本了。预测时，只需要对

所有pair进行分类，便可以得到文档集的一个偏序关系，从而实现排序。

Pairwise方法有很多的实现，比如SVM Rank（开源）, 还有RankNet(C. Burges, et al. ICML 2005)， FRank

(M.Tsai, T.Liu, et al. SIGIR 2007)，RankBoost(Y. Freund, et al. JMLR 2003)等等。下面是SVM Rank的例子：

相比于Pointwise方法，Pairwise方法不再对相关度作独立假设，因为它只对同一个query里的文档集生成

训练样本。然而，Pairwise模型也有一些缺点：1.它对不同级别之间的区分度是一致对待的。在信息检索领域，

尤其对于搜索引擎而言，人们更倾向于只点击搜索引擎返回的前几页结果，甚至只是前几条。所以我们对相关

度高（Perfect）的文档应该作更好的区分。2.相关文档集大小带来的模型偏置。假设query1对应的相关文档

集大小为5，query2的相关文档集大小为1000，那么从后者构造的训练样本数远远大于前者，从而使得分类器

对相关文档集小的query所产生的训练实例区分不好，甚至视若无睹。

还有一个重要的因素也会影响Pairwise方法的排序性能。以Ranking SVM为例，它优化的目标是使得正负

样本之间的Margin最大，而并非以排序性能为优化目标。就像BP神经网络以训练误差为目标优化函数，从而使

得它很容易过拟合。优化目标本身的差异将导致模型本身的功能偏置。于是，基于这个特性，人们提出了Listwise

的方法。

5.1.3 Listwise

Listwise方法相比于前两种（Pointwise，Pairwise）而言，不再将Ranking问题直接形式化为一个分类或者

回归问题，而是直接对文档的排序结果（list）进行优化。目前主要有两种优化方法：

直接针对Ranking评价指标进行优化。比如常用的MAP, NDCG（下面介绍）。这个想法非常自然，但是往往

难以实现，因为NDCG这样的评价指标通常是非平滑（连续）的，而通用的目标函数优化方法针对的都是连续函数。

优化损失函数

损失函数的构造有很多种方式。RankCosine(T. Qin, T. Liu, et al. IP&M 2007)使用正确排序与预测排序的分值向量

之间的Cosine相似度（夹角）来表示损失函数。 ListNet(Z. Cao, T. Qin, T. Liu, et al. ICML 2007)使用正确排序与预测排

序的排列概率分布之间的KL距离（交叉熵）作为损失函数，等等。

以ListNet为例，其损失函数如下：

和分别表示正确的排序以及预测的排序。其中，概率分布由以下公式定义：

其中为第j个特征向量的Score。当然这个概率分布需要满足一些性质，比如，对于更佳排序，其概率值应该更高。

那么，最终损失函数就可以表示为以下形式：

从式中可以看出，ListNet对特征向量进行简单的线性加权来对Score进行预测。此时，任务转化为对权矢量w的学习。

这显然是一个老生常谈的问题，梯度下降是最常用的方法。这里就不再赘述了。

我觉得Listwise的方法是最优美的，因为它专注于自己的目标和任务。相比之下，Pairwise有点儿歪门邪道的感觉：）

当然，这种方法也并非完美，还是有一些缺点的。比如Score()如何构造？能直接使用Label么？事实上，这也是制约性能

的一大原因。还有，求解KL距离时，需要对所有排列计算其概率，算法复杂度趋于。针对这几个问题，都有相应的

Solution。

对于ListNet，据我目前所知，有两个开源的Java版本实现，一是Minorthird，这是CMU的教授William W. Cohen带领他的

学生们做的，类似于Weka，是一个实现了大量机器学习、数据挖掘算法的开源工具，它在Sorceforge上的主页在这儿。另一个

是罗磊同学近期做的，使用的是单层神经网络模型来调整权值。目前已经在Google code上开源，地址在这儿。欢迎大家使用并给

出意见。

6 效果评估

对于搜索结果，有多种量化搜索得分的计算方法，这里介绍NDCG和MAP。

6.1 NDCG（Normalized Discounted Cumulative Gain）

6.1.1 定义

计算前k条结果的相关性得分
i：第i次搜索
j：第j条结果
y_i,j：第j条结果的相关性标注得分，5档制
π_i(j)：这条结果在排序中的位置

6.1.2 描述

顾名思义，NDCG的公式由 N、D、C、G 4部分组成。将公式改写成
先看G部分。G是增益函数（Gain）,表示第j条结果在被给予评分y_i,j之后所贡献的分值增益。定义如下
再看D部分。D是位置折算函数（Discounted）。因为不同位置的增益应该是不同的，D函数给结果按照位置赋予一个权重。定于如下C部分就是累加（Cumulative），将k条结果的得分加在一起。
N是归一化因子（Normalized），取值是该位置上G函数理论上取得的最大值的倒数。目的是缩放不同位置上的得分到统一区间。

6.2 MAP（Mean Average Precision）

6.2.1 定义

MAP中，相关性评分y_i,j只有2档：0和1

6.2.2 描述

P表示结果j的权重，从位置j开始，相关（标记为1）的结果所在的比例
AP表示单query下，相关的结果的平均的加权得分
AP中，只有标记为相关的结果才会参与加权的累加
AP是单query下的得分，多query的平均AP，就成了MAP

7 参考

信息检索初学者's Learning to Rank 小结：http://blog.crackcell.com/2011/12/17/learning-to-rank_intro_note/

jiangfeng's 漫谈Learning to Rank：http://www.jiangfeng.me/blog/123

1: Adapting Ranking SVM to Document Retrieval. (Liu Tie Yan. et al. MSRA) 【PDF】

2: Learning to rank for Information Retrieval– tutorial. (Liu Tie Yan. et al. MSRA) 【PDF】

3: Learning to rank: From Pairwise Approach to Listwise Approace. (Liu Tie Yan. et al. MSRA)【PDF】

4: Learning to rank for Information Retrieval - book. (Liu Tie Yan. MSRA)【PDF】

5：Learning to Rank Report @ CIIR 2011 【PDF】

循环神经网络（RNN）：序列数据处理的强大工具 LNL13 rnn 人工智能深度学习
在人工智能和机器学习的广阔领域中，处理和理解序列数据一直是一个重要且具有挑战性的任务。循环神经网络（RecurrentNeuralNetwork，RNN）作为一类专门设计用于处理序列数据的神经网络，在诸多领域展现出了强大的能力。从自然语言处理中的文本生成、机器翻译，到时间序列分析中的股票价格预测、天气预测等，RNN都发挥着关键作用。本文将深入探讨RNN的工作原理、架构特点、训练方法、常见类型以及其
逻辑回归详解：从原理到实践
在机器学习的广阔领域中，逻辑回归（LogisticRegression）虽名为“回归”，实则是一种用于解决二分类（0或1）问题的有监督学习算法。它凭借简单易懂的原理、高效的计算性能以及出色的解释性，在数据科学、医学诊断、金融风控等诸多领域中得到了广泛应用。接下来，我们将从多个维度深入剖析逻辑回归，带你揭开它的神秘面纱。一、逻辑回归的基本概念在回归分析中，线性回归是通过构建线性方程来预测连续值，例如
java毕业设计-基于java的电商网购平台，网购商城管理系统(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥 spring boot vue jave java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
Python机器学习实战——逻辑回归（附完整代码和结果）小白熊XBX 机器学习机器学习 python 逻辑回归
Python机器学习实战——逻辑回归（附完整代码和结果）关于作者作者：小白熊作者简介：精通c#、Halcon、Python、Matlab，擅长机器视觉、机器学习、深度学习、数字图像处理、工业检测识别定位、用户界面设计、目标检测、图像分类、姿态识别、人脸识别、语义分割、路径规划、智能优化算法、大数据分析、各类算法融合创新等等。联系邮箱：[email protected]科研辅导、知识付费答疑、个性化定制
AI编程基础：学习Python是进入AI领域的必经之路（文末含学习路线与知识推荐） Clf丶忆笙 AI 人工智能开发全栈教程学习 python 人工智能 ai
文章目录Python市场行情：AI开发的首选语言为什么学习Python对AI至关重要AI开发所需的Python知识体系Python编程基础科学计算与数据处理机器学习与深度学习性能优化与并行计算Python学习路线推荐阶段一：Python编程基础（1-2个月）阶段二：科学计算与数据处理（1-2个月）阶段三：机器学习基础（2-3个月）阶段四：深度学习与AI专项（3-6个月）阶段五：进阶与专项深化（持续
自动驾驶技术研发适用Infortrend普安存储IEC平台
Infortrend普安存储IEC私有云平台，轻松高效应用无人驾驶技术自动驾驶汽车（例如自动驾驶出租车、无人驾驶公交）和无人驾驶飞行器（UAV）依靠摄像头、物联网传感器、雷达、GPS采集的实时数据瞬间做出决策。自动驾驶系统作为核心部分，不间断分析环境条件，应对潜在风险，确保乘客和货物运输安全。Autopilot应用程序在开发和模拟中，大数据、AI（人工智能）、ML（机器学习）等技术能否高速发挥作用
基于SpringBoot+Vue+大学校园图书管理系统设计和实现(源码+LW+部署讲解) 阿勇学长大数据项目实战案例 Java精品毕业设计实例微信小程序项目实战案例 spring boot vue.js 后端大学校园图书管理系统 Java毕业设计
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
基于Python的气象数据分析及可视化研究
气象数据作为地球系统科学的核心要素，其分析与可视化在气候研究、灾害预警、农业生产等领域具有战略性意义。本文以Python技术栈为基座，系统探讨气象数据的采集预处理、多维度分析模型及可视化表达范式，通过3000+字深度研究揭示Pandas时序处理、Xarray多维计算、Cartopy地理可视化等工具的核心方法论。内容涵盖全球再分析数据挖掘、极端天气模式识别、动态热力图构建等实战场景，并引入机器学习预
使用 Ollama 部署 Deepseek 想知道哇大语言模型人工智能语言模型
使用Ollama部署Deepseek模型Ollama与传统部署方法的主要区别特性传统部署方法（之前的文章）Ollama方法部署复杂度高（需要手动设置环境、依赖和量化）低（简化的命令行界面）技术要求需要Python和机器学习库知识基本命令行知识即可灵活性高度可定制（训练参数、模型结构等）相对较低，但足够大多数使用场景资源管理手动管理（需自行优化内存使用）自动处理（内置优化）API集成需要自行实现内置
如何学习才能更好地理解人工智能工程技术专业和其他信息技术专业的关联性？人工智能教学实践 python编程实践人工智能学习人工智能
要深入理解人工智能工程技术专业与其他信息技术专业的关联性，需要跳出单一专业的学习框架，通过“理论筑基-实践串联-跨学科整合”的路径构建系统性认知。以下是分阶段、可落地的学习方法：一、建立“专业关联”的理论认知框架绘制知识关联图谱操作方法：用XMind或Notion绘制思维导图，以AI为中心，辐射关联专业的核心技术节点。例如：AI（机器学习）├─数据支撑：大数据技术（Hadoop/Spark）+数据
数据分析的智能化变革：AI人工智能 AI大模型应用工坊数据分析人工智能数据挖掘 ai
数据分析的智能化变革：AI人工智能关键词：数据分析、智能化变革、AI人工智能、机器学习、深度学习摘要：本文深入探讨了数据分析领域借助AI人工智能实现的智能化变革。详细阐述了相关核心概念、算法原理、数学模型，通过具体的项目实战展示了AI在数据分析中的应用，介绍了实际应用场景以及可利用的工具和资源。同时对数据分析智能化变革的未来发展趋势与挑战进行了总结，并解答了常见问题，为读者全面了解这一变革提供了丰
Anconda环境下Vscode安装Python Java后时代程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
R语言程序包开发与应用溪水边小屋
本文还有配套的精品资源，点击获取简介：R语言程序包是扩展功能的关键，提供了统计分析、数据可视化、机器学习等领域的丰富开源库。程序包通常由开发者创建，包含新函数、数据集、绘图方法等，以应对R版本更新导致的函数限制或行为变化。本文介绍了R程序包的构建过程，如编写函数、创建DESCRIPTION和NAMESPACE文件、编写帮助文档以及进行单元测试。同时，探讨了如何使用包管理工具安装和加载R程序包，以及
黑客 vs. 网安：谁才是数字世界的主宰？ 2024年信息安全人员应该重点学什么？网安导师小李程序员编程网络安全 linux 运维服务器 excel web安全 python java
在当今数字化飞速发展的时代，信息安全问题日益严峻。黑客攻击、数据泄露、网络病毒等威胁不断涌现，企业和个人的隐私安全岌岌可危。随着人工智能、物联网、云计算、区块链等新技术的兴起，信息安全行业正面临着新的挑战和机遇。2024年信息安全行业面临的挑战和机遇**1.人工智能（AI）：**AI技术的广泛应用使得攻击者能够利用机器学习和自动化技术进行更具针对性的攻击。例如，恶意软件可以通过AI算法不断自我进化
【大模型面试】大模型Prompt Engineer面试题及参考答案大模型知识 prompt 人工智能开发语言 python chatgpt 深度学习大模型
一、基础概念类1.什么是大模型？大模型通常指具有庞大参数规模的机器学习模型，尤其是在自然语言处理（NLP）和计算机视觉等领域。这些模型能够学习到大量数据中的复杂模式和特征，具备强大的泛化能力，可在多种任务上表现出色，如GPT系列、BERT等。2.大模型与传统机器学习模型的区别是什么？传统机器学习模型参数规模相对较小，往往针对特定任务进行设计和训练，需要较多人工特征工程。而大模型参数数量庞大，通过在
C#串口通信上位机笔记（modbus协议）指针刺客 c#笔记开发语言
C#串口通信上位机笔记（modbus协议）提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录C#串口通信上位机笔记（modbus协议）前言一、新建工程二、使用步骤1.引入库2.串口初始化总结前言提示：这里可以添加本文要记录的大概内容：记录自己工作的上位机经验
Pytorch Lightning使用：【LightningModule、LightningDataModule、Trainer、ModelCheckpoint】 LeapMay pytorch lightning pytorch python 人工智能
pytorchlightning官方手册pytorchlightning官方手册Welcometo⚡PyTorchLightning—PyTorchLightning2.1.0devdocumentationhttps://lightning.ai/docs/pytorch/latest/PytorchLightning简介PyTorchLightning是面向专业AI研究人员和机器学习工程师的深
机器学习-三大SOTA Boosting算法总结和调优小新学习屋机器学习机器学习 boosting 集成学习决策树人工智能
参考书籍：《机器学习公式推导和代码实现》书籍页码：P197～205简介除了深度学习适用的文本、图像、语音、视频等非结构化数据，对于训练样本较少的结构化数据，Boosting算法仍是第一选择。XGBoost、LightGBM、CatBoost是目前经典的SOTABoosting算法算法对比维度XGBoostLightGBMCatBoos说明算法的继承性是对GBDT的改进是对XGBoost的改进是对X
为什么 Python 是 AI 的首选语言？
文章目录一、简洁优雅，易于上手二、丰富的库和框架1.数据处理与分析2.数据可视化3.机器学习与深度学习框架三、强大的社区支持四、跨平台性和可移植性五、与其他语言的互操作性文章配套代码已上传，点击查看：https://download.csdn.net/download/2501_92578370/91180848在人工智能（AI）技术飞速发展的今天，编程语言的选择对AI开发者来说至关重要。当你翻开
ChatGPT、DeepSeek等大语言模型技术教程
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
【机器学习】什么是逻辑回归？从入门到精通：掌握逻辑回归与二分类问题的解决之道宸码模式识别机器学习机器学习 python 逻辑回归分类人工智能算法
从入门到精通：掌握逻辑回归与二分类问题的解决之道引言1.1逻辑回归简介1.2逻辑回归的应用场景逻辑回归基本原理2.1逻辑回归概述逻辑回归的基本思想预测类别的概率2.2线性模型与Sigmoid函数线性模型Sigmoid函数Sigmoid函数的性质为什么选择Sigmoid函数2.3逻辑回归的输出：概率值分类决策代价函数与优化数学基础3.1逻辑回归的假设与目标假设目标3.2对数似然函数概率模型对数似然函
Python爬虫实战：研究httplib2库相关技术 ylfhpy 爬虫项目实战 python 爬虫 php httplib2
1.引言1.1研究背景与意义随着互联网的快速发展，网络上的信息量呈爆炸式增长。如何从海量的网页中高效地获取有价值的数据，成为了当前信息技术领域的一个重要研究课题。网络爬虫作为一种自动获取互联网信息的程序，能够按照一定的规则，自动地抓取网页内容并提取和整理信息，为信息检索、数据分析、机器学习等领域提供了丰富的数据来源。在电子商务领域，爬虫可以用于价格监控、竞品分析和市场调研；在学术研究中，爬虫可以帮
机器学习笔记：MATLAB实践 techDM 机器学习笔记 matlab Matlab
在机器学习领域，MATLAB是一种功能强大且广泛使用的工具，它提供了许多内置函数和工具箱，方便开发者进行各种机器学习任务。本文将介绍一些常见的机器学习任务，并提供相应的MATLAB源代码示例。数据预处理在进行机器学习之前，通常需要对原始数据进行预处理。这包括数据清洗、特征选择、特征缩放和数据划分等步骤。%导入数据data=readmatrix('data.csv');%数据清洗cleaned_da
西南交通大学【机器学习实验1】
实验目的理解和掌握回归问题和分类问题模型评估方法，学会使用均方误差、最大绝对误差、均方根误差指标评估回归模型，学会使用错误率、精度、查全率、查准率、F1指标评价分类模型。实验内容给定回归问题的真实标签和多个算法的预测结果，编程实现MSE、MAE、RMSE三种评测指标，对模型进行对比分析。给定二分类问题真实标签和多个算法的预测结果，编程实现混淆矩阵评测，采用错误率、精度、查全率、查准率、F1指标对结
学习笔记(28):随机噪声的原理、作用及代码实现详解宁儿数据安全 #机器学习学习笔记 python
学习笔记(28):随机噪声的原理、作用及代码实现详解一、什么是随机噪声？为什么需要添加？在机器学习中，随机噪声是指数据中无法用特征解释的随机波动，通常符合某种概率分布（如正态分布）。在房价模拟中添加噪声的核心原因如下：1.模拟真实世界的不确定性真实房价除了受面积、房龄影响，还受装修情况、学区、交通、政策等未被建模的特征影响，这些因素的综合效应可抽象为“噪声”。示例：两套面积和房龄相同的房子，房价可
学习笔记(29):训练集与测试集划分详解：train_test_split 函数深度解析宁儿数据安全 #机器学习学习笔记深度学习
学习笔记(29):训练集与测试集划分详解：train_test_split函数深度解析一、为什么需要划分训练集和测试集？在机器学习中，模型需要经历两个核心阶段：训练阶段：用训练集数据学习特征与目标值的映射关系（如线性回归的权重）。测试阶段：用测试集评估模型在未见过的数据上的表现，避免“过拟合”（模型只记住训练数据的噪声，无法泛化到新数据）。类比场景：学生通过“练习题”（训练集）学习知识，再通过“考
《dlib库中的聚类》算法详解：从原理到实践 A小庞算法算法聚类数据挖掘机器学习 c++
一、dlib库与聚类算法的关联1.1dlib库的核心功能dlib是一个基于C++的机器学习和计算机视觉工具库，其聚类算法模块提供了多种高效的无监督学习工具。聚类算法在dlib中主要用于：数据分组：将相似的数据点划分为同一簇。特征分析：通过聚类结果发现数据潜在的结构。降维辅助：结合聚类结果进行特征选择或数据压缩。dlib支持的经典聚类算法包括K-Means和ChineseWhispers，适用于图像
机器学习：集成算法的装袋法（Bagging）：随机森林（Random Forest） rubyw #概念及理论机器学习算法随机森林
随机森林（RandomForest）是一种集成学习方法，通过构建多个决策树并结合其预测结果来提升模型的性能和稳定性。它由LeoBreiman于2001年提出，广泛应用于分类和回归任务。以下是随机森林的详细介绍，包括其基本概念、构建过程、优缺点及应用场景。基本概念随机森林是一种基于决策树的集成算法，通过生成多棵决策树，并将这些树的预测结果结合起来，以提高整体模型的预测准确性和稳定性。每棵决策树都是在
森林的智慧：随机森林与集成学习的民主之道田园Coder 人工智能科普人工智能科普
当约阿夫·弗罗因德和罗伯特·沙皮尔提出的AdaBoost算法在90年代末期以其强大的预测精度震惊机器学习界，展示了“团结弱者为强者”的集成魅力时，另一种集成思想也在悄然孕育。这种思想同样信奉“众人拾柴火焰高”，但走的是一条与AdaBoost截然不同的路径：它不执着于反复调整数据权重去“关注”被前序模型分错的困难样本，而是致力于创造尽可能多样化的模型，然后让这些模型平等地投票。它的核心哲学是：如果每
机器学习：集成学习方法之随机森林(Random Forest) 慕婉0307 机器学习集成学习机器学习随机森林
一、集成学习与随机森林概述1.1什么是集成学习集成学习(EnsembleLearning)是机器学习中一种强大的范式，它通过构建并结合多个基学习器(baselearner)来完成学习任务。集成学习的主要思想是"三个臭皮匠，顶个诸葛亮"，即通过组合多个弱学习器来获得一个强学习器。集成学习方法主要分为两大类：Bagging(BootstrapAggregating)：并行训练多个基学习器，然后通过投票
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

Learning to Rank入门小结 + 漫谈