信息检索导论学习笔记（2）

词项词典及倒排记录表

回顾倒排索引的构建

收集待建索引的原文档(Document)
将原文档传给词条化工具(Tokenizer)进行文本词条化
将第二步得到的词条(Token)传给语言分析工具(Linguistic modules)进行语言学预处理，得到词项(Term)
将得到的词项(Term)传给索引组件(Indexer),建立倒排索引

文档

文档分析以及编码转换

语言识别、编码方式识别、文件格式等处理，得到字符序列。

如何确定索引的单位？合理组织“索引粒度”，确定文档单位

注：语言识别和编码识别，理论上都可以看成是分类问题，基于分类方法进行处理。但实际中，常采用启发式方法

词条化

定义好文档单位之后，词条化是将给定的字符序列拆分成一系列子序列的过程，其中每个子序列称为一个词条（token）。

词条化最简单的方法是根据空格将字符串进行拆分并去掉标点符号。然而真实情况下的词条化处理是个复杂的过程，如上撇号 ’、连字符-、数字、复合词、不同语言种类等等问题的处理。

实际检索中的分词：

查询和文档切分采用一致的分词系统。
保证分词速度，速度快
一般原则，没把握的情况下细粒度优先，保证召回率
多粒度并存
猜想：大词典+统计分析+启发式规则

停用词的处理：

根据停用词表(stop list), 将那些最常见的词从词典中去掉。比如直观上可以去掉：
一般不包含语义信息的词: the, a, and, to, be
汉语中的“的”、“得”、“地”等等。
这些词都是高频词: 前30个词就占了约30% 的倒排记录表空间

在信息检索系统不断发展的历程中，有从大停用词表（200～300 个词）到小停用词表（7～12个词）最后到不用停用词的趋势。Web 搜索引擎通常都不用停用词表。一些现代 IR系统更关注如何利用语言的统计特性来更好地处理常见词问题。

现代信息检索系统中倾向于不去掉停用词:

在保留停用词的情况下，采用良好的压缩技术后，停用词所占用的空间可以大大压缩，最终它们在整个倒排记录表中所占的空间比例很小
采用良好的查询优化技术基本不会增加查询处理的开销
所谓的停用词并不一定没用，比如：短语查询: “King of Denmark”、歌曲名或者台词等等: “Let it be”, “To be or not to be”、“关系型” 查询“flights to London

语言分析处理

词条归一化

词条归一化（token normalization）就是将看起来不完全一致的多个词条归纳成一个等价类，以便在它们之间进行匹配的过程。

最常规的做法是隐式地建立等价类

删除句点、删除连字符 U.S.A.,USA ------->USA anti‐discriminatory, antidiscriminatory ------>antidiscriminatory

另一种建立等价类的方法是维护多个非归一化词条之间的关联关系

索引阶段方法：对于包含automobile的文档，我们同时也用car来索引（同样，包含car的文档也用automobile来索引,如car‐automobile）

搜索阶段方法：建立查询扩展，查询car时，合并car和automobile的倒排索引

进行词条归一化处理之后在很多情况下会提高检索的效果，但有时也可能会损害检索的效果。（C.A.T ----> cat）

词干还原（stemming）和词形归并（lemmatization）

词干还原和词形归并的目的都是为了减少屈折变化的形式，并且有时会将派生词转化为基本形式。比如： am, are, is------>be car, cars, car’s, cars’------>car

然而，词干还原（stemming）和词形归并（lemmatization）这两个术语所代表的意义是不同的。前者通常指的是一个很粗略的去除单词两端词缀的启发式过程，并且希望大部分时间它都能达到这个正确目的，这个过程也常常包括去除派生词缀。而词形归并通常指利用词汇表(即保存的某种字典)和词形分析来去除屈折词缀，从而返回词的原形或词典中的词的过程，返回的结果称为词元（lemma）。假如给定词条 saw，词干还原过程可能仅返回 s，而词形归并过程将返回 see或者 saw，当然具体返回哪个词取决于在当前上下文中 saw 到底是动词还是名词。这两个过程的区别还在于：词干还原在一般情况下会将多个派生相关词合并在一起，而词形归并通常只将同一词元的不同屈折形式进行合并。词干还原或词形归并往往通过在索引过程中增加插件程序的方式来实现，这类插件程序有很多，其中既有商业软件也有开源软件。

词干还原及其它归一化工作对检索的帮助
英语：结果要一分为二，对某些查询来说提高了召回率，但是对另外一些查询来说降低了正确率
对西班牙语、德语、芬兰语等语言非常有用，其中对于芬兰语有30% 的性能提高!

常用词干还原算法：Porter、Snowball(Porter算法的改进版)、Lovins

快速倒排表合并—跳表法

skip list: 时间复杂度O（m+n）的基本合并算法的优化

考虑问题：在什么位置上放置跳表指针？

这里存在一个指针个数和比较次数之间的折中问题。跳表指针越多意味着跳跃的步长越短，那么在合并过程中跳跃的可能性也更大，但同时这也意味着需要更多的指针比较次数和更多的存储空间。跳表指针越少意味着更少的指针比较次数，但同时也意味着更长的跳跃步长，也就是说意味着更少的跳跃机会。

简单的启发式策略：对于长度为P的倒排记录表，每√P处放一个跳表指针，即均匀放置，均匀放置方法忽略了查询词项的分布情况

如果索引相对固定的话，均匀方式方法是一种很简便的方法。但是如果倒排记录表由于经常更新而发生变化，那么跳表指针的建立就比较困难。恶意的删除策略可能会使跳表完全失效。

其他快速合并倒排表算法

对长度为N 和M 的有序数组，一般来说，在做归并的时候，其时间复杂度为O(M+N)。在理想情况下（如M 和N 都很大时），O(M+N)应该是一个很小的复杂度。但搜索引擎的情况往往并不是这样，很多时候都会遇到一个很小的有序数组（比如，由其他很多条件计算而来）和一个很大的有序数组之间的AND 运算。在这种情况下， O(M+N)的时间可能比O(M*logN)的时间要大（假设N>>M）

二分法

即采用二分查找的办法比较元素。其时间复杂度为O(M*logN)。本方法仅适合纯内存的2 个有序数组。当2 个数组长度差距很大的时候，本方法很适合，因为简单方便。

跳跃和二分法结合
在跳跃失败的时候，使用二分查找。其时间复杂度最差为O(M+N/k+M*logk)。本方法能够改善跳跃法的最差时间复杂度。

Hash法

预先构建每个有序数组的快速hash 表，然后通过hash 查找的方式判断值是否存在。其时间复杂度为O(M*s)，这里s 表示查询一次hash 的耗时。在内存足够，以及数组长度差距很大的时候，本方法比二分法效率更高。但本方法消耗的额外内存一般会超过1 倍数组大小，而构建时间消耗更加严重。为了减少额外空间占用，有人采用bloom filter 的策略，这样稍微牺牲一些精度，而减少大量的内存占用。
分治法
把第一个数组划分为2 个部分M1 和M2，把第二个数组划分为2 个部分N1 和N2，划分原则是：第一个数组对半分，第二个数组根据第一个数组的中值进行切分。然后比
较M1 和N1，比较M2 和N2。不断的递归下去。时间复杂度，最好为O(M*log(N/M))，最坏为O(M*logN)。分治法只适合存内存数组。此方法的效果优于二分法，但程序比较复杂。
bitmap法
Bitmap 和hash 法策略差不多。它是用bitmap 来保存元素，在查询的时候直接用bitmap 定位到位，判断元素是否存在。Bitmap 的麻烦之处在于它内存占用。在一个单
程序千万级数据的环境中，一个bitmap 的大小需要10M/8=1.25M 大小。所以bitmap 并不像hash 表那样预先计算，而是在数组合并的时候计算。其时间复杂度为O(M+N)，
如果预先计算bitmap，其时间复杂度为O(M)。虽然表面上看起来本方法和基本的归并方式效率一样，但实际上因为bitmap 的低常数值（即每次比较耗时很小）、能够同时轻松支持AND 和OR 操作、在多个数组合并的时候效果更好（因为bitmap 相当于预先计算）以及bitmap 可以被cache 等，故很多时候bitmap 的效果要比普通归并好。

短语查询及位置索引

对于短语查询，仅仅保存term +docIDs的倒排索引会显得有些力不从心。

简单的对短语查询的支持方法：双词(Biword)索引（二元词索引）

文本 Friends, Romans, Countrymen 会产生如下的二元接续词对（biword）： friends romans romans countrymen
索引构建时，将每个词对看成一个词项放到词典中
查询 stanford university palo alto分成如下的布尔查询： “stanford university” AND “university palo” AND “palo alto”

扩展的双词（Extended Biword）
对待索引文档进行词性标注，将词项进行组块，每个组块包含名词(N) 和冠词/介词(X)，称具有NX*N形式的词项序列为扩展双词(extended biword)，将这样扩展词对作为词项放入词典中
例子: catcher in the rye (书名：麦田守望者)N X X N，将查询也分析成N和X序列，将查询切分成扩展双词，在索引中查找catcher rye

二元词索引的问题：

如果不检查文档，无法确认满足查询表达式（如 stanford university palo alto）的文档是否真正满足上述短语查询。很难避免伪正例的出现！

由于词典中词项数目剧增，导致索引空间也激增

双词索引方法并不是一个标准的做法(即倒排索引中一般不会全部采用双词索引方法)，但是可以和其他方法混合使用

第二种对短语查询的支持方法：带位置信息的词项(Term)索引 docId tf(position1,position2.......)

在合并操作中，同样可以采用前面提到的各种技术来实现，但是这里不只是简单地判断两个词项是否出现在同一文档中，而且还需要检查它们出现的位置关系和查询短语的一致性。这就需要计算出词之间的偏移距离。很明显，位置索引可以处理邻近式查询，而双词索引却不能。

采用位置索引会大大增加倒排记录表的存储空间，即使对位置值或偏移值采用合适的压缩方法也会明显大于无位置信息的索引。实际上，采用位置索引会加深倒排记录表合并操作的渐进复杂性，这是因为需要检查的项的个数不再受限于文档数目而是文档集中出现的所有的词条的个数 T。也就是说，布尔查询的复杂度为O(T)而不是O(N)。然而，由于用户往往期望能够进行短语搜索(显式和隐式)和邻近搜索，所以实际中的大部分应用并没有其他选择而不得不采用这种做法。

混合索引机制（二元词索引和位置索引这两种策略可以进行有效的合并）

假如用户通常只查询特定的短语，如Michael Jackson，那么基于位置索引的倒排记录表合并方式效率很低。一个混合策略是：对某些查询使用短语索引或只使用二元词索引，而对其他短语查询则采用位置索引。短语索引所收录的那些较好的查询可以根据用户最近的访问行为日志统计得到，也就是说，它们往往是那些高频常见的查询。当然，这并不是唯一的准则。处理开销最大的短语查询往往是这样一些短语，它们中的每个词都非常常见，但是组合起来却相对很少见。将查询Britney Spears 加入短语索引可能仅仅对该查询提供一个大概 3 倍的加速效果，这是因为很多提到其中一个单词的文档都是相关文档。而如果将The Who加入短语索引那么会对这个查询有 1000 的加速效果。因此，实现中更期望将后者加入到短语索引中，尽管相对前者，其出现的频率较低（也就是说这些短语都是非常见查询）。

Williams等人 (2004) 评估了一个更复杂的混合索引机制，其中除了包含上面两种形式的索引外，还在它们之间引入了一个部分后续词索引（next word index），即对每个词项，有个后续词索引记录了它在文档中的下一个词项。论文的结论是，虽然比仅仅使用位置索引增加了 26%的空间，但是面对典型的 Web 短语混合查询，其完成时间大概是只使用位置索引的 1/4。

kafka 学习笔记3-传统部署Kraft模式集群——筑梦之路筑梦之路 kafka 学习笔记
部署kafka集群规划一般模式下，元数据在zookeeper中，运行时动态选举controller，由controller进行Kafka集群管理。kraft模式架构下，不再依赖zookeeper集群，而是用三台controller节点代替zookeeper，元数据保存在controller中，由controller直接进行Kafka集群管理。ip主机名角色nodeid192.168.100.131
免费下载：汽车SoC学习笔记（含安全岛）不懂汽车的胖子汽车学习笔记
文末附下载方法目录1SoC是什么...31.1SoC历史发展...31.2SoC定义...41.3SoC的特征...61.4SoC的优点...61.5SoC的缺点...72SoC需求来源...73SoC架构...83.1SoC架构...83.2SoC芯片分类...93.2.1模拟SoC(AnalogSoC)：...93.2.2数字SoC(DigitalSoC)：...93.2.3混合SoC(Mix
学习笔记：UART（二） weixin_58038206 学习笔记
设计一包数据可以参考这样设计intfputc(intch,FILE*f){usart_data_transmit(g_uartHwInfo.uartNo,(uint8_t)ch);while(RESET==usart_flag_get(g_uartHwInfo.uartNo,USART_FLAG_TBE));returnch;}这是重定向，然后就可以使用printf打印调试。voidUSART0_
【黑马-SpringCloudAlibaba】学习笔记10-Seata：实现分布式事务控制言谶分布式学习 java
Seata介绍2019年1月，阿里巴巴中间件团队发起了开源项目Fescar（Fast&EaSyCommitAndRollback），其愿景是让分布式事务的使用像本地事务的使用一样，简单和高效，并逐步解决开发者们遇到的分布式事务方面的所有难题。后来更名为Seata，意为：SimpleExtensibleAutonomousTransactionArchitecture，是一套分布式事务解决方案。Se
学习python的第一天简讯Alfred 和我一起零基础学 Python python 编程
作为财经院校的大三学生，面临各种考试，在编程方面完全零基础还想学习Python，担心枯燥的内容难以坚持下来，希望通过更博的方式督促自己学习，有空就更新博客。很多大牛通过更新自己的网站或更新博文的方式传播技能知识，我很是倾佩！第一次用这种方式学习一门知识，对于自己来说既是一种全新的体验，也可以作为学习笔记，日后也有足迹。学习资料暂定为《笨办法学Python》。如果有新手看到此文章，还希望只当参考中的
【STM32-学习笔记-11-】RTC实时时钟隼玉【STM32学习笔记】stm32 学习笔记 c语言
文章目录RTC实时时钟一、RTC简介二、RTC框图三、RTC基本结构四、RTC操作注意事项五、RTC函数六、配置RTCMyRTC.c七、示例：实时时钟①、main.c②、MyRTC.c③、MyRTC.hRTC实时时钟一、RTC简介RTC（RealTimeClock）实时时钟RTC是一个独立的定时器，可为系统提供时钟和日历的功能RTC和时钟配置系统处于后备区域，系统复位时数据不清零，VDD（2.0~
【LeetCode 刷题】字符串-反转字符串 Bran_Liu LeetCode leetcode 算法
此博客为《代码随想录》字符串章节的学习笔记，主要内容为反转字符串相关的题目解析。文章目录344.反转字符串541.反转字符串II151.反转字符串中的单词344.反转字符串题目链接classSolution:defreverseString(self,s:List[str])->None:"""Donotreturnanything,modifysin-placeinstead."""left,r
电磁兼容学习笔记12-电子设备中的主要骚扰源胡你一脸团团团学习笔记单片机
跟杨老师学习电磁兼容电子设备中的主要骚扰源#第16课典型的骚扰源（找du/dt、di/dt比较大的电路）：骚扰源1：二次电源（几乎所有的电路都需要DC/DC），传导骚扰骚扰源2：数字电路，传导骚扰和辐射骚扰DC/DC模块骚扰产生原理：du/dt：开关导通时，直流电压直接传送到输出端；开关断开时，电流无法传送到输出端，依靠输出端电容进行供电。开关导通时，输出电压为0；断开时电容放电，开关上电压为输入
如何学懂C++语言：C++从入门到精通的全面指南（完整C++学习笔记）猿享天开 c++学习笔记
数字人助手猿小美带你一起学编程一、引言作为一名拥有多年开发经验的技术人员，我的职业生涯涵盖了多种编程语言，包括C语言、C++、C#和JavaScript等。在我多年的编程生涯中，这些语言不仅丰富了我的知识储备，还极大地拓展了我的视野和技能。出于对编程的热爱，以及希望帮助更多编程爱好者的目的，我决定利用业余时间整理一套全面的C++语言学习指南。这套指南旨在为C++语言编程爱好者提供一个清晰的学习路线
MySQL学习笔记11：limit 分页查询 AsajuHuishi MySQL mysql 数据库
简介本系列（MySQL学习笔记）是我基于B站上SQL播放量第一的MySQL基础+高级篇-数据库-sql-尚硅谷视频所做的笔记，方便大家学习和掌握MySQL。说明1.这个系列基本包含了视频中老师讲课的所有内容，包括知识点、案例、部分测试题。2.所需的配套资料（来自B站评论区）@黎曼的猜想：配套资料下载–>公众号公众号DragonWell回复：mysql注意：是公众号！！是公众号！！是公众号，点那个搜
学习笔记078——Java Properties类使用详解上下求索. Java 学习笔记 java
文章目录概述常见方法写入读取遍历概述Properties继承于Hashtable。表示一个持久的属性集，属性列表以key-value的形式存在，key和value都是字符串。Properties类被许多Java类使用。例如，在获取环境变量时它就作为System.getProperties()方法的返回值。我们在很多需要避免硬编码的应用场景下需要使用properties文件来加载程序需要的配置信息，
学习笔记040——如何定时备份服务器中的数据库？上下求索. MySQL Linux mysql 服务器
目录1、编写备份脚本：2、创建crontab定时任务需求前景：Ubuntu系统的服务器中，需要定时备份MySQL数据库中的数据。确保数据能够得到安全保障。我的方法：1、写一个备份数据库的脚本2、利用Ubuntu的crontab每日定时执行脚本。下面是我的实现方式：1、编写备份脚本：#!/bin/bash#设置数据库名，用户和密码DB_NAME="数据库名"DB_USER="账号"DB_PASSWO
mysql学习笔记(八):分页查询代码魔法师Sunny MySQL mysql 学习笔记
应用场景：当要显示的数据，一页显示不全，需要分页提交sql请求语法：select查询列表from表【jointypejoin表2on连接条件where筛选条件groupby分组字段having分组后的筛选orderby排序的字段】limit【offset,】size;offset要显示条目的起始索引（起始索引从0开始）size要显示的条目个数特点：①limit语句放在查询语句的最后②公式要显示的页
学习笔记081——如何备份服务器中MySQL数据库数据？上下求索. MySQL Linux 数据库学习笔记
方法：可以通过编写sh脚本的方式，结合Linux中的crontab定时任务来实现定时备份数据的功能。sh脚本如下：#!/bin/bash#要备份的数据库DB_NAME="wms"#数据库账号DB_USER="root"#数据库密码DB_PASSWORD="123456"#数据备份存放目录BACKUP_DIR="/home/htl/backup"mkdir-p$BACKUP_DIR#备份文件名BAC
隐语课程隐语架构概览学习笔记皓月雪学习笔记
隐语架构包含：产品层、算法层、计算层、资源层和硬件层隐语产品：定位：通过可视化产品，降低终端用户的体验和演示成本。通过模块化API降低技术集成商的研发成本。人群画像：作为隐语的直观入口，隐语保护计算从业者均应该关注产品：SecretPad：轻量化安装、快速验证POC、可定制集成；多部署形态：中心模式、P2P模式全栈产品：MPC、TEE、SCQLSecretNote：Notebook形式、交互式建模
MyBatis学习笔记繁星依月开发技术学习笔记 mybatis 学习笔记
MyBatis学习笔记MyBatis绪论功能：访问数据库相当于增强版JDBC官网：mybatis–MyBatis3|简介MyBatis环境JDK1.8MySQL5.7/8.0（经典！）maven3.6+IDEAMyBatis前序JDBC、MySQL、Java基础、Maven、JunitMyBatis简介什么是MyBatisMyBatis是一款优秀的持久层框架，它支持自定义SQL、存储过程以及高级映
sed学习笔记1 我要精通C++ shell脚本与linux命令 sed
0.引用《Linux命令行与shell脚本编程大全.第3版by布鲁姆，布雷斯纳汉》第19章，第21章1.今晚回家学习总结
golang学习笔记08——如何调用阿里oss sdk实现访问对象存储？ GoppViper golang学习笔记 golang 学习笔记阿里云对象存储后端
推荐学习文档golang应用级os框架，欢迎stargolang应用级os框架使用案例，欢迎star案例：基于golang开发的一款超有个性的旅游计划app经历golang实战大纲golang优秀开发常用开源库汇总想学习更多golang知识，这里有免费的golang学习笔记专栏首先确保安装了阿里云OSS的GoSDK：goget-ugithub.com/aliyun/aliyun-oss-go-sd
芝法酱学习笔记（2.5）——elastic-search 8.x初探（自用）芝法酱 elasticsearch spring boot
一、elastic-search的下载官网的下载地址在这里。官网文档地址在这里访问路径是doc/search让人惊呆了，新版的elastic-search竟然需要JDK23。ThelocaledatabaseusedbyElasticsearch,usedtomapfromvariousdateformatstotheunderlyingdatestorageformat,dependsonthe
ESP32学习笔记_FreeRTOS(6)——Event and Notification flashier ESP32 学习笔记 ESP32 c语言 RTOS
摘要(FromAI):这篇博客详细介绍了FreeRTOS中的事件组和任务通知机制，讲解了事件组如何通过位操作实现任务间的同步与通信，以及任务如何通过通知机制进行阻塞解除和数据传递。博客提供了多个代码示例，展示了如何使用事件组和任务通知在多任务环境中实现任务同步，特别适用于任务间的依赖关系和信号传递前言：本文档是本人在依照B站UP：Michael_ee的视频教程进行学习时所做的学习笔记，可能存在疏漏
2024年软考信息安全工程师备考学习笔记汇总月梦工作室信息安全工程师
信息安全工程师分属“信息系统”专业，位处中级资格，2016年下半年，第一次开考信息安全工程师（中级）考试。目前每年考试一次。已开考六次，2016年11月12日，2017年5月20日，2018年5月26日，2019年5月25日，2020年11月7日，2021年11月6日，2022年11月5日，2023年11月4日为第八次考试。第五次至第八次考试，采用第二版教材。信安精品课|月梦工作室(moondre
自强学堂mysql_Django ——自强学堂学习笔记 weixin_39792049 自强学堂mysql
(一)、启动服务器E:\ScienceSoft\Python\Django\Django_project>pythonmanage.pyrunserver0.0.0.0:8000Performingsystemchecks...Systemcheckidentifiednoissues(0silenced).July22,2017-17:00:33Djangoversion1.11.3,using
Django几条命令，一定要牢记(Python学习笔记) 代码帮 Python教程 Python django
Django项目搭建流程流程（切记使用中文）安装包安装下载安装包，解压运行pythonsetup.pyinstall命令安装python-mpipinstalldjango新建一个djangoprojectdjango-admin.pystartprojectproject_name特别是在windows上;如果报错，尝试用django-admin代替django-admin.py试试JetBra
关于我的博客建站经历忆宸_1 博客前端
我是一名前端开发工程师，从大四的时候开始自学前端，荒废了三年时光，在大四的时候才算真正走进“编程”这扇大门。也是从那个时候开始学着搭建自己的个人博客，用来记录自己的学习笔记，但是却坚持不下来。而且发现一个奇怪的现象，对于搭建站点的过程我很感兴趣，内容输出却坚持不下来，这是我需要反思的地方。我也翻了翻过往的文章，大多都是记录单一知识点，而且内容很少，缺乏自己的思考。现在AI技术已经很成熟了，再记录这
深度学习笔记——前向传播与反向传播、神经网络（前馈神经网络与反馈神经网络）、常见算法概要汇总好评笔记深度学习笔记深度学习笔记神经网络人工智能
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文简要介绍深度学习的前向传播与反向传播，以及前馈神经网络与反馈神经网络。文章目录前向传播与反向传播前向传播（ForwardPropagation）反向传播（BackPropagation）总结神经网络简介结构类型前馈神经网络（FeedforwardNeuralNetwork,FFNN）特点常见变体反馈神经网络（Feedb
深度学习笔记——生成对抗网络GAN 好评笔记深度学习笔记深度学习生成对抗网络人工智能神经网络 aigc gan 机器学习
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍早期生成式AI的代表性模型：生成对抗网络GAN。文章目录一、基本结构生成器判别器二、损失函数判别器生成器交替优化目标函数三、GAN的训练过程训练流程概述训练流程步骤1.初始化参数和超参数2.定义损失函数3.训练过程的迭代判别器训练步骤生成器训练步骤4.交替优化5.收敛判别GAN训练过程的挑战四、GAN的常见变体
机器学习笔记——Boosting中常用算法（GBDT、XGBoost、LightGBM）迭代路径好评笔记机器学习笔记机器学习 boosting 人工智能深度学习 AI 算法工程师
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文主要阐述Boosting中常用算法（GBDT、XGBoost、LightGBM）的迭代路径。文章目录XGBoost相对GBDT的改进引入正则化项，防止过拟合损失函数L(yi,y^i)L(y_i,\hat{y}_i)L(yi,y^i)正则化项Ω(fm)\Omega(f_m)Ω(fm)使用二阶导数信息，加速收敛一阶导数与二
基于vue.js+element-ui组件开发的博客blog详细步骤 perfect-code-hzy 前端工程师学习笔记 vue.js javascript
vue学习笔记一、前端项目初始化步骤1、通过vuecli3创建项目2、配置vue路由3、配置element-ui组件库4、配置axios库5、初始化git远程仓库6、将本地项目托管到GitHub或码云上二、接口API1、调试工具三、登录和退出功能完成登录组件提交到git--合并分支一、前端项目初始化步骤1、通过vuecli3创建项目通过vueui命令进行可视化创建项目选择创建的路径->自定义配置项
qt/c++学习笔记之基于tcp的文件同步程序demo（第二部分） Bryce学亮 qt c++学习
server服务器端头文件filebase.h#ifndefFILEBASE_H#defineFILEBASE_H#include#include#include#include#includeenumMsgType{MsgTypeInvaid=0,MsgTypeFile,MsgTypeDel,MsgTypeRename};classfilebase:publicQObject{Q_OBJECTp
Python学习笔记 | 类与对象 MUYUN友逹 Python学习笔记类与对象
基于Python3版本的学习。初识概念：类(class)与对象(object)生活中我们所说的类，是物以类聚的类，是分门别类的类，是多个类似事物组成的群体的统称。而在Python中我们所遇到的类（class），比如整数、字符串、浮点数等，不同的数据类型就属于不同的类。准确来说，它们的全名是整数类、字符串类、浮点数类。每一个类之下都包含无数相似的不同个例。在Python的术语里，我们把类的个例就叫做
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

信息检索导论学习笔记（2）

词项词典及倒排记录表

你可能感兴趣的:(学习笔记)