和梦无

【信息检索导论】第2章词项词典及倒排记录表

第2章词项词典及倒排记录表

Tokenization是指将原始的字符流转换为一个个词条的过程。语言学预处理在于建立词条的等价类。

文档分析及编码转换

首先要判断文档的编码方式，该判断可以看作是基于机器学习的分类问题，实际中往往采用启发式方法来实现，也可以利用文档的元信息或直接由用户手工来选择。

文档单位的选择：不一定文档就是固定的索引单位，索引粒度大小对正确率和召回率有影响。

词项集合的确定

词条化

词条指的是在文档中出现的字符序列的一个实例，词项指的是信息检索系统词典中所包含的某个可能经过归一化处理的词条类。

人们总是希望对文档和查询进行同样的词条化处理。

一种非常有效的语言种类识别方法是利用短字符子序列（k-gram）作为特征来分类。

分词的方法包括：

1. 基于词典的最大匹配（利用启发式规则来进行未定义词识别）

2. 基于机器学习序列模型的方法（隐马尔可夫或随机场模型）

去除停用词

一个常见的停用词去除方法就是将词项按照文档集频率从高到低排序，去除高频词

现代的IR系统更关注如何利用语言特性来处理常见词问题

词项归一化

归一化是将看起来不完全一致的多个词条归纳成一个等价类。(1) 最常规的做法是隐式地建立等价类，每类可以用其中的某个元素来命名，然后用词条进行检索等价类。(2) 维持多个非归一化词条之间的关联关系，该方法可以扩展成手工建立同义词表。

另外一些要注意的问题：

(1) 重音和变音符号

(2) 大小写转换，一般从策略是全部转为小写。另一种做法是将部分词条转换小写（启发式处理方法：句首词转为小写，标题中全部转为小写），也可以采用机器学习模型

(3) 日期

(4) 其他语言的问题

词干还原和词性归并

词干还原是粗略地去除前后缀的启发式过程，词性归并是利用词汇表和词性分析来去除屈折词缀，从而返回词的原型或词典中的词的过程。

英文处理中最常见的词干还原算法是Porter算法，其他的还有Lovins、Paice/Hushk等

基于跳表的倒排记录表快速合并算法

在构建索引的同时在倒排记录表杀死那个建立跳表，跳表指针可以跳过那些不可能出现在检索结果中的记录项。

在什么位置上放置跳表指针？这里存在一个指针个数和比较次数的折中问题。放置指针位置的简单启发式策略为：在每个sqrt(P)初均匀放置。

含位置信息的倒排记录表及短语查询

二元词索引

处理短语查询的一个办法就是将文档中每个接续词都看作一个短语。

一个更好的办法：对文本进行词条化然后进行词性标注，然后将“名词+虚词*+名词”看作一个二词项

位置信息索引

对于每个词项，以如下方式存储倒排记录：文档ID: <位置1, 位置2 >

位置索引可以用于邻近搜索

混合索引

后续词索引（next word index）

你可能感兴趣的:(信息检索导论)

深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
基于深度学习的多模态信息检索 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的多模态信息检索（MultimodalInformationRetrieval,MMIR）是指利用深度学习技术，从包含多种模态（如文本、图像、视频、音频等）的数据集中检索出满足用户查询意图的相关信息。这种方法不仅可以处理单一模态的数据，还可以在多种模态之间建立关联，从而更准确地满足用户需求。1.多模态信息检索的挑战异构数据表示：多模态数据通常具有不同的特征和表示形式（如文本的词嵌入与图
2019-05-30导论激情老王
洞察力，看透事物本质的能力，这个和格局有异曲同工之妙，但更能给人以清晰的描述和动感；看透了事物的发展规律，自然规律，才能找到自我追求的动力。系统动力学=要素✖连接关系。
机器学习实战笔记5——线性判别分析绍少阿机器学习笔记可视化机器学习 python 人工智能
任务安排1、机器学习导论8、核方法2、KNN及其实现9、稀疏表示3、K-means聚类10、高斯混合模型4、主成分分析11、嵌入学习5、线性判别分析12、强化学习6、贝叶斯方法13、PageRank7、逻辑回归14、深度学习线性判别分析（LDA）Ⅰ核心思想对于同样一件事，站在不同的角度，我们往往会有不同的看法，而降维思想，亦是如此。同上节课一样，我们还是学习降维的算法，只是提供了一种新的角度，由上
计算机网络笔记分享（第六章应用层）寒页_ 计算机网络计算机网络笔记
文章目录六、应用层6.1域名系统DNS解析的两种查询方式6.2文件传送协议FTP简单传输协议TFTP6.3远程终端协议TELNET6.4万维网WWW统一资源定位符URL超文本传输协议HTTP万维网的文档HTML万维网的信息检索系统博客和微博社交网站6.5电子邮件6.6动态主机配置协议DHCP6.7简单网络管理协议SNMP6.8应用进程跨越网络的通信几种常用的系统调用6.9P2P应用介绍学习计算机网
「RIA学习力」《学习心理学》No.1，未闻 Nathan_2
「RIA学习力授权导师」便签输出第6期第1天《学习心理学》拆页一来自《第一章学习理论与教学导论》P9(一)学习的定义虽然本书讨论的学习理论之间存在差异，但这些理论在学习上确实有一些基本的确定性的假设。首先，它们都指出学习是人类行为表现performance，又译表现)或行为表现潜能的持久改变。这意味着学习者能够执行一些在学习发生之前不能执行的行动而且不管它们实际上是否有展示新习得行为表现的机会，这
Python和数据分析：Seaborn新手指南 Python_魔力猿 python 数据分析信息可视化
Seaborn是建立在Matplotlib之上的统计数据可视化库，它提供了高级接口和漂亮的默认样式，使得数据可视化变得更加简单和美观。1.导论Seaborn在数据可视化中的角色和优势体现在以下方面：简化API：Seaborn的API设计更加简洁，容易使用，尤其适合初学者。它能够通过几行代码生成漂亮而具有信息含量的图表。美观的默认样式：Seaborn具有吸引人的默认颜色和样式，无需额外的配置即可生成
德克萨斯大学奥斯汀分校自然语言处理硕士课程汉化版(第十一周) - 自然语言处理扩展研究 Encarta1993 自然语言处理自然语言处理人工智能
自然语言处理扩展研究1.多语言研究2.语言锚定3.伦理问题1.多语言研究多语言(Multilinguality)是NLP的一个重要研究方向，旨在开发能够处理多种语言的模型和算法。由于不同语言在语法、词汇和语义结构上存在差异，这成为一个复杂且具有挑战性的研究领域。多语言性的研究促进了机器翻译、跨语言信息检索和多语言对话系统等应用的发展。以下是多语言的几个主要研究方向和重要技术：多语言模型的构建，开发
【人工智能导论】吃豆人游戏（上）：对抗搜索与Minimax算法 Pericles_HAT 算法 python 人工智能游戏广度搜索
吃豆人实验（ThePac-ManProject）简介ThePac-ManprojectsweredevelopedforUCBerkeley’sintroductoryartificialintelligencecourse,CS188.TheyapplyanarrayofAItechniquestoplayingPac-Man.Theprojectsallowstudentstovisualiz
读书笔记｜《乌合之众》玛格丽特昭
导论：思想、观念和信念的改变，是促成文明变革的唯一重要变化。人类最稳定的因素就是他们世代相传的思维定势。人类思想转变的关键时刻：一、宗教、政治和社会信仰的毁灭，而他们是人类文明存在的根基二、现代科学和工业的新发现，它们创造了一种全新的生存和思想条件。在这个过渡时期，最引人注意的特点是各阶层的民众逐渐进入国家政治生活，慢慢成了统治阶层。群众的势力不断壮大，首先得益于某些观念的广泛传播，慢慢地在人们头
【区块链 + 人才服务】区块链综合实训平台 | FISCO BCOS应用案例 | FISCO BCOS应用案例 FISCO_BCOS 2023FISCO BCOS产业应用发展报告区块链人才服务
区块链综合实训平台由秉蔚信息面向高校区块链专业开发，是一款集软硬件于一体的实验实训产品。该产品填补了高校区块链相关专业和课程在实验室实训环节的空缺，覆盖了区块链原理与技术、区块链开发、区块链运维、区块链安全、区块链实训案例等核心实训教学资源，分层次地融入到实训教学中去，为高校的区块链实验实训提供领先的一体化实验教学环境。平台内置丰富的实验教学资源，课程涵盖区块链导论、区块链密码学应用、区块链网络与
基于 React & TypeScript & Webpack 的微前端应用模板 weixin_33806300 前端 webpack javascript ViewUI
m-fe/react-ts-webpack在Web开发导论/微前端与大前端一文中，笔者简述了微服务与微前端的设计理念以及微前端的潜在可行方案。微服务与微前端，都是希望将某个单一的单体应用，转化为多个可以独立运行、独立开发、独立部署、独立维护的服务或者应用的聚合，从而满足业务快速变化及分布式多团队并行开发的需求。如康威定律(Conway’sLaw)所言，设计系统的组织，其产生的设计和架构等价于组织间
【机器学习】朴素贝叶斯方法的概率图表示以及贝叶斯统计中的共轭先验方法 Lossya 机器学习概率论人工智能朴素贝叶斯共轭先验
引言朴素贝叶斯方法是一种基于贝叶斯定理的简单概率模型，它假设特征之间相互独立。文章目录引言一、朴素贝叶斯方法的概率图表示1.1节点表示1.2边表示1.3无其他连接1.4总结二、朴素贝叶斯的应用场景2.1文本分类2.2推荐系统2.3医疗诊断2.4欺诈检测2.5情感分析2.6邮件过滤2.7信息检索2.8生物信息学三、朴素贝叶斯的优点四、朴素贝叶斯的局限性4.1特征独立性假设4.2敏感于输入数据的表示4
爬取微博热搜榜带刺的厚崽 python 数据挖掘开发语言
201911081102汤昕宇现代信息检索导论实验一程序运行的截图：[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GimpWjCB-1639531088565)(程序运行截图.png)]当时微博热搜的截图[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lDXRgrxa-1639531088568)(微博热搜截图.png)]对应的CSV截
使用DuckDuckGo搜索API进行智能信息检索：实用指南与最佳实践 qq_37836323 java 前端服务器 python
使用DuckDuckGo搜索API进行智能信息检索：实用指南与最佳实践1.引言在当今信息爆炸的时代，快速准确地获取所需信息变得越来越重要。DuckDuckGo作为一个注重隐私的搜索引擎，不仅为普通用户提供了优质的搜索服务，还为开发者提供了强大的搜索API。本文将深入探讨如何利用DuckDuckGo搜索API进行智能信息检索，并提供实用的代码示例和最佳实践。2.DuckDuckGo搜索API概述Du
GitHub每周最火火火项目（8.26-9.1） FutureUniant Github周推 github 音视频人工智能计算机视觉 ai
项目名称：Cinnamon/kotaemon项目介绍：kotaemon是一个基于开源RAG（检索增强生成）的工具，旨在实现与文档的聊天交互。它为用户提供了一种便捷的方式来与自己的文档进行对话，通过检索文档中的信息来回答用户的问题。这使得用户能够更高效地获取文档中的知识，提高信息检索和利用的效率。项目地址：https://github.com/Cinnamon/kotaemon项目名称：frappe
2020/2/18,晴。《童年的秘密》读书笔记。P9-27 刘霞辉
2020/2/18,晴。《童年的秘密》读书笔记。P9-27在这一部分主要就《童年秘密》这一本书做了一个概括。全书除“导论”外分为三个部分，共30章。本书主要是针对6岁以下儿童的生理和心理发展及其特点进行探讨，本书一共从四个方面进行了论述：幼儿生理和心理的发展、幼儿教育的原则及环境、幼儿心理歧变的分析、成人与儿童冲突的客服。一，幼儿生理和心理的发展。儿童时期是人一生发展的最重要时期，幼儿处在不断生长
国开（电大）2024秋《文献检索与论文写作》综合练习2 电大题园（1）学习方法经验分享笔记
国开（电大）2024秋《文献检索与论文写作》综合练习2一、单选题(14题)1.什么数据库为用户提供深入到图书章节和内容的全文检索(C)A、知网B、万方C、读秀知识库D、维普解析:“读秀”是由海量全文数据及资料基本信息组成的超大型数据库，为用户提供深入到图书章节和内容的全文检索。2.信息检索根据检索对象不同，一般分为:(D)A、二次检索、高级检索B、分类检索、主题检索C、计算机检索、手工检索D、数据
偏见的亮点：认知偏见如何增强推荐系统量子位AI 人工智能机器学习
认知偏见，曾被视为人类决策过程中的缺陷，现在被认为对学习和决策有潜在的积极影响。然而，在机器学习中，尤其是在搜索和排序系统中，认知偏见的研究仍需改进。尽管有大量研究集中在探讨这些偏见如何影响模型训练和机器行为的道德性，但信息检索领域大多关注于检测偏见及其对搜索行为的影响。这在利用这些认知偏见来增强检索算法方面带来了挑战，这一领域尚未广泛探讨，对研究者而言提供了机遇和挑战。现有的一些方法，如推荐系统
【书摘】俞可平丨《社群主义》- 个人与社群杨原平
原文链接《社群主义》俞可平著中国社会科学出版社；1998-07。---正文约17600字，黑体字为本编标。编录：杨原平。---第二部分个人与社群5.自我与个人p446.社群p557.成员资格p688.公民资格p72目录前言…（1）导论…（1）第一部分当代西方政治哲学的流变…（6）1、功利主义…（7）2、新自由主义…（14）3、社群主义及其对新自由主义的批评…（21）4、新自由主义对社群主义批评的反
每天一个数据分析题（五百二十一）- 词袋模型跟着紫枫学姐学CDA 数据分析题库数据分析
词袋模型（英语：Bag-of-wordsmodel）是个在自然语言处理和信息检索(IR)下被简化的表达模型。以下关于词袋模型(BagofWord,BoW)的说法正确的是？A.将所有词语装进一个袋子里，不考虑其词法和语序的问题，即每个词语都是独立的B.词袋模型只能应用在文件分类C.CBOW是词袋模型的一种D.GloVe模型是词袋模型的一种数据分析认证考试介绍：点击进入数据分析考试大纲下载题目来源于C
平均精度（Average Precision，AP）以及AP50、AP75、APs、APm、APl、Box AP、Mask AP等不同阈值和细分类别的评估指标说明 fydw_715 深度学习基础分类数据挖掘人工智能
平均精度（AveragePrecision，AP）是信息检索领域和机器学习评价指标中常用的一个衡量方法，特别广泛用于目标检测任务。它在评估模型的表现时结合了准确率（Precision）和召回率（Recall），为我们提供一个综合性的评估指标。关键概念Precision（准确率）：精确率表示在模型预测为正例的所有样本中，实际上为正例的比例。它的计算公式为：Precision=TruePositive
《刘澜·领导力30讲》笔记 2 greenorchid
导论02讲：用口诀修炼领导力小胜凭智，大胜靠德。-牛根生领导力不是职位，而是行动。领导力十律：1承担责任“我来”2解决难题“我不知道”3密切联系群众“你觉得呢？”4讲故事“我讲个故事”5当老师“我教你”6从失败中学习“失败了？恭喜你！”7反思“我要改变什么？”8反思“为什么？”9认识自己“我是谁？”10成为自己“我该是谁？”领导力是改变本性的修炼，我们可以用领导力口诀来帮助修炼。
python机器学习算法--贝叶斯算法在下小天n 机器学习 python 机器学习算法
1.贝叶斯定理在20世纪60年代初就引入到文字信息检索中，仍然是文字分类的一种热门（基准）方法。文字分类是以词频为特征判断文件所属类型或其他（如垃圾邮件、合法性、新闻分类等）的问题。原理牵涉到概率论的问题，不在详细说明。sklearn.naive_bayes.GaussianNB(priors=None,var_smoothing=1e-09)#Bayes函数·priors：矩阵，shape=[n
学习笔记:我的新媒体运营进阶之路(二) 山山而川_Y
进入到学习的第二阶段，有了前面的导论铺垫后，可以说是渐渐进入了学习状态。工作日每天晚上八点准时开启学习，根据当日任务和学习状态灵活调整学习时间。本阶段主要学习了新媒体应用传播学和着陆页实战课程。新媒体应用传播学：重点学习了线性传播的线性视角、非线性视角、文化视角、影响力六原则。新媒体着陆页实战：在此门课程中学习了着陆页经典的八大结构：价值定位、行动呼唤、产品特征、信用背书、用户评价、风险承诺、常见
WeKnow-RAG：智能自适应的检索增强生成方法步子哥人工智能
在当今快速发展的人工智能领域，检索增强生成（Retrieval-AugmentedGeneration，RAG）方法逐渐成为一种新兴的解决方案。CobusGreyling在他最新的文章中深入探讨了WeKnow-RAG，这一方法通过结合知识图谱和网络搜索技术，极大地提升了大型语言模型（LLMs）在复杂查询中的表现。知识图谱的力量知识图谱（KnowledgeGraphs,KGs）作为信息检索的重要工具
ChatGPT 3.5/4.0简单使用手册老童聊AI 明哥陪你学Python chatgpt
ChatGPT3.5/4.0是一种先进的人工智能聊天机器人，能够理解和生成自然语言文本，为用户提供信息检索、问题解答、语言翻译等服务。系统要求操作系统：无特定要求，支持主流操作系统。网络连接：需要稳定的网络连接来使用在线服务。安装与注册访问ChatGPT官方网站或下载相应的应用程序。创建账户：根据网站或应用程序的指示完成注册流程。登录：使用注册的账户信息登录。备注：因为国内环境原因，所以我们不得以
缓存与数据库的数据一致性解决方案分析 Do&Feel Java 缓存数据库 java
在现代应用中，缓存技术的使用广泛且至关重要，主要是为了提高数据访问速度和优化系统整体性能。缓存通过在内存或更快速的存储系统中存储经常访问的数据副本，使得数据检索变得迅速，从而避免了每次请求都需要从较慢的主存储（如硬盘或远程数据库）中读取数据的延迟。这种技术特别适用于读取操作远多于写入操作的场景，如网页浏览、内容分发网络（CDN）和大规模的信息检索系统等。缓存的实现方式多样，包括但不限于内存缓存、分
国产智能搜索MindSearch∶ 能够在不到3分钟内收集并整合300多页相关信息？百态老人人工智能笔记
MindSearch是一款由上海人工智能实验室推出的国产智能搜索工具，具有强大的自然语言处理和机器学习能力，旨在提供高效、精准的信息检索服务。它能够通过自然语言查询快速在各种文件格式（如PDF、DOCX、TXT）中找到所需信息，并利用人工智能技术提供即时答案和相关搜索结果。MindSearch不仅是一个独立的搜索引擎平台，还提供了一个开源的AI搜索引擎框架，用户可以使用闭源或开源的大语言模型（LL
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他