逍遥客小老虎

搜索引擎与信息处理复习笔记

搜索引擎与信息处理复习笔记
- 第1讲信息检索与搜索引擎技术简介
- - 一、什么是信息检索
  - - 信息检索简介
    - 信息检索的维度
    - 信息检索中的三大关键问题
    - 搜索引擎
    - 搜索引擎设计的核心问题
  - 二、搜索引擎的基本架构
  - - 软件架构
    - 搜索引擎的基本构件以及组件的基本功能
- 第2讲信息采集和信息源
- - 一、信息采集
  - - 确定搜索的内容
    - 网络信息的爬取
    - - 抓取网页
      - 网络爬虫如何获取网页
      - 网络爬虫
      - 时新性
      - 页面年龄
      - 面向主题的信息采集
      - 深层网络
      - 网站地图
      - 分布式信息采集
    - 文档和电子邮件信息的采集
    - 文档信息源
    - 转换问题
    - 存储文档
    - 重复文档的检测
    - 文档噪声处理
- 第3讲文本处理
- - 一、文本处理简介
  - 二、文本统计
  - - 词表增长的预测
    - 估计结果集大小
    - 估计搜索引擎的文档集大小
  - 三、文档解析
  - 四、文档结构和标记
  - 五、链接分析
  - - PageRank技术
  - 六、信息抽取
  - - NER（命名实体识别）
- 第4讲搜索引擎索引
- - 一、倒排列表
  - 二、建立索引
  - - 3种建立索引的方法
    - - 1、两遍文档遍历法
      - 2、排序法
      - 3、归并法
    - 4种索引更新策略
    - - 1、完全重建策略
      - 2、再合并策略
      - 3、原地更新策略
      - 4、混合策略
  - 三、查询处理
  - - 优化技术
    - - 联合处理
      - 阈值方法
      - 提早终止
      - 倒排表排列
      - 结构化查询
    - 分布式的评价
    - - 文档分布式
      - 词项分布式
- 第5讲查询与界面
- - 一、查询转换与提炼
  - - 停用词去除和词干提取
    - 拼写检查和改写建议
    - 查询扩展
    - 相关反馈
    - 上下文和个性化
  - 二、搜索结果显示
  - - 结果显示界面与页面摘要
    - 结果聚类
- 第6讲检索模型与搜索排序
- - 一、检索模型
  - - 经典信息检索模型
    - - 布尔模型
      - 向量空间模型
      - 模型构建的主要步骤
        
        文档中词项的权重
        
        查询式中词项权重
      - 经典概率模型
      - 基本假设
        
        BM25排序算法
    - 隐性语义索引（LSI）
  - 二、检索质量评价标准
  - 三、文本分类
  - - 分类的评测
    - 多类分类问题的评价
    - - 宏平均（macro-averaging）
      - 微平均（micro-averaging）
- 第7讲链接分析&网页反作弊
- - 一、链接分析
  - - PageRank算法
    - - 链接陷阱与远程跳转
    - HITS算法
    - - Authority页面
      - Hub页面
      - 基于两个基本假设
        
        算法
        
        存在的问题
    - PageRank算法与HITS算法比较
  - 二、网页反作弊
  - - 内容作弊
    - - 常见内容作弊手段
      - 内容农场
    - 链接作弊
    - 页面隐藏作弊
    - 反作弊技术的整体思路
    - 识别链接作弊
    - - 识别链接农场
      - 识别Google轰炸
    - 识别内容作弊
    - 反隐藏作弊
    - - 识别页面隐藏
      - 识别网页重定向

搜索引擎与信息处理复习笔记

第1讲信息检索与搜索引擎技术简介

一、什么是信息检索

信息检索简介

信息检索：是关于信息的结构、分析、组织、存储、搜索和检索的领域。

检索对象：信息检索主要针对文档（网页、电子邮件、论文、图书、新闻等），如今也视图处理各种多媒体信息。

文档检索与数据库查询的区别：数据库有良好结构（记录、属性）；而文档大部分信息是文本，文本是无结构的，不过文档具有一定的结构（标题，章节，摘要等），信息检索会充分利用到这些信息。

信息检索的维度

内容实例（检索对象的类型）：文本、图像、视频、扫描文档、音频
应用实例（检索系统的类型）：网络搜索（万维网）、垂直搜索（针对某一行业的专业搜索）、企业搜索、桌面搜索（搜索硬盘中的文档）、P2P搜索
任务实例（检索服务的目的）：特殊搜索、过滤、分类、问答

信息检索中的三大关键问题

相关性：是否包含用户输入查询时想要找的信息
- 话题相关：内容有关联
- 用户相关：与当前用户的需求一致
评价：用于衡量信息检索的效果或质量
- 评价指标：精确率、召回率、F值、点击流分析
用户的信息需求：当输入某个查询时，用户到底想要什么
- 对搜索的评价是以用户为中心的，用户需求影响结果排序
- 用户是搜索质量的最终审判者

搜索引擎

泛指“信息检索系统”，描述用来比较查询和文档并生成文档排序结果的软件系统。

基本类型：

网络搜索引擎（爬取T级数据，提供毫秒级查响应）
企业搜索引擎（处理公司内不同类型信息源，甚至利用数据挖掘工具来分析发现结构）
桌面搜索引擎（提供直观界面搜索异质的混合信息，如浏览的网页、文档、邮件等）

搜索引擎设计的核心问题

除了上面提到的信息检索中的三大关键问题，还有：

性能：有效的搜索与索引
合并新数据（到索引中）：覆盖率和鲜度（新近性）
可扩充性（可小可大）：随着数据量和用户量而增长
自适应性（可定制）：为适应特定应用而做调节（排序算法、界面、索引策略）
特殊信息：如垃圾信息

二、搜索引擎的基本架构

软件架构

架构：提供对系统中重要组件及组件之间的关系的高层次描述。

软件架构：一组软件组件；组件提供的接口；各组件之间的联系

搜索引擎的基本构件以及组件的基本功能

两种核心功能：索引处理、查询处理。

索引处理组件集：
- 文本采集组件
  - 爬虫
    最普遍的是网络爬虫，通过追踪网页的超链接来寻找和下载页面。
  - 信息源
    是一种存取实时文档流的机制
  - 文档转换
    将爬虫或信息源提供的各种文档转换为文本和元数据格式
  - 文档数据库
    管理大量文档以及这些文档相关的结构化数据（标题、摘要、锚文本）；
    可提高检索效率和快速生成显示结果（标题、摘要、快照）
- 文本转换组件
  - 解析器
    处理文本中的词素序列，识别结构化元素（标题、超链接）
    词素的识别与切分（大小写、消歧、专用名词）
    使用HTML/XML等完成文档结构识别（标签语义）及内容删减
  - 停用词处理
    引入停用词表，便于去除文本中的无意义词或频繁词（的，为，和）
  - 词干提取
    用于把同一个词干得到的派生词进行归类，提高匹配可能性
    但是可能导致搜索问题（如fish：钓鱼，fishing：渔业），对英语重要对中文则无用
  - 超链接分析
    计算网页重要度，锚文本（可提高用户对指向网页的吸引力）很有用
  - 信息提取
    提取复杂的索引项（加粗、题目中词）
    重点研究具有指定语义内容的特征（关键词、人名、地名等识别）
  - 分类器
    识别与类别相关的元数据（如体育、政治、商业）
    垃圾文档判定（广告、垃圾邮件等识别）
- 索引创建组件
  - 文档特征统计
    汇总和记录文档中词的特征及文档的统计信息
    出现哪些词、位置、次数，文档的日期、标题、长度
  - 特征权重计算
    权重由检索模型确定，依据文档特征统计结果
    权重反映文档中词的重要性，是文档排序的依据
  - 倒排索引
    依据“文档-特征”统计信息，建立基于特征的倒排文件
    为提高处理效率，通常需要压缩倒排文件
    倒排索引是实现高效检索的重要基础
  - 索引分派
    为提高检索效率（并行处理），索引需要分布存储（分块、复制等）
    索引分派就是如何处理好索引的分布存储、更新、一致性
查询处理组件集：
- 用户交互组件
  - 查询输入
    提供查询语言接口和解析器（如何正确解析查询语句和格式）
    挑战性任务：对查询给出好结果，对更规范的查询给出更好的结果
  - 查询转换
    如何根据用户查询快速找到相关文档集合
    如何通过交互或自动改善初始查询，得到更好的结果集合
    包括对查询语句（短语）进行词、短语切分，以及计算词权重
  - 结果输出
    如何将排好序的检索结果显示给用户
    包括：生成网页摘要，加亮显示结果中的重要词项，对输出结果的自动聚类（及引导查看），广告添加，语言翻译等
- 排序组件
  - 打分机制（查询处理）
    在检索模型基础上，使用某种排序算法来计算文档的分值
    有多种打分算法，如tf/idf，BM25，Pagerank等
    基本形式： $\sum{q_i \cdot d_i}$
  - 性能优化
    如何降低系统响应时间，提供查询吞吐量
    如term-at-a-time（一次取查询中一项，来计算文档的分值贡献），document-at-a-time（同时取所有查询项，在相关多个索引表上来计算各文档的分值贡献）等分值计算方法
  - 分布式
    索引常被分布存储，排序易可分布地计算，经整合后再统一排序或可通过缓存（之前查询计算的结果）来提高打分计算效率
- 评价组件
  - 日志
    系统运行记录，包括用户查询日志，文档点击次数，浏览时间等
    用户查询日志可用于拼写检查、推荐相关广告推荐等
    文档点击日志（次数，停留时间，次序）有助于网页排序和推荐
  - 排序分析
    分析大量日志数据，有助于对排序算法的效果进行评估、改进
    有助于系统参数的调整，提高排序靠前文档的质量
  - 性能分析
    专注于监测和改进系统的整体性能
    包括系统响应时间，吞吐量，（分布式）网络使用情况和效率等

第2讲信息采集和信息源

一、信息采集

确定搜索的内容

搜索引擎工作基础：应当很好地存储文档集合中的信息。

搜索引擎的本质目标：回答“我们想要搜索什么”，提供一切我们所能搜索的信息

文档信息的更新：搜索引擎应尽可能多地含有近期的信息

信息采集的任务：想方设法找到要检索的文档集合，不论这些文档在哪里，甚至无论文档是什么格式

网络信息的爬取

网页的备份：将网页抓取到本地，便于对数据的分析处理，便于提高显示效率和效果

网络爬虫：从互联网下载网页的程序

网页爬取时存在的问题：互联网规模庞大；如何高效爬取网页和保持信息更新；是否允许爬取（可能需填写表单）；如何礼貌爬取

抓取网页

统一资源定位器（URL）：协议方案+主机名+资源名

网络爬虫如何获取网页

首先客户端程序连接到一个域名服务器（DNS），将主机名转换为IP地址。
然后客户端程序连接到该IP地址服务器。
连接成功时客户端发送一个HTTP请求（GET请求）来获得网页。

网络爬虫

网络爬虫基本任务：下载页面 + 发现新的URL

爬虫的基本工作原理：

指定种子URL集合，形成初始URL请求队列（frontier）。
从frontier中选取一个URL，爬取该网页。
对下载的网页进行解析，找到链接标签（含新的URL）
将新的URL（先计算重要度）插入到frontier
反复执行上述过程，直到frontier为空

并行爬取技术：由于大量爬取时间花费在等待（等待DNS响应、网站连接确认、网站发送网页等），为提升效率，网络爬虫常采用多个线程，一次抓取几百个网页。

礼貌策略：避免影响源网站正常工作，如规定一次抓取多少页面，规定两次抓取时间间隔。

时新性

当备份网页不能够再反映真实网页时，就应当更新。

HTTP协议提供了HEAD请求，仅返回页面头部信息（含最后修改时间）而非页面内容，可用于检查页面是否发生变化

办法之一：定期评估各页面变化频率。

页面年龄

对于页面的时新性，页面年龄是较好的度量方法。

假设一个页面的变化频率是 $\lambda$ （在1天/1周内变化 $\lambda$ 次），则一个页面从上一次采集起， $t$ 天后的年龄期望值为： ${\rm Age}(\lambda, t) = \int_0^t{P(在时间为x时页面发生变化)(t-x) {\rm d} x}$ 。

研究表明：页面更新一般遵循泊松分布，故有：
${\rm Age}(\lambda, t) = \int_0^t{\lambda e^{-\lambda x}(t-x) {\rm d} x}$

面向主题的信息采集

垂直搜索引擎：面向特殊类（专业）用户，索引 .仅收集面向某一主题/话题的页面

深层网络

深层网络：那些网络爬虫难以找到的站点或网站内容统称为深层网络。

至少包含三类：

私人站点：通常要求注册账号，如：新闻出版，杂志审稿
- 本来不希望被搜集（除非提供特许Robots.tet方式）
表单结果：要求填写表单数据，如：机票销售，图书销售报表
- 最难搜集（自动填写表单困难，涉及后台数据库）。试探法？网站主动提供？（网站地图）
脚本页面：使用了Javascript、flash的页面，实际页面在浏览器中运行时动态生成
- 相对容易（虽花费时间，爬虫也可运行Javascript、flash）

分布式信息采集

对互联网上大量信息采集，常采用多台计算机并行执行。

假设一个爬虫程序有一个传输率为1MB/s的网络连接。网页的平均大小为20K，那么爬虫程序每秒钟可以备份50个页面。如果被采集信息的网站和爬虫程序所在的计算机距离很近，那么数据传输率可能会达到1MB/s。然而，网站开始传输数据需要80ms的时间，因为在打开连结和发送请求之间有传输延迟。假设每次请求需要100ms的时间（80ms的延迟时间，20ms的数据传输时间）。用50乘以100ms，可以看到，在传输50个页面时需要5秒钟的时间，其中包括延迟等待时间。这也意味着，在一秒钟内传输50个页面需要使用5个连接。

文档和电子邮件信息的采集

文档采集中的问题：

更新速度：在桌面搜索中用户要求搜索结果是基于当前内容
台式机本地空间不希望被占用，桌面爬虫应直接将文档读入内存，并直接发送给索引器
桌面文档是用各种桌面程序查看的各种文档，需进行格式转换。
隐私问题：由于一台机器多个用户使用时每人只能看到允许的文档，文档存取权限必须与采集到的数据一起记录，并保持更新。

文档信息源

文档信息源：比如出版物（书、文章、新闻、博客）某一时间创建后不再更新。来自同一个源头的出版物可在一个文档源的序列中得到，网络爬虫通过检查该（固定）信息源就可发现所有新文档。

文档信息源类型：

Push信息源：当有新文档到达时自动向订阅者发出通知（像电话）
Pull信息源：需要订阅者周期性地查看是否有新文档（像邮箱）

转换问题

文件格式转换：将文档中的内容转换成一种统一的标签格式，如HTML，XML。

存储文档

基本目的：为了对文档进行索引，一般需存储转换为统一格式后的文档。（桌面搜索不需要存储）

主要用途：

对搜索结果创建网页摘要
减少cpu和网络负载，下次建索引可少爬页面
文档存储是信息抽取的起点

文档存储系统的基本要求：

使用数据库系统：一种可能的方案是使用BigTable（一个分布式数据库系统）
随机存取：使用散列函数及B-Tree/排序
压缩与大规模文件：多文档合并存储到一个文件中，节省文档读取时间；保证多文档合并后文件规模适度，让文档的网络传输时间不至于过长；采用文档压缩技术
更新

重复文档的检测

完全重复检测：检验和技术

近似重复检测方法：基于词（及权重）表达文档，并计算相似性；基于指纹（选择出的文档中的一些n-gram）表达文档，并计算相似性

文档噪声处理

文档噪声：网页中含有的与主要内容无关的文本、链接、图片等。

去噪声理由：搜索引擎基于词统计；无关文本干扰页面内容表示；无关文本、链接、图片等大量增加处理和空间消耗。

第3讲文本处理

一、文本处理简介

文本处理：爬虫获得文本后，需决定是否修改或重构这些文本，以简化搜索。

处理目的：将词语可能出现的多种形式转化为更加一致的索引项。

处理事项：

忽略标点、词素切分、词串（成语、短语）切分
去除停用词、词干提取
格式改变（字体、大小）、结构处理（标题、章节）、链接处理
信息抽取（识别：新词、人名、组织名、地址）、分类、多语言问题……

二、文本统计

齐普夫法则：

一个词在词频统计表中的排名 $r$ 乘以它的词频 $f$ 约等于一个常数 $k$ ： $\cdot f = k$

而因为一个词出现的概率 $P_r$ 等于这个词的出现次数 $f$ 除以所有词在文本中出现次数 $T$ 的总和，因此该法则可表示为： $\cdot P_r = c$ ，其中 $c$ 是一个常数，对于英语来说约等于0.1。

该法则对排名靠后的低频词不一定准确。

词表增长的预测

Heaps法则：

语料规模 $v$ 与词表大小 $n$ 的关系为： $\cdot n^\beta$

Heaps法则能预测词表大小随语料规模的变化情况：语料规模小时新词增长很快，语料规模变大时增长速度变慢。

估计结果集大小

在用户输入查询后，搜索引擎一般会对结果集（包含所有查询词的文档）数量进行估计。

假设词在文档中出现的概率彼此独立。若查询包含3个词a,b,c，它们在文档中的出现频率分别为 $P (a), P (b), P (c)$ ，文档集的规模数为 $N$ ，则查询结果集大小： $f_{abc} = N \cdot P(a) \cdot P(b) \cdot P(c)$ 。

由于搜索引擎在建索引时易统计到出现过某个词的文档数目（ $f_a, f_b, f_c$ ）和整个文档集的规模 $N$ ，而 $P(a) = f_a/N, P(b) = f_b/N, P(c) = f_c/N$ 。于是 $f_{abc} = (f_a \cdot f_b \cdot f_c)/N^{3-1}$ 。

估计搜索引擎的文档集大小

由于若a和b是相互独立出现的两个词，有： $\frac{f_{ab}}{N} = \frac{f_a}{N} \cdot \frac{f_b}{N}$ ，于是有： $\frac{f_a \cdot f_b}{f_{ab}}$ 。只需尽量取到两个语义上无关联的词a和b并按此公式计算即可。

三、文档解析

词素切分：从文档的字符序列中获取词的过程。

词干提取方法：

规则演算方法：处理常见的后缀
基于词典方法：采用一个词典来存储相关词的列表（如同义词表，适合中文及不规则变形）
规则与词典结合方式：英文词典+手动生成例外列表

四、文档结构和标记

可用XML标记文档结构，或利用到HTML标记的网页结构。

五、链接分析

锚文本的价值：

很短（两三词），简洁地描述链出网页的主题。
有助于排序算法的设计（如搜索数据库中的所有链接，查找与查询完全匹配的锚文本，匹配1次网页权重就增加1）
写锚文本的人一般不是目标网页的作者。
因此锚文本从另一角度来描述目标网页，或强调该网页对某群体的重要性。

PageRank技术

原理：基于随机游走。根据网页的入链数（指向该页）及每个网页的重要度来估算。

计算方法示例：假设有如下图这样的三个相互链接的网页：

页面C的PageRank（某个随机浏览网页的用户浏览C的概率）值：PR( C ) = PR(A)/2 + PR(B)/1。
即每个页面的PR（点击概率）应平均分配给所有外向链接。

特点：网页PR值与具体的查询无关。搜索引擎优先选择PR值高的网页。

六、信息抽取

NER（命名实体识别）

指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。

应用：

可应用于搜索中（短语、地名，人名，大小写），提高检索质量。
可用于搜索结果中（识别网页中的地址、人名，提供指向相应信息的链接；将识别到的人名、地名等自动加亮），改善友好性。
可应用于建立索引，提高索引质量。

方法：

基于基于规则的方法。使用词典、规则或模板对实体识别分类，从而抽取地名、人名等
HMM（隐马尔可夫模型）找到一个实体类别序列，使得产生待识别句子的概率最大，则与序列中实体类别相关联的会被标记出来。

第4讲搜索引擎索引

一些缩写的含义：

tf：单词在某个文档中出现的次数
N：文档集合包含的文档个数
df：某个单词在多少个文档中出现过

一、倒排列表

倒排索引主要由两个部分组成：单词词典和倒排文件。

单词词典：单词词典是由文档集合中出现过的所有单词构成的字符串集合，单词词典内每条索引项记载单词本身的一些信息及指向倒排列表的指针。

倒排列表：倒排列表记载了出现过某个单词的所有文档的文档列表及单词在该文档中出现的位置信息，每条记录称为一个倒排项（Posting）。根据倒排列表，即可获知哪些文档包含某个单词。

倒排文件：所有单词的倒排列表往往顺序地存储在磁盘的某个文件里，这个文件即被称为倒排文件，倒排文件是存储倒排索引的物理文件。

二、建立索引

3种建立索引的方法

1、两遍文档遍历法

完全在内存里完成索引的创建过程。

第一遍文档遍历：收集一些全局的统计信息，如文档集合包含的文档个数N，文档集合内所包含的不同单词个数M，每个单词在多少个文档中出现过的信息df。将所有单词对应的df值全部相加，就可以知道建立最终索引所需内存大小是多少。于是在内存中分配足够大的空间，用来存储倒排索引内容。

第二遍文档遍历：开始真正建立每个单词的倒排列表信息，即对于某个单词来说，获得包含这个单词的每个文档的文档ID，以及这个单词在文档中的出现次数tf，这样就可以不断填充第一遍扫描所分配的内存空间。当第二遍扫描结束的时候，分配的内存空间正好被填充满，而每个单词用指针所指向的内存区域“片段”，其起始位置和结束位置之间的数据就是这个单词对应的倒排列表。

经过两遍扫描完成索引建立后，即可将内存的倒排列表和词典信息写入磁盘，这样就完成了建立索引的过程。

缺点：如果文档集合太大时，内存未必能够满足需求；要对文档集合进行两遍遍历，速度不占优势。

2、排序法

始终在内存中分配固定大小的空间，存放词典信息和索引中间结果，当分配的内存空间被消耗殆尽时，在内存中对索引信息三元组（单词ID，文档ID，单词频率）进行排序，将排序好的索引信息写入磁盘，词典不写入，词典始终在内存中，新产生一个对应的中间文件，最后对所有中间文件进行合并，形成最终的索引。

优点：无论要建索引的文档集合有多大，都可以通过这种方法完成。

缺点：词典信息一直在内存中进行维护，随着处理文档越来越多，词典里包含的词典项越来越多，所以占用内存越来越大，导致后期中间结果可用内存越来越少。

3、归并法

对排序法做出了改进，整体流程和排序法大致相同，即每次将内存中数据写入磁盘时，包括词典在内的所有中间结果信息都被写入磁盘（在写入磁盘文件时，将词典项放在列表最前端，之后跟随相应的倒排列表），这样内存所有内容都可以被清空，后续建立索引可以使用全部的定额内存。

“归并法”的临时文件是每个单词对应的部分倒排列表，所以在合并时针对每个单词的倒排列表进行合并，形成这个单词的最终倒排列表。另外，“归并法”在最后的合并过程中形成最终的词典信息。

4种索引更新策略

1、完全重建策略

将新增文档和老文档一起重新构建新的索引，再删除老索引

2、再合并策略

加入新文档后，在内存当中构建增量索引，最后再将增量索引与磁盘中的老索引合并形成新的索引。

3、原地更新策略

在初始建立老索引时，在每个倒排项末尾预留空余磁盘空间。有了新增文档之后，在内存中构建出增量索引，再直接把增量索引中每个倒排项的内容直接追加到内存中的老索引的对应倒排项末尾。

4、混合策略

能够结合不同索引更新策略的长处，将不同的索引更新策略混合，以形成更高效的方法。

一般会将单词根据其不同性质进行分类，不同类别的单词，对其索引采取不同的索引更新策略。常见的做法是：根据单词的倒排列表长度进行区分，因为有些单词经常在不同文档中出现，所以其对应的倒排列表较长，而有些单词很少见，则其倒排列表就较短。长倒排列表单词采取原地更新策略，而短倒排列表单词则采取再合并策略。

三、查询处理

两种查询处理方法：

一次一文档：通过处理所有的单词（索引项）对文档进行打分，每个文档循环一次。
一次一词项：通过处理单词列表对文档打分，每个单词循环一次。

优化技术

对于查询处理，有2类优化技术：

从索引中读取较少的数据
处理较少的文档

联合处理

每篇返回给用户的文档，需要包含所有查询项。当有一个查询项较为罕见时，联合处理可以做得很好（如对于查询“fish locomotion”，单词“fish”的频率是“locomotion”的1000倍，既然对只包含2个词的文档感兴趣，系统能跳过“fish”倒排表中的大部分，以便找到同时包含“locomotion”的文档的posting）

对于短查询，能同时提高效率和效果；对于长查询如整个段落，不是一个好的选项。

阈值方法

使用前k个排序文档优化查询处理。对于每个查询，都有某一最小分数（阈值 $\tau$ ）是每个被检索出的文档都需要达到的，该最小分数是第k个最高得分文档的分数，任何没有达到此分数的文档不会显示给用户。

对于“一次一文档”：可以使用排序后第k个文档的分数作为估计阈值。
对于“一次一词项”：直到评价结束才能有全部的分数，但可以使用累加器表中第k大分数作为估计阈值。

提早终止

在“一次一文档”中忽略一些常见的高频词（查询项）。
在document-at-a-time中忽略倒排表非常靠后的文档。如文档以一些质量指标排序，如pagerank，提早终止以忽略质量较低的文档。

倒排表排列

基于文档质量对倒排表中的文档排序，如pagerank，或者根据部分分数对文档排序。

结构化查询

使用查询语言写的查询，容许改变查询中使用的特征以及那些特征的组合方式。
查询语言不是用户使用的，用户输入查询后，查询翻译器将用户的输入转换为结构化查询表达，如包括对词特征加权以及使用哪些同义词。

分布式的评价

基本过程：将所有查询发给一台目录计算机；目录计算机将消息发给多台索引服务器；它们各自做查询处理的一部分任务；然后目录机组织结果，并将结果发给用户。

2个主要方法：文档分布式；词项分布式

文档分布式

每台索引服务器的行为类似于整个文档集一小部分数据的搜索引擎。目录机发送查询的拷贝给每台索引服务器，每台机器返回前k个结果以及每个结果的分数。这些结果由目录机合并为一个相关排序表，然后返回给用户。

较为常用，很容易支持新增的文档，负载均衡性好（常见词与罕见词汇均匀分布在不同的索引服务器上），容错性好（如果某台索引服务器故障，只影响到部分文档子集合，对于用户来说并不会直接感受到这种故障的影响），同时支持两种不同的查询处理方式。

词项分布式

索引中的每个倒排表被分给一个索引服务器。大部分情况下，所要处理的查询数据不会存储在一台机器，那么被选中处理查询的服务器通常是倒排表最长的那台索引服务器，如果其他索引服务器上有相关的数据，则通过网络传送给他们来处理查询。查询处理完成后，结果发给目录机。

可扩展性不足：如果有新增文档，对几乎所有的索引服务器都有直接影响。负载均衡性差（常见词倒排列表庞大，罕见词倒排列表很少），容错性差（如果某台索引服务器故障，则某些单词的倒排列表无法访问，直接影响用户体验），只能支持“一次一词项”查询处理方式。

第5讲查询与界面

一、查询转换与提炼

停用词去除和词干提取

文本查询最初的处理过程，应该对应于文档的处理步骤。查询文本中的词，应转换为文本处理时产生的同样词项。

停用词：可以去除查询中的停用词，也可保留。
词干：可能文档处理时对词干进行了处理（增加查询灵活性），查询时也应对词干进行处理。但一定要采用恰当的词变形来扩展查询，才能获得更好查询效果。词干处理不能仅归为词干，而应基于词干进行扩展！

拼写检查和改写建议

对于在拼写词典中没有的词，就建议用户更正它们。

方法：将没有的词与词典中词进行相似比较，以便提出更正建议。

词相似度的衡量标准：编辑距离。

查询扩展

搜索引擎将用户的初始查询用一个或多个词去扩展，或替换查询中的一些词，并将修改后的查询建议提交给用户，可帮助改善检索效果。

基本思路：

通常是基于对指定文档集中词或词项共现的分析
查询的词干提取，也可看着是一种查询扩展技术（基于词的变形）
采用常规叙词表的自动扩展技术（但效果往往未必好）

关键技术：衡量词项的相关性。基本方法如戴斯系数（Dice），互信息（MIM），期望互信息（EMIM），皮尔森检验法（x²）。

还可以基于搜索结果或查询日志扩展。

上下文和个性化

个性化搜索：不同用户输入同一查询，返回不同结果；甚至同一用户在不同时间输入同一查询，返回不同结果。

改善搜索质量的有效上下文是：查询日志和搜索会话历史，使用地理上下文信息的本地搜索也对部分查询产生实质性的改善。

二、搜索结果显示

结果显示界面与页面摘要

结果显示页面：大部分搜索引擎的结果页面，仍采用排序的文档摘要列表。文档摘要有实际页面链接，并包括标题、URL、快照链接以及页面摘要等。

页面摘要的生成：是自动文摘的一个应用例子。自动文摘技术大致可分为查询无关文摘和查询相关文摘。搜索结果页面是查询相关文摘。

结果聚类

传统做法一般是将搜索结果按照排序显示给用户，而搜索结果常包括与查询主题相关的不同方面。对于特定用户，可能仅关心其中一类，对排序显示可能失望。

解决途径：对检索结果聚类，将检索结果文档集按照内容相似性聚成一些类（文档组），将这些类别显示给用户，便于用户快速定位到感兴趣的文档类。然后每个文档类再按照文档与查询的相关性排序显示。

第6讲检索模型与搜索排序

一、检索模型

信息检索模型的组成：

用户的需求表示：用户查询的获取与表示。
文档的表示：文档内容的识别与表示。
匹配机制：用户需求表示与文档表示之间的查询机制，以及它们之间相关性排序的准则和函数表示。
反馈修正：对检索结果进行优化。

信息检索模型四元组： $D, Q, F, R(q_i, d_j)]$

$D$ ：文档集合
$Q$ ：用户查询，是用户任务的表达
$F$ ：文档表示、查询表示和它们之间的关系的模型框架（Frame）
$R(q_i, d_j)$ ：是一个排序函数，它给查询 $q_i$ 和文档 $d_j$ 之间的相关度赋予一个排序值

经典信息检索模型

包括：布尔模型、向量空间模型、经典概率模型。

布尔模型

基本规则：每个索引词在一篇文档中只有两种状态：出现或不出现，对应权值为0或1。

布尔检索又称精确匹配检索。

优点：简单易于理解；能处理结构化查询；速度快

缺点：无权重设计；僵化，不支持部分匹配（“与”意味着全部，“或”意味着任何一个）；很难对输出排序；很难控制被检索的文档数量

向量空间模型

模型原理：文档D和查询Q均被看成是由标引词构成的向量，检索过程就是计算文档向量与查询向量之间的相似度。可以根据相似度值的不同对检索结果进行排序，可以根据检索结果进一步做相关检索。

优点：可对查询向量中关键词赋予权重；可根据相似度大小对查询结果进行排序并控制输出数量；采用“部分匹配”

缺点：在模型中，特征项被假设为相互独立，而实际上一个文档中的特征项之间可能存着一定的联系；不能像布尔模型一样支持布尔结构化查询；较布尔模型要复杂得多

模型构建的主要步骤

文档向量的构造：对一个文档集而言，可以将每一篇文档转换成特征项来表示。如果将每一个特征项看作是多维空间中的一维，则由这些特征项组成的集合就定义了一个多维向量空间，文档集合中的任一文档都可以表示成为这一多维空间中的一个向量。
查询向量的构造：对于用户查询，将其转换为特性项表示。
查询与文档的匹配函数的选择
- 内积相似度运算（包括余弦相似度运算）
- 距离相似度运算
- 基于项匹配个数的相似度运算
- 基于概率向量的相似度运算
相似度阈值的确定

文档中词项的权重

一个在n当前文档中频繁出现，但是在剩余的其它文档中很少出现的词项获得较高的权重。

$tf_{ik}$ ：词项 $k$ 在文档 $i$ 中的频率
$n_k$ ：词项 $k$ 的文档频率，即包含词项 $k$ 的文档数量
$idf_k$ ：词项 $k$ 的反文档频率 $\log {\frac{N}{n_k}}$ ，其中 $N$ 是文档集中的文档总数

tf·idf加权方法：

$tf_{ik} = f_{ik}$ ，其中 $f_{ik}$ 是词项 $k$ 在文档中的出现次数。但为减小高频词项的影响，通过对词项次数取对数，会比直接使用原始数值更加有效： $tf_{ik} = \log{(f_{ik})}+1$ （词项频率加1是为了保证频率为1的词项具有非零权值）

tf·idf：词频和反文档频率的乘积。

$d_{ik} = tf_{ik} \cdot idf_k = (\log{(f_{ik})}+1) \cdot \log{\frac{N}{n_k}}$

在归一化后：
$d_{ik} = \frac{(\log{(f_{ik})}+1) \cdot \log{\frac{N}{n_k}}}{\sqrt{\sum_{k=1}^{t}{[(\log{(f_{ik})}+1.0) \cdot \log{\frac{N}{n_k}}]^2}}}$
归一化原因：在冗长的文本中，词项的频率会比短文本大，为了抵消这种影响，即采用归一化。

查询式中词项权重

几种确定查询式中词项权重的方式

如果词项出现在查询式中，则该词项在查询式中的权重为1，否则为0。
也可以用用户指定查询式中词项的权重。
一个自然语言查询式可以被看成一个文档。

经典概率模型

概率排序原则：如果一个参考检索排序系统对每个查询的反馈都是数据集中所有文档根据和用户查询的相关性概率值降序排序的结果，并且其中的概率值都被尽可能精确地估计出来，那么该系统对于用户的整体效果就是基于这些数据能够获得的最好结果。

优点：文档可以按照它们相关概率递减的顺序来排序。

缺点：开始时需要猜想把文档分为相关和不相关的两个集合，一般来说很难；实际上这种模型没有考虑索引术语在文档中的频率（因为所有的权重都是二值的）；假设索引词独立

目前使用比向量模型更广泛。

基本假设

概率模型的相关性独立原则：文档对查询的相关性与文档集合中的其它文档无关。
文档和查询中的特征项与特征项之间是相互独立的。
文档和查询中的特征项权重都是二值的，即要么是0，要么是1。
n文档相关性是二值的，即只有相关和不相关两种（一篇文档要么属于理想文档集，要么不属于理想文档集。）

（暂略一部分数学内容）

BM25排序算法

（暂略）

隐性语义索引（LSI）

提出背景：自然语言文本中的词汇具有一词多义（基于精确匹配的检索算法会报告许多用户不要的东西）和一义多词（基于精确匹配的检索算法又会遗漏许多用户想要的东西）的特点。我们希望找到一种办法, 既能反映术语之间内在的相关性, 又具有较高的效率。

隐性语义索引可看做是隐性语义分析（LSA）在信息检索中的应用。LSA是一种通过分析大量的文本集，自动生成关键字-概念（语义）之间映射规则的方法。它假设词语在文本中的使用模式内存在着潜在的语义结构。同义词之间具有基本相同的语义结构，多义词的使用必定具有多种不同的语义结构，而词语之间的这种语义结构体现为它们在文本中的出现频率上也具有一定的联系，通过统计学方法，提取并量化这些潜在的语义结构，进而消除同义词、多义词的影响，提高文本表示的准确性。

二、检索质量评价标准

召回率（recall）：衡量搜索引擎找到所有相关文档的能力。

准确率（precision）：衡量排除不相关文档的能力。

F值：召回率和准确率的调和平均数。

平均准确率（MAP）：各次查询的准确率的均值。

三、文本分类

文本分类的应用：垃圾邮件的判定、新闻出版按照栏目分类、词性标注、词义排歧等

文本分类的过程：

获取训练文档集合
建立文档表示模型
特征选择
选择或设计分类模型
性能评测模型

分类的评测

偶然事件表：TP，FP，TN，FN。

对一个分类器的度量：准确率、召回率、fallout（FN / FN+TN）

多类分类问题的评价

宏平均（macro-averaging）

先对每个分类器（每一类）计算上述量度，再对所有分类器求平均。

是关于类别的均值。

微平均（micro-averaging）

先合并所有分类器的偶然事件表中的各元素，得到一个总的偶然事件表，再由此表计算各种量度。

是关于文本的均值。

第7讲链接分析&网页反作弊

一、链接分析

搜索引擎在查找能满足用户请求的网页时，主要结合以下两方面的因素拟合出评分函数对搜索结果进行排序：

网页和查询的相关性，即用户发出的查询与网页内容的内容相似性得分
网页的重要性，即通过链接分析方法计算获得的得分

PageRank算法

属于随机游走模型（一个对直接跳转和远程跳转两种用户浏览行为进行抽象的概念模型）

结合网页的入链数量和网页的质量因素两者，获得网页重要性评价标准。

是与查询无关的全局算法。

计算方法详见笔记第三讲中“链接分析”部分。

链接陷阱与远程跳转

互联网页面之间的链接结构实际上很复杂，对于某些特殊的链接结构，按照上述方法计算PageRank 会导致问题，一个典型的例子就是如下图所示的“链接陷阱”。这种结构类似于天体中的黑洞，在计算PageRank 的时候，该结构将导致系统只会吸收传入的分值，而不能将获得的分值传播出去，随着PageRank 一轮轮地连续运算，链接陷阱内的页面PageRank 得分越来越高，这与PageRank 的设计初衷相违背。

远程跳转是解决链接陷阱的通用方式，所谓的远程跳转，即在网页向外传递分值的时候，不限于向出链所指网页传递，也可以以一定的概率向任意其他网页跳转。对于链接陷阱内的网页来说，增加了远程跳转措施后，就像为每个页面增加了指向互联网任意其他页面的虚拟边，权值可以通过这种虚拟边向外传递，以此来避免链接陷阱导致的问题。

HITS算法

属于子集传播模型（从诸多链接分析算法中抽象出来的概念模型）

Authority页面

指与某个领域或者某个话题相关的高质量网页。比如搜索引擎领域，Google和百度首页即该领域的高质量网页；比如视频领域，优酷和爱奇艺首页即该领域的高质量网页。

Hub页面

指的是包含了很多指向高质量Authority页面链接的网页，比如hao123首页可以认为是一个典型的高质量Hub网页。

基于两个基本假设

一个好的Authority页面会被很多好的Hub页面指向。
一个好的Hub页面会指向很多好Authority页面。

算法

接收到了用户查询之后，将查询提交给某个现有的搜索引擎（或者是自己构造的检索系统），并在返回的搜索结果中，提取排名靠前的网页，得到一组与用户查询高度相关的初始网页集合，这个集合被称做根集（Root Set）。在根集的基础上，HITS算法对网页集合进行扩充，扩充原则是：凡是与根集内网页有直接链接指向关系的网页都被扩充进来，无论是有链接指向根集内页面也好，或者是根集页面有链接指向的页面也好，都被扩充进入扩展网页集合。HITS算法在这个扩展网页集合内寻找好的Hub页面与好的Authority页面。

存在的问题

计算效率较低：算法与查询相关，必须在接收到用户查询后实时计算，HITS算法本身需要多次迭代才能获得结果。
主题漂移问题：如果在扩展网页集合里包含部分与查询主题无关的页面，而且这些页面之间有较多的互相链接指向，使用HITS算法很可能会给予这些无关网页很高的排名，导致结果发生漂移
易被作弊者操纵结果：比如作弊者可以建立一个网页，页面内容增加很多指向高质量网页或者著名网站的网址，这就是一个很好的Hub页面，之后作弊者在将这个网页链接指向作弊网页。
结构不稳定：如果添加或者改变少数链接，排名会变。

PageRank算法与HITS算法比较

HITS算法是与用户输入的查询请求密切相关的，而PageRank与查询请求无关。所以，HITS算法可以单独作为相似性计算评价标准，而PageRank必须结合内容相似性计算才可以用来对网页相关性进行评价。
HITS算法因为与用户查询密切相关，所以必须在接收到用户查询后进行实时计算，计算效率较低；而PageRank则可以在爬虫抓取完成后离线计算，在线直接使用计算结果，计算效率较高。
HITS算法的计算对象数量较少，只需计算扩展集合内网页之间的链接关系；而PageRank是全局性算法，对所有互联网页面节点进行处理。
从两者的计算效率和处理对象集合大小来比较，PageRank更适合部署在服务器端，而HITS算法更适合部署在客户端。
HITS算法存在主题泛化问题，所以更适合处理具体的用户查询；而PageRank算法在处理宽泛的用户查询时更有优势。
HITS算法在计算时，对于每个页面需要计算两个分值，而PageRank算法只需计算一个分值即可；在搜索引擎领域，更重视HITS算法计算出的Authority权值，但是在很多应用HITS算法的其他领域，Hub分值也有很重要的作用。
从链接反作弊的角度来说，PageRank从机制上优于HITS算法，而HITS算法更易遭受链接作弊的影响。
HITS算法结构不稳定，当对扩展网页集合内链接关系做出很小改变，则对最终排名有很大影响；而PageRank算法相对HITS而言表现稳定，其根本原因在于PageRank计算时的远程跳转。

（其它的一些链接分析算法略）

二、网页反作弊

存在一些恶意的优化行为，通过特殊手段将网页的搜索排名提高到与其网页质量不相称的位置，而搜索引擎为了保证排名的公正性，也需要对作弊行为进行识别和处罚。

常见作弊手段：内容作弊、链接作弊、页面隐藏作弊

内容作弊

常见内容作弊手段

关键词重复：大量将关键词重复设置在页面内容。本质上是通过提高目标关键词的词频来影响排名。
无关查询词作弊：在页面内容中增加很多和页面主题无关的关键词以吸引搜索流量。
图片alt标签文本作弊：alt标签是作为图片描述信息来使用的，一般不会在html页面显示，但是搜索引擎会利用这个信息。
网页标题作弊：将与网页主题无关的目标词重复放置在标题位置来获得好的排名。搜索引擎在计算相似性得分时，会增加标题词汇的得分权重。
网页重要标签作弊：网页不像普通格式的文本，是带有html标签的，标签代表了重要性意义。作弊者通过在这些重要位置插入作弊关键词影响排名。
网页元信息作弊：网页内容描述区和网页内容关键词区是供制作网页的人对网页主题信息进行简短描述。作弊者往往也会通过在其中插入作弊关键词来影响网页排名。

内容农场

通过雇人写作大量低质量内容吸引流量，这些写作有机地将搜索引擎的热门搜索词添加到写作内容中。这样，普通搜索引擎用户在搜索时，会被吸引进入内容农场网站，赚取广告费用。

链接作弊

网站拥有者考虑到搜索引擎排名中利用了链接分析技术，所以通过操纵页面之间的链接关系，或者操纵页面之间的链接锚文字，以此来增加链接排序因子的得分，并影响搜索结果排名的作弊方法。

链接农场：有人将网站做成了一个养殖场，专门用于搜集网站和交换链接提升PageRank，而没有或很少有实质性的对用户有用的内容。
Google轰炸：通过大量链接让不相关或者偏离主题的内容在搜索结果中获得很高的排序。
交换友情链接：作弊者通过和其他网站交换链接，相互指向对方的网页页面，以此来增加网页排名。
购买链接：花钱让一些排名较高的网站的链接指向自己的网页，以此来提高网站排名。
购买过期域名：购买刚刚过期的域名，因为有些过期域名本身的PageRank排名是很高的，通过购买域名可以获得高价值的外链。
“门页”作弊：“门页”本身不包含正文内容，而是由大量链接构成的，而这些链接往往会指向同一网站内的页面，作弊者通过制造大量的“门页”来提升网站排名。

页面隐藏作弊

IP地址隐型作弊
HTTP请求隐形作弊
网页重定向
页面内容隐藏

反作弊技术的整体思路

信任传播模型：先建立一个可信任的网页白名单，之后将与白名单有链入或链出的网页加入到可信的白名单之中。
不信任传播模型：先建立一个不可信的网页黑名单，之后将与黑名单有链入或链出的网页加入到不可信的黑名单之中。
异常发现模型：对已知的一些作弊网页进行特征分析，识别出一些作弊特征，并在待判断网页中判断是否满足这些特征，如果满足就判为作弊网页，否则判为非作弊网页；或者识别出一些正常特征，并在待判断网页中判断是否满足这些特征，如果满足就判为非作弊网页，否则判为作弊网页。

识别链接作弊

识别链接农场

网页出链的统计分布规律，正常网页的出链满足Power-law分布，作弊网页的出链违反该分布
网页入链的统计分布规律，正常网页的入链也满足Power-law分布，作弊网页则违反该分布。
URL名称统计特征，作弊网页的网址倾向于较长，包含更多的点画线和数字等。
很多作弊网页的URL地址尽管不同，但是常常会对应同一个IP地址。
网页特征会随着时间变化，比如入链的增长率、出链的增长率等，正常网页和作弊网页在这些变化模式上是不同的。

识别Google轰炸

Google轰炸利用了指向目标网页的锚文字来操纵搜索结果排名，而锚文字很可能和被指向的页面没有任何语义关系，所以一个直观的判断方式即为判断锚文字是否和被指向页面有语义关系，如果有语义关系存在，则被判断为正常链接，否则可被判断为作弊链接。

识别内容作弊

对于重复出现关键词这种作弊方式，可以判断文本内一定大小的窗口中是否连续出现同一关键词，如果是的话则消除掉重复出现的内容。
对于标题关键词作弊，可以判断标题词汇在文本正文出现的比例和权重，如果达到一定条件则可判断为标题关键词作弊。
也可以采用一些统计手段来进行内容作弊识别，比如统计正常网页中句子长度的规律、停用词的分布规律或者词性分布规律等，通过比较页面内容统计属性是否异常来识别内容作弊的情况。

反隐藏作弊

识别页面隐藏

页面隐藏的本质特征是向搜索引擎爬虫和用户推送不同内容的页面。所以一个直观的识别这种作弊方式的方法是对页面进行两次抓取，第一次是正常的搜索引擎爬虫抓取，第二次抓取则以模拟人工访问网页的方式抓取。如果两次抓取到的内容有较大差异，则会认为是作弊页面。

识别网页重定向

首先搜集一批作弊页面，然后根据这批作弊网页进行扩展，如果有在论坛中和这些作弊URL经常一起出现的网页链接，会逐步将其扩充进可疑页面集合。之后，依次访问这些可疑URL，并记录下访问时是否做了重定向及重定向到哪个页面，逐步判断。

你可能感兴趣的:(计算机专业知识,搜索引擎)

C语言中整数在内存中的存储格式 EadDeveloper c语言开发语言编程
在C语言中，整数是一种基本的数据类型，用于存储整数值。在计算机内存中，整数被表示为二进制形式，通过一定的存储格式来表示和保存。本文将详细介绍C语言中整数在内存中的存储格式，并提供相应的源代码示例。在C语言中，整数的存储格式取决于所使用的数据类型。C语言提供了多种整数数据类型，其中包括有符号整数和无符号整数。有符号整数可以表示正数、负数和零，而无符号整数只能表示非负数（包括零）。下面将分别讨论有符号
Java 程序员必读书单 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 Java实战深度学习实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介Java是一门高级、新兴的静态面向对象编程语言，在互联网、移动互联网、大数据、云计算、人工智能、物联网等领域都有广泛应用。作为Java程序员的你是否也经常被面试官或者HR问到有关Java的知识点呢？如果你最近在准备面试或阅读相关技术文档，则本文正是适合你。在本文中，我将给你一些你可能不知道的关于Java的重要概念和知识，并通过具体的代码示例和图表来帮助你理解这些
大模型微调方法之Delta-tuning 空白II 大语言模型论文解读微调方法介绍微调方法 delta-tuning 论文解读大语言模型
大模型微调方法之Delta-tuning大模型微调方法自从23年之后可谓是百花齐放，浙大有团队在8月将关于大模型微调方法的综述上传了ArXiv。论文将微调方法总结为等几个类别。本次讨论的1大模型业务分类当前的大模型行业可谓百花齐放，自然语言处理（naturallanguageprocessing,NLP）、计算机视觉（computervision,CV）、音频处理（audioprocessing,
Python 学习笔记1 - 认识Python Scora_liu Python 学习笔记 python
一、什么是Python1989年圣诞节期间，荷兰数学和计算机科学研究学会的GuidovanRossum（吉多.范罗苏姆）决心开发一个新的解释程序，作为ABC语言的替代品。这门ABC语言的替代语言被取名为Python,命名来自Guido爱看的的电视剧MontyPython'sFlyingCircus（蟒蛇马戏团）。二、什么是Python（⭐⭐）Python是一门解释型语言。计算机不能识别任何除了机器
单片机原理及应用风亦辰739 单片机
单片机（Microcontroller，简称MCU）是集成度高、功能强大的微型计算机，广泛应用于嵌入式系统、智能家居、工业控制、汽车电子、物联网等领域。作为一种重要的硬件平台，单片机具有小巧、低功耗、高效、成本低等特点。本文将介绍单片机的基本原理、结构特点以及其在实际应用中的使用方法。一、单片机的基本原理单片机是由中央处理单元（CPU）、存储器（RAM、ROM）、输入输出接口、定时器、串行通信接口
基于ssm的药房管理系统 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
基于ssm的药房管理系统作者：禅与计算机程序设计艺术1.背景介绍1.1药房管理系统的重要性在现代医疗体系中,药房管理系统扮演着至关重要的角色。高效、准确、安全的药品管理不仅关系到患者的健康,更是医院运营的重要一环。传统的人工管理模式已经难以满足日益增长的医疗需求,因此,开发一套功能完善、易于操作的药房管理系统势在必行。1.2SSM框架的优势SSM(Spring、SpringMVC、MyBatis)
吊打面试官之 HTTP 协议的前世今生 ~Maple~ 计算机网络 http 网络协议网络
1、HTTP的基本概念HTTP是超文本传输协议（HyperTextTransferProtocol），下面具体解释一下：协议：HTTP是一个用在计算机世界里的协议，它使用计算机能够理解的语言确立了一种计算机之间交流通信的方式（两个及以上的参与者），以及相关的各种控制和错误处理方式（行为约定和规范）。传输：HTTP是一个双向协议，比如A浏览器访问B服务器，使用HTTP协议来通信，数据就在A和B之间传
操作系统——windows 时间海里的溺水者 windows
1.操作系统的介绍操作系统（OperatingSystem，简称OS）是管理和控制计算机硬件与软件资源的计算机程序，是直接运行在“裸机”上的最基本的系统软件，任何其他软件都必须在操作系统的支持下才能运行。2.操作系统的分类（主流操作系统）2.1.Windows简介：Windows是微软公司研发的操作系统，自1985年推出以来，已成为全球应用广泛的操作系统。Windows采用了图形用户界面，提升了系
【面试题】数据结构高频面试题城仕数据结构面试题面试
1.简述什么是数据结构？数据结构是计算机存储、组织数据的方式，它使得我们可以有效地访问和修改数据。简单来说，数据结构就像是一个容器，这个容器可以以不同的方式（如线性的、树形的、表格的等）组织数据，以便于数据的查找、添加、删除和其他操作。例如，想象一下你有一本书。如果这本书没有目录、没有章节划分，你想找到某个特定的信息可能会非常困难，因为你必须一页一页地翻阅。这本书就像是一个没有组织的数据结构。现在
跟着外贸高手学跟单！分享6大实用跟单技巧
在外贸行业中，订单的成交95%依赖于高效的跟单技巧。无论是分析客户行为，还是灵活运用价格策略，每一步都可能成为促成交易的关键。本文将结合外贸实战经验，分享6大核心跟单技巧，并介绍如何通过ZohoBooks的智能化外贸管理工具提升跟单效率与成功率。技巧1：深度分析客户，精准锁定需求核心方法：通过海关数据、社交媒体（如领英、脸书）及搜索引擎（谷歌）挖掘客户的采购历史、合作供应商、竞争对手等关键信息，并
视频格式批量转换工具-FFGO 屠屠在干嘛 FFGO 格式工厂视频
由于毕设需要webm来展示动画而搜索引擎所有的webm转换工具都是在线且限制转换大小的就算大小刚好也容易报错甚至转换不出来绞尽脑汁干脆自己写了一个视频格式转换工具基本上视频格式都能够支持，如果后续有什么无法支持的格式我会后续继续更新所以暂且命名他为FF-GO吧也挺好听的，下面是软件的截图和下载链接下载直链：https://tuwp.cc:999/d/LOVETU/%E5%AE%9E%E7%94%A
操作系统练习题齐飞 linux
文章目录一、单选题二、多选题三、填空题四、简答题一、单选题1、在计算机系统中配置操作系统的主要目的是（）。A、增强计算机系统的功能B、提高系统资源的利用率C、提高系统的运行速度D、合理组织系统的工作流程，以提高系统吞吐量正确答案：B2、操作系统的主要功能是管理计算机系统中的（），其中包括处理机、存储器，以及文件和设备。这里的存储器管理主要是对进程进行管理。A、程序和数据B、资源C、软件D、硬件正确
逆向爬虫-筑基篇-第二层-壹-计算机网络和因特网-008 蓝花楹下逆向爬虫计算机网络网络
第二层网络初探计算机网络和因特网计算机网络与因特网之史分组交换之兴：1961-1972昔时，电话网为天下通信之主宰，其以电路交换之术，使语音恒速传于发收之间。然至20世纪60年代，计算机之重要日增，分时计算机亦现于世。彼时，智者思虑如何将计算机相连，使地理分布之用户共享其能。用户之流量，多具突发之性，如发一令于远机，继而静待其应，或思其答。当此之时，天下有三组智者，各自发明分组交换之术，以代电路交
AI大模型产品经理学习路线，2025最新，从AI产品经理零基础入门到精通，非常详细收藏我这一篇够了！ AGI-杠哥人工智能产品经理学习语言模型 agi 自然语言处理
随着人工智能技术的发展，尤其是大模型（LargeModel）的兴起，越来越多的企业开始重视这一领域的投入。作为大模型产品经理，你需要具备一系列跨学科的知识和技能，以便有效地推动产品的开发、优化和市场化。以下是一份详细的大模型产品经理学习路线，旨在帮助你构建所需的知识体系，从零基础到精通。一、基础知识阶段1.计算机科学基础数据结构与算法：理解基本的数据结构（如数组、链表、树、图等）和常用算法（如排序
2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
禁止搜索引擎收录网站内容,百度,谷歌,所有等... wangxingps seo 搜索引擎百度 html
第一种、robots.txt方法搜索引擎默认的遵守robots.txt协议，创建robots.txt文本文件放至网站根目录下，编辑代码如下:User-agent:*Disallow:/通过以上代码，即可告诉搜索引擎不要抓取采取收录本网站，注意慎用如上代码：这将禁止所有搜索引擎访问网站的任何部分。如何只禁止百度搜索引擎收录抓取网页1、编辑robots.txt文件，设计标记为:User-agent:B
Elasticsearch 搜索引擎原理与实践 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介Elasticsearch是开源分布式搜索引擎，提供搜素、分析、数据可视化等功能。它是一个基于Lucene的全文搜索服务器，能够把结构化或非结构化的数据经过索引生成一个索引库，使其可以被搜索到。在现代Web应用中，搜索功能已经成为不可或缺的一项功能。但是传统上，传统搜索方式需要依赖于数据库查询或者其他复杂的查询接口。而Elasticsearch提供了一种高效、稳
网安会有35岁中年危机吗，还有网安将来发展怎么样？网络安全工程师可以干到多大年龄认真写程序的强哥 web安全干货分享黑客技术网络安全渗透测试编程计算机
关于35岁中年危机这个问题，我想说，在网安行业里，这根本就不是个事儿！！与传统的IT行业不同，网安行业更加注重实战经验和技能深度，而不是单一的年龄因素。随着经验的积累，网络安全工程师在面对复杂问题时，反应更快、决策更准，这种价值是无法用年龄来衡量的。所以，只要你保持学习热情，不断提升自己的技能，35岁不仅不是终点，反而可能是你职业生涯的新起点。初入计算机行业的人或者想转行大学计算机相关专业准程序员
Operating System Concepts读书笔记——操作系统本质、类型与发展【1】墨汁儿操作系统
文章目录一、操作系统基础概念1.操作系统功能2.计算机系统组成部分3.用户角度对操作系统的需求4.系统角度二、各类型操作系统1.大型机系统1.1批处理系统1.2多道程序系统1.3分时系统2.桌面系统3.多处理器系统4.分布式系统4.1客户机-服务器系统4.2对等系统5.集群系统6.实时系统7.手持系统三、其它1.功能迁移2.计算环境2.1传统计算2.2基于Web的计算2.3嵌入式计算一、操作系统基
前端面试常见的计算机网络内容梳理 GISer_Jinger 前端 javascript
前端面试常见的计算机网络内容梳理，我得从搜索结果里找相关的信息。先看看各个网页的内容。网页1和网页2主要讲OSI模型、TCP/IP模型，ARP、DNS、TCP/UDP区别这些基础概念，这些都是常考的点。网页3提到了TCP三次握手、HTTP缓存、跨域方法，还有CDN原理，这些都是前端面试的重点。网页4详细讨论了HTTP请求方法、状态码、请求头和响应头，这些内容也很关键。网页5提到了HTTPS加密原理
【操作系统】Operating System Conceptions第二章知识整理总结 guozhirourou Operating System Conceptions阅读 Operating System Conceptions
小结：这几天我看了《OperatingSystemConceptions》的第二章。第二章先从用户、开发者以及计算机系统的角度开始，展示操作系统所提供的服务，继而讲解了操作系统是如何通过系统调用来为系统提供服务的，阐述一段程序是如何在系统中装入链接以及执行的。同时通过比较和对比整体、分层、微核、模块化和混合策略操作系统的不同设计，向我们展示了macOS、Android、Windows三种不同的操作
专业课笔记——（第一章：C、C++基础知识）大小胖虎 C/C++基础知识笔记算法 C C++数据类型操作类型笔记
目录一、数据类型二、不同格式输出的含义三、运算符优先级四、计算机基础知识五、零碎基础知识点一、数据类型1、C语言中的最简单的数据类型：整数类型、字符类型、浮点类型（C语言没有逻辑型(bool)它是C++特有的，而c语言它是通过0、1表示实现的）构造类型：枚举型、数组类型、结构体类型、共用体类型、类类型(C++特有)2、计算字符串长度：strlen()：c语言中的函数length()：c++中的函数
算法笔记——前缀树、贪心算法（更新ing....... 不吃香菜的码农左神算法笔记算法数据结构贪心算法 leetcode 堆栈
前缀树、贪心算法一、前缀树1.什么是前缀树2.如何生成前缀树二、贪心算法1.拼接字符串2.金条问题3.项目会议时间问题4.项目收益最大化4.随时获得数据流的中位数一、前缀树1.什么是前缀树前缀树一般指字典树这是指一种结构而不是一类题（注意信息是在树的路上）典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：最大限度地减少无谓的字符串比较，查
密码学，算法在人工智能的实战利用 china—hbaby 人工智能密码学
在人工智能（AI）的快速发展中，数据安全和隐私保护成为了核心议题。密码学，作为保护信息安全的基石，其在AI领域的应用显得尤为重要。本文将探讨密码学在AI中的利用，并提供一些代码示例来展示其实际应用。密码学的概述即常用加密方式密码学（Cryptography）是数学和计算机科学的一个分支，它涉及保护信息的安全性和隐私性。密码学的主要目标是确保信息在传输过程中不被未授权的第三方读取或篡改，以及确保信息
用文字书写你的计算机领域故事** 爱编程的Loren 活动文章活动文章
亲爱的大学博主们：你是否热爱写作，渴望展现自己的创作才华？你是否想要发掘写作的魅力，书写出属于你的故事？那么，这个创作活动正是为你量身打造的！我们诚挚地邀请你参加这次以写作博客为目的的创作活动，一起挑战自我，展现你的写作才华。 **一、活动背景** 此次活动旨在鼓励大学生博主们挖掘自己的创作潜能，展现自己的写作才华。我们相信，每一位博主都有独特的故事和观点，都值得被听见和分享。因此，我
目标检测领域总结：从传统方法到 Transformer 时代的革新 DoYangTan 目标检测系列目标检测 transformer 人工智能
目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。从最早的传统方法到现如今基于Transformer的先进算法，目标检测的发展经历了多个重要的阶段。本文将详细总结目标检测领域的演进，涵盖传统方法、两阶段检测方法、单阶段检测方法和基于Transform
1.✨学习系统浅探 *TQK* 自我认知规划（不让别人看）认知提升
不要过于苛求完美，允许自己偶尔放松，保持积极心态。长期坚持比短期高强度更重要，尤其是为三年后的考研做准备，需要持续的努力而不是一时的冲刺。定期复盘，调整计划。如果某天状态不好，可以适当减少任务量，保持弹性。同时，保证足够的睡眠和运动，这对维持多巴胺水平和整体精力很重要。一、系统构建一Deepseek指令我的大一下学期已经开始了，这一学期我又有新的计算机课程。上一学期我学了C语言，基础知识掌握的还可
【软考系统架构设计师】计算机网络① TCP/IP协议族万猫学社软考系统架构设计师简明教程软考系统架构设计师架构师系统架构网络
>>回到总目录2)2^n(n>2)2n(
操作系统高频（一）线程与进程 HUZ_小Z 开发语言操作系统课程设计笔记经验分享
操作系统高频（一）线程与进程1.什么是线程？进程，线程，彼此有什么区别？⭐⭐⭐进程进程（Process）是计算机中的程序关于某数据集合上的一次运行活动，是系统进行资源分配的基本单位。是操作系统结构的基础。进程是线程的容器。程序是指令、数据及其组织形式的描述，进程是程序的实体。线程线程是操作系统最小的运算调度单位。线程包含在进程中，是进程中实际执行任务的单位。在一些操作系统中，线程也被称为轻量级进程
Radiance Fields from VGGSfM和Mast3r:两种先进3D重建方法的比较与分析 2401_87458718 3d
VGGSfM和Mast3r:3D场景重建的新方向在计算机视觉和3D重建领域,如何从2D图像重建3D场景一直是一个充满挑战的研究课题。近年来,随着深度学习技术的发展,一些新的方法被提出并取得了显著的进展。本文将重点介绍两种最新的基于深度学习的3D重建方法:VGGSfM和Mast3r,并通过GaussianSplatting技术对它们的性能进行全面比较和分析。VGGSfM:基于视觉几何的深度结构运动恢
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S

搜索引擎与信息处理 复习笔记