《走进搜索引擎》

【评  价】 (共 32 条) 参与评论
【作  者】梁斌 [同作者作品] [作译者介绍]
【出 版 社】 电子工业出版社     【书 号】 9787121049224
【上架时间】 2007-10-15
【出版日期】 2007 年10月 【开 本】 16开 【页 码】 272     【版 次】1-1
编辑推荐

搜狐技术副总裁王小川鼎力推荐,邀您一起走进搜索引擎,走进互联网.
进入高薪搜索行业的敲门砖..
在搜索行业当中技术进阶的不二法门
追求更完美地应用搜索引擎的锦囊... 【内容简介】

在网络普及的今天,人们经常在信息海洋中彷徨,在万维网迷宫般的复杂与魅力之间挣扎。直到搜索引擎这一伟大的技术产生,才使得人们犹如找到了走出迷宫的灯塔,可以非常便捷地找到自己所需要的信息。
正是因为搜索引擎离我们越来越近,所以越来越多的人期待着能够揭开她神秘的面纱。其实搜索引擎并不是变幻莫测的大海,也不是高不可攀的山峰。请拿起本书,它就是引领你的火炬,它就是你身边的伙伴,它将带着你走进搜索引擎。在那里,你必将会被搜索引擎精致的设计和宏伟的架构所征服。
本书由搜索引擎开发研究领域年轻而有活力的科学家精心编写,作者将自己对搜索引擎的深刻理解和实际应用巧妙地结合,使得从未接触过搜索引擎原理的读者也能够轻松地在搜索引擎的大厦中遨游一番。
本书作为搜索引擎原理与技术的入门书籍,面向那些有志从事搜索引擎行业的青年学生、需要完整理解并优化搜索引擎的专业技术人员、搜索引擎的营销人员,以及网站的负责人等。
本书是从事搜索引擎开发的工程技术人员难得的参考书,也可作为大中专院校相关专业的教学辅导书。
 

第一章 引言
第一节 什么是搜索引擎
 第二节 搜索引擎的发展简史
  搜索引擎的发展历史
 第三节 搜索引擎大事快览
 第四节 国内著名搜索引擎
  百度(www.baidu.com)
  中搜(www.zhongsou.com)
  天网(e.pku.edu.cn)
  搜狗(www.sogou.com)
 参考文献
第二章 搜索引擎概貌
 第一节 搜索引擎的主要需求
  查得快
  查得全
  查得准
  查得稳
 第二节 搜索引擎的大系统
  搜索引擎的体系结构
第三章 搜索引擎的下载系统
 第一节 爬虫的发展历史
  世界上第个爬虫
  爬虫的发展历程
 第二节 万维网及其网页分析
  蝴蝶结型的万维网
  万维网的直径
  万维网的规模及变化特征
  网页的特征
 第三节 有关爬虫的基本概念
  爬虫
  种子站点
  URL
  Backlinks
 第四节 网页抓取原理
  telnet和wget
  从种子站点开始逐层抓取
  不重复抓取策略
  网页抓取优先策略
  网页重访策略★
  Robots协议
  其他应该注意的礼貌性问题
  抓取提速策略(合作抓取策略)
 第五节 网页库
 第六节 下载系统回顾及未来发展
  参考文献
第四章 搜索引擎的分析系统
 第一节 知识准备
  HTML语言
锚文本(anchor text)
半结构化数据(Semi-structured data)
第二节 信息抽取及网页信息结构化
网页结构化的目标
建立HTML标签树
通过投票方法得到正文
网页结构化过程回顾
第三节 网页查重
网页查重技术发展历史
网页查重实现方法
第四节 中文分词
什么是中文分词
通过字典实现分词
通过统计学方法实现分词
第五节 PageRank
PageRank的来由
PageRank的基本想法
PageRank的计算公式
PageRank的计算方法 ★
第六节 分析系统结构图
参考文献
第五章 搜索引擎的索引系统
第一节 知识准备
信息
索引
倒排索引、倒排表、临时倒排文件、最终倒排文件
其他概念
第二节 全文检索
全文检索
第三节 文档编号
编号的本质
文档编号的方法
游程编码
第四节 倒排索引
经典的倒排索引
正排索引(前向索引)
倒排索引
第五节 数据规模的估计
齐普夫法则
布尔检索模型下的索引规模估计★
第六节 涉及存储规模的一些计算
正排表与倒排表的合并
多个临时倒排文件的归并
倒排索引分布式存储
倒排文件缓存
倒排索引词典统计信息的计算
第七节 倒排索引文件的创建过程
创建倒排表
计算统计信息
参考文献
第六章 搜索引擎的查询系统
第一节 知识准备
什么是信息熵
检索和查询的区别
检索词和查询词的区别
自动文本摘要(Automatic Text Summarization)
第二节 网页信息检索
早期的检索模型
向量空间模型(Vector Space Models)
关键词权重的量化方法TF/IDF★
搜索引擎采用的检索模型
多文档列表求交计算
检索结果排序
堆排序
第三节 中文自动摘要
自动摘要的发展历史
自动摘要的含义和实现
第四节 生成搜索结果页
生成搜索结果页
第五节 搜索结果页的缓存
搜索结果页的缓存
第六节 推测用户查询意图
查询分类
推测信息类、事物类的查询意图
第七节 查询系统的当前热点和发展方向
查询系统的当前热点
参考文献
第七章 搜索引擎的其他话题
第一节 搜索引擎问与答
为什么搜索引擎的搜索速度这么快
为什么搜索引擎能够返回那么多的查询结果
为什么搜索引擎总能返回最想要的结果
搜索引擎如何大规模存储网页的
什么是SEO
什么是元搜索引擎
搜索引擎认为的作弊行为是哪些
如何进一步学习和了解搜索引擎发展的最新成果
第二节 搜索引擎未来的发展
新兴的搜索产品
搜索技术的未来
参考文献
附录A 搜索引擎系统结构全观图

 

 

关于本书的一些问题,给大家一个解释。 
    首先从事搜索引擎工作的圈子很小,能够进入这个行业有一定门槛,信息检索的技术从研究界而来,商业化以后,研究界的水平已经大大落后,而业界的技术一般均不公开,在这种背景下,普通人能够接触到的“最深入”的技术莫过于北大李晓明教授的搜索引擎一书,而业界的高端技术都是不传之秘,这些本书也不能公开的,如果想更深入的学习和研究不妨去搜索引擎公司锻炼一下。 
    虽然如此,搜索引擎的技术可以被其他行业借鉴,有志从事搜索引擎的同学们可以预先学习,这是本书的主要宗旨,我的目标就是把北大李晓明的搜索引擎书中不够深入的地方,深入一些,系统一些。爬虫、TFIDF的物理意义解释,PageRank的计算,索引规模估计,索引创建,自动摘要部分,都是李这本书没有或不够深入的。 
    这本书的大部分内容,都是从研究界论文中整理而来,只有TFIDF的物理意义解释是我本人独创的,为了方便读者理解(没有使用交叉熵,KL距离这些比较难懂的概念去解释),以及我举得一些例子。读者认为这本书太浅,没有含量,是我即高兴又难过,高兴在于读者的水平都很高,难过在于这些一流学者的研究成果没有得到应有的尊重,也许你接受过高等教育,但是你不会鄙视小学学过的入门知识吧。 
    这本书已知有一些错别字,但并不多,影响阅读的错别字就更少了。这本书完全是我一个人写成,校对也做了很多遍,但错误在所难免,《编程之美》这本书大家都知道,作者团队十分庞大,但错误也是比较多的,做一件完美的事情,是每个人的愿望,但有时确实很难,如果您看到错误,可以与我联系,协助改正,或者在评论中写明也帮助其他读者。公式下标有问题我至今没有发现。 
    最后就是这本书的排版,这可能是最大的批评,我想知识传播是有代价的,有些读者想如果我不是为了赚钱,完全可以写出来在网络上共享,如果有写作经历的人就知道写一本书的稿费实在有限,和搜索引擎业界待遇相比,差距极大,这也是业界无人出来写书的一个原因。我曾打算捐出稿费以表态度,但这样做无疑会提高道德的标准,对其他写书的人产生不好的影响,孔子有个学生很有钱,年关收账的时候将账目烧毁,乡亲们很感谢,孔子知道后批评了他,因为这样做提高的道德的标准,脱离了当时的物质发展基础,以后的地主收账就成为不道德的行为了。出版社是一个盈利的机构,他们需要赚钱,才能更好的传播知识,才有可能进入良性的循环,我长期在水木社区解答网友的问题,水木社区的很多网友我都是无偿送书的,至今送了不下50本。 
    http://www.newsmth.net/frames.html?mainurl=%2Fbbsdoc.php%3Fboard%3DSearchEngineTech  大家有问题也可以来水木找我。 
    每位同学的批评对我来说都是莫大的帮助,我也在不断反思自己的问题,但是我的目标不会变,我要把搜索引擎的技术进行力所能及的推广,做一些有价值有意义的事情。 
     
    我常常用搜索引擎搜索对我这本书的评价,大部分还是积极的,令我十分欣慰,为这些从中获取知识的人感到鼓舞,这种精神会让我继续努力,继续奋斗。

你可能感兴趣的:(搜索引擎,全文检索,分布式存储,技术人,出版,文档)