一些搜索引擎-数据挖掘要读的基础技术资料

必读资料:

(一) 搜索引擎介绍性Paper/书籍
(1) Arvind Arasu, Junghoo Cho, Hector Garcia-Molina, Andreas
Paepcke,Sriram Raghavan, Search the Web,
http://citeseer.ist.psu.edu/527114.html
以及该paper的参考文献:8,11,22,38
(2) Junghoo Cho 的一些相关论文,重点是他的博士论文,请参考:http://oak.cs.ucla.edu/~cho/
(3) 李晓明,闫宏飞,王继民 《搜索引擎原理、技术与系统》

(二) 编程书籍
《code complete》,中文名《代码大全》。
此书目前一共出版了两版,建议以一版作为精读,另一版作为对比阅读。


选读资料:

(一) 数据挖掘的基础方法和思想
可以参考:《Introduction to Data Mining》,中文名《数据挖掘导论》
http://www.china-pub.com/computers/common/info.asp?id=30045

(二) 自然语言处理
可以参考:《Foundations of Statistical Natural Language Processing》中文名《统计自然语言处理基础》
http://www.china-pub.com/computers/common/info.asp?id=22710

(三) 需要学习的技能/工具语言/平台
(1) linux使用和shell编程
可以参考:《sed与awk》
http://www.china-pub.com/computers/common/info.asp?id=13255
(2) Unix下的网络编程
Richard Stevens, 《TCP/IP 详解》
Richard Stevens, Unix Network Programming,中文名《Unix网络编程》
Richard Stevens, Advanced Programming in the Unix
Environment,中文名《Unix环境高级编程》


建议的学习方式:
1、学习《UNIX环境高级编程》
2、结合《TCP/IP 详解》第一卷的知识,用《Unix网络编程》第一卷提到的方法和工具,进行学习和练习,多写点代码,多用 tcpdump
等工具观察实际的网络数据流。

你可能感兴趣的:(一些搜索引擎-数据挖掘要读的基础技术资料)