一、网络信息检索:
1、文本检索:研究Linux环境下的大规模文本索引和检索技术。包括实时索引、索引合并、索引更新、检索模型、排序算法、反馈学习。
2、网页搜索:研究Linux机群环境下的海量网页的爬行、存储、分析、索引、检索技术。包括:面向主题的网页爬行器、分布式网页爬行器、分布式文件系统、分布式信息检索、垂直搜索。
3、企业级搜索:在Windows环境下,针对企业内网分布着大量的结构复杂、异类格式的数据资源,研究其一体化检索技术。包括:企业数据资源的自动采集、信息整合、内容索引、内容检索技术。
4、垂直搜索:研究特定领域的信息抽取、信息检索技术。应用研究侧重于邮件信息检索、军事网页检索、数字图书馆。
5、问答系统:研究社会化问答系统,包括:问句分析、问句索引、问句匹配技术。应用研究侧重于互联网社区的问答系统、企业客户服务的问答系统。
二、网络信息挖掘:
1、数据库转换器:研究异构数据库(Oracle、Sybase、SQL Server等)结构化数据转换成XML文本的技术,以便后续为之全文索引和检索机制。
2、文档过滤器:研究将异类格式的办公文档(Office文档、Email、PDF、HTML网页等)格式文档转换成文本格式的技术,以便后续为之全文索引和检索机制。
3、信息抽取:研究从无(半)结构化的文本中抽取结构化数据的技术。
4、文本挖掘:研究自然语言文本的分析工具(词法分析、语言模型、句子结构分析等)。
三、网络信息安全
理论上对匿名通信原理,匿名通信工具机制及相关协议研究,系统实践上结合流量
分析其特征的方法,剖析开源匿名通信工具的源码,通过与清华大学合作交流开发,已完成系统节点收集与有效性验证工作,并已有实际系统上线运行。
四、软件工程:
研究基于流媒体的远程教育软件,基于内容分析的分布式智能考试系统。