第三学期期末总结

第三学期期末总结

@()[研二上]

1. 阅读论文情况


第三学期小I组主要在做知识图谱,TREC比赛。因此,在选择论文的时候,主要是阅读一些在搜索方面读了一些PageRank算法改进的论文,BM25算法等。在2014.8暑假时候在做TREC比赛,又阅读了一些历年session比赛获得成绩较好的论文。接着又阅读一些关于领域知识图谱相关的论文,主要体现在多数据源的数据抽取、领域知识图谱的构建、多数据源的可能性信息聚合等。

  • 本学期阅读论文方向
    • 推荐系统
    • 搜索引擎
    • 数据挖掘
    • 知识图谱

读了这么多论文后,有一篇对我现在做的结构化爬取是最相关的一篇论文。

Focused Crawling for Structured Data, Robert Meusel (University of Mannheim); Peter Mika (Yahoo Barcelona); Roi Blanco (Yahoo! Labs); Christian Bizer (University of Mannheim),CIKM 2014

了解这篇论文完全是一件很令人兴奋的事情,实验室组织大家去东亚酒店听CIKM会议的时候,听到一篇正文的作者show。当时就回学校就把这篇论文阅读了以及把论文在线学习方法(MOV)与我的Falco结合。
一共阅读文章的数量16篇。

2. 项目工作


2014.9-2015.2学期项目工作主要是领域内知识图谱的构建。在杨老师的带领下,我们十月中下旬开始启动知识图谱项目。我们领域知识图谱是在周子力老师的构建本体的基础上,拓展我们的研究方向。
本学期主要的工作:

  • [ ] Falco Crawling System
  • [ ] TREC Session
  • [ ] Domain Knowledge Graph Construction

2.1 Falco Crawling System

大多数网络爬虫的需求是定向抓取,结构化解析。但是面对结构迥异的各种网站,单一的抓取模式并以一定能够满足使用者的需求,因此灵活的抓取控制是必须的。而去重调度,队列,抓取,异常处理,监控等功能作为框架,提供给抓取脚本,并保证灵活性。最后加上前端展示平台监控任务、控制任务、任务进度,即是我的Falco网络爬虫系统。这套系统的目标:

  1. 抓取、更新调度多站点的特定的页面
  2. 需要对页面进行结构化信息提取
  3. 灵活可扩展,稳定可监控

这是我这学期构建出的框架:

第三学期期末总结_第1张图片
Falco爬虫系统

目前系统的完成度:

  • DownLoader:100%
  • PageParse:80%
  • Scheduler:30%
  • DBControler:10%

2.2TREC Session

RL2 Query Expansion
我的任务是通过用户的检索记录帮助用户找到他想要的检索词。我通过用户的检索记录:

  1. query
  2. Click
  3. Time
  4. Current Query

结合TFIDF模型,使用上述四个特征做一个实验室,实验的准确率19.04%,超过baseline。


2.3 Domain Knowledge Graph Construction

在构建领域知识图谱,我主要是负责数据抓取。

第三学期期末总结_第2张图片
领域知识图谱的系统架构图

为了构建电商领域的知识图谱,我完成电商领域的垂直网络爬虫。写完这个垂直爬虫,最大的收获是使用敏捷开发思想,使用设计模式方法开发垂直网络爬虫:单例模式,工厂模式等。


第三学期期末总结_第3张图片
数据

3.第一篇小论文

计划在2015的春节完成* 自动学习结构化抽取信息的聚焦爬虫 * survey。

4.学术参加活动

  • CIKM
  • WSDM WINTER SCHOOL

在听Winter School里,高剑锋对于深度学习的分析以及讲解了他个人对深度学习的理解。还提出自己在bing研究院DSSM模型,激发了我对深度学习的热情。

5. 专利准备情况

计划把我的Falco网络爬虫申请为我的专利,这个具体在和老师们讨论。

6. 其他工作

  • 参加了微软参观日,对微软的各个部门有所了解。
第三学期期末总结_第4张图片
MicroSoft
  • 开发了虾米音乐下载器
  • 搭建了个人的博客:> http://huangbaoquan.com/

你可能感兴趣的:(第三学期期末总结)