Wuawua.com重新起航(2)--知识获取

网页 = 知识?没有这么简单?

搜索引擎的TF-IDF关键字搜索只能表明某个网页包含某个关键字,并不代表该网页是你想要的知识。例如“深度学习”,可能返回包含“深度学习”的网页,是你想要的吗?你是不是想看看“深度学习”相关的课程?书本?论文?软件?

每个人对知识的理解不一样?但是很多人理解的知识是不是就是正确的?群体智能或者推荐系统是否可以解决“准确性”的问题?

先不想这么多,搭个的框架,先做个Beta版本再说。

Wuawua.com重新起航(2)--知识获取_第1张图片

因为工作量比较大,尽量选择开源软件:

  1. Nutch,负责搜集网页 http://nutch.apache.org

  2. webharvest,负责网页内容提取;

  3. Mahout, 自动分类

  4. Deep Learning,暂时没有合适的开源软件,自己写;

  5. Oryx,推荐系统(里面的算法不准确,重写基于RBM的推荐算法);


如果您感兴趣,诚邀您一起参与。


你可能感兴趣的:(Wuawua.com重新起航(2)--知识获取)