推荐系统需要考虑的三部分

目录

  • 目录
  • 主题网络爬虫
  • 多目标优化算法
  • 个性化推荐算法

通过对主题网络爬虫、多秒优化算法和个性化推荐算法的研究,设计一种个性化营养菜谱推荐方法,并初步实现相应的系统。

主题网络爬虫

搜索引擎中很关键的一个构成是网络爬虫,它便利整个互联网并存储所有爬取过的网页,为搜索引擎提供数据来源。这种爬虫往往针对一个主题目标进行爬取,被称为主题网络爬虫或者聚焦网络爬虫(focused web crawler)。

网络爬出的主要研究方向分三个:主题爬虫、智能爬虫和高性能爬虫。
智能网络爬虫主要针对动态网页设计的,可以检测网站系统的注册登录需求,然后模拟登录。
高性能网络爬虫主要是设计分布式爬虫,用来爬取海量数据。
主题网络爬虫主要用来爬取一些与主题或领域相关的网页。传统的通用网络爬虫因为对所有的网页一视同仁,并不能针对性地获取一些相关数据。主题网络爬虫可以根据用户提前指定的爬虫策略,将目标锁定在与某一主题内容相关的网页上,有选择、有主次地爬取互联网上的相关网页。现有主题网络爬虫使用的爬行策略主要有:
基于网页内容的爬行策略(crawling strategy based on web content),
基于链接拓扑结构的爬行策略(crawling strategy based on link topology),
用户访问行为的爬行策略(crawling strategy based user access behavior)

多目标优化算法

智能优化算法通过模拟一些自然界现象或规律,建立一种具有自学习和自适应特征的最优值搜索算法。这些算法通常模拟自然规律,逐次改变一个或多个决策变量,使优化目标函数能在相对较短的时间内达到最大值或最小值,从而为复杂问题找到相对的最优解。
主要有:
进化算法(evolutionary algorithm)
粒子群算法(particle swarm optimization algorithm)

个性化推荐算法

个性化推荐算法主要分为三大类:
基于协同过滤的推荐(collaborative filtering)
基于内容的推荐(content-based filtering)
社会化推荐(social recommendation)
这三类算法中,一般基于内容的推荐需要进行大量的人工标注,而社会化推荐需要的社会关系很难获取,相对来说,基于协同过滤的推荐算法对学习数据要求较低,应用范围最为广泛

基于协同过滤的推荐算法需要输入用户的历史行为记录,计算预测用户对项目的兴趣度,最后输出用户没看过且兴趣度最大的N个项目作为推荐结果。
基于协同过滤的算法分为:

  1. 基于内存的方法(memory-based),分为基于领域的方法(neighborhood-based)和基于图的方法(grphs-based)
  2. 基于模型的方法,包括隐语义模型(latent factor model)和关联规则(association rule)
  3. 混合推荐算法

你可能感兴趣的:(多目标推荐优化)