房源推荐算法

房源推荐算法

  • 房源推荐算法
    • introduction
    • recommender system
    • collaborative filtering
    • Content-Based Recommendation
    • proposed system
      • Cirteria
      • Potenitial Buyer Catergorization
      • Data Preparation
      • Euclidean Weighted Sum Algorithm
    • Conclusion

我看了一下国内,好像是没有太多的关于房源的推荐的算法。我写一下自己的思路。记录一下的。

在这篇博客中,我们建造一个推荐系统为了给那些潜在的买家在他们宣布感兴趣的楼盘之后给他们一些推荐正在销售的楼盘。这些推荐结果是由一些标准衡量过的,这些指标是通过调查问卷总结而来的。这个推荐方法是动态的,是一个组合在协同过滤和基于内容的过滤。当前面的论文主要是使用协同过滤在物品上面,这个推荐系统使用的协同过滤在标准上,它可以使推荐系统可以操作更快在更多的物品候选者上。这个推荐系统使用基于内容过滤方法添加更多准确和更多的相关性在结果上。

introduction

泗水是一个两个地铁城市之一,在Indonesia靠着jakarta。泗水的经济增长非常的慢,导致房地产的经济增长在同一的步伐。房地产产业遇到一个问题是如何给建议给那些潜在的买家。这个问题导致一个情况一个潜在的买家必要要看过一系列的在出售的房地产,根据房地产代理专家判断。这个过程将会花费很多时间和精力对于两边。这个潜在买家和二手中介。这个调查专注于潜在房地产买家行为,而且限制对于财富以房屋的形式。

recommender system

推荐系统是软件工具和技术提供建议给物品如何使用对于用户。这个建议相关与多样性的选择决定过程。像什么东西值得买。什么音乐想听。什么样的在线内容值得读。或者在这个推荐系统中什么房屋可以看。这个推荐系统的目标就是产出有意义的推荐信息给那些对物品或者产品感兴趣的一群人。

获得推荐信息从信任的源头是人们做出决策中一个至关重要的组成部分。然而创造一个推荐系统的挑战在于如何提供一个精确的推荐信息在一个限制的时间。

collaborative filtering

自动化的协同过滤是很快变成一个非常流行的技术在减少信息负载,经常作为一个技术来完善基于内容推荐系统。协同过滤系统工作搜集用户的反馈以图表的方式给定一个区间和物品相似度在比较行为在多个用户去决定如何推荐一个物品。主要的思想是协同过滤方式是来开发信息关于过去的行为和存在用户交流的观点来预测什么物品现在系统用户最可能喜欢和感兴趣。这种类型的系统在相当多的系统使用在今天。

用户基于协同过滤系统已经非常成功了在过去。但是他们广泛的使用已经揭露一些潜在的挑战:

  • 分散性。实际上,很多商业的推荐系统用来衡量巨大物品集合。在这些系统中,甚至活跃用户可能购买的低于1%的物品。事实上,一个推荐系统基于最近的相邻算法也未必能做出一些物品推荐给一个特殊的用户
  • 扩展性。最相邻算法需要计算增长的用户和物品的数量。数以百万用户和物品。一个典型的web推荐系统面临着如何严重的可扩展性问题。

Content-Based Recommendation

基于内容推荐方法提供推荐信息通过比较内容描述的代表用户所感兴趣的。系统实现一个基于内容推荐方法分析一系列的文档和物品的之前被用户打分。或者建筑一个用户感兴趣的模型或者头像这些特性或者物品被打分。

这儿依然有很多相同的问题来运用基于内容过滤。
- 限制内容分析。内容推荐技术被限制通过特征。这些特征明确关联这些物品被系统推荐。因此。为了有如此丰富的特诊。内容必须要么在一个标准可以被计算机自动初始化。或者这些特诊必须被自动化的关联。另外一个问题关于限制内容分析,如果两个不同的事件,他们拥有这些相同的特诊,那他们是不可以分辨的。
- 太过于特殊,当系统只能推荐物品当获得高评分的时候,通过用户画像,用户被限制于哪些已经被计算过的。这个问题,也经常出现在其他领域中。另外,太过于特殊不仅仅是内容推荐系统不能推荐物品用户已经之前看过。在特殊领域,物品不应该被推荐如果他们太相似对于用户已经看过了。就像不能新闻文章描述相同的事件一样
- 新用户问题。 用户不得不给相当数量的物品打分,在内容推荐系统可以真正了解用户的喜好和呈现用户可信赖的推荐信息。因此,一个新的用户,有非常少的评分。将不能获得很准确的推荐信息。

proposed system

推荐系统被提出在这个调查中被认为是一个混合方法,协同过滤被用来计算如此重要的标准被用户用来衡量。当基于内容推荐决定用户的相似度来对用户进行分类。
推荐系统建议在这个调查中聚焦标准多于物品。因为它可以非常显著降低数据尺度。最后减少生产的时间。基于物品推荐系统将增加物品如活跃用户对于每个添加物品。然而以标准推荐系统仅仅增加了在激活的用户的数量。

房地产产业有非常多潜在数据但是有复杂的标准。一个基于标准推荐系统是一个最好方式对于这类场景。基于现实一个不同分类的房地产购买人有不同的重大标准,基于内容推荐系统用来增加这个推荐系统的准确性。

我们认为购买房屋的决定是非常私人化的而且很难被概况的。大部分的用户仅购买一次。这个提出推荐系统将会推荐一组不同的房源用户可能会感兴趣。在他们声明他们感兴趣之后。

这个提建议的系统覆盖稀疏和新用户的挑战通过它的标准推荐方法。这个方法不需要激活用户和用户知道物品。这个方法仅仅收集根据标准的输入。这个提出覆盖稀疏通过他的方法哪些仅仅需要存储哪些所有激活的用户观察过所有的物品。这个提出的系统也覆盖了过于特别的特别的挑战。因为测量过的集合是根据问题对于潜在的买家。 然而限制的内容分析覆盖了地产经济。房地产经济只需要很少的标准不需要信息获得房地产的信息

Cirteria

通过我们第三方的房地产调查,我们选择7个标准作为一个潜在买家的选择。这些标准是钱,房间几室,厨房大小,地理位置,建筑面积、土地面积还有房屋证明。这个7个标准作为房屋销售的基本属性。

surabya 可以分为5个地区,他们分别是 North Surabay,East Surabaya,West Surabaya,South Surabaya,和Centre of Surabaya.s

在Indonesia 有2中房屋证明,被认为是原始的数据类型。SHM是一个房屋证明意味着被完全拥有,但是HGB是一个意味着房屋被拥有,但是土地被政府所拥有。

Potenitial Buyer Catergorization

我们分类潜在用户根据性别、年龄、购买房屋的原因。用户分类被一个不同的策略对于潜在买家将有一个不同的期望关于重要的房屋的凭证。

根据年龄我们分类潜在用户到20-30、31-40和其它。然而购买房屋的理解可以分为居住、投资、其它。这个提出推荐仅仅考虑用户观点在同一个组织中。这个方法被期望增加推荐系统的准确性。

Data Preparation

数据被搜集为了多种目的,在思想上和机器学习没有太多必要性。结果,这儿经常需要去分别和取出相关性的数据为了给的分析的目的。是每个学习系统有特别的需要关于数据如何必须呈现给分析和,数据必须要传递去满足这些要求。未来。对于特别数据的分析可以很大的影响魔心的学习。为了这些原因,数据呈现是一个很重要的部分在很多机器学习中。数据呈现经常是一个非常消耗时间的部分。在很多不重要的机器学习的项目中。

这份调查使用了Euclidean 比重总和算法去计算两个数据之间的相似度。在这种情况,所有的数据必须被转移到数据 0-1之间。所有的标准(价格、房间数、厨房数、建筑面积、土地面积)已经被炒了连续的数据类型。唯一要做的操作是让数字在0,1之间。

初始化数据为了给所有的特性一个相同的数据类型,初始化是一个非常有用用来测量的算法包括神经元或者距离测量比如相邻分类和分群。这个初始化方式被用在调查min-max 初始化。极值正规化表现一个线性变化在原始数据上。

数据的标准化和归一化

数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或两级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上

常用的方法:min-max标准化

x=x-min/max-min 是对原始数据的线性变换,是结果落到[0,1]

房屋凭证可以认为是原始的数据类型,0.5被标记为HGB证书,而1是SHM证书。坐标被标价区域边界。例如:如果第一个房地产被潜在消费者选择在North Surabaya,另外一个房产在North Surabaya 也被定位为0,房产在East,West 和centre of Surabya 将被定位0.5 因为这些地区相邻North Surabaya. 然后South Surabaya将被定位为1.因为它不相邻North Surabaya

Euclidean Weighted Sum Algorithm

这个调查的核心就是取发现去发现一组相似得分在不同房地产之间。这组相似得分的集合使用的相邻最近的方式。不论什么时候用户选择一个物品。一个相似值被计算。系统会推荐5个相似值最高的产品。

为了改善最近相邻的规则,一个合适的距离被用来和算法去自动学习相符的比重。这个比重可以被特殊化对于每个类和特点。对于每个实例。或者对于全部。这个调差采用了衡量横额特征和实例。这儿有一系列包含7个标准的,被认为是特征的。这些距离的测量会被认为是特征。距离长度会标示位1如果用户分类的长度比较显著用户。如果是0 用户分类的距离和现在的用户不匹配。

Conclusion

一个基于标准的推荐系统非常适合对于房地产产业推荐,因为它不需要激活用户去浏览所有的物品, 房地产产业有很少的数量标准,所有的标准都是以数量表现。有些标准不能被很理想的呈现。尽管这个观点也不确定。

欧几里得测量总和算法并不是最好的算法去在标准推荐系统中。考虑到该算法是如何工作的,一个非常不同的项目可以是最好的推荐,因为加权和算法处理正差异与负差值相同。

未来的工作是去发现一个更好的方式去欧几里得测量总和算法。所以推荐的结果可以有更好的准确性。

你可能感兴趣的:(deep_learning)