“基于楼盘评论的楼盘评估系统”项目总结

项目描述:

根据用户对楼盘评论数据对楼盘进行评估。

主要工作:

利用正则等对元数据进行清洗整理,并对水军评论进行清除,然后从价格、交通、采光、服务等方面基于互信息和关键词提取用户的评价,并基于词典对各个方面进行打分。根据评论区中各方面的进行评分及评论区水军的占比等因素建立模型,对楼盘进行整体的评估打分。

补充:其实我们做这个项目的目标是先实现类似这样的一个demo : http://yuqing.baidu.com/user/main/index#page/detail/index?eid=213349507749899729

下面对该项目做一下细细的总结:

首先,拿到爬虫组的数据后发现,楼盘评论的数据有很多特点,主要总结有以下两个特点:

1、文本短。评论数据一般为一句话或两句话。甚至两个短语,最长评论文本也就100字左右

2、杂。爬下来的元数据,细细发现,里面有很多重复的评论,最多是,一条评论可能被相邻重复几十次。故可以判断这就是水军的评论。对真实的数据反而起到了反面的作用。这部分的数据我们要清理出去。

其次,要构建词典。分别从价格、地段、交通、采光、大小等等指标提取用户的评价,并人工构建词典对楼盘的各个指标进行打分。如价格(高、很高、还行、差不多、能接受等分为不同的等级,相应等级人工给出一个值),这样,就可以分析每个楼盘评论区中水军评论的占比,并对每一个楼盘基于词典进行整体的评估打分和建模了。

你可能感兴趣的:(“基于楼盘评论的楼盘评估系统”项目总结)