原文美团(大众点评)酒店评论数据集爬取
声明:本文仅限用于学术交流,引用或转载本文时请注明出处!
最近在做一个关于文本情感分类的问题,在网上找到了10000条前人从携程酒店上爬取的酒店评论数据集作为训练数据集,但是感觉数据集还是比较少,没有验证数据集,而且在训练数据集上进行验证可能造成数据过拟合,遂决定爬取一部分新的数据集作为验证。
网上有很多携程评论爬取的代码,但是携程新加了css反爬机制,给我们增加了工作难度,然后换到了美团酒店。通过Google浏览器 F12分析发现移动端可以直接解析json请求,不用解析html标签.
请求格式如下:
https://ihotel.meituan.com/api/v2/comments/biz/reviewList?referid=105001410&limit=15&start=0&filterid=800&querytype=1&utm_medium=touch&version_name=999.9
referid : 酒店ID
limit: 一次最多获取条数据(默认15)
start: 从第几条开始获取数据(默认0)
querytype:0表示数据来源于大众点评,1表示数据来源于美团(默认1)
其他略
# -*- coding: utf-8 -*-
"""
Created on Mon Apr 8 09:58:54 2019
@author: moulf
"""
import pandas as pd
import urllib.request as req
import json
import sys
import time
import random
import re
print(sys.getdefaultencoding())
"""
爬取美团上某个酒店的评论数据,详见https://blog.csdn.net/uvyoaa/article/details/80575503
"""
class MTCommentsCrawler:
def __init__(self,productId=None,limit=10,start=0):
self.productId = productId #酒店ID
self.limit = limit # 一次获取多少条评论
self.start = start
self.locationLink = 'https://ihotel.meituan.com/api/v2/comments/biz/reviewList'
self.paramValue = {
'referid':self.productId,
'limit':self.limit,
'start':self.start,
}
self.locationUrl = None
# 构造url调用参数
def paramDict2Str(self,params):
str1 = ''
for p,v in params.items():
str1 = str1+ p+'='+str(v)+'&'
return str1
# 构造调用url
def concatLinkParam(self):
self.locationUrl = self.locationLink+'?'+self.paramDict2Str(self.paramValue)+'filterid=800&querytype=1&utm_medium=touch&version_name=999.9'
#print(self.locationUrl)
#伪装浏览器进行数据请求
def requestMethodPage(self):
# 伪装浏览器 ,打开网站
headers = {
'Connection': 'Keep-Alive',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Mobile Safari/537.36',
'Referer':'https://i.meituan.com/awp/h5/hotel-v2/feedback/index.html?poiId=%d'%(self.productId),
'Host':'ihotel.meituan.com'
}
url = self.locationUrl
print('url : ',url)
reqs = req.Request(url,headers=headers)
return reqs
# 读取服务端获取的数据,返回json格式
def showListPage(self):
request_m = self.requestMethodPage()
conn = req.urlopen(request_m)
return_str = conn.read().decode('utf-8')
return json.loads(return_str)
# 将评论数据保存到本地
def save_csv(self,df):
# 保存文件
df.to_csv(path_or_buf = 'datas/mt/mt_%d.csv'%self.productId,sep=',',header=True,index=True,encoding='utf_8_sig')
def save_txt(self,df):
df.to_csv(path_or_buf = 'datas/mt/mt_%d.txt'%self.productId,sep=',',header=False,index=False,encoding='utf-8')
# 移除换行符,#,表情
def remove_emoji(self,text):
text = text.replace('\n','')
text = text.replace('#','')
try:
highpoints = re.compile(u'[\U00010000-\U0010ffff]')
except re.error:
highpoints = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')
return highpoints.sub(u'',text)
#抓取数据
def crawler(self):
# 把抓取的数据存入CSV文件,设置时间间隔,以免被屏蔽
json_info = self.showListPage()
tmp_list = []
tmp_text_list =[]
#print(json_info)
Data = json_info['Data']
comments =Data['List']
for com in comments:
text = self.remove_emoji(com['Content'])
tmp_list.append([2,text])
tmp_text_list.append([text])
df = pd.DataFrame(tmp_list,columns=['tag','content'])
self.save_csv(df) #保存为csv
df = pd.DataFrame(tmp_text_list,columns=['content'])
self.save_txt(df) #保存为txt
#初始化参数
def mtComment():
#设置关键变量
#99优选酒店(北京赵公口天坛南门店)40148749,树尚快捷酒店(重庆沙坪坝三峡广场店)6909067,7天连锁酒店(成都火车北站二店)787857
#金凯瑞商务宾馆(净月大学城店)2370250,锦江之星(深圳罗湖口岸万象城店)1127167
#奥蓝酒店217356,7天连锁酒店(长春会展中心赛得广场店)933138,如佳宾馆(净月大学城店)2519002,布丁酒店(杭州运河大关苑路店)156591193
productIdGroup = [217356,933138,2519002,156591193] # 酒店ID组
limit = 60
for productId in productIdGroup:
start = random.randint(1,9)
MTC = MTCommentsCrawler(productId,limit,start)
MTC.concatLinkParam()
MTC.crawler()
time.sleep(random.randint(31,52)) #没爬取一次,休息30到50秒
if __name__ == '__main__':
mtComment()
Python 爬虫 爬取京东 商品评论 数据,并存入CSV文件