aliaunder

纽约Airbnb房源数据挖掘与房价预测评估模型

Airbnb房价数据分析

数据集来自kaggle
下载链接：https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data

数据集介绍：
该数据集为2008-2019年美国地区公开的Airbnb民宿数据。

1.导包和数据读取

导包

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

#读取数据
data = pd.read_csv('./AB_NYC_2019.csv')

2.数据的初步探索

2.1获得数据的基本信息

# 查看数据集大小和特征组成
print('Shape:',data.shape)
print('Columns:',data.columns.tolist())
data.head()

输出

Shape: (48895, 16)
Columns: [‘id’, ‘name’, ‘host_id’, ‘host_name’, ‘neighbourhood_group’, ‘neighbourhood’, ‘latitude’, ‘longitude’, ‘room_type’, ‘price’, ‘minimum_nights’, ‘number_of_reviews’, ‘last_review’, ‘reviews_per_month’, ‘calculated_host_listings_count’, ‘availability_365’]

获取数据类型

#获得特征的数据类型
data.info()

输出

RangeIndex: 48895 entries, 0 to 48894
Data columns (total 16 columns):
id 48895 non-null int64
name 48879 non-null object
host_id 48895 non-null int64
host_name 48874 non-null object
neighbourhood_group 48895 non-null object
neighbourhood 48895 non-null object
latitude 48895 non-null float64
longitude 48895 non-null float64
room_type 48895 non-null object
price 48895 non-null int64
minimum_nights 48895 non-null int64
number_of_reviews 48895 non-null int64
last_review 38843 non-null object
reviews_per_month 38843 non-null float64
calculated_host_listings_count 48895 non-null int64
availability_365 48895 non-null int64
dtypes: float64(3), int64(7), object(6)

将时间转为时间格式(datet ime)

data['last_review'] = pd.to_datetime(data['last_review'], infer_datetime_format=True)

初步分析
数据包含48895个样本, 16个特征，包括房主和房间信息、房间所在区域、地理位置、房间类型、预定要求以及评论数量等信息。
16个特征分别为：
id: listing ID
name: name of the listing
host_id: host ID
host_name: name of the host
neighbourhood_group: location（区域）
neighbourhood ： area（地区）
latitude ： latitude coordinates（维度坐标）
longitude： longitude coordinates（经度坐标）
room_type： listing space type（房间类型）
price： price in dollars（订房价格）
minimum_nights： amount of nights minimum（最少预定天数）
number_of_reviews： number of reviews（评论数量）
last_review： latest review（最新评论时间）
reviews_per_month： number of reviews per month（每月评论数量）
calculated_host_listings_count： amount of listing per host（每个房主拥有的房间数）
availability_365： number of days when listing is available for booking（可以预定的天数）

2.2 缺失值的分析和处理

使用pandas生成各特征缺失值数据的DataFrame

#1.统计各个特征缺失的数量
total = data.isnull().sum().sort_values(ascending=False) 
# 2.统计缺失数量占样本数量的百分数
percent=(data.isnull().sum()/data.isnull().count()).sort_values(ascending=False)
missing_data = pd.concat([total,precent], axis=1, key=['Total', 'Percent']).sort_values('Total', ascending=False)
missing_data

输出

分析：
有缺失值的特征包括：每月评论数量、最新评论时间、房间名、房主名。

1.房间名称、房主名的缺失相对较少，考虑房间和房东的名字对数据建模的贡献不大，所以将这两列删除掉。

Combined_data.drop(['host_name','name'], axis=1, inplace=True)

2.每月评论数量、最新评论时间的缺失值相对较多，占到整个样本数量的20%，删除缺失值所在的样本会损失很多数据。

且从理论上来讲，评论数量的多少可能和房价之间存在着不可描述的关系，所以删除特征列也不妥。那就只能填补缺失值了。

再进一步分析，如果某些房间没有评论，那么自然最新评论时间和每月评论数量都会为0。所以我们不妨看一下，这个缺失是不是由于0评论导致的

data[data.reviews_per_month==0.0].shape()

输出

(10052, 14)

看来果然是这样，所以考虑用0填补reviews_per_month 并用整个数据集最早的评论时间填补last_review

data['reviews_per_month'] = data['reviews_per_month'].fillna(0)
earliest = min(data['last_review'])
data['last_review'] = data['last_review'].fillna(earliest)

为了方便分析建模，将last_review转为数值型

data['last_review'] = data['last_review'].apply(lambda x:x.toordinal() - earliest.toordinal())

再次检查是否存在缺失值

total = data.isnull().sum().sort_values(ascending=False) 
percent=(data.isnull().sum()/data.isnull().count()).sort_values(ascending=False)
missing_data = pd.concat([total,precent], axis=1, key=['Total', 'Percent']).sort_values('Total', ascending=False)
missing_data

输出

3.样本特征的进一步探索(特征的分布、相互之间的相关性)

按columns的顺序依次对每个特征进行分析

# 获得所有的特征名称
data.columns.tolist()

输出

[‘id’,
‘host_id’,
‘neighbourhood_group’,
‘neighbourhood’,
‘latitude’,
‘longitude’,
‘room_type’,
‘price’,
‘minimum_nights’,
‘number_of_reviews’,
‘last_review’,
‘reviews_per_month’,
‘calculated_host_listings_count’,
‘availability_365’]

3.1 对host_id进行探索

查看不重复的host_id 的数量

total = len(data['host_id'].unique())
percent = len(data['host_id'].unique())/data.shape[0]
print(f'Unique num of host_id:{total}')
print(f'precent:{percent}')

输出

Unique num of host_id:37414
precent:0.7662563745468696

分析
不同的host_id数量较多，占整个数据集样本数量的76%，且host_id属于离散型数据，对于建模的意义并不大，且会影响模型的效果，所以考虑将该特征删除。
基于同样的考虑，将id也删除掉

data = data.drop(columns=['host_id', 'id'], axis=1)

3.2 对neighborhood_group进行探索

对城市群数据进行统计

data['neighbourhood_group'].value_counts()

输出

Manhattan 21618
Brooklyn 20082
Queens 5665
Bronx 1090
Staten Island 372
Name: neighbourhood_group, dtype: int64

数据可视化

sns.catplot(x='neighborhood_group', kind='count', data=data)
fig = plt.gca()
fig.set_size_inches()

可以看出，房间主要分布在曼哈顿和布鲁克林。这样的分布是合理的，曼哈顿为纽约五大行政区中人口最密集的区，而布鲁克林则为纽约人口最多的地区。

3.3 对经纬度分布进行探索

fig, axes = plt.subplots(1,2, figsize=(21,6))
sns.distplot(data['latitude'], ax=axes[0])
sns.distplot(data['longitude'], ax=axes[1])
sns.scatterplot(x= data['latitude'], y=data['longitude'])

3.4 对房间类别数据进行探索

sns.catplot(x='room_type',  kind='count', data=data)
fig = plt.gca()
fig.set_size_inches(16,6)

可以看出，房源以整套房间和单间为主。

3.5 对Minimum nights 进行分析

fig,ax=plt.subplots(figsize=(16,8))
sns.distplot(data['minimum_nights'],kde=False,rug=True)
ax.set_title('Counts of minimum nights',fontsize=16)
ax.tick_params(labelsize=13)
ax.set_xlabel('minimum nights', fontsize=15)
ax.set_ylabel('Sample size statistics',fontsize=15)

可以看出，数据呈现非常严重的偏态分布，大多数房间要求入住最少天数的值较小。因此，使用描述性统计进行进一步观察

data['minimum_nights'].describe(percentiles=[.25, .5, .75, .95, .99])

count 48827.000000
mean 7.015176
std 20.486139
min 1.000000
25% 1.000000
50% 3.000000
75% 5.000000
95% 30.000000
99% 45.000000
max 1250.000000

可以看出百分之99的数据都集中在45以内。对于严重的偏态数据，可以使用numpy中的log1p()函数进行处理，其中：

np.log1p(x) = log(1+x)

fig,ax=plt.subplots(figsize=(16,8))
ax.set_yscale('log')
sns.distplot(np.log1p(data['minimum_nights']),rug=True,kde=False)

使用np.log1p可以一定程度上缓解数据的偏态性，所以将Minimum nights数据进行转换

Combined_data['minimum_nights'] = np.log1p(Combined_data['minimum_nights'])

3.6 Reviews per month

fig,ax=plt.subplots(1,2,figsize=(20,6))
sns.distplot(data['reviews_per_month'],rug=True,kde=False,ax=ax[0])
ax[0].set_title('Count of reviews per month',fontsize=17)
ax[0].set_ylabel('Count',fontsize=17)
ax[0].set_xlabel('Review per month',fontsize=17)
ax[0].tick_params(labelsize=14)

sns.distplot(np.log1p(data['reviews_per_month']),rug=True,kde=False,ax=ax[1])
ax[1].set_title('log :Count of review per month')
ax[1].set_title('Count of reviews per month',fontsize=17)
ax[1].set_ylabel('Count',fontsize=17)
ax[1].set_xlabel('log:Review per month',fontsize=17)
ax[1].tick_params(labelsize=14)

Reviews per month 数据的偏态非常严重，即使进行对数处理，也呈现出非常严重的偏态分布。

观察统计描述

data['reviews_per_month'].describe(percentiles=[.25, .5, .75, .95, .99])

count 48827.000000
mean 1.091718
std 1.597558
min 0.000000
25% 0.040000
50% 0.370000
75% 1.590000
95% 4.310000
99% 6.800000
max 58.500000
Name: reviews_per_month, dtype: float64

99%的样本，月平均评论数量在7条以内。这说明大多数的房源评论数量是非常少的，而只有少数样本具有很大的月评论量。这里推测：月评论数量可能和minimum_nights 以及后面的 availability_365存在相关性，因为如果房间的最短预定时间较长，完成订单的用户数量会相对较少，而一年之内如果可预订的时间较少，也会造成月评论数量较少。这一部分推论将在后面的分析中进一步探究。

3.7 Availability 365

fig, axes = plt.subplots(1,1,figsize=(18.5, 6))
sns.distplot(data['availability_365'], rug=False, kde=True, color="blue", ax=axes)
axes.set_xlabel('availability_365')
axes.set_xlim(0, 365)

样本的可预订天数在15天内的数量较多，其余天数的数量都较少，但是分布没有呈现间断的偏态。

3.8 calculated_host_listings_count

fig,ax=plt.subplots(1,1,figsize=(16,8))
sns.distplot(Combined_data['calculated_host_listings_count'],rug=True,kde=False)
ax.set_yscale('log')

calculated_host_listings_count数据也存在一定程度的偏态。考虑房东拥有的房源数量与其他特征时间的联系并不直观，所以关于这一特征，在后续统计分析中再进一步讨论。

3.9 price

讨论了所以特征的分布之后，接下来对目标列，房间价格的分布进行探索。

fig, axes = plt.subplots(1,3, figsize=(21,6))
sns.distplot(data['price'], ax=axes[0])
sns.distplot(np.log1p(data['price']), ax=axes[1])
axes[1].set_xlabel('log(1+price)')
sm.qqplot(np.log1p(data['price'])#数据
          ,stats.norm#分布方式
          , fit=True#大概就是个自动进行fit的设置：如果fit为true，则dist的参数使用dist.fit自动拟合
          , line='45'#线的设置
          , ax=axes[2]);

可以看出借用np.log1p函数可以将房间价格数据的分布转换成近似的高斯分布。

Combined_data['price'] = np.log1p(Combined_data['price'])

4. 特征之间的相关性分析

4.1皮尔森相关系数和热力图

对相关性的分析采用皮尔斯相关系数，皮尔森相关系数的大小，可以反映出两个变量之间线性相关的程度。

借助seaborn中的热力图(heatmap)进行可视化。

corrmatrix = data.corr()
f, ax = plt.subplots(figsize=(15,12))
sns.heatmap(corrmatrix, vmax=0.8, square=True,annot=True

分析：

1.从热力图可以看出，总评论数量(number_of_reviews)和每月评论数量(reviews_per_month)的相关性最高，皮尔森系数为0.59；最新评论日期(last_review)和月平均评论量的相关性排第二，总评论数和最新评论时间的相关性排第三，说明这三个特征之间的关系比较密切，这也是合理的。

2.从负相关来看，月均评论数量确实和最少预定天数之间存在着相对高一点的负相关关系，这与我们在 3.6 Reviews per month的分析一致。

3.房价(price)与经度之间的相关性相较其他特征更高，为-0.33。

4.2 散点图阵

皮尔森相关系数只能反映特征两两之间的线性相关程度，为了更加直观的探究各特征之间的相关性，使用散点图矩阵将特征进行两两之间的可视化。这里只选取数值型数据进行可视化

sns.pairplot(Combined_data.select_dtypes(exclude=['object']),height=3.5)

单独查看房价，经纬度和评论数量的散点图

fig,ax=plt.subplots(1,3,figsize=(16,5))
ax[0].scatter(x=data['number_of_reviews'],y=np.exp(data['price'])-1,alpha=.5)
ax[0].set_xlabel(xlabel='number_of_reviews')
ax[0].set_ylabel(ylabel='price')

ax[1].scatter(x=data['number_of_reviews'],y=data['longitude'],alpha=.5)
ax[1].set_xlabel(xlabel='number_of_reviews')
ax[1].set_ylabel(ylabel='longitude')

ax[2].scatter(x=data['number_of_reviews'],y=data['latitude'],alpha=.5)
ax[2].set_xlabel(xlabel='number_of_reviews')
ax[2].set_ylabel(ylabel='latitude')

分析：
1.总评论数(number_of_reviews)其实从一定程度上能够反映出房源受欢迎的程度。从上图可以看出，在房价500一下的房源相对拥有更多的评论，更受用户欢迎。同时，经度越靠近 -74.0~-73.9区间，维度越靠近40.7附近的房源，用于更多的评论。

2.房间的最小预定天数越小，房间则拥有更多的评论。

5.建模数据的准备

5.1 object数据哑变量处理

在建模之前首先需要对数据的类型进行处理，首先将分类数据进行哑变量处理。
使用pandas的get_dummies模块可以快速对所有的分类变量哑变量化。

object_features = data.select_dtypes(include=['object'])
object_features.columns

Index([‘neighbourhood_group’, ‘neighbourhood’, ‘room_type’], dtype=‘object’)

非数值化的特征主要有：neighbourhood_group，neighbourhood，room_type 三个。

object_features_oh=pd.get_dummies(object_features)
object_features_oh.head()

5.2 数据集准备

将第一步的哑变量和原数据集的所有数值型数据进行拼接。

#首先提取出所有的数值型数据
num_features = data.select_dtypes(exclude=['object'])
#将房价单独提出
y = num_features.loc[:,'price']
num_features.drop(columns=['price'],axis=1,inplace=True)
#拼接成新的数据集
new_data = pd.concat([num_features,object_features_ht,y],axis=1)
#获取columns列表
new_data.columns.tolist()

获取新数据集的形状

new_data.shape

(48827, 238)

5.3 将处理好的数据集存储

new_data.to_csv('Processed_AB_NYC2019.csv')

6.房价评估模型

6.1 训练集和测试集的准备

from sklearn.model_selection import train_test_split
Xtrain,Xtest,ytrain,ytest = train_test_split(X,y,test_size=0.2,random_state=42)
print(f'The shape of Xtrain:{Xtrain.shape}')
print(f'The shape of Xtest:{Xtest.shape}')
print(f'The shape of ytrain:{ytrain.shape}')
print(f'The shape of ytest:{ytest.shape}')

输出

The shape of Xtrain:(39061, 237)
The shape of Xtest:(9766, 237)
The shape of ytrain:(39061,)
The shape of ytest:(9766,)

6.2 数据的标准化

考虑到该数据集的值存在很多异常，所以选用RobustScaler进行标准化

from sklearn.preprocessing import scale,RobustScaler
y = data.iloc[:,-1]
X = data.iloc[:,:-1]
columns=X.columns.tolist()
scaler=RobustScaler()
X = pd.DataFrame(scaler.fit_transform(X),columns=columns)
X.head()

6.3对训练集数据进行交叉验证

为确保模型的精确度，避免由于训练集和测试集的数据交叉，引起模型得分虚高。这里采用的建模思想是：先对训练集进行建模和交叉验证以及调参，然后将调参后的最优模型用于测试集的预测，这样能最大程度避免过拟合现象的发生。

6.3.1 模型的选择

选择三种回归模型进行效果比对，分别是Ridge回归，Lasso回归，随机森林回归。

from sklearn.model_selection import cross_val_score
from sklearn.linear_model import Ridge,Lasso
from sklearn.ensemble import RandomForestRegressor

6.3.2 模型比对和选择

对比默认参数下，三种模型在训练集上的表现

#创建交叉验证评分函数，一个获得R方，一个获得mse
def r2_score(model):
    return cross_val_score(model,Xtrain,ytrain,cv=8)
def rmse_score(model):
    return cross_val_score(model,Xtrain,ytrain,scoring='neg_mean_squared_error',cv=8)

#三种模型效果对比
Model=[Ridge,Lasso,RandomForestRegressor]
for model in Model:
    cv_r2=r2_score(model())
    cv_rmse_score = rmse_score(model())
    name=str(model)
    print(f'The mean R^2 of cv {name} model:{cv_r2.mean()}')
    print(f'The mean rmse of cv {name} model:{-cv_rmse_score.mean()}')

The mean R^2 of cv model:0.5672412282287453
The mean rmse of cv model:0.20051572334599144
The mean R^2 of cv model:0.016420955110503968
The mean rmse of cv model:0.45571719193065025
The mean R^2 of cv model:0.5769691954139999
The mean rmse of cv model:0.194220010674006

Lasso模型的效果有点不太好，为减小工作量这里选择Ridge和随机回归森林模型。

6.3.3 Ridge模型调参

对alpha进行调参，alpha为Ridge模型的惩罚力度，alpha越大惩罚力度越大。

alpha=[i for i in range(5,50,5)]
r2_list=[]
rmse_list=[]
for i in alpha:
    ridge_r2_score=r2_score(Ridge(alpha=i))
    r2_list.append(ridge_r2_score.mean())
    ridge_rmse_score=-rmse_score(Ridge(alpha=i))
    rmse_list.append(ridge_rmse_score.mean())

%matplotlib inline
import matplotlib.style as style
style.use("ggplot")
fig,axes=plt.subplots(1,2,figsize=(14,6))
axes[0].plot(alpha, r2_list,'o-',color='blue')
axes[1].plot(alpha,rmse_list,'o-',color='red')
axes[0].set_xlabel("alpha")
axes[0].set_ylabel("$R^2$")
axes[1].set_xlabel("alpha")
axes[1].set_ylabel("$RMSE$")
plt.subplots_adjust(wspace=0.2,
                   hspace=0.2)
print(f'max R2 is{max(r2_list)},the alpah is {alpha[r2_list.index(max(r2_list))]}')
print(f'min RMSE is{min(rmse_list)},the alpah is {alpha[rmse_list.index(min(rmse_list))]}')

max R2 is0.5672822306807329,the alpah is 5
min RMSE is0.20049424573570954,the alpah is 5

alpha2 = np.linspace(0, 5, 10)
r2_list2=[]
rmse_list2=[]
for i in alpha2:
    ridge_r2_score=r2_score(Ridge(alpha=i))
    r2_list2.append(ridge_r2_score.mean())
    ridge_rmse_score=-rmse_score(Ridge(alpha=i))
    rmse_list2.append(ridge_rmse_score.mean())
    
fig,axes=plt.subplots(1,2,figsize=(14,4))
axes[0].plot(alpha2, r2_list2,'o-',color='blue')
axes[1].plot(alpha2,rmse_list2,'o-',color='red')

axes[0].set_xlabel("alpha")
axes[0].set_ylabel("$R^2$")
axes[1].set_xlabel("alpha")
axes[1].set_ylabel("$RMSE$")

plt.subplots_adjust(wspace=0.2,
                   hspace=0.2)
print(f'max R2 is{max(r2_list2)},the alpah is {alpha2[r2_list2.index(max(r2_list2))]}')
print(f'min RMSE is{min(rmse_list2)},the alpah is {alpha2[rmse_list2.index(min(rmse_list2))]}')

max R2 is0.5673563596111495,the alpah is 2.7777777777777777
min RMSE is0.2004607031077809,the alpah is 2.7777777777777777

Ridge模型alpha参数最好的取值为2.7，在sklearn库中，Ridge模型的主要参数就是alpha ，因此我们可以获得Ridge的最佳模型及数据集在该模型上的表现

from sklearn.metrics import mean_squared_error, balanced_accuracy_score
best_alpha = alpha2[np.argmax(r2_list2)]
ridge_best = r2_score(Ridge(alpha=best_alpha))
ridge_model = Ridge(alpha=best_alpha)
ridge_model = ridge_model.fit(Xtrain,ytrain)
predict_ytrain = ridge_model.predict(Xtrain)
predict_ytest = ridge_model.predict(Xtest)
ridge_results=pd.DataFrame({'algorithm':['Ridge Regression'],
                           'CV_ridge_r2:':ridge_best.mean(),
                            'train error:':mean_squared_error(predict_ytrain,ytrain),
                            'test error:':mean_squared_error(predict_ytest,ytest)
                           }
)
ridge_results

Ridge模型在测试集的MSE为0.2023

6.4 随机森林回归模型

默认参数模型评分

base_rfr_cv = r2_score(RandomForestRegressor(random_state=42))
base_rfr_model=RandomForestRegressor(random_state=42)
base_rfr_model = base_rfr_model.fit(Xtrain,ytrain)
rfr_predict_ytrain = base_rfr_model.predict(Xtrain)
rfr_predict_ytest = base_rfr_model.predict(Xtest)
base_rfr_result=pd.DataFrame({'model':['RandomForestRegressor'],
                'CV_rfr_r2:':base_rfr_cv.mean(),
                'train error:':mean_squared_error(rfr_predict_ytrain,ytrain),
                'test error:':mean_squared_error(rfr_predict_ytest,ytest)})
base_rfr_result

查看参数

base_rfr_model.get_params()

{‘bootstrap’: True,
‘criterion’: ‘mse’,
‘max_depth’: None,
‘max_features’: ‘auto’,
‘max_leaf_nodes’: None,
‘min_impurity_decrease’: 0.0,
‘min_impurity_split’: None,
‘min_samples_leaf’: 1,
‘min_samples_split’: 2,
‘min_weight_fraction_leaf’: 0.0,
‘n_estimators’: 10,
‘n_jobs’: None,
‘oob_score’: False,
‘random_state’: 42,
‘verbose’: 0,
‘warm_start’: False}

数据集的特征比较多逐个搜索工作量有点太大，考虑先用随机搜索RandomSearchCV探索一下

from sklearn.model_selection import  RandomizedSearchCV
n_estimators=[x for x in range(20,2000,20)]
max_depth=[x for x in range(1,10,1)]
max_features=['auto','sqrt']
min_samples_split=[2,4,7]
min_samples_leaf=[1,2,4]
bootstrap=[True,False]
random_grid={'n_estimators':n_estimators,
             'max_features':max_features,
             'max_depth':max_depth,
             'min_samples_split':min_samples_split,
             'min_samples_leaf':min_samples_leaf,
             'bootstrap':bootstrap
}
rf_random = RandomizedSearchCV(estimator=RandomForestRegressor(random_state=42), param_distributions = random_grid, n_iter=10, cv = 3, verbose=2, random_state=42)
rf_random.fit(Xtrain, ytrain)

查看随机搜索到的最佳模型

best_rfr=rf_random.best_estimator_
best_rfr

RandomForestRegressor(bootstrap=True, criterion=‘mse’, max_depth=7,
max_features=‘auto’, max_leaf_nodes=None,
min_impurity_decrease=0.0, min_impurity_split=None,
min_samples_leaf=2, min_samples_split=7,
min_weight_fraction_leaf=0.0, n_estimators=1960,
n_jobs=None, oob_score=False, random_state=42, verbose=0,
warm_start=False)

模型的n_estimators取1960，相对较大，用最佳模型建模看一下效果

rfr_best_score=r2_score(best_rfr)
rfr_best_model=best_rfr.fit(Xtrain,ytrain)
predict_ytrain_rfr=rfr_best_model.predict(Xtrain)
precict_ytest_rfr = rfr_best_model.predict(Xtest)
rfr_result=pd.DataFrame({'algorithm:':['RandomForestRegressor'],
                        'CV_rfr_r2:':rfr_best_score.mean(),
                        'train error:':mean_squared_error(predict_ytrain_rfr,ytrain),
                        'test error:':mean_squared_error(precict_ytest_rfr,ytest)}
                       )
rfr_result

模型的得分有所提高，但是效果并不是太好，考虑数据集其实存在有很多哑变量，特征比较多，所以考虑用特征选择的方式剔除一部分特征再进行建模看一下效果。

6.4.1 特征选择

为了数据的可解释性，就不用PCA了。

#对整体数据集进行标准化处理
columns=X.columns.tolist()
scaler=RobustScaler()
X = pd.DataFrame(scaler.fit_transform(X),columns=columns)
X.head()
#进行特征选择
from sklearn.feature_selection import VarianceThreshold
selector=VarianceThreshold(.9*(1-.9))
X_var = selector.fit_transform(X)
#获得筛选出特征的columns
X_var_columns = X.columns[selector.get_support(indices=True)]
X_var = pd.DataFrame(X_var,columns=X_var_columns)
X_var.head()

查看选出的特征。

X_var.columns

Index([‘latitude’, ‘longitude’, ‘minimum_nights’, ‘number_of_reviews’,
‘last_review’, ‘reviews_per_month’, ‘calculated_host_listings_count’,
‘availability_365’, ‘neighbourhood_group_Brooklyn’,
‘neighbourhood_group_Manhattan’, ‘neighbourhood_group_Queens’,
‘room_type_Entire home/apt’, ‘room_type_Private room’],
dtype=‘object’)

#再次进行训练集和测试集的划分
Xtrain,Xtest,ytrain,ytest = train_test_split(X,y,test_size=0.3,random_state=42)

6.4.2 随机森林模型调参

调参思想：
随机森林模型中重要的参数有 n_estimators, max_depth, max_features, min_sample_leaf， min_sample_split。
n_estimators 参数决定森林模型中树的数量，而其余参数决定每棵树的特征, 先对后几个参数进行调参，再调n_estimators 会在提高效率的同时得到相对更合理的模型。

首先对 max_depth, max_features, min_sample_leaf， min_sample_split 四个参数进行试探的交叉验证。

from sklearn.metrics import mean_squared_error
from sklearn.model_selection import GridSearchCV

#为避免警告信息，这里现将n_estimators设定为10.
n_estimators=[10]
max_depth=[i for i in range(5,10,2)]
max_features=[i for i in range(5,14,1)]
min_samples_leaf=[i for i in range(2,10,1)]
min_samples_split=[i for i in range(2,5,1)]
parameters = {
    'n_estimators':n_estimators,
    'max_depth':max_depth,
    'max_features':max_features,
    'min_samples_leaf':min_samples_leaf,
    'min_samples_split':min_samples_split
}
rfr = RandomForestRegressor(random_state=42)
GS=GridSearchCV(rfr,parameters,cv=3)
GS.fit(Xtrain,ytrain)

GS.best_params_

输出

{‘max_depth’: 9,
‘max_features’: 9,
‘min_samples_leaf’: 7,
‘min_samples_split’: 2,
‘n_estimators’: 10}

从交叉验证的结果来看，其实min_samples_split就不用调了，所以对其余的参数分布跑学习曲线。

首先，对max_depth跑学习曲线

train_score_list=[]
train_error_list=[]
test_score_list=[]
test_error_list=[]
for i in range(9,29,1):
    model = RandomForestRegressor(max_depth=i,random_state=42).fit(Xtrain,ytrain)
    train_score = model.score(Xtrain,ytrain)
    train_score_list.append(train_score)
    test_score = model.score(Xtest,ytest)
    test_score_list.append(test_score)
    predict_ytrain=model.predict(Xtrain)
    predict_ytest =model.predict(Xtest)
    train_error=mean_squared_error(predict_ytrain,ytrain)
    test_error = mean_squared_error(predict_ytest,ytest)
    train_error_list.append(train_error)
    test_error_list.append(test_error)

数据可视化

import matplotlib.style as style
style.use('ggplot')
x=[i for i in range(9,29,1)]
fig,ax=plt.subplots(2,2,figsize=(10,10))
ax[0][0].plot(x,train_score_list,'o-',linewidth=1.8 ,color='blue')
ax[0][0].set_xlabel(xlabel='n_estimators')
ax[0][0].set_ylabel(ylabel='R square of trainSet')

ax[0][1].plot(x,test_score_list,'o-',linewidth=1.8,color='blue')
ax[0][1].set_xlabel(xlabel='n_estimators')
ax[0][1].set_ylabel(ylabel='R square of testSet')

ax[1][0].plot(x,train_error_list,'o-',linewidth=1.8,color='green')
ax[1][0].set_xlabel(xlabel='n_estimators')
ax[1][0].set_ylabel(ylabel='mse of trainSet')

ax[1][1].plot(x,test_error_list,'o-',linewidth=1.8,color='green')
ax[1][1].set_xlabel(xlabel='n_estimators')
ax[1][1].set_ylabel(ylabel='mse of testSet')
plt.subplots_adjust(
#                     left=0.1
#                     , bottom=0.1
#                     ,right=0.2
#                     ,top=None
#                     ,
    wspace=0.3
                    ,hspace=0.2
                   )
print(f"The min testSet error is {min(test_error_list)} when max_depth = {x[np.argmin(test_error_list)]}")

The min testSet error is 0.1857647297734813 when max_depth = 10

可以看出当max_depth取10时在测试集是表现最好,当max_depth大于10后，随参数的增大，模型在测试集的表现逐渐下降。根据调参规则(偏差方差困境) 我们在此取max_depth=10。

接着，对max_features跑学习曲线

train_score_list2=[]
train_error_list2=[]
test_score_list2=[]
test_error_list2=[]
for i in range(1,14,1):
    model = RandomForestRegressor(max_depth=10,max_features=i,random_state=42).fit(Xtrain,ytrain)
    train_score = model.score(Xtrain,ytrain)
    train_score_list2.append(train_score)
    test_score = model.score(Xtest,ytest)
    test_score_list2.append(test_score)
    predict_ytrain=model.predict(Xtrain)
    predict_ytest =model.predict(Xtest)
    train_error=mean_squared_error(predict_ytrain,ytrain)
    test_error = mean_squared_error(predict_ytest,ytest)
    train_error_list2.append(train_error)
    test_error_list2.append(test_error)

import matplotlib.style as style
style.use('ggplot')
x=[i for i in range(1,14,1)]
fig,ax=plt.subplots(2,2,figsize=(10,10))
ax[0][0].plot(x,train_score_list2,'o-',linewidth=1.8 ,color='blue')
ax[0][0].set_xlabel(xlabel='n_estimators')
ax[0][0].set_ylabel(ylabel='R square of trainSet')

ax[0][1].plot(x,test_score_list2,'o-',linewidth=1.8,color='blue')
ax[0][1].set_xlabel(xlabel='n_estimators')
ax[0][1].set_ylabel(ylabel='R square of testSet')

ax[1][0].plot(x,train_error_list2,'o-',linewidth=1.8,color='green')
ax[1][0].set_xlabel(xlabel='n_estimators')
ax[1][0].set_ylabel(ylabel='mse of trainSet')

ax[1][1].plot(x,test_error_list2,'o-',linewidth=1.8,color='green')
ax[1][1].set_xlabel(xlabel='n_estimators')
ax[1][1].set_ylabel(ylabel='mse of testSet')
plt.subplots_adjust(
#                     left=0.1
#                     , bottom=0.1
#                     ,right=0.2
#                     ,top=None
#                     ,
    wspace=0.3
                    ,hspace=0.2
                   )
print(f"The min testSet error is {min(test_error_list2)} when max_depth = {x[np.argmin(test_error_list2)]}")

The min testSet error is 0.1844789788027811 when max_depth = 7

这里我们锁定max_features=7

min_samples_leaf 学习曲线

train_score_list3=[]
train_error_list3=[]
test_score_list3=[]
test_error_list3=[]
for i in range(6,20,1):
    model = RandomForestRegressor(max_depth=10,min_samples_leaf=i,max_features=7,random_state=42).fit(Xtrain,ytrain)
    train_score = model.score(Xtrain,ytrain)
    train_score_list3.append(train_score)
    test_score = model.score(Xtest,ytest)
    test_score_list3.append(test_score)
    predict_ytrain=model.predict(Xtrain)
    predict_ytest =model.predict(Xtest)
    train_error=mean_squared_error(predict_ytrain,ytrain)
    test_error = mean_squared_error(predict_ytest,ytest)
    train_error_list3.append(train_error)
    test_error_list3.append(test_error)

import matplotlib.style as style
style.use('ggplot')
x=[i for i in range(6,20,1)]
fig,ax=plt.subplots(2,2,figsize=(10,10))
ax[0][0].plot(x,train_score_list3,'o-',linewidth=1.8 ,color='blue')
ax[0][0].set_xlabel(xlabel='n_estimators')
ax[0][0].set_ylabel(ylabel='R square of trainSet')

ax[0][1].plot(x,test_score_list3,'o-',linewidth=1.8,color='blue')
ax[0][1].set_xlabel(xlabel='n_estimators')
ax[0][1].set_ylabel(ylabel='R square of testSet')

ax[1][0].plot(x,train_error_list3,'o-',linewidth=1.8,color='green')
ax[1][0].set_xlabel(xlabel='n_estimators')
ax[1][0].set_ylabel(ylabel='mse of trainSet')

ax[1][1].plot(x,test_error_list3,'o-',linewidth=1.8,color='green')
ax[1][1].set_xlabel(xlabel='n_estimators')
ax[1][1].set_ylabel(ylabel='mse of testSet')
plt.subplots_adjust(
#                     left=0.1
#                     , bottom=0.1
#                     ,right=0.2
#                     ,top=None
#                     ,
    wspace=0.3
                    ,hspace=0.2
                   )
print(f"The min testSet error is {min(test_error_list3)} when min_samples_leaf = {x[np.argmin(test_error_list3)]}")

The min testSet error is 0.18379781652811114 when min_samples_leaf = 18

至此，我们将max_depht, max_features,min_samples_leaf 的最佳取值都锁定了。
检验一下此时模型的效果

model = RandomForestRegressor(max_depth=10,max_features=7,min_samples_leaf=18,random_state=42).fit(Xtrain,ytrain)
print(f'train Score is {model.score(Xtrain,ytrain)}')
print(f'test Score is {model.score(Xtest,ytest)}')
print(f'train mse is {mean_squared_error(model.predict(Xtrain),ytrain)}')
print(f'train mse is {mean_squared_error(model.predict(Xtest),ytest)}')

train Score is 0.636881329970346
test Score is 0.5984682836550419
train mse is 0.1687768411375859
train mse is 0.18379781652811114

对 n_estimators 进行调参
这里一共调整了两次，只展示最后一次调参结果

n_estimators=[i for i in range(30,60,1)]
train_score_list5=[]
test_score_list5=[]
train_error_list5=[]
test_error_list5=[]

for i in n_estimators:
    rfr = RandomForestRegressor(random_state=42,n_estimators=i,max_depth=10,max_features=7,min_samples_leaf=18)
    rfr = rfr.fit(Xtrain,ytrain)
    train_score_list5.append(rfr.score(Xtrain,ytrain))
    test_score_list5.append(rfr.score(Xtest,ytest))
    predict_ytrain = rfr.predict(Xtrain)
    predict_ytest = rfr.predict(Xtest)
    mse_train=mean_squared_error(predict_ytrain,ytrain)
    mse_test=mean_squared_error(predict_ytest,ytest)
    train_error_list5.append(mse_train)
    test_error_list5.append(mse_test)

#可视化
import matplotlib.style as style
style.use('ggplot')
x=[i for i in range(30,60,1)]
fig,ax=plt.subplots(2,2,figsize=(10,10))
ax[0][0].plot(x,train_score_list5,'o-',linewidth=1.8 ,color='blue')
ax[0][0].set_xlabel(xlabel='n_estimators')
ax[0][0].set_ylabel(ylabel='R square of trainSet')

ax[0][1].plot(x,test_score_list5,'o-',linewidth=1.8,color='blue')
ax[0][1].set_xlabel(xlabel='n_estimators')
ax[0][1].set_ylabel(ylabel='R square of testSet')

ax[1][0].plot(x,train_error_list5,'o-',linewidth=1.8,color='green')
ax[1][0].set_xlabel(xlabel='n_estimators')
ax[1][0].set_ylabel(ylabel='mse of trainSet')

ax[1][1].plot(x,test_error_list5,'o-',linewidth=1.8,color='green')
ax[1][1].set_xlabel(xlabel='n_estimators')
ax[1][1].set_ylabel(ylabel='mse of testSet')
plt.subplots_adjust(
#                     left=0.1
#                     , bottom=0.1
#                     ,right=0.2
#                     ,top=None
#                     ,
    wspace=0.3
                    ,hspace=0.2
                   )
print(f"The min testSet error is {min(test_error_list5)} when min_samples_leaf = {x[np.argmin(test_error_list5)]}")

The min testSet error is 0.18247448503812982 when min_samples_leaf = 46

n_estimators>37后，随着其值的增大，测试集误差呈现在一个幅度内上下波动，可以认为 n_estimators 对模型的提升基本已经达到一个极限的状态，我们取test set 的误差最小参数点 n_estimators=46。

6.4.3 随机森林回归最终模型

模型的评分

model_best = RandomForestRegressor(max_depth=10,max_features=7,min_samples_leaf=18,random_state=42,n_estimators=46).fit(Xtrain,ytrain)
print(f'train Score is {model_best.score(Xtrain,ytrain)}')
print(f'test Score is {model_best.score(Xtest,ytest)}')
print(f'train mse is {mean_squared_error(model_best.predict(Xtrain),ytrain)}')
print(f'train mse is {mean_squared_error(model_best.predict(Xtest),ytest)}')

train Score is 0.64125163033465
test Score is 0.6013592840733427
train mse is 0.16674553415397791
train mse is 0.18247448503812982

可以看出，经过调参，模型的性能得到了一定程度的提升。

6.4.4 模型的评估效果

查看真实房价和预测值之间的误差的分布

predict_ytest = model_best.predict(Xtest)
predict_error = np.abs(predict_ytest-ytest)
percent=("%.3f"%(predict_error[predict_error<1].shape[0]/predict_error.shape[0]))
fig,ax=plt.subplots(figsize=(16,8))
import seaborn as sns
sns.distplot(d,ax=ax,color='blue',bins=40)
print(f"Prediction with residual less than 1:{float(percent)*100}%")

Prediction with residual less than 1:97.3%

预测房价和真实房价的绝对残差有百分之97在1之内。

fig,ax=plt.subplots(figsize=(8,8))
plt.scatter(x=ytest,y=predict_ytest,alpha=.6,color='blue')
plt.plot(np.arange(3,8),np.arange(3,8),c='red')
plt.plot(np.arange(3,8),np.arange(2,7),c='green',linestyle='--')
plt.plot(np.arange(3,8),np.arange(4,9),c='green',linestyle='--')
ax.set_xlabel(xlabel="testSet-y")
ax.set_ylabel(ylabel="predict-y")
ax.text(x=6,y=7.2,s="$predict_y = Test_y$",rotation=40,fontsize=12)
ax.text(x=5.5,y=8,s="$predict_y -1 = Test_y$",rotation=40,fontsize=12)
ax.text(x=3.5,y=3.4,s="$predict_y + 1 = Test_y$",rotation=40,fontsize=12)

6.5 影响房价的主要特征讨论

importance = model_best.feature_importances_
columns = Xtrain.columns
s = pd.Series(data=importance,index=columns)
s.sort_values(ascending=False)

room_type_Entire home/apt 0.426642
room_type_Private room 0.186533
longitude 0.132072
latitude 0.074411
availability_365 0.047946
neighbourhood_group_Manhattan 0.046079
minimum_nights 0.027121
number_of_reviews 0.013550
calculated_host_listings_count 0.013535
last_review 0.013114
reviews_per_month 0.012218
neighbourhood_group_Brooklyn 0.005753
neighbourhood_group_Queens 0.001028
dtype: float64

结果显示，对房价影响因素最大的，其实是房间的类型，其次是经纬度，然后是可预订的天数及是否在曼哈顿区等等。

7.结论

曼哈顿区和布鲁克林区的房源最多
房间类型主要以整栋房间和单间为主
房价低于500，经度靠近 -73.9 ~ -74.0 区域，维度靠近40.7左右的房源更受游客欢迎
对房价影响因素最大的，其实是房间的类型，其次是经纬度，然后是可预订的天数及是否在曼哈顿区等等。

你可能感兴趣的:(数据分析项目)

数据分析项目——物流数据行业数据分析 ~在杰难逃~ 数据分析数据挖掘 python numpy pandas 大数据
提升自己，掌握数据分析的能力，最快的方式就是实践！这里又是一个经典的数据分析项目——物流数据行业数据分析，有需要项目配套数据集的可以关注私信我免费获取(●'◡'●)PS：本文中全部代码都在JupyterNotebook中编写完成，可以使用JupyterNotebook或者JupyterLab直接运行。数据来源：某企业销售的6种商品所对应的送货及用户反馈数据首先我们还是确定下我们需要做些什么一、解决
【摸鱼笔记】python 提取和采集 finereport 未绑定目录的报表模板 The_Singing_Towers 笔记 python 开发语言
背景在企业应用过程中，报表一般会按照数据分析的主题、项目将多个报表放在一处，一些图表类报表会有通过超链接等方式，跳转到对应的明细报表中。并且在正式的使用中，这些报表不会绑定到目录。在梳理数据分析项目使用情况时这些报表会难以辨认所属的项目，因为即使按照很标准的方式【将同一项目的报表放在同一目录】也会有数据分析项目相互包含的问题影响梳理的工作量。同时在finelogDB的访问记录中displayNam
php案例分析百度云_基于阿里云平台的大数据教学案例 —— B站弹幕数据分析 weixin_39892311 php案例分析百度云
简介：实验基于所学的大数据处理知识，结合阿里云大数据相关产品，分组完成一个大数据分析项目，数据集可以使用开源数据集或自行爬取，最终完成一个完整的实验报告：1、能够使用阿里云大数据相关产品完成数据分析、数据建模与模型优化2、能够基于分析结构构建可视化门户或可视化大屏，分析和呈现不少于5个3、分析案例有实用价值并能够形成有效结论4、能够将开源技术与阿里云产品结合，综合利用提升开发效率，降低成本5、能够
49Kaggle 数据分析项目入门实战--绝地求生游戏最终排名预测 Jachin111
绝地求生介绍相信很多都玩过绝地求生这款游戏，其游戏规则主要是将100名玩家空手被扔到一个岛上，这些玩家必须探索、寻找、消灭其他玩家，直到只剩下一个玩家活着。绝地求生很受欢迎。这款游戏销量目前超过5000万份，是有史以来销量排名前五的游戏，每月有数百万活跃玩家。而我们本次实验的任务就是根据玩家在游戏中的种种表现来预测出其在最终的排名。导入数据并预览首先安装实验需要的statsmodels包。!pip
python3 数据分析项目案例,python数据分析报告范文 2301_81895949 oracle
这篇文章主要介绍了python3数据分析项目案例，具有一定借鉴价值，需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获，下面让小编带着大家一起了解一下。1需求分析随着科学技术的不断发展，信息流通日益方便，信息数据不断膨胀，充斥在各行各业。由于数据非常庞大，所以即使在搜索引擎存在的情况下，搜索结果的准确率也不高，这使得在网上查找关键有效信息也变为一项极具挑战性的复杂任务python编程代码画哆啦
小白Pycharm使用（6）：如何使用 Python 开始建立你的数据分析项目程序员八阿哥
python开发新手工具网盘地址下载链接：http://pan.baidu.com/s/1eS8WMR4密码：7esopycharm中文版包网盘地址下载链接：http://pan.baidu.com/s/1dEVkPtn密码：mzetpycharm注册码http://idea.qinxi1992.cnhttp://intellij.mandroid.cn（或http://idea.imsxm.co
让你能进“大厂”的数据分析项目是长怎样？全套路线（建议收藏）悠玩编程编程语言大数据数据分析 java 人工智能
《算法+数据结构》全套路线（建议收藏）前言所谓活到老，学到老，虽然我感觉自己已经学了很多算法了，但是昨天熬夜整理完以后发现，自己还是个弟弟，实在忍不住了，打算把算法学习路线发出来，我把整个算法学习的阶段总结成了五个步骤，分别为：基础语法学习、语法配套练习、数据结构、算法入门、算法进阶。本文梳理了这五个大项的思维导图，在下文会有详细介绍。希望各位能够找到自己的定位，通过自己的努力在算法这条路
基于北京二手房价数据的探索性数据分析和房价评估——项目设计和数据的获取快乐的冲浪码农数据分析数据分析决策树
数据分析项目——北京二手房价数据分析第一步：项目设计和获取数据（获取实验的数据集！！）第二步：数据读取和数据预处理第三步：数据的可视化分析第四步：构建房价评估模型（决策树、随机森林等）整个项目的代码和数据集获取：https://github.com/Proberen/Data-analysis___Beijing__Houseprice该项目的设计思路：
50Kaggle 数据分析项目入门实战--分销商产品未来销售情况预测 Jachin111
分销商产品未来销售情况预测未来销售额预测介绍对于一个产品来说，其未来销售额的预测是一个重要的指标，也是一项重要的任务。例如，对于一部苹果手机来说。在上市之前，得先对销售额进行预测，才能确定出货量的大小。本次实验来源于Kaggle上的一个挑战，即：未来销售额预测，由俄罗斯的1C-Company软件分销公司发起，并提供数据。而本次实验的任务就是根据提供的数据，包含商品类别、商品名称、商店等信息和商品的
大数据分析案例-基于随机森林算法构建电影票房预测模型艾派森大数据分析案例合集 python 机器学习数据分析随机森林人工智能
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+喜欢大数据分析项目的小伙伴，希望可以多多支持该系列的其他文章大数据分析案例合集大数据分析案例-基于随机森林算法预测人类预期寿命大数据分析案例-基于随机森林算法的商品评价情感分析大数据分析案例-用RFM模型对客户价值分析(聚类)大数据分析案例-对电信客户流失
我的第一个数据分析项目——51job“数据分析”岗位分析（数据清洗篇二）大力SAMA
一、工作经验字段完善虽然概要描述中显示无工作经验，但实际职位描述中仍旧要求工作经验，因此要把职位描述中的内容取出来更新到工作经验这一列。网页数据显示excel数据显示代码如下：#-*-coding:utf-8-*-"""CreatedonWedSep1213:05:272018@author:shirley"""fromopenpyxlimportload_workbookimportrepath
看书笔记【R语言数据分析项目精解：理论、方法、实战 8】小胡涂记 R语言资料实现笔记 r语言数据分析
看书笔记——R语言Chapter8从数据中寻找优质用户8.1项目背景、目标和方案8.1.1项目背景8.1.2项目目标8.1.3项目方案8.2项目技术理论简介8.2.1逻辑回归的基本概念8.2.2建模流程1.模型开发2.模型验证阶段3.模型测试阶段4.模型实施阶段8.2.3模型开发阶段1.数据采样2.数据探索3.数据填缺4.离散型变量压缩5.连续型变量压缩6.变量筛选（用到的时候再细看一下，主要是权
看书标记【R语言数据分析项目精解：理论、方法、实战 7】小胡涂记 R语言资料实现 r语言数据分析开发语言
看书标记——R语言Chapter7构建用户画像7.1项目背景、目标和方案7.1.1项目背景7.1.2项目目标7.2项目技术理论简介7.2.1用户画像的基本概念7.2.2用户画像应用领域7.2.3用户画像分类7.2.4用户画像构建1.数据源2.用户画像构建粒度3.用户画像构建抽象方法4.用户画像标签创建流程5.用户画像标签构建难点7.2.5用户画像标签的数值处理方法1.数值归一化2.连续型数值的离散
看书标记【R语言数据分析项目精解：理论、方法、实战 6】小胡涂记 R语言资料实现 r语言数据分析开发语言
看书标记——R语言Chapter6变量筛选技术6.1项目背景、目标和方案6.1.1项目背景6.1.2项目目标6.1.3项目方案6.2项目技术简介6.2.1变量相关性1.定类变量和定类变量2.定序变量与定类变量3.定距（连续型）变量与定距变量4.定类变量与定序变量6.2.2变量筛选1．基于变量距离的层次聚类2.基于变量距离的模糊聚类6.2.3变量降维1.主成分分析（PCA）2.因子分析6.2.4R语
看书标记【R语言数据分析项目精解：理论、方法、实战 3】小胡涂记 R语言资料实现 r语言数据分析开发语言
看书标记——关于R语言chapter3互联网运营指标的建立3.1项目背景、目标及方案3.1.1项目背景3.1.2项目目标3.1.3项目方案3.2项目技术理论简介3.2.1骨灰级流量指标1.PV（pageviews访问页面数）2.UV（UniqueVistors唯一访问人数）3.Visit(会话)3.2.2登录和激活3.2.3访问深度和吸引力1.PV/Visit2.Vist/UV3.Duration
数据分析项目｜淘宝用户行为分析（Python+可视化）程序员小猴紫 python 编程数据分析 python 数据分析用户分析
一、认识数据了解数据的来源、字段等信息1.1数据来源及介绍本数据来源于阿里云天池，是其随机选择约100万用户在2017年11月25日至12月3日之间发生的行为记录，具有包括点击、购买、加购物车和收藏商品的行为。数据集的每一行表示一条用户行为，由用户ID、商品ID、商品类目ID、行为类型和时间戳组成，并以逗号分隔。1.2数据格式二、提出问题针对不同的数据提出问题，总结分析思路了解到所给数据集只有5个
看书标记【R语言数据分析项目精解：理论、方法、实战 9】小胡涂记 R语言资料实现 r语言数据分析开发语言
看书标记——R语言Chapter9文本挖掘——点评数据展示策略9.1项目背景、目标和方案9.1.1项目背景9.1.2项目目标9.1.3项目方案1.建立评论文本质量量化指标2.建立用户相似度模型3.对用户评论进行情感性分析9.2项目技术理论简介9.2.1评论文本质量量化指标模型1.主题覆盖量2.评论文本分词数量3.评论点赞数4.评论中的照片数5.评论分值偏移9.2.2用户相似度模型1.pearson
从数据角度分析年龄与NBA球员赛场表现的关系【数据分析项目分享】报告，今天也有好好学习数据分析数据分析 pandas 数据可视化数据分析案例数据分析项目
好久不见朋友们，今天给大家分享一个我自己很感兴趣的话题分析——NBA球员表现跟年龄关系到底大不大？数据来源于Kaggle，感兴趣的朋友可以点赞评论留言，我会将数据同代码一起发送给你。目录NBA球员表现的探索性数据分析导入Python库和加载数据数据简要概述数据可视化年龄与上场时间的比较年龄与出场次数相比较年龄与PER相比较结论NBA球员表现的探索性数据分析美国国家篮球协会(NBA)中有各个年龄段的
olist巴西电商数据分析项目 sql+tableau @程序媛有个猫 sql
一、分析背景巴西Olist是当地电商平台，本数据集包含2016年9月-2018年8月的数据，本文将通过对平台的整体情况、用户、商家、产品、销售五个方面分析平台的经营状况，目的是为了发现平台可能存在的问题，分析可能的原因并给出建议。数据链接：https://www.kaggle.com/jainaashish/orders-merged数据字段说明：1、product_id：商品ID2、seller
Python多线程爬虫——数据分析项目实现详解雪碧有白泡泡粉丝福利活动 python 爬虫开发语言
前言「作者主页」：雪碧有白泡泡「个人网站」：雪碧的个人网站ChatGPT体验地址文章目录前言爬虫获取cookie网站爬取与启动CSDN爬虫爬虫启动将爬取内容存到文件中多线程爬虫选择要爬取的用户线程池爬虫爬虫是指一种自动化程序，能够模拟人类用户在互联网上浏览网页、抓取网页内容、提取数据等操作。爬虫通常用于搜索引擎、数据挖掘、网络分析、竞争情报、用户行为分析等领域。我们以爬取某个用户的博文列表并存储到
Python Pandas 数据分析项目实例 weixin_42098295 python pandas 数据分析
假设我们有一个电子商务公司的销售数据，包含了客户购买记录、商品价格、购买日期等信息。我们的目标是分析这些数据，提取有价值的信息，例如总销售额、最畅销的产品、销售趋势等。1、安装引用Pandas如没有安装Pandas，可以通过pip安装它。参考下面的文档。然后在Python脚本或Jupyter笔记本中导入Pandas。参考文档：PythonPandas安装和设置2、加载数据使用Pandas加载数据。
基于 Python 的数据分析与可视化百事没事阿 python 数据分析开发语言自动化数据挖掘学习 windows
学好数据分析，可以干什么呢？第一，用于实现自动化办公，解放自我。比如：可以使用Python读取Excel、CSV等格式的数据文件，进行数据清洗、转换、计算等操作，进行自动化数据处理。可以使用Python读取Word、PDF等格式的文档文件，进行文本提取、格式修改、内容替换等操作，进行自动化文档处理。第二，用于企业研发，数据建模必备技能。针对日益复杂的项目需求，很多企业数据分析项目需要高阶数学建模，
统计案例 | 统计数据会说谎？写代码的阿呆统计案例统计学统计案例被平均均值估计统计数据会说谎
统计案例|统计数据会说谎？一、前言二、统计和数学的关系？三、统计数据会说谎？四、写在最后—大咖说统计！一、前言各位小伙伴好，小编在今年将会推出【统计案例】系列文章，目的是通过一系列的实际案例（经典统计案例+小编实际参与的数据分析项目）来洞悉这些案例背后所体现的“统计思维”，一方面可以培养自己基于实际案例的统计思维，另一方面对于后续希望从事统计相关工作的同学也会有所裨益（毕竟好的统计思维是通用的），
MySQL+Excel数据分析项目：淘宝母婴购物分析材哥儿数据分析信息可视化数据挖掘 mysql excel 数据库机器学习
项目简介：随着互联网的发展和人口日益增长，人们对于母婴产品的需求不断增加，淘宝作为中国最大的电子商务平台之一，在母婴商品领域拥有大量的用户和丰富的购物数据。深入分析这些数据可以帮助商家了解用户行为和需求，优化产品和服务，提升用户体验和市场竞争力。1.分析目的通过数据分析和可视化展示，充分挖掘数据的价值，让数据更好地为业务服务，可作如下分析：销量分析：年/季度/月/日的商品销量关系产品分析：商品销量
Excel数据分析项目实战材哥儿数据分析数据挖掘 excel
项目模拟：boss说：你给我分析最近店铺的销售情况，以及如何提升.然后发给我一份销售表此时就需要数据分析师来完成boss提出的需求了.根据数据分析流程：数据分析流程-CSDN博客逐步完成即可.1.分析目的很明显，boss所提的需求太泛化，此时就需要剖解需求，细分需求.对于问题：最近店铺的销售情况结合给的销售表，可将问题分解为多个维度：时间，空间，其他时间维度与销售额，销量的关系空间维度与销售额，销
数据分析面试应该准备什么？ CDA·数据分析师数据分析
2020年6月求职季，虽然受到疫情的影响，但是也挡不住各位小伙伴，找工作的热情。目前，数据分析行业大火，相信很多小伙伴都想去这一行业试试水。想要成功进入数据分析行业，就必须得通过数据分析面试，面试应该准备什么，怎么准备，各位小伙伴都知道吗?1.简历大家都知道面试一定要带简历，那么怎样才能制作出一份让面试官满意的简历呢。这里小编建议大家可以试试STAR法则，可以着重凸显出自己在数据分析项目中取得的成
数据分析入门准备小跳蛙leapfrog 数据分析数据挖掘人工智能
目标：数据挖掘，数据分析偏数据挖掘方向春招找到工作，11月找到实习入门参考资料：1.数据分析求职面试指南拿下Offer：数据分析师求职面试指南（掌阅）2.stone教你如何做数据分析项目Stone教你如何做数据分析项目（上）_哔哩哔哩_bilibili计划：三天看完并修改简历
大数据分析案例-基于LinearRegression回归算法构建房屋价格预测模型艾派森大数据分析案例合集机器学习人工智能数据挖掘数据分析回归
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+喜欢大数据分析项目的小伙伴，希望可以多多支持该系列的其他文章大数据分析案例合集大数据分析案例-基于随机森林算法预测人类预期寿命大数据分析案例-基于随机森林算法的商品评价情感分析大数据分析案例-用RFM模型对客户价值分析(聚类)大数据分析案例-对电信客户流失
全球海洋数据 (GLODAP) v2.2023(海洋碳数据产品) 此星光明 GEE数据集专栏人工智能 javascript 算法
全球海洋数据分析项目(GLODAP)v2.2023¶全球海洋数据分析项目(GLODAP)v2.2023代表了海洋生物地球化学瓶数据合成方面的重大进步。此更新主要关注海水无机碳化学，以GLODAPv2.2022为基础，包含多项关键增强功能。值得注意的是，增加了43条新航线，以将数据集的覆盖范围扩大到2020年。数据质量控制过程涉及删除温度缺失的条目。此外，每次巡航都包含数字对象标识符(DOI)，增强
互联网加竞赛基于LSTM的天气预测 - 时间序列预测 Mr.D学长 python java
0前言优质竞赛项目系列，今天要分享的是机器学习大数据分析项目该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1数据集介绍df=pd.read_csv(‘/home/kesci/input/jena1246/jena_climate_2009_2016.csv’)df.head()如上
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb