天阑之蓝

Kaggle数据分析入门之--酒店预订需求

1.需求分析
2.数据信息查看和数据清洗
3.数据分析(数据可视化)

3.1入住率和取消数
3.2 酒店人均价格
3.3查看月度人流量

3.4餐食选择

3.5居住时长
3.6提前预定时长

4.进行各属性的分辨，哪个更重要
5.特征模型训练
6.评价特征的重要性

1.需求分析

是否可以根据之前取消的预订情况来预测酒店预订的可能性？

2.数据信息查看和数据清洗

我们使用pandas来查看数据文件，数据文件在https://www.kaggle.com/jessemostipak/hotel-booking-demand，下载一个csv文件。

import pandas as pd
data = pd.read_csv('C:\\Users\\Administrator\\Desktop\\kaggle\\hotel-booking-demand\\hotel_bookings.csv')
data

通过jupyter notebook查看数据信息

data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 119390 entries, 0 to 119389
Data columns (total 32 columns):
 #   Column                          Non-Null Count   Dtype  
---  ------                          --------------   -----  
 0   hotel                           119390 non-null  object 
 1   is_canceled                     119390 non-null  int64  
 2   lead_time                       119390 non-null  int64  
 3   arrival_date_year               119390 non-null  int64  
 4   arrival_date_month              119390 non-null  object 
 5   arrival_date_week_number        119390 non-null  int64  
 6   arrival_date_day_of_month       119390 non-null  int64  
 7   stays_in_weekend_nights         119390 non-null  int64  
 8   stays_in_week_nights            119390 non-null  int64  
 9   adults                          119390 non-null  int64  
 10  children                        119386 non-null  float64
 11  babies                          119390 non-null  int64  
 12  meal                            119390 non-null  object 
 13  country                         118902 non-null  object 
 14  market_segment                  119390 non-null  object 
 15  distribution_channel            119390 non-null  object 
 16  is_repeated_guest               119390 non-null  int64  
 17  previous_cancellations          119390 non-null  int64  
 18  previous_bookings_not_canceled  119390 non-null  int64  
 19  reserved_room_type              119390 non-null  object 
 20  assigned_room_type              119390 non-null  object 
 21  booking_changes                 119390 non-null  int64  
 22  deposit_type                    119390 non-null  object 
 23  agent                           103050 non-null  float64
 24  company                         6797 non-null    float64
 25  days_in_waiting_list            119390 non-null  int64  
 26  customer_type                   119390 non-null  object 
 27  adr                             119390 non-null  float64
 28  required_car_parking_spaces     119390 non-null  int64  
 29  total_of_special_requests       119390 non-null  int64  
 30  reservation_status              119390 non-null  object 
 31  reservation_status_date         119390 non-null  object 
dtypes: float64(4), int64(16), object(12)
memory usage: 29.1+ MB

初步分析有32列数据，其中存在有缺失值，有contry、agent等。
接下来对缺失数据进行查看：

data.isnull().sum()[data.isnull().sum()!=0]

children         4
country        488
agent        16340
company     112593
dtype: int64

其中有四项信息存在缺失值，company缺失较多，可以考虑删除，children和country、agent较少，可以考虑填充。

处理方法：

假设agent中缺失值代表未指定任何机构，即nan=0
country则直接使用其字段内众数填充
childred使用其字段内众数填充
company因缺失数值过大，且其信息较杂（单个值分布太多），所以直接删除

首先删除company列：

data_new = data.copy(deep = True)
data_new.drop("company", axis=1, inplace=True)

然后对children和country、agent进行填充。
查看children和country、agent的信息

data[['children','agent','country']]

数据插入：

data_new["agent"].fillna(0, inplace=True)
data_new["children"].fillna(data_new["children"].mode()[0], inplace=True)
data_new["country"].fillna(data_new["country"].mode()[0], inplace=True)

再次查看信息：data_new.info()

这里还需要数据异常值的处理：为什么知道这个异常值呢，可以通过后面的计算错误得到这个东西。在后面计算人均价格的时候，如果总人数和为0的情况，则会有异常，所以需要处理异常值
需要对此数据集中异常值为那些总人数（adults+children+babies)为0的记录，同时，因为先前已指名“meal”中“SC”和“Undefined”为同一类别，因此也需要处理一下。

data_new["children"] = data_new["children"].astype(int)
data_new["agent"] = data_new["agent"].astype(int)

data_new["meal"].replace("Undefined", "SC", inplace=True)
# 处理异常值
# 将 变量 adults + children + babies == 0 的数据删除
zero_guests = list(data_new["adults"] +
                  data_new["children"] +
                  data_new["babies"] == 0)
# hb_new.info()
data_new.drop(data_new.index[zero_guests], inplace=True)

3.数据分析(数据可视化)

因为是酒店的需求分析，那我们需要去寻找各个属性之间的关系，以及与结果之间(是否取消)的关系。
我们首先看一下入住率和取消数。

3.1入住率和取消数

fig = plt.figure()
fig.set(alpha=0.2)  # 设定图表颜色alpha参数
data_new.is_canceled.value_counts().plot(kind='bar')# 柱状图 
plt.title(u"取消预订情况 (1为取消预订)") # 标题
plt.ylabel(u"酒店数")  
cancel = data_new.is_canceled.value_counts()
Sum=cancel.sum()
count=0
for i in cancel:   # 显示百分比
    plt.text(count,i+0.5, str('{:.2f}'.format(cancel[count]/Sum *100)) +'%', \
    ha='center') #位置，高度，内容，居中
    count= count + 1
plt.show()

可以看出取消率为37%，入住率为63%左右。
这只是一个基本分析，然后查看不同酒店的入住率与取消率。

rh_iscancel_count = data_new[data_new["hotel"]=="Resort Hotel"].groupby(["is_canceled"])["is_canceled"].count()
ch_iscancel_count = data_new[data_new["hotel"]=="City Hotel"].groupby(["is_canceled"])["is_canceled"].count()

rh_cancel_data = pd.DataFrame({"hotel": "度假酒店",
                              "is_canceled": rh_iscancel_count.index,
                              "count": rh_iscancel_count.values})

ch_cancel_data = pd.DataFrame({"hotel": "城市酒店",
                              "is_canceled": ch_iscancel_count.index,
                              "count": ch_iscancel_count.values})
iscancel_data = pd.concat([rh_cancel_data, ch_cancel_data], ignore_index=True)
plt.figure(figsize=(12, 8))

cmap = plt.get_cmap("tab20c")
outer_colors = cmap(np.arange(2)*4)
inner_colors = cmap(np.array([1, 2, 5, 6]))

w , t, at = plt.pie(hb_new["is_canceled"].value_counts(), autopct="%.2f%%",textprops={"fontsize":18},
                   radius=0.7, wedgeprops=dict(width=0.3), pctdistance=0.75, colors=outer_colors)
plt.legend(w, ["未取消预定", "取消预定"], loc="upper right", bbox_to_anchor=(0, 0, 0.2, 1), fontsize=12)


val_array = np.array((iscancel_data.loc[(iscancel_data.hotel=="城市酒店")&(iscancel_data.is_canceled==0), "count"].values,
       iscancel_data.loc[(iscancel_data.hotel=="度假酒店")&(iscancel_data.is_canceled==0), "count"].values,
       iscancel_data.loc[(iscancel_data.hotel=="城市酒店")&(iscancel_data.is_canceled==1), "count"].values,
       iscancel_data.loc[(iscancel_data.hotel=="度假酒店")&(iscancel_data.is_canceled==1), "count"].values))

w2, t2, at2 = plt.pie(val_array, autopct="%.2f%%",textprops={"fontsize":16}, radius=1,
       wedgeprops=dict(width=0.3), pctdistance=0.85, colors=inner_colors)
plt.title("不同酒店预定情况", fontsize=16)

bbox_props = dict(boxstyle="square,pad=0.3", fc="w", ec="k", lw=0.72)
kw = dict(arrowprops=dict(arrowstyle="-", color="k"), bbox=bbox_props, zorder=3, va="center")
for i, p in enumerate(w2):
#     print(i, p, sep="---")
    text = ["城市酒店", "度假酒店", "城市酒店", "度假酒店"]
    ang = (p.theta2 - p.theta1) / 2. + p.theta1
    y = np.sin(np.deg2rad(ang))
    x = np.cos(np.deg2rad(ang))
    horizontalalignment = {-1: "right", 1: "left"}[int(np.sign(x))]
    connectionstyle = "angle, angleA=0, angleB={}".format(ang)
    kw["arrowprops"].update({"connectionstyle": connectionstyle})
    plt.annotate(text[i], xy=(x, y), xytext=(1.15*np.sign(x), 1.2*y),
                horizontalalignment=horizontalalignment, **kw, fontsize=18)

3.2 酒店人均价格

接下来可以从人均价格入手，看看两家酒店的运营情况。

因为babies年龄过小，所以人均价格中未将babies带入计算。
$\frac{adr}{adults+children}$

此时来查看不同月份下的平均酒店价格，代码如下：

data_new["adr_pp"] = data_new["adr"] / (data_new["adults"] + data_new["children"])
full_data_guests = data_new.loc[data_new["is_canceled"] == 0] # only actual gusts
room_prices = full_data_guests[["hotel", "reserved_room_type", "adr_pp"]].sort_values("reserved_room_type")
room_price_monthly = full_data_guests[["hotel", "arrival_date_month", "adr_pp"]].sort_values("arrival_date_month")

ordered_months = ["January", "February", "March", "April", "May", "June", "July", "August",
                 "September", "October", "November", "December"]
month_che = ["一月", "二月", "三月", "四月", "五月", "六月", "七月", "八月", "九月", "十月", "十一月", "十二月", ]

for en, che in zip(ordered_months, month_che):
    room_price_monthly["arrival_date_month"].replace(en, che, inplace=True)
room_price_monthly["arrival_date_month"] = pd.Categorical(room_price_monthly["arrival_date_month"],
                                                         categories=month_che, ordered=True)
room_price_monthly["hotel"].replace("City Hotel", "城市酒店", inplace=True)
room_price_monthly["hotel"].replace("Resort Hotel", "度假酒店", inplace=True)
room_price_monthly.head(15)

plt.figure(figsize=(12, 8))
sns.lineplot(x="arrival_date_month", y="adr_pp", hue="hotel", data=room_price_monthly,
            hue_order=["城市酒店", "度假酒店"], ci="sd", size="hotel", sizes=(2.5, 2.5))
plt.title("不同月份人均居住价格/晚", fontsize=16)
plt.xlabel("月份", fontsize=16)
plt.ylabel("人均居住价格/晚", fontsize=16)
# plt.savefig("F:/文章/不同月份人均居住价格每晚")

这里可以看到处理异常值的必要性，否则会出现错误。

3.3查看月度人流量

# 查看月度人流量
rh_bookings_monthly = full_data_guests[full_data_guests.hotel=="Resort Hotel"].groupby("arrival_date_month")["hotel"].count()
ch_bookings_monthly = full_data_guests[full_data_guests.hotel=="City Hotel"].groupby("arrival_date_month")["hotel"].count()

rh_bookings_data = pd.DataFrame({"arrival_date_month": list(rh_bookings_monthly.index),
                                "hotel": "度假酒店",
                                "guests": list(rh_bookings_monthly.values)})
ch_bookings_data = pd.DataFrame({"arrival_date_month": list(ch_bookings_monthly.index),
                                "hotel": "城市酒店",
                                "guests": list(ch_bookings_monthly.values)})
full_booking_monthly_data = pd.concat([rh_bookings_data, ch_bookings_data], ignore_index=True)

ordered_months = ["January", "February", "March", "April", "May", "June", "July", "August",
                 "September", "October", "November", "December"]
month_che = ["一月", "二月", "三月", "四月", "五月", "六月", "七月", "八月", "九月", "十月", "十一月", "十二月"]

for en, che in zip(ordered_months, month_che):
    full_booking_monthly_data["arrival_date_month"].replace(en, che, inplace=True)

full_booking_monthly_data["arrival_date_month"] = pd.Categorical(full_booking_monthly_data["arrival_date_month"],
                                                      categories=month_che, ordered=True)

full_booking_monthly_data.loc[(full_booking_monthly_data["arrival_date_month"]=="七月")|\
                             (full_booking_monthly_data["arrival_date_month"]=="八月"), "guests"] /= 3
full_booking_monthly_data.loc[~((full_booking_monthly_data["arrival_date_month"]=="七月")|\
                             (full_booking_monthly_data["arrival_date_month"]=="八月")), "guests"] /= 2
plt.figure(figsize=(12, 8))
sns.lineplot(x="arrival_date_month",
            y="guests",
            hue="hotel", hue_order=["城市酒店", "度假酒店"],
            data=full_booking_monthly_data, size="hotel", sizes=(2.5, 2.5))
plt.title("不同月份平均旅客数", fontsize=16)
plt.xlabel("月份", fontsize=16)
plt.ylabel("旅客数", fontsize=16)
# plt.savefig("F:/文章/不同月份平均旅客数")

结合上述两幅图可以了解到：

在春秋两季城市酒店价格虽然高，但其入住人数一点也没降低，反而处于旺季；
而度假酒店在6-9月份游客数本身就偏低，可这个时间段内的价格却在持续上升，远高于其他月份；
不论是城市酒店还是度假酒店，冬季的生意都不是特别好。

3.4餐食选择

meal_data = data_new[["hotel", "is_canceled", "meal"]]
# meal_data

plt.figure(figsize=(12, 8))
plt.subplot(121)
plt.pie(meal_data.loc[meal_data["is_canceled"]==0, "meal"].value_counts(), 
        labels=meal_data.loc[meal_data["is_canceled"]==0, "meal"].value_counts().index, 
       autopct="%.2f%%")
plt.title("未取消预订旅客餐食选择", fontsize=16)
plt.legend(loc="upper right")

plt.subplot(122)
plt.pie(meal_data.loc[meal_data["is_canceled"]==1, "meal"].value_counts(), 
        labels=meal_data.loc[meal_data["is_canceled"]==1, "meal"].value_counts().index, 
       autopct="%.2f%%")
plt.title("取消预订旅客餐食选择", fontsize=16)
plt.legend(loc="upper right")

很明显，取消预订旅客和未取消预订旅客有基本相同的餐食选择，所以此特征在后面可以删掉。

3.5居住时长

那么在不同酒店居住的旅客通常会选择住几天呢？我们可以使用柱形图来看一下其时长的不同分布；

首先计算出总时长：总时长=周末停留夜晚数+工作日停留夜晚数

full_data_guests["total_nights"] = full_data_guests["stays_in_weekend_nights"] + full_data_guests["stays_in_week_nights"]

# 新建字段：total_nights_bin——居住时长区间
full_data_guests["total_nights_bin"] = "住1晚"
full_data_guests.loc[(full_data_guests["total_nights"]>1)&(full_data_guests["total_nights"]<=5), "total_nights_bin"] = "2-5晚"
full_data_guests.loc[(full_data_guests["total_nights"]>5)&(full_data_guests["total_nights"]<=10), "total_nights_bin"] = "6-10晚"
full_data_guests.loc[(full_data_guests["total_nights"]>10), "total_nights_bin"] = "11晚以上"

ch_nights_count = full_data_guests["total_nights_bin"][full_data_guests.hotel=="City Hotel"].value_counts()
rh_nights_count = full_data_guests["total_nights_bin"][full_data_guests.hotel=="Resort Hotel"].value_counts()

ch_nights_index = full_data_guests["total_nights_bin"][full_data_guests.hotel=="City Hotel"].value_counts().index
rh_nights_index = full_data_guests["total_nights_bin"][full_data_guests.hotel=="Resort Hotel"].value_counts().index

ch_nights_data = pd.DataFrame({"hotel": "城市酒店",
                               "nights": ch_nights_index,
                              "guests": ch_nights_count})
rh_nights_data = pd.DataFrame({"hotel": "度假酒店",
                               "nights": rh_nights_index,
                              "guests": rh_nights_count})
# 绘图数据
nights_data = pd.concat([ch_nights_data, rh_nights_data], ignore_index=True)
order = ["住1晚", "2-5晚", "6-10晚", "11晚以上"]
nights_data["nights"] = pd.Categorical(nights_data["nights"], categories=order, ordered=True)

plt.figure(figsize=(12, 8))
sns.barplot(x="nights", y="guests", hue="hotel", data=nights_data)
plt.title("旅客居住时长分布", fontsize=16)
plt.xlabel("居住时长", fontsize=16)
plt.ylabel("旅客数", fontsize=16)

plt.legend()

3.6提前预定时长

提前预定期对旅客是否选择取消预订也有很大影响，因为lead_time字段中的值分布多且散乱，所以使用散点图比较合适，同时还可以绘制一条回归线。

lead_cancel_data = pd.DataFrame(data_new.groupby("lead_time")["is_canceled"].describe())
# lead_cancel_data
# 因为lead_time中值范围大且数量分布不匀，所以选取lead_time>10次的数据（<10的数据不具代表性）
lead_cancel_data_10 = lead_cancel_data[lead_cancel_data["count"]>10]

y = list(round(lead_cancel_data_10["mean"], 4) * 100)

plt.figure(figsize=(12, 8))
sns.regplot(x=list(lead_cancel_data_10.index),
           y=y)
plt.title("提前预定时长对取消的影响", fontsize=16)
plt.xlabel("提前预定时长", fontsize=16)
plt.ylabel("取消数 [%]", fontsize=16)
# plt.savefig("F:/文章/提前预定时长对取消的影响")

可以明显看到：不同的提前预定时长确定对旅客是否取消预定有一定影响；

通常，越早预订，越容易取消酒店房间预定。

4.进行各属性的分辨，哪个更重要

可以利用data.corr()进行相关性的判断 #相关系数矩阵，即给出了任意两个变量之间的相关系数

cancel_corr = data_new.corr()["is_canceled"]
cancel_corr.abs().sort_values(ascending=False)[1:]

lead_time                         0.292876
total_of_special_requests         0.234877
required_car_parking_spaces       0.195701
booking_changes                   0.144832
previous_cancellations            0.110139
is_repeated_guest                 0.083745
adults                            0.058182
previous_bookings_not_canceled    0.057365
days_in_waiting_list              0.054301
agent                             0.046770
adr                               0.046492
babies                            0.032569
stays_in_week_nights              0.025542
adr_pp                            0.017808
arrival_date_year                 0.016622
arrival_date_week_number          0.008315
arrival_date_day_of_month         0.005948
children                          0.004851
stays_in_weekend_nights           0.001323

从上表中可以看到lead_time、total_of_special_requests 、required_car_parking_spaces、booking_changes 、previous_cancellations这五个特征影响最大。
这里需要对特征进行判断，哪些不必要，哪些是必要的。还有哪些特征我们没有包含，因为部分特征并不是以数值方式显示，所以在进行相关计算时，不能计算，这时我们也要考虑这些特征，比如"reservation_status"（预订状态），这个我们应当考虑。
来查看一下这个特征：

data_new.groupby("is_canceled")["reservation_status"].value_counts()

is_canceled  reservation_status
0            Check-Out             75011
1            Canceled              42993
             No-Show                1206

可以看到退房和取消的数目，还有没有展示的少数。

5.特征模型训练

好了，那我们接下来就用以下特征作为模型数据：
当然，你可以选择其他的特征，或者少一部分特征，这个是可以的，因为模型的最优都要经过调试和试验，没有第一次就最好的。按照吴恩达老师，首先弄一个base model，看一下效果如何。
先用python的各个机器学习算法进行试验一下准确率。
比如决策树、随机森林、逻辑回归、XGBC分类器等
首先导入需要的机器学习的包：

# for ML:
from sklearn.model_selection import train_test_split, KFold, cross_validate, cross_val_score
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.ensemble import RandomForestClassifier  # 随机森林
from xgboost import XGBClassifier 
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
import eli5 # Feature importance evaluation

#手动选择要包括的列
#为了使模型更通用并防止泄漏，排除了一些列
#（到达日期、年份、指定房间类型、预订更改、预订状态、国家/地区，
#等待日列表）
#包括国家将提高准确性，但它也可能使模型不那么通用
num_features = ["lead_time","arrival_date_week_number","arrival_date_day_of_month",
                "stays_in_weekend_nights","stays_in_week_nights","adults","children",
                "babies","is_repeated_guest", "previous_cancellations",
                "previous_bookings_not_canceled","agent",
                "required_car_parking_spaces", "total_of_special_requests", "adr"]

cat_features = ["hotel","arrival_date_month","meal","market_segment",
                "distribution_channel","reserved_room_type","deposit_type","customer_type"]
#分离特征和预测值
features = num_features + cat_features
X = data_new.drop(["is_canceled"], axis=1)[features]
y = data_new["is_canceled"]

#预处理数值特征：
#对于大多数num cols，除了日期，0是最符合逻辑的填充值
#这里没有日期遗漏。
num_transformer = SimpleImputer(strategy="constant")

# 分类特征的预处理：
cat_transformer = Pipeline(steps=[
    ("imputer", SimpleImputer(strategy="constant", fill_value="Unknown")),
    ("onehot", OneHotEncoder(handle_unknown='ignore'))])

# 数值和分类特征的束预处理：
preprocessor = ColumnTransformer(transformers=[("num", num_transformer, num_features),
                                               ("cat", cat_transformer, cat_features)])

# 定义要测试的模型：
base_models = [("DT_model", DecisionTreeClassifier(random_state=42)),
               ("RF_model", RandomForestClassifier(random_state=42,n_jobs=-1)),
               ("LR_model", LogisticRegression(random_state=42,n_jobs=-1)),
               ("XGB_model", XGBClassifier(random_state=42, n_jobs=-1))]

#将数据分成“kfold”部分进行交叉验证，
#使用shuffle确保数据的随机分布：
kfolds = 4 # 4 = 75% train, 25% validation
split = KFold(n_splits=kfolds, shuffle=True, random_state=42)

#对每个模型进行预处理、拟合、预测和评分：
for name, model in base_models:
    #将数据和模型的预处理打包到管道中：
    model_steps = Pipeline(steps=[('preprocessor', preprocessor),
                              ('model', model)])
    
    #获取每个模型的交叉验证分数：
    cv_results = cross_val_score(model_steps, 
                                 X, y, 
                                 cv=split,
                                 scoring="accuracy",
                                 n_jobs=-1)
    # output:
    min_score = round(min(cv_results), 4)
    max_score = round(max(cv_results), 4)
    mean_score = round(np.mean(cv_results), 4)
    std_dev = round(np.std(cv_results), 4)
    print(f"{name} cross validation accuarcy score: {mean_score} +/- {std_dev} (std) min: {min_score}, max: {max_score}")

结果：

DT_model cross validation accuarcy score: 0.8255 +/- 0.0012 (std) min: 0.8241, max: 0.827
RF_model cross validation accuarcy score: 0.8663 +/- 0.0005 (std) min: 0.8653, max: 0.8667
LR_model cross validation accuarcy score: 0.7956 +/- 0.0017 (std) min: 0.7941, max: 0.7983
XGB_model cross validation accuarcy score: 0.8465 +/- 0.0008 (std) min: 0.8452, max: 0.8474

可以看到采用随机森林RF_model的效果最好。
你可以继续对其进行一些超参数的优化。

# Enhanced RF model with the best parameters I found:
rf_model_enh = RandomForestClassifier(n_estimators=160,
                               max_features=0.4,
                               min_samples_split=2,
                               n_jobs=-1,
                               random_state=0)

split = KFold(n_splits=kfolds, shuffle=True, random_state=42)
model_pipe = Pipeline(steps=[('preprocessor', preprocessor),
                              ('model', rf_model_enh)])
cv_results = cross_val_score(model_pipe, 
                                 X, y, 
                                 cv=split,
                                 scoring="accuracy",
                                 n_jobs=-1)
# output:
min_score = round(min(cv_results), 4)
max_score = round(max(cv_results), 4)
mean_score = round(np.mean(cv_results), 4)
std_dev = round(np.std(cv_results), 4)
print(f"Enhanced RF model cross validation accuarcy score: {mean_score} +/- {std_dev} (std) min: {min_score}, max: {max_score}")

Enhanced RF model cross validation accuarcy score: 0.8677 +/- 0.002 (std) min: 0.8644, max: 0.8694
可以看到精度有适当提高。

6.评价特征的重要性

#拟合模型，以便可以访问值：
model_pipe.fit(X,y)

#需要所有（编码）功能的名称。
#从一个热编码中获取列的名称：
onehot_columns = list(model_pipe.named_steps['preprocessor'].
                      named_transformers_['cat'].
                      named_steps['onehot'].
                      get_feature_names(input_features=cat_features))

#为完整列表添加num_功能。
#顺序必须与X的定义相同，其中num_特征是第一个：
feat_imp_list = num_features + onehot_columns

#显示10个最重要的功能，提供功能名称：
feat_imp_df = eli5.formatters.as_dataframe.explain_weights_df(
    model_pipe.named_steps['model'],
    feature_names=feat_imp_list)
feat_imp_df.head(10)

查看三个最重要的功能：

lead_time
deposit_type
adr

lead_time的功能

# group data for lead_time:
lead_cancel_data = data_new.groupby("lead_time")["is_canceled"].describe()
# use only lead_times wih more than 10 bookings for graph:
lead_cancel_data_10 = lead_cancel_data.loc[lead_cancel_data["count"] >= 10]

#show figure:
plt.figure(figsize=(12, 8))
sns.regplot(x=lead_cancel_data_10.index, y=lead_cancel_data_10["mean"].values * 100)
plt.title("Effect of lead time on cancelation", fontsize=16)
plt.xlabel("Lead time", fontsize=16)
plt.ylabel("Cancelations [%]", fontsize=16)
# plt.xlim(0,365)
plt.show()

在到达日期前几天进行的预订很少被取消，而提前一年以上的预订则经常被取消。

存款类型：

# group data for deposit_type:
deposit_cancel_data = data_new.groupby("deposit_type")["is_canceled"].describe()

#show figure:
plt.figure(figsize=(12, 8))
sns.barplot(x=deposit_cancel_data.index, y=deposit_cancel_data["mean"] * 100)
plt.title("Effect of deposit_type on cancelation", fontsize=16)
plt.xlabel("Deposit type", fontsize=16)
plt.ylabel("Cancelations [%]", fontsize=16)
plt.show()

正如Susmit Vengurlekar在数据集的讨论部分已经指出的那样，存款类型“不退款”和“取消”列以一种反直觉的方式关联起来。

超过99%的预付款的人取消了。这就提出了一个问题：数据（或描述）是否有问题。

还有什么是不退款的存款？

以下是按存款类型分组的所有数据平均值表：

deposit_mean_data = data_new.groupby("deposit_type").mean()
deposit_mean_data

将不退款和不存款的平均值进行比较，结果如下：

不退还押金的特点是提前期延长2倍以上
重复的客人是~1/10
以前的取消次数是以前的10倍
以前的预订没有取消是1/15
所需的停车位几乎为零
特殊要求非常罕见

根据这些调查结果，似乎特别是那些没有预先参观过其中一家酒店的人，预订、付款并多次取消。。。真奇怪！
为了解决这个问题，接下来制作一个没有这个功能下面的模型。
ADR

ADR越低取消的就越集中

RF model without deposit type

cat_features_non_dep = ["hotel","arrival_date_month","meal","market_segment",
                "distribution_channel","reserved_room_type","customer_type"]

features_non_dep = num_features + cat_features_non_dep
X_non_dep = data_new.drop(["is_canceled"], axis=1)[features_non_dep]


# Bundle preprocessing for numerical and categorical features:
preprocessor_non_dep = ColumnTransformer(transformers=[("num", num_transformer, num_features),
                                               ("cat", cat_transformer, cat_features_non_dep)])

# Define dataset:
X_non_dep = data_new.drop(["is_canceled"], axis=1)[features_non_dep]
# Define model
rf_model_non_dep = RandomForestClassifier(random_state=42) # basic model for this purpose

kfolds=4
split = KFold(n_splits=kfolds, shuffle=True, random_state=42)
model_pipe = Pipeline(steps=[('preprocessor', preprocessor_non_dep),
                              ('model', rf_model_non_dep)])
cv_results = cross_val_score(model_pipe, 
                                 X_non_dep, y, 
                                 cv=split,
                                 scoring="accuracy",
                                 n_jobs=-1)
# output:
min_score = round(min(cv_results), 4)
max_score = round(max(cv_results), 4)
mean_score = round(np.mean(cv_results), 4)
std_dev = round(np.std(cv_results), 4)
print(f"RF model without deposit_type feature cross validation accuarcy score: {mean_score} +/- {std_dev} (std) min: {min_score}, max: {max_score}")

结果：RF model without deposit_type feature cross validation accuarcy score: 0.8657 +/- 0.0003 (std) min: 0.8653, max: 0.8662

我们看到结果和之前的相差并不远，还是很有意义。
我们可以在新模型上增加前置时间、adr、特殊请求的总数量等来弥补这一点。

这个分析暂告一段落，当然后期可以针对模型进行优化和完善。

代码参考：https://www.kaggle.com/marcuswingen/eda-of-bookings-and-ml-to-predict-cancelations
不能上去的也可以在我的云盘下载代码：链接经常失效，可以私发我要代码
链接：https://pan.baidu.com/s/1gIl0ICKPVoB7yX_0aemCCw
提取码：ffjm

你可能感兴趣的:(#,数据分析实战)

《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
《Python数据分析实战》 johnny233 Python 读书笔记 python
环境搭建定义变量名时要遵循的规则：变量名必须以字母或下画线开始，名字中间只能由字母、数字和下画线组成长度不能超过255个字符变量名在有效范围内必须具有唯一性不能使用保留字（关键字）区分大小写不能对元组中的元素做修改，只能做切片查询。如果元组中只有1个元素，则需要在这个元素的后面加上逗号。数字100正确的表示方法为(100,)列表：a=[1,2,3]，常用列表函数函数用途append()向列表末尾添
R语言与数据分析-01-数据类型与数据输入-01-基础落空空。 r语言 r语言数据分析
一.R语言的数据类型原文链接:r语言与数据分析实战11.1知识描述搞清楚我们面对的数据类型是什么，并能实现数据类型之间的转换1.2相关知识需要认真学习以下函数：mode():用来查看数值类型的函数；as.numeric():将数据类型转换为数值型类型的函数；as.logical():将数据类型转换为逻辑型类型的函数；as.cha\fracter():将数据类型转换为字符型类型的函数。在我们开始学习
BI 数据分析，数据库，Office，可视化，数据仓库阿里数据专家数据分析数据库数据仓库 excel AIGC powerpoint 数据挖掘
AIGCChatGPT职场案例AI绘画与短视频制作PowerBI商业智能68集Mysql8.054集Oracle21C142集Office2021实战应用Python数据分析实战，ETLInformatica数据仓库案例实战51集Excel2021实操100集，Excel2021函数大全80集Excel2021高级图表应用89集，Excel2021大屏可视化制作56集Excel2021实用技巧30
Python数据分析实战【八】：用matplotlib、seaborn、pyecharts绘制散点图【文末源码地址】帅帅的Python 数据分析 matplotlib python 数据分析 seaborn pyecharts
文章目录散点图matplotlib绘制散点图seaborn绘制散点图pyecharts绘制散点图源码地址本文可以学习到以下内容：matplotlib中文乱码解决办法seaborn中文乱码解决办法seaborn库csv数据下载地址用matplotlib、seaborn、pyecharts绘制散点图散点图小凡在做数据分析的时候，经常需要对数据进行可视化操作，这样可以更加直观的了解数据，从而更好的分析数
《活用数据 : 驱动业务的数据分析实战》作者: 陈哲刘书朋
内容简介：《活用数据：驱动业务的数据分析实战》是一本用数据来帮助企业破解业务难题的实操书，有理论、有方法、有实战案例。《活用数据：驱动业务的数据分析实战》第1~3章首先对“怎么想”进行了解答，通过明确分析问题、开启分析思路、打开分析视角，依次回答数据思维的3个核心问题：解决什么问题、分析哪些内容、分析到何种程度。第4~8章对企业常见的9项业务需求进行案例解析，回答“怎么做”的问题。这9项业务需求包
数据分析实战1——小费数据的数据分析苏俗 python数据处理与分析实战数据分析数据挖掘
1.对原始小费数据初步分析（1）加载数据importnumpyasnpimportpandasaspdfdata=pd.read_excel('./tips.xls')display(fdata)运行结果如下：（2）分析数据a.查看数据的描述信息。fdata.describe()运行结果如下：b.修改列名为汉字，并显示前5行数据。#修改列名为汉字。fdata.rename(columns=({'t
103贝叶斯方法数据分析实战--网站转换率评估 Jachin111
网站转换率评估贝叶斯A/B测试场景模拟使用贝叶斯解决问题的原因接下来，让我们使用贝叶斯方法来解决这个问题。image.png真实数据可以理解为一件事情发生的概率，而观测频率只是频率而已。举个例子，众所周知，骰子的数字1朝上的真实频率为1/6。但是，事实上，就算我们实验六次，也不一定能观测到数字为1的那一面（这就是观测频率）。在现实生活中，真实频率的前面经常会出现很多的噪音以及其他复杂情况的干扰。因
Python数据可视化的10种技能 flybirding10011
内容来自：极客时间专栏《数据分析实战45讲》\n如果你想要用Python进行数据分析，就需要在项目初期开始进行探索性的数据分析，这样方便你对数据有一定的了解。其中最直观的就是采用数据可视化技术，这样，数据不仅一目了然，而且更容易被解读。同样在数据分析得到结果之后，我们还需要用到可视化技术，把最终的结果呈现出来。\n可视化视图都有哪些？\n按照数据之间的关系，我们可以把可视化视图划分为4类，它们分别
Python数据分析实战【十一】：学习用scorecardpy搭建风控评分卡模型【文末源码地址】帅帅的Python 机器学习数据分析 python 机器学习
文章目录评分卡模型一、数据预处理scorecardpy自带数据查看数据行列查看数据内容,用sample()比head()可以看更多的数据统计每个变量的缺失占比情况查看数据的信息查看每个变量有多少分类描述性统计数据之间的相关性二、数据筛选sc.var_filter()划分数据三、变量分箱woebin()woebin_plot()分箱调整四、WOE转化五、建立模型六、模型评估七、评分稳定性评分映射计算
108贝叶斯方法数据分析实战--大数定律 Jachin111
大数定律大数定律的概念image.png由于已经定义了Zi只能取c1或c2。接下来，让我们将大数定律套用到泊松变量中，观察其收敛图像。实例：随机变量的收敛假设我们有三组由同一个泊松分布函数产生的随机变量，接下来，让我们先产生这三组随机变量：importnumpyasnpfromIPython.core.pylabtoolsimportfigsizeimportmatplotlib.pyplotas
SQL在云计算中的新角色：重新定义数据分析程序边界 sql 云计算数据分析
文章目录1.云计算与数据分析的融合2.SQL在云计算中的新角色3.分布式SQL查询引擎4.SQL-on-Hadoop解决方案5.SQL与其他数据分析工具的集成6.实时数据分析与SQL7.SQL在云数据仓库中的角色8.安全性与隐私保护9.SQL的未来展望《SQL数据分析实战（第2版）》编辑推荐内容简介目录前言/序言随着云计算技术的飞速发展，数据分析已经成为了许多企业和组织不可或缺的核心能力。在这个转
企业Spark案例--酒店数据分析实战提交 cz学java spark 数据分析大数据
第1关：数据清洗--过滤字段长度不足的且将出生日期转：packagecom.yyimportorg.apache.spark.rdd.RDDimportorg.apache.spark.sql.{DataFrame,Dataset,SparkSession}objectedu{/**********Begin**********///此处可填写相关代码caseclassPerson(id:Stri
数据分析实战丨基于pygal与requests分析GitHub最受欢迎的Python库 Want595 《Python实战项目100例》github python 开发语言
文章目录写在前面实验目标实验内容1.配置实验环境2.GitHub知识点3.爬取重要信息4.可视化分析写在后面写在前面本期内容：基于pygal与requests分析GitHub最受欢迎的30个Python库实验环境：pythonrequestspygal下载地址：https://download.csdn.net/download/m0_68111267/88719839实验目标在现实的应用中，我们
深入解析Pyecharts箱型图：多样式展示与数据分析实战【第48篇—python：热力图】一见已难忘的申公豹 python 数据分析信息可视化箱形图 Pyecharts 盒须图
文章目录深入解析Pyecharts箱型图：多样式展示与数据分析实战引言安装Pyecharts绘制基本箱形图炫酷箱形图样式1.渐变色箱形图2.半透明箱形图3.自定义箱线位置进阶应用：箱形图与其他图表的结合交互式箱形图：添加工具与事件结尾深入解析Pyecharts箱型图：多样式展示与数据分析实战引言箱形图（BoxPlot），又称为盒须图，是一种用于显示一组数据分布情况的统计图表。Pyecharts是一
Python 数据分析实战——社交游戏的用户流失？酒卷隆治_案例2 6sigma python 学习笔记 python 数据分析
#什么样的顾客会选择离开#数据集DAU:每天至少来访问一次的用户数据数据内容数据类型字段名访问时间string（字符串）log_data应用名称string（字符串）app_name用户IDint（数值）user_idUSER_INFO：用户属性数据数据内容数据类型字段名首次使用日期string（字符串）install_data应用名称string（字符串）app_name用户IDint（数值）u
PowerBI Copilot淘宝用户行为数据分析实战 PowerBI学谦 powerbi copilot 数据分析
一、背景介绍Copilot作为Microsoft大杀器，已经推出了有一段时间，本公众号也专门多次撰文介绍：CopilotinPowerBI等了好久终于等到今天CopilotinPowerBI详细使用说明PowerBICopilot已全面支持中文识别PowerBICopilot零售数据分析自动化报告实战PowerBICopilot让你的MacBook在周末的星巴克里更闪耀一文搞懂MicrosoftC
Python 数据分析实战——为什么销售额减少？酒卷隆治_案例1 6sigma 数据分析数据挖掘
#为什么黑猫游戏的销售额会减少？#数据集DAU:每天至少来访问一次的用户数据数据内容数据类型字段名访问时间string（字符串）log_data应用名称string（字符串）app_name用户IDint（数值）user_idDPU:每天至少消费1日元的用户数据数据内容数据类型字段名消费日期string（字符串）log_data应用名称string（字符串）app_name用户IDint（数值）u
吊打VLOOKUP！2021全行业Excel数据分析大全，刷脸求来的，就3天时限 IT农民工1 可视化数据分析数据可视化编程语言人工智能
过往跟大家分享过不少数据分析的干货，工具使用也详细梳理过，负责任地说，门槛低又能快速出效果的工具非Excel莫属。今天特别给大家搞一波超值福利，厚着脸皮求来的，仅开放3天特惠权限。1份Excel数据分析实战课+4份大礼包原价199，现仅0.01元直击痛点、难点帮你解决工作中99%的问题3天精编Excel实战课这门课程的设计和市面上大多数课程有所不同，全部【互动式设计】，让你像聊天一样就把知识学到手
分销商产品未来销售情况预测--数据分析实战 HHAoW 数据分析实战数据分析数据挖掘机器学习信息可视化 scikit-learn
目录介绍知识点未来销售额预测介绍导入数据并预览训练集销售商品的类别信息商品信息数据集商店信息数据可视化每天的销售量分布图销售价格分布图商店的分布情况商店所有商品的价格情况商店每天的销售情况商品的种类信息哪种类别的商品卖得最好数量前二十五个商品信息这些商品与总销售额的关系特征工程构建模型分析总结介绍以往数据分析中，都是根据提供的数据特征来构建模型，也就是说，数据集中会含有许多的特征列。本次数据分析将
西班牙高速列车票价预测分析--数据分析实战 HHAoW 数据分析实战数据分析数据挖掘机器学习
介绍近年来，我们国高铁的飞速发展相信大家都有目共睹。然而，在我们国家高铁的票价是国家规定的，一般都是一年四季不会改变的。然而国外与国内不同，它们的高铁票价不是定死的，会根据市场来进行适当的调节，与飞机的票价类似。因此，本次挑战要求你对西班牙的高铁价格进行预测。知识点数据清洗特征工程预测模型构建数据集预处理数据在资源里。现在先来加载数据，通过下面代码下载数据。加载并预览数据前五行importpand
电子商务平台拍卖数据分析实战 scikit-learn 实现数据分析 HHAoW scikit-learn python 机器学习数据分析
内容简介风风火火的双十一过去了，今年的你又给某宝剁了多少手，拔了多少草呢。本节课程我们将介绍另外一个国际贸易门户--ebay，一个致力于为中国商家开辟海外网络直销渠道的平台。我们可以在这个平台上充当买家或是卖家。与淘宝不同的是，这个平台不是一口价交易，而是设置一个开始竞投的价格后开始拍卖。我们就是要利用ebay上的历史拍卖数据，用机器学习的方法来训练一个模型，以预测一项拍卖是否会成功，和成功的交易
绝地求生游戏最终排名预测--数据分析实战 HHAoW 数据分析实战游戏 scikit-learn 数据分析 python
介绍绝地求生是一款由蓝洞在2017年发行的大逃杀型游戏。一经推出就深受广大游戏玩家的喜欢。而本次实验则是分析怎么样才能在游戏中取得胜利。当然，这不是游戏教程，而是用数据来分析出一些对游戏最终排名有用的信息。博客资源有该分析所用数据知识点数据读取与预览数据可视化构建随机森林预测模型绝地求生介绍相信很多都玩过绝地求生这款游戏，其游戏规则主要是将100名玩家空手被扔到一个岛上，这些玩家必须探索、寻找、消
【HIVE】系统数据分析实战汽车销售数据随机生成奥利文儿 hive 数据分析汽车 hadoop 数据仓库数据库 dba
文章目录一、生成测试数据二、创建HIVE数据库1.创建数据库2.装载数据3.查看数据一、生成测试数据#利用Python随机生成一份汽车销售数据，共100行，包括销售时间、销售地点、车辆类型、车辆型号、制造商、排量、功率、发动机型号、#燃料种类、车辆长宽高、轴距、驱动方式、轮胎规格、轮胎数量、载客数量、所有权、购买人等相关信息。并将生成的数据写入Excel。importrandomimportpan
数据分析实战：城市房价分析甜辣uu 数据库人工智能数据分析房价分析机器学习
流程图：1.读数据表首先，读取数据集。CRIMZNINDUSCHASNOXRMAGEDISRADTAXPTRATIOBLSTATtarget0.00632182.3100.5386.57565.24.09129615.3396.94.98240.0273107.0700.4696.42178.94.9671224217.8396.99.1421.60.0272907.0700.4697.18561
零代码进行转录组数据分析实战（一）：质量控制简说基因-专业生信合作伙伴数据分析数据挖掘
一个完整的转录组测序项目大概分为以下三个阶段：体内：mRNA生成阶段。转录生成mRNA前体，再经过转录后加工形成成熟的mRNA。体外：建库测序阶段。RNA提取、片段化、逆转录以及上机测序。生信：生物信息分析阶段。数据质控、比对、定量，以及差异表达基因分析等。从本文开始，着眼于生信阶段，开始带领大家进行转录组实战。首先就是测序数据质控。进入网站进入Galaxy生信云平台：https://usegal
TCGA 数据分析实战 —— 富集分析名本无名
前言通常，在识别完了差异基因之后，都会对差异基因进行功能富集，来获取差异基因参与的潜在生物学功能通路或生物学进程，有助于理解基因之间的作用关系以及发现基因在癌症发生发展过程中发挥的作用。通路，通常是一些已知的功能相关的基因集合，而我们常说的基因集合，一般是忽略了基因之间互作关系的通路。最常见的通路富集，是使用GO和KEGG数据库中预定义的生物学通路。1.GeneOntology(GO)GeneOn
【数据分析实战】冰雪大世界携程景区游客客源分布pyecharts地图爱python的王三金 pyecharts 市场分析爬虫（urllib）数据分析数据挖掘信息可视化 python echarts
文章目录引言数据集展示Python代码可视化展示本人浅薄分析写在最后今年冬天，哈尔滨冰雪旅游"杀疯了"，在元旦假期更是被南方游客"包场"。据哈尔滨市文化广电和旅游局提供大数据测算，截至元旦假日第3天，哈尔滨市累计接待游客304.79万人次，实现旅游总收入59.14亿元。游客接待量与旅游总收入达到历史峰值。“不是北欧去不起，而是哈尔滨更有性价比。”“零下二十摄氏度，我在哈尔滨当‘俄式公主’。”引言上
Excel 动态可视化图表分享阿里数据专家 excel chatgpt AIGC 数据分析信息可视化
AIGCChatGPT职场案例AI绘画与短视频制作PowerBI商业智能68集数据库Mysql8.054集数据库Oracle21C142集Office2021实战应用Python数据分析实战，ETLInformatica数据仓库案例实战Excel2021实操100集，Excel2021函数大全80集Excel2021高级图表应用89集，Excel2021大屏可视化制作56集Excel2021实用技
Python 与 PySpark数据分析实战指南：解锁数据洞见库库的里昂杂谈人工智能 chatgpt 信息可视化开发语言数据挖掘
目录前言1.数据准备2.数据探索3.数据可视化4.常见数据分析任务⭐️好书推荐前言前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站数据分析是当今信息时代中至关重要的技能之一。Python和PySpark作为强大的工具，提供了丰富的库和功能，使得数据分析变得更加高效和灵活。在这篇文章中，我们将深入探讨如何使用Python和PySpark进行数据分析，包
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发