Elina Cai

摩拜单车数据探索与可视化

最终分析报告可移步：《摩拜单车用户行为数据分析报告》

初步清洗

摩拜单车上海用户使用数据，该数据集为摩拜提供的上海城区2016年8月随机抽样百万条用户使用数据，包含起点、目的地、租赁时间、还车时间、用户ID、车辆ID、交易编号等。

# import all packages and set plots to be embedded inline
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sb

%matplotlib inline

rawdata = pd.read_csv('mobike_shanghai_sample_updated.csv')
rawdata.head()

rawdata.info()

# 复制数据集，并更改各列的数据类型
mobike = rawdata.copy()
tobestr = ['orderid', 'bikeid', 'userid']
mobike[tobestr] = mobike[tobestr].astype('str')
mobike['start_time'] = pd.to_datetime(mobike['start_time'])
mobike['end_time'] = pd.to_datetime(mobike['end_time'])
mobike.info()

新增骑行时长duration等列（通过起始时间计算），并通过字符串拆分将骑行时长单位统一为minutes（命名为ttl_min列）

mobike['duration'] = mobike.end_time - mobike.start_time
mobike['dur_day'] = mobike.duration.apply(lambda x: str(x).split(' ')[0])
mobike['dur_hr'] = mobike.duration.apply(lambda x: str(x).split(' ')[-1][:2])
mobike['dur_min'] = mobike.duration.apply(lambda x: str(x).split(':')[-2])
mobike['dur_sec'] = mobike.duration.apply(lambda x: str(x).split(':')[-1])
tobeint = ['dur_day', 'dur_hr', 'dur_min', 'dur_sec']
mobike[tobeint] = mobike[tobeint].astype('int')
mobike['ttl_min'] = mobike.dur_day * 24 * 60 + mobike.dur_hr * 60 + mobike.dur_min + mobike.dur_sec / 60

新增dayid和daytype列，获取每条记录是星期几，并根据工作日和周末进行分类

mobike['dayid'] = mobike.start_time.apply(lambda x: x.isoweekday())
mobike['daytype'] = mobike.dayid.apply(lambda x: 'weekends' if x == 6 or x == 7 else 'weekdays')

新增hourid和hourtype列，获取每条记录是几点开始的，并根据早晚高峰和平峰时段进行分类

mobike['hourid'] = mobike.start_time.apply(lambda x: x.utctimetuple().tm_hour)
mobike['hourtype'] = mobike.hourid.apply(lambda x: 'rush hours' if (x >= 7 and x <= 8) or (x >= 17 and x <= 20) else 'non-rush hours')

新增地理位置信息相关的列

新增distance和distocenter列，获取每条记录骑行起始点的直线距离和距离上海中心点的距离（km）

# 按每条记录的起点位置，作为发起订单所处位置的数据依据
from math import radians, cos, sin, asin, sqrt

# 自定义函数，通过两点的经纬度计算两点之间的直线距离
def geodistance(lng1, lat1, lng2, lat2):
    lng1_r, lat1_r, lng2_r, lat2_r = map(radians, [lng1, lat1, lng2, lat2]) # 经纬度转换成弧度
    dlon = lng1_r - lng2_r
    dlat = lat1_r - lat2_r
    dis = sin(dlat/2)**2 + cos(lat1_r) * cos(lat2_r) * sin(dlon/2)**2
    distance = 2 * asin(sqrt(dis)) * 6371 * 1000 # 地球平均半径为6371km
    distance = round(distance/1000,3)
    return distance

# 自定义函数，通过调用geodistance获取每条记录骑行始末点和起点距中心点的直线距离
def get_dis(item):
    item['distance'] = geodistance(item['start_location_x'], item['start_location_y'],
                                   item['end_location_x'], item['end_location_y'])    # 计算骑行始末点经纬度的直线距离
    # 国际饭店一般被认为是上海地理中心坐标点，计算骑行起始点经纬度和国际饭店经纬度的直线距离
    item['distocenter'] = geodistance(item['start_location_x'], item['start_location_y'], 121.471632, 31.233705)
    return item

mobike['distance'] = np.nan
mobike['distocenter'] = np.nan
mobike = mobike.apply(get_dis, axis=1)

新增ring_stage列，对四级环线范围进行分类

# 自定义函数，按照每条记录距离上海中心点（国际饭店）的距离，根据上海内中外环线进行粗略的地理位置分类
def get_ring(item):
    if item['distocenter'] <= 10:
        item['ring_stage'] = 'inside inner ring'    # 内环距国际饭店最远距离约为10km
    elif item['distocenter'] <= 15:
        item['ring_stage'] = 'inside middle ring'    # 中环距国际饭店最远距离约为15km
    elif item['distocenter'] <= 18:
        item['ring_stage'] = 'inside outer ring'    # 外环距国际饭店最远距离约为18km
    elif item['distocenter'] > 18:
        item['ring_stage'] = 'outside outer ring'
    return item

mobike['ring_stage'] = np.nan
mobike = mobike.apply(get_ring, axis = 1)

用户RFM模型分级

新增cost列，以用于后续计算

import math
mobike['cost'] = mobike.ttl_min.apply(lambda x: math.ceil(x/30))    # 参照2016年摩拜收费标准，按每30分钟收取1元进行cost列的粗略计算

计算RFM值

# 建立副本，将用户id以数字大小进行排序，以便后续rfm值计算时每条记录的顺序保持一致
mobike_sub = mobike.copy()
mobike_sub.userid = mobike_sub.userid.astype('int')
mobike_sub = mobike_sub.sort_values('userid')

# 计算RFM值，并制作新的dataframe
mobike_sub['r_value_single'] = mobike_sub.start_time.apply(lambda x: 32 - x.timetuple().tm_mday)    # 因数据集仅包含八月份发起的订单数据，故以9/1为R值计算基准
r_value = mobike_sub.groupby(['userid']).r_value_single.min()    # 按每个用户id所有订单日期距9/1相差天数的最小值作为r值
f_value = mobike_sub.groupby(['userid']).size()    # 按每个用户id八月累积订单数量计算f值
m_value = mobike_sub.groupby(['userid']).cost.sum()    # 按每个用户id八月累积消费金额作为m值
rfm = pd.DataFrame({'r_value': r_value, 'f_value': f_value, 'm_value': m_value})    # 将三个series合并为新的dataframe

# 查看rfm数据概要
rfm.describe()

按数据分布情况，建立评分标准表格

r_value	r_score	f_value	f_score	m_value	m_score
1-3 days	3	over 10 times	3	over 9 yuan	3
4-13 days	2	6-10 times	2	7-9 yuan	2
14-31 days	1	1-5 times	1	below 7 yuan	1

进行RFM评分

# 自定义函数，分别根据rfm值，对每个用户id进行打分
def get_rfm(item):
    # 为r_value评级
    if item.r_value < 4:
        item['r_score'] = 3
    if item.r_value <= 13 and item.r_value >= 4:
        item['r_score'] = 2
    if item.r_value > 13:
        item['r_score'] = 1
    # 为f_value评级
    if item.f_value > 10:
        item['f_score'] = 3
    if item.f_value <= 10 and item.f_value >= 6:
        item['f_score'] = 2
    if item.f_value < 6:
        item['f_score'] = 1
    # 为m_value评级
    if item.m_value > 9:
        item['m_score'] = 3
    if item.m_value <= 9 and item.m_value >= 7:
        item['m_score'] = 2
    if item.m_value < 7:
        item['m_score'] = 1
    return item

rfm['r_score'] = np.nan
rfm['f_score'] = np.nan
rfm['m_score'] = np.nan
rfm = rfm.apply(get_rfm, axis = 1)

# 查看rfm评分数据分布情况是否合理
print(rfm.r_score.value_counts())
print(rfm.f_score.value_counts())
print(rfm.m_score.value_counts())

3.0 8890
2.0 6594
1.0 1403
Name: r_score, dtype: int64
1.0 8220
2.0 6752
3.0 1915
Name: f_score, dtype: int64
1.0 8633
3.0 4226
2.0 4028
Name: m_score, dtype: int64

计算每个用户RFM总分，并进行用户分层

rfm['score'] = rfm.r_score + rfm.f_score + rfm.m_score    # 每个用户rfm分数加总
rfm.score.value_counts()    # 查看用户得分数据分布情况是否合理

5.0 4038
4.0 3407
7.0 2877
6.0 2133
8.0 1940
9.0 1391
3.0 1101
Name: score, dtype: int64

# 自定义函数，分三段进行用户分层
def get_rate(item):
    if item.score >= 7:
        item.rate = 'high-value user'
    elif item.score >= 5:
        item.rate = 'middle-value user'
    else:
        item.rate = 'low-value user'
    return item
rfm['rate'] = np.nan
rfm = rfm.apply(get_rate, axis = 1)
rfm.rate.value_counts()    # 查看用户分层级别分布情况是否合理

high-value user 6208
middle-value user 6171
low-value user 4508
Name: rate, dtype: int64

合并dataframe

mobike.userid = mobike.userid.astype('int')    # 先将mobike中的userid列转换为int类型，实现与rfm中int型index的匹配，以便于操作merge函数
mobike = mobike.merge(rfm, on = 'userid', how = 'inner')

mobike.info()    # 查看数据类型，以用于后续整理

# 将对应列转换成字符串变量
mobike.userid = mobike.userid.astype('str')
# 将对应列转换成整型变量
tobeint = ['ttl_min', 'r_value', 'f_value', 'm_value', 'r_score', 'f_score', 'm_score', 'score']
mobike[tobeint] = mobike[tobeint].astype('int')
# 将对应列转换成类别变量
order_dict = {'ring_stage': ['inside inner ring', 'inside middle ring', 'inside outer ring', 'outside outer ring'],
              'rate': ['high-value user', 'middle-value user', 'low-value user'],
              'daytype': ['weekdays', 'weekends'],
              'hourtype': ['rush hours', 'non-rush hours']}
for var in order_dict:
    order = pd.api.types.CategoricalDtype(ordered = True, categories = order_dict[var])
    mobike[var] = mobike[var].astype(order)

数据集的结构

数据集由32个变量组成，具有3275552个观测值，主要数据字典如下：

start_time：订单发起时间 start_location_x：骑行起点经度
start_location_y：骑行起点纬度
end_time：订单结束时间 end_location_x：骑行终点经度
end_location_y：骑行终点纬度
duration：骑行时长，按订单发起和结束时间间隔计算，单位按天/时/分/秒表示
ttl_min：骑行时长，通过duration数据进行单位统一，因原始数据中的时间精度仅到分，故该变量单位精确到分
dayid：星期编号（按订单发起时间统计）
daytype：工作日/双休日（按订单发起时间统计）
hourid：小时编号（按订单发起时间统计）
hourtype：高峰时段/非高峰时段（按订单发起时间统计）
distance：骑行始末点的直线距离（km）
distocenter：骑行起点距离上海市中心点的直线距离（km）
ring_stage：以上海内环、中环、外环为界，分为四级地理位置
cost：按照每笔订单的骑行时长，粗略估计的订单金额（元）
score：用户价值评分
rate：用户价值等级

数据集共有4个类型变量、21个数值变量、4个字符串变量、2个时间变量和1个时间差变量，其中4个类型变量具体如下：

daytype：周一至周五为工作日，周六及周日为双休日
hourtype：早7-8点及晚17-20点为高峰时段，其他时段为非高峰时段
ring_stage：inside inner ring、inside middle ring、inside outer ring、outside outer ring分别代表内环内、中环内、外环内、外环外
rate：high-value user、middle-value user、low-value user分别代表高价值用户、中等价值用户、低价值用户

数据集中的关键分析指标

探索影响骑行时长（ttl_min）的特征因素（此处更重要的分析指标应为订单金额，但因原始数据中不包含该数据，现有cost数据为粗略估算而非真实数据，仅适合作为参考分析使用，故此处选取与订单金额高度相关的骑行时长（ttl_min）作为关键分析指标）

数据集内可以帮助探索关键分析指标的其他数据

推测骑行时长与骑行距离（distance）高度相关，订单时间相关的数据（daytype、hourtype等）与骑行时长相关性较高（如高峰时段骑行时长可能较短），其他如地理位置（ring_stage）、用户质量（rate）等数据可能也会影响骑行时长

单变量探索分析

首先查看关键分析指标骑行时长（ttl_min）的数据分布情况

df_e = mobike.copy()
# 将对应列转换成类别变量
order_dict = {'ring_stage': ['inside inner ring', 'inside middle ring', 'inside outer ring', 'outside outer ring'],
              'rate': ['high-value user', 'middle-value user', 'low-value user'],
              'daytype': ['weekdays', 'weekends'],
              'hourtype': ['rush hours', 'non-rush hours']}
for var in order_dict:
    order = pd.api.types.CategoricalDtype(ordered = True, categories = order_dict[var])
    df_e[var] = df_e[var].astype(order)
    
bins = np.arange(0, df_e.ttl_min.max()+1, 1)
plt.hist(data = df_e, x = 'ttl_min', bins = bins);
plt.xlabel('Riding Duration (min)');

观察到x轴的数据范围异常大（连续骑行4000分钟以上显然是不正常的），判断数据集中存在异常数据，可能是用户骑行后忘关锁造成的。其他异常情况还包括使用汽车运载开锁后的摩拜单车等情况。

故此，下一步新增speed列，并大致剔除同时满足骑行速度明显异常（骑行速度一般在12-20km/h）、骑行时长或骑行距离明显异常的记录。然后再重新绘制直方图观察骑行时长的数据分布情况

df_e['speed'] = df_e['distance'] / (df_e['ttl_min'] / 60)
df_e = df_e[-(((df_e['speed'] < 12) | (df_e['speed'] > 20)) & ((df_e['ttl_min'] > 720) | (df_e['distance'] > 50)))]
bins = np.arange(0, df_e.ttl_min.max()+1, 1)
plt.hist(data = df_e, x = 'ttl_min', bins = bins);
plt.xlabel('Riding Duration (min)');

# 观察到数据分布存在明显的长尾，对x轴使用log变化以观察分布规律
bins = 10 ** np.arange(0, np.log10(df_e.ttl_min.max()) + 0.15, 0.15)
plt.hist(data = df_e, x = 'ttl_min', bins = bins);
plt.xscale('log')
xticks = (1, 2, 5, 10, 20, 50, 100, 200, 500)
plt.xticks(xticks, xticks);
plt.xlabel('Riding Duration (min)');

骑行时长数据呈现长尾分布，绝大多数骑行时长较短，极少数骑行时间较长。使用log转换x轴绘图可以发现，骑行时长呈现右偏态分布，峰值出现在7-10分钟之间

下一步查看distance的数据分布情况

bins = np.arange(0, df_e.distance.max()+0.01, 0.01)
plt.hist(data = df_e, x = 'distance', bins = bins);
plt.xlabel('Riding Distance (km)');

# 骑行距离同样存在长尾分布特征，对x轴使用log变化以观察分布规律
bins = 10 ** np.arange(np.log10(df_e.distance.min()), np.log10(df_e.distance.max()) + 0.08, 0.08)
plt.hist(data = df_e, x = 'distance', bins = bins);
plt.xscale('log')
xticks = (0.1, 0.2, 0.5, 1, 2, 5, 10, 20)
plt.xticks(xticks, xticks);
plt.xlabel('Riding Distance (km)');

骑行距离数据同样呈现长尾分布，绝大多数骑行距离较短，极少数骑行距离较长。使用log转换x轴绘图可以发现，骑行距离呈现右偏态分布，峰值出现在0.7-1.3公里之间

下一步查看daytype、hourtype、ring_stage、rate四个类别变量的分布情况

fig, ax = plt.subplots(ncols = 2, nrows = 2, figsize = [14, 7])
color = sb.color_palette()[0]
sb.countplot(data = df_e, x = 'daytype', color = color, ax = ax[0, 0]);
sb.countplot(data = df_e, x = 'hourtype', color = color, ax = ax[0, 1]);
sb.countplot(data = df_e, x = 'ring_stage', color = color, ax = ax[1, 0]);
sb.countplot(data = df_e, x = 'rate', color = color, ax = ax[1, 1]);

观察到数据集中工作日的订单量约为双休日的三倍，考虑到工作日天数是双休日天数的2.5倍，可判断工作日平均订单量略高于双休日平均订单量；骑行时间约一半是在上下班高峰期间；绝大多数的骑行起点均位于内环内，且起点距离市中心越远，订单量下降幅度约明显；超过一半的骑行订单是由高价值用户发起的，用户价值越低，订单量越少

变量的分布情况、异常点和数值转换使用情况

骑行时长和骑行距离的数值范围都非常大，通过对数据的呈现方式进行log转化，骑行时长和骑行距离的数据分布均呈现右偏态分布，峰值分别在7-10分钟和0.7-1.3公里；四个类型变量的分布情况如下：①工作日订单量约为双休日订单量的三倍；②高峰时段订单量略微低于非高峰时段；③内环内订单量占总订单量半数以上，且随着骑行区域离上海市中心越远，订单量越少；④高价值用户的订单量超过总订单量的一半，且随着用户价值越低，订单量越少

在数据探索中发现的异常分布情况，以及对此做出的清理、调整、格式转化等操作和原因

在初次探索骑行时长和骑行距离的数据分布情况时，数值范围的最大值明显异常，通过剔除骑行速度、距离、时长的异常记录，提升数据集的数据质量，以便进一步操作

双变量探索分析

首先查看两个数值变量之间的相关性，但由于这两个变量的数值范围过大，均存在非常长的长尾，为更好地观察数据情况，故在后续操作中使用经过log转换的数据（新增log_ttl_min、log_distance两列）

df_e['log_ttl_min'] = np.log10(df_e['ttl_min'])
df_e['log_distance'] = np.log10(df_e['distance'])
num_vars = ['log_ttl_min', 'log_distance']
cat_vars = ['daytype', 'hourtype', 'ring_stage', 'rate']
sb.heatmap(df_e[num_vars].corr(), annot = True, fmt = '.3f', cmap = 'vlag_r', center = 0);

g = sb.PairGrid(data = df_e, vars = num_vars)
g = g.map_diag(plt.hist);
g.map_offdiag(plt.scatter);

经过log转换后的骑行时长和骑行距离之间的相关系数为0.634，为显著相关

下一步，查看骑行时长和骑行距离两个数值变量和其他类别变量之间的关系

fig, ax = plt.subplots(ncols = 2, nrows = 4, figsize = [15,20])
for i in range(len(cat_vars)):
    var = cat_vars[i]
    # 画第一列的图
    sb.boxplot(data = df_e, x = var, y = 'log_ttl_min', ax = ax[i, 0], color = color);
    ttl_min_ticks = [1, 2, 5, 10, 20, 50, 100, 200, 500]
    ax[i, 0].set_yticks(np.log10(ttl_min_ticks));
    ax[i, 0].set_yticklabels(ttl_min_ticks);
    # 画第二列的图
    sb.boxplot(data = df_e, x = var, y = 'log_distance', ax = ax[i, 1], color = color);
    distance_ticks = [0.1, 0.2, 0.5, 1, 2, 5, 10, 20]
    ax[i, 1].set_yticks(np.log10(distance_ticks));
    ax[i, 1].set_yticklabels(distance_ticks);

①在骑行时间方面，发现双休日和高峰时段的骑行时长和骑行距离的中位数相较工作日和非高峰时段都要更高（除双休日的骑行距离略微低于工作日）；②在骑行区域方面，一旦用户骑行区域在内环之外，骑行时长和骑行距离的中位数均随着离市中心越远而变得越高，可能是由于越靠近郊区，用户出发点和目的地之间的距离越来越大；③在用户价值方面，骑行时长和骑行距离的中位数均随着用户价值变低而变低。

下一步，由于骑行时长和骑行距离两个数值变量的数据特征和变化特征相似，可以进一步通过小提琴图看他们的具体数据分布情况如何（由于箱线图采用的是纵向排布，接下来的小提琴图可以采用横向排布方式，便于两个变量横轴方向的分布形状比较）

fig, ax = plt.subplots(ncols = 4, nrows = 2, figsize = [20,10])

for i in range(len(cat_vars)):
    var = cat_vars[i]
    # 画第一行的图
    sb.violinplot(data = df_e, x = var, y = 'log_ttl_min', ax = ax[0, i], color = color);
    ttl_min_ticks = [1, 2, 5, 10, 20, 50, 100, 200, 500]
    ax[0, i].set_yticks(np.log10(ttl_min_ticks));
    ax[0, i].set_yticklabels(ttl_min_ticks);
    if i == 2:
        xlabels = ax[0, i].get_xticklabels()
        ax[0, i].set_xticklabels(xlabels, rotation = 10);
    # 画第二行的图
    sb.violinplot(data = df_e, x = var, y = 'log_distance', ax = ax[1, i], color = color);
    distance_ticks = [0.1, 0.2, 0.5, 1, 2, 5, 10, 20]
    ax[1, i].set_yticks(np.log10(distance_ticks));
    ax[1, i].set_yticklabels(distance_ticks);
    if i == 2:
        xlabels = ax[1, i].get_xticklabels()
        ax[1, i].set_xticklabels(xlabels, rotation = 10);

通过小提琴图和箱线图可以发现，骑行时长和骑行距离这两个数值变量的数据分布特征和分类情况下的变化特征几乎完全一样，后续可以不再对骑行距离做分析，原因如下：一方面骑行时长是原始数据中的真实数据（骑行距离是通过骑行始末点估算的直线距离），另一方面摩拜单车是根据骑行时长作为付费依据的，故此，在较高相关性和相似数据特征的情况下，选择数据质量和价值更高的骑行时长作为后续分析指标

最后看一下各个类型变量之间的关系

fig, ax = plt.subplots(ncols = 3, nrows = 4, figsize = [20, 20])

for i in range(len(cat_vars)):
    count = 0
    for j in range(len(cat_vars)):
        if i == j:    # 跳过变量与其自身的绘图
            continue
        else:
            sb.countplot(data = df_e, x = cat_vars[i], hue = cat_vars[j], palette = 'Blues_r', ax = ax[i, count]);
            ax[i, count].legend(title = cat_vars[j], fontsize = 8, framealpha = 0.5);
            if i == 2:    # 第三个类别变量名称过长，设置一定的倾斜度以便阅读
                xlabels = ax[i, count].get_xticklabels()
                ax[i, count].set_xticklabels(xlabels, rotation = 10);
            count += 1

以工作日/双休日为观察视角：用户在工作日更多地在上下班高峰时段用车，在双休日更多在非高峰时段用车；工作日内环内的用车占比远高于双休日；不同价值用户在两种日子中的用车行为差异不大
以高峰时段/非高峰时段为观察视角：工作日的高峰时段用车比例明显高于双休日；不同环线范围的用户以及不用价值用户，在两种时段的用车行为差异不大
以不同环线范围为观察视角：用户在工作日用车次数占比高于双休日的程度，随着地理位置离市中心越远而变得越低，内环范围内明显强于其他地理范围，原因可能在于越靠近市中心、办公场所的分布越密集；不同环线范围在高峰时段/非高峰时段的用车行为差异不大，内环内非高峰时段用车数量略高于高峰时段，可能因为内环范围内活动场所相较其他范围更多，因此也会有更多非上班族的用车行为；内环内的高价值用户占比要远高于其他地区
以用户价值为观察视角：除高价值用户更多地分布在内环范围内，其他方面的用车行为差异不大

关键分析指标和其他变量的相关性

骑行时长在双休日和高峰时段相对更高
随着出发点距离市中心越远，骑行时长也越长
用户价值越高，骑行时长也越长

除关键分析指标之外的其他变量之间的相关性

工作日的高峰时段和双休日的非高峰时段用车量较大
工作日用车量占比高于双休日的程度，随着地理位置离市中心越远而变得越低，内环范围内明显强于其他地理范围
高价值用户更多地分布在内环范围内

多变量探索分析

主要探索四个类别变量是如何影响骑行时长的

fig = plt.figure(figsize = [20, 10])
row_dict = {'221': {'flag': 'weekdays', 'hue': 'rate'},
            '222': {'flag': 'weekends', 'hue': 'rate'},
            '223': {'flag': 'rush hours', 'hue': 'rate'},
            '224': {'flag': 'non-rush hours', 'hue': 'rate'}}

firstplot = '221'    # 设置第一个绘图的编号，以便后续获取第一个绘图y轴的操作
for var in row_dict:
    plt.subplot(var)
    if var == '221' or var == '222':
        ax = sb.pointplot(data = df_e[df_e.daytype == row_dict[var]['flag']], x = 'ring_stage', y = 'log_ttl_min', hue = row_dict[var]['hue'],
                          palette = 'Blues_r', linestyles = '', dodge = 0.1);
    else:
        ax = sb.pointplot(data = df_e[df_e.hourtype == row_dict[var]['flag']], x = 'ring_stage', y = 'log_ttl_min', hue = row_dict[var]['hue'],
                          palette = 'Blues_r', linestyles = '', dodge = 0.1);
    ax.set_title("{}'s riding duration across ring_stage and {}".format(row_dict[var]['flag'], row_dict[var]['hue']));
    ax.set_ylabel('Mean Riding Duration (min)');
    ylocs = np.arange(1.025, 1.225, 0.025)
    ylabels = np.round(np.power(10, ylocs), 2)
    ax.set_yticks(ylocs);
    ax.set_yticklabels(ylabels);
    ax.set_yticklabels([],minor = True);    # 不显示默认的主要刻度
    if var == firstplot:
        ylim = ax.get_ylim()    # 获取第一个绘图的y轴
    else:
        plt.ylim(ylim);    # 使第二个开始的所有绘图保持和第一个绘图一致的y轴范围

除在外环以外的双休日和非高峰时段外，高价值用户的平均骑行时长均是最高的
从第一列的上下两张图中大致可以看出，工作日和高峰时段中，平均骑行时长随着用户价值变量和骑行区域变量的改变而发生的变化特征是非常相似的，这可能是因为工作日和高峰时段的用户中，上班族占了大多数，而这些上班族拥有相似的用车行为特征
总体上，除了内环以内的数据外，其他区域的平均骑行时长均随着骑行起点离市中心越远而变得越高

fig = plt.figure(figsize = [20,12])
row_dict = {'231': {'flag': 'high-value user', 'hue': 'daytype'},
            '232': {'flag': 'middle-value user', 'hue': 'daytype'},
            '233': {'flag': 'low-value user', 'hue': 'daytype'},
            '234': {'flag': 'high-value user', 'hue': 'hourtype'},
            '235': {'flag': 'middle-value user', 'hue': 'hourtype'},
            '236': {'flag': 'low-value user', 'hue': 'hourtype'}}

firstplot = '231'    # 设置第一个绘图的编号，以便后续获取第一个绘图y轴的操作
for var in row_dict:
    plt.subplot(var)
    ax = sb.pointplot(data = df_e[df_e.rate == row_dict[var]['flag']], x = 'ring_stage', y = 'log_ttl_min', hue = row_dict[var]['hue'],
           palette = 'Blues_r', linestyles = '', dodge = 0.1);
    ax.set_title("{}'s riding duration across ring_stage and {}".format(row_dict[var]['flag'], row_dict[var]['hue']), fontsize = 'medium');
    ax.set_ylabel('Mean Riding Duration (min)');
    ylocs = np.arange(1, 1.25, 0.025)
    ylabels = np.round(np.power(10, ylocs), 2)
    ax.set_yticks(ylocs);
    ax.set_yticklabels(ylabels);
    ax.set_yticklabels([],minor = True);    # 不显示默认的主要刻度
    xlabels = ax.get_xticklabels();
    ax.set_xticklabels(xlabels, rotation = 5)
    if var == firstplot:
        ylim = ax.get_ylim()    # 获取第一个绘图的y轴
    else:
        plt.ylim(ylim);    # 使第二个开始的所有绘图保持和第一个绘图一致的y轴范围

从第一行的图中可以观察到，除了外环以外骑行区域的数据量过少，统计数据的误差较大之外，所有双休日的平均骑行时长均高于工作日
第二行的图反映了所有高峰时段的平均骑行时长均高于非高峰时段
从第二行的图中可以观察到，除了外环以外骑行区域的数据量过少，统计数据的误差较大之外，其他区域内的平均时长总体上都随着用户价值的变低而变低

fig = plt.figure(figsize = [20,10])
row_dict = {'241': {'flag': 'inside inner ring', 'hue': 'daytype'},
            '242': {'flag': 'inside middle ring', 'hue': 'daytype'},
            '243': {'flag': 'inside outer ring', 'hue': 'daytype'},
            '244': {'flag': 'outside outer ring', 'hue': 'daytype'},
            '245': {'flag': 'high-value user', 'hue': 'daytype'},
            '246': {'flag': 'middle-value user', 'hue': 'daytype'},
            '247': {'flag': 'low-value user', 'hue': 'daytype'}}

firstplot = '241'    # 设置第一个绘图的编号，以便后续获取第一个绘图y轴的操作
for var in row_dict:
    plt.subplot(var)
    if var == '241' or var == '242' or var == '243' or var == '244':
        ax = sb.pointplot(data = df_e[df_e.ring_stage == row_dict[var]['flag']], x = 'hourtype', y = 'log_ttl_min',
                          hue = row_dict[var]['hue'], palette = 'Blues_r', linestyles = '', dodge = 0.1);
        ax.set_title("{}'s riding duration across hourtype and {}".format(row_dict[var]['flag'], row_dict[var]['hue']), fontsize = 'small');
    else:
        ax = sb.pointplot(data = df_e[df_e.rate == row_dict[var]['flag']], x = 'hourtype', y = 'log_ttl_min',
                          hue = row_dict[var]['hue'], palette = 'Blues_r', linestyles = '', dodge = 0.1);
        ax.set_title("{}'s riding duration across hourtype and {}".format(row_dict[var]['flag'], row_dict[var]['hue']), fontsize = 'small');
    ylocs = np.arange(1, 1.25, 0.025)
    ylabels = np.round(np.power(10, ylocs), 2)
    ax.set_yticks(ylocs);
    ax.set_yticklabels(ylabels);
    ax.set_yticklabels([],minor = True);    # 不显示默认的主要刻度
    if var == firstplot:
        ylim = ax.get_ylim()    # 获取第一个绘图的y轴
    else:
        plt.ylim(ylim);    # 使第二个开始的所有绘图保持和第一个绘图一致的y轴范围
    if var == firstplot or var == '245':    # 为每行的第一个图设置y轴标签，其他图则不显示，以防遮盖图表内容
        ax.set_ylabel('Mean Riding Duration (min)');
    else:
        ax.set_ylabel('');

分别限定骑行地理位置变量和用户价值变量，观察骑行时间对平均骑行时长的影响，可以发现数据点分布的相对位置高度相似，说明骑行时间对于平均骑行时长的规律明显，即在骑行地理位置或用户价值条件相同的情况下，高峰时段和双休日的平均骑行时长高于非高峰时段和工作日
在骑行地理位置或用户价值条件相同的情况下，工作日高峰时段的平均骑行时长近似或略高于双休日的非高峰时段
比较第一行和第二行的数据点分布特征，可以发现在用户价值变量视角下的数据点，随着用户价值由高到低，纵向变化幅度远低于第一行骑行位置视角下的纵向变化幅度，说明用户价值对平均骑行时长的作用较小，远小于骑行位置对其的影响

数据探索中观察到的变量之间的相关性

平均骑行时长均随着骑行起点离市中心越远而变得越高
骑行时间对平均骑行时长有较高影响，双休日和高峰时段的平均骑行时长均高于工作日和非高峰时段
由于外环线以外的数据较少，可能产生的误差较大，在其他骑行区域范围内，平均骑行时长总体上都随着用户价值的变低而变低

变量之间有趣或意外的发现

比较不同骑行地理位置和用户价值类型下，工作日和高峰时段的数据点分布特征高度类似，说明工作日和高峰时段的用车行为特征相似

你可能感兴趣的:(摩拜单车数据探索与可视化)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
2021-08-26 影幽
在生活中，女人与男人的感悟往往有所不同。人生最大的舞台就是生活，大幕随时都可能拉开，关键是你愿不愿意表演都无法躲避。在生活中，遇事不要急躁，不要急于下结论，尤其生气时不要做决断，要学会换位思考，大事化小小事化了，把复杂的事情尽量简单处理，千万不要把简单的事情复杂化。永远不要扭曲，别人善意，无药可救。昨天是张过期的支票，明天是张信用卡，只有今天才是现金，要善加利用！执着的攀登者不必去与别人比较自己的
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
每日一题——第九十题互联网打工人no1 C语言程序设计每日一练 c语言
题目：判断子串是否与主串匹配#include#include#include//////判断子串是否在主串中匹配//////主串///子串///boolisSubstring(constchar*str,constchar*substr){intlenstr=strlen(str);//计算主串的长度intlenSub=strlen(substr);//计算子串的长度//遍历主字符串，对每个可能得
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
水泥质量纠纷案代理词徐宝峰律师
贵州领航建设有限公司诉贵州纳雍隆庆乌江水泥有限公司产品质量纠纷案代理词尊敬的审判长、审判员：贵州千里律师事务所接受被告贵州纳雍隆庆乌江水泥有限公司的委托，指派我担任其诉讼代理人，参加本案的诉讼活动。下面，我结合本案事实和相关法律规定发表如下代理意见，供合议庭评议案件时参考：原告应当举证证明其遭受的损失与被告生产的水泥质量的因果关系。首先水泥是一种粉状水硬性无机胶凝材料。加水搅拌后成浆体，能在空气中
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
18-115 一切思考不能有效转化为行动，都TM是扯淡！成长时间线
7月25号写了一篇关于为什么会断更如此严重的反思，然而，之后日更仅仅维持了一周，又出现了这次更严重的现象。从8月2号到昨天8月6号，5天！又是5天没有更文！虽然这次断更时间和上次一样，那为什么说这次更严重？因为上次之后就分析了问题的原因，以及应该如何解决，按理说应该会好转，然而，没过几天严重断更的现象再次出现，想想，经过反思，问题依然没有解决与改变，这让我有些担忧。到底是哪里出了问题，难道我就真的
山东大学小树林支教调研团青青仓木队——翟晓楠山东大学青青仓木队
过了半年，又一次启程，又一次回到支教的初心之地。比起上一次的试探与不安，我更多了一丝稳重与熟练。心境、处境也都随着半个学期的过去而变得不同，半个学期中，身体上的，心理上的，太多的逆境让我变得步履维艰，曲曲折折，弯弯绕绕，我仿佛打不起精神，没有胃口，没有动力。感觉走的不顺畅的时候，支教这个旅程，给了我力量。自告奋勇承担起队长这一职务的我，从组织时的复杂和困难的经历，协调各种问题，从无到有，和校长和队
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL