ShinyCC

摩拜单车骑行数据探索性分析【实战总结】

项目背景

项目背景：2017年biendata举办了摩拜杯算法挑战赛，利用机器学习去预测每个用户可能的骑行目的地，以更好地调配和管理大量摩拜单车。

数据下载地址：项目官网 https://biendata.com/competition/mobike/

本文将使用项目中给出的训练集数据train.csv进行数据的探索性分析，利用python工具来探索用户骑行规律。暂不涉及建模。

分析的目的：获取用户出行的规律，主要分析维度是时间，日期，骑行距离等

文中Geohash脚本下载链接: https://pan.baidu.com/s/17J-22GdN4F2jEOxWPvQ-Eg 提取码: vhbz

工具：Jupyter notebook Python 3

数据概况

import pandas as pd
import datetime
import geohash
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
from math import radians, cos, sin, asin, sqrt

# 导入train.csv数据文件,将starttime转换为日期列，避免后续字符串和datetime的转换
df = pd.read_csv("train.csv",sep=",",parse_dates=["starttime"])

# 查看数据集df
df.head()

	orderid	userid	bikeid	biketype	starttime	geohashed_start_loc	geohashed_end_loc
0	1893973	451147	210617	2	2017-05-14 22:16:50	wx4snhx	wx4snhj
1	4657992	1061133	465394	1	2017-05-14 22:16:52	wx4dr59	wx4dquz
2	2965085	549189	310572	1	2017-05-14 22:16:51	wx4fgur	wx4fu5n
3	4548579	489720	456688	1	2017-05-14 22:16:51	wx4d5r5	wx4d5r4
4	3936364	467449	403224	1	2017-05-14 22:16:50	wx4g27p	wx4g266

数据字段说明

orderid 订单号
userid 用户ID
bikeid 车辆ID
biketype 车辆类型
starttime 骑行起始日期时间
geohashed_start_loc 骑行起始区块位置
geohashed_end_loc 骑行目的地区块位置

df.info()


RangeIndex: 3214096 entries, 0 to 3214095
Data columns (total 7 columns):
orderid                int64
userid                 int64
bikeid                 int64
biketype               int64
starttime              datetime64[ns]
geohashed_start_loc    object
geohashed_end_loc      object
dtypes: datetime64[ns](1), int64(4), object(2)
memory usage: 171.7+ MB

# 数据集大小 3214096 * 7
df.shape

(3214096, 7)

# 数据涵盖了48万+的单车
df.bikeid.unique().size

# 数据涵盖了近35W的骑行用户
df.userid.unique().size

# 涵盖2种车型
df.biketype.unique().size

# 查看geohashed_start_loc 字段长度
df["geohashed_start_loc"].apply(lambda s: len(s)).value_counts()

7    3214096
Name: geohashed_start_loc, dtype: int64

# 查看geohashed_end_loc 字段长度
df["geohashed_end_loc"].apply(lambda s: len(s)).value_counts()

7    3214096
Name: geohashed_end_loc, dtype: int64

查看整个数据情况，可了解到数据集大小为3214096 * 7，涵盖48W+单车、近35W骑行用户、2种单车车型。
骑行出发点、目的地经过Geohash编码加密，且全部为7位编码。

选取数据分析样本

考虑到数据集大小以及电脑的性能，同比例随机挑选50%的数据进行用户行为分析

df = df.sample(frac=0.5)

df.info()


Int64Index: 1607048 entries, 120096 to 241942
Data columns (total 7 columns):
orderid                1607048 non-null int64
userid                 1607048 non-null int64
bikeid                 1607048 non-null int64
biketype               1607048 non-null int64
starttime              1607048 non-null datetime64[ns]
geohashed_start_loc    1607048 non-null object
geohashed_end_loc      1607048 non-null object
dtypes: datetime64[ns](1), int64(4), object(2)
memory usage: 98.1+ MB

数据处理

时间处理

当前数据中只有骑行出发时间starttime，格式同 2017-05-14 22:16:50

时间进行处理，提取出周几weekday，小时hour，日期day数据，以便后续分析不同时间出行数据的分布

# 使用weekday函数提取周几信息，周一为0，周日为6
df["weekday"] = df["starttime"].apply(lambda s: s.weekday()) 

# 提取小时数，hour属性
df["hour"] = df["starttime"].apply(lambda s: s.hour)

# 提取时间中的日期
df["day"] = df["starttime"].apply(lambda s:str(s)[:10])

# 打印日志
print("时间信息处理完毕！")

时间信息处理完毕！

空间信息处理

数据集中，地理位置通过Geohash加密，算法比赛的官网上告知可以通过开源的方法获得经纬度数据。

本文是直接导入Geohash脚本进行处理经纬度的处理

关于Geohash编码的原理，强烈推荐阅读此文：https://www.cnblogs.com/LBSer/p/3310455.html

Geohash感性认识：

GeoHash将二维的经纬度转换成字符串，比如下图展示了北京9个区域的GeoHash字符串，分别是WX4ER，WX4G2、WX4G3等等，每一个字符串代表了某一矩形区域。这个矩形区域内所有的点（经纬度坐标）都共享相同的GeoHash字符串，这样既可以保护隐私（只表示大概区域位置而不是具体的点），又比较容易做缓存，比如左上角这个区域内的用户不断发送位置信息请求附近餐馆数据，由于这些用户的GeoHash字符串都是WX4ER，所以可以把WX4ER当作key，把该区域的餐馆信息当作value来进行缓存，而如果不使用GeoHash的话，由于区域内的用户传来的经纬度是各不相同的，很难做缓存。
Geohash能够提供任意经度的分段级别，一般分为1-12级。Geohash编码字符串越长，表示的区域范围越精确。

前面已经验证过，数据集中Geohash区块位置信息全部为7位Geohash编码。按照对应的精度级别，每个区块在153米*153米范围内。G7位编码对应的区块范围很小，单车随意骑行，一般都能离开当前区域。

构建区块对应的6位Geohash编码，每个区块面积在1.22km*0.61km范围内，比较符合短途摩拜骑行的特点。

当然，我们还可以从7位Geohash编码中不断提取更短的编码进行研究分析，但建议到4位即可。
如果编码更短，比如3位，区块面积太大，就会变得没意义。

def geo_data_process(df):
    # 通过导入Geohash脚本中的decode函数，获取经纬度
    df["start_lat_lng"] = df["geohashed_start_loc"].apply(lambda s: geohash.decode(s))   
    df["end_lat_lng"] = df["geohashed_end_loc"].apply(lambda s: geohash.decode(s))
    
    #获取出发地点所在区块周围的8个相邻区块编码
    df["start_neighbors"] = df["geohashed_start_loc"].apply(lambda s: geohash.neighbors(s))
    
    # 提取区块对应的6位Geohash编码
    df["geohashed_start_loc_6"] = df["geohashed_start_loc"].apply(lambda s: s[0:6])
    df["geohashed_end_loc_6"] = df["geohashed_end_loc"].apply(lambda s: s[0:6])
    
    #获取出发地点所在区块周围的8个相邻区块的6位Geohash编码
    df["start_neighbors_6"] = df["geohashed_start_loc_6"].
    							apply(lambda s: geohash.neighbors(s))
    print("Geohash编码处理完毕！")    
    
    # 判断目的地是否在当前区块或相邻区块内
    def inGeohash(start_geohash,end_geohash,names):
            names.append(start_geohash)
            if end_geohash in names:
                return 1
            else:
                return 0 
    
    df['inside'] = df.apply(lambda s :inGeohash(s['geohashed_start_loc'],
    						s['geohashed_end_loc'],
    						s['start_neighbors']),
    						axis = 1)
    df['inside_6'] = df.apply(lambda s :inGeohash(s['geohashed_start_loc_6'],
    					    s['geohashed_end_loc_6'],
    					   	s['start_neighbors_6']),
    					   	axis = 1)
    print("判断目的地操作处理完毕!!!")
    
    # 用haversine公式计算球面两点间的距离
    def haversine(lon1,lat1,lon2,lat2):
        lon1,lat1,lon2,lat2 = map(radians,[lon1,lat1,lon2,lat2])
        dlon = lon2 - lon1
        dlat = lat2 - lat1
        a = sin(dlat/2)**2 + cos(lat1)*cos(lat2)*sin(dlon/2)**2
        c = 2 * asin(sqrt(a))
        r = 6371 # 地球平均半径，单位为公里
        return c * r * 1000

    df["start_end_distance"] = df.apply(lambda s : haversine(s['start_lat_lng'][1],
    									s['start_lat_lng'][0],s['end_lat_lng'][1],
    									s['end_lat_lng'][0]),axis = 1)
    print("两点距离计算完成!!!")

geo_data_process(df)

Geohash编码处理完毕！
判断目的地操作处理完毕!!!
两点距离计算完成!!!

数据分析

时间分析

# 统计数据集中天数
print("数据集包含的天数如下：")
print(df["day"].unique())

数据集包含的天数如下：
['2017-05-16' '2017-05-20' '2017-05-18' '2017-05-19' '2017-05-12'
 '2017-05-11' '2017-05-13' '2017-05-14' '2017-05-24' '2017-05-15'
 '2017-05-21' '2017-05-22' '2017-05-10' '2017-05-23']

分析24小时骑行订单数分布情况：

hour_group = df.groupby("hour")
hour_group["orderid"].count().sort_values(ascending=False)

hour
7     157885
18    144791
8     142543
17    136779
19    104823
12    100368
16     89496
11     86010
13     81895
15     77576
20     75759
9      73782
14     68191
21     64042
10     63099
6      60914
22     35010
5      14489
23     14376
0       6524
1       3137
4       2216
2       1853
3       1490
Name: orderid, dtype: int64

从每小时订单数的降序排列中，发现排位在前面的时刻为7、18、8、17、19点，这些时间段是上下班高峰期，用户使用单车数量较多。
做出直方图，看整体趋势：

# 不同小时的出行量
hour_num_df = hour_group.agg({"orderid":"count"}).reset_index()
sns.barplot(x = "hour",y = "orderid",data =hour_num_df )

图形呈现出的变化更为直观！
23-5点这段时间，人们大多在休息，使用单车出行的订单数极少。
6点开始，活跃用户增多。在7-8点、17-18点上下班时段，单车订单量迅速增长，呈现明显的骑行早晚高峰。
11-13点时段，出现局部午高峰，这和中午外出就餐或者休息时间活动有一定关系。
整体趋势，说明单车的骑行交通在很大程度上是服务于通勤交通的。

如果是在周末，非工作日内骑行情况随时间的分布如何呢？
这里新增是否为周末的数据维度"isWeekend"，展开进一步探索。

# 区分是否为周末，增加维度"isWeekend"
df.loc[(df["weekday"]==5) | (df["weekday"]==6),"isWeekend"]=1
df.loc[~((df["weekday"]==5) | (df["weekday"]==6)),"isWeekend"]=0

# 计算工作日天数，周末的天数
w = df[(df["isWeekend"]==1) & (df["weekday"]>=5)]["day"].unique().size
c = df[(df["isWeekend"]==0) & (df["weekday"] <5)]["day"].unique().size

print("非工作日天数:",w)
print("工作日天数:",c)

非工作日天数: 4
工作日天数: 10

通过上面计算得到，整个数据对应的时间为 4个非工作日，10个工作日。
下面分别计算出工作日、非工作日每个小时的平均订单量，查看随时间变化的订单量分布情况。

g1 = df.groupby(["isWeekend","hour"])
temp_df = pd.DataFrame(g1['orderid'].count()).reset_index()
temp_df.loc[temp_df['isWeekend'] == 0.0,'orderid'] = temp_df['orderid'] / c
temp_df.loc[temp_df['isWeekend'] == 1.0,'orderid'] = temp_df['orderid'] / w
sns.barplot(x = 'hour',y ="orderid" ,hue = "isWeekend",data = temp_df )

isWeekend=0，蓝色柱状表示工作日内每小时平均订单量的分布。同上述每小时总订单量分布情况相似： 23-5点这段时间，使用单车出行的订单数极少。 6点开始，活跃用户增多。在7-8点、17-18点上下班时段，单车订单量迅速增长，呈现明显的骑行早晚高峰。 11-13点时段，出现局部午高峰。

isWeekend=1，橙色柱状为非工作日内每小时平均订单量的分布。周末骑行交通以非通勤交通为主，时间分布相对平缓，没有明显的早高峰现象。整体骑行订单量明显少于工作日的骑行订单量。

通过对比分析，摩拜单车最大使用量出现在工作日的上下班高峰。

出行时间、是否在双休日，这两个特征对骑行订单量有明显影响，反映出用户行为特点。

骑行距离分析

# 出行距离的描述统计
df["start_end_distance"].describe()

count    1.607048e+06
mean     8.150117e+02
std      6.888783e+02
min      1.163695e+02
25%      4.654801e+02
50%      6.603909e+02
75%      9.497557e+02
max      4.490018e+04
Name: start_end_distance, dtype: float64

上述描述统计值：用户骑行距离的平均值815米，中位数660米，75%在949米。这几个数据反映了用户一般为近距离骑行，比较合理。
但最大距离值达到44900米，初步判断应该是个异常值，一般人骑行不会骑这么远。

# 用户骑行距离分布图
sns.distplot(df["start_end_distance"])

骑行距离分布图显示出主要的骑行距离大概集中在5000米范围内。但也存在远距离甚至40公里以上的骑行，考虑到定位问题存在一些特殊性，可考虑为异常数据；或者可以理解为其他特殊的骑行现象。

将5000米骑行距离外的数据做进一步剔除，再做一层过滤，更清晰地观察骑行距离的分布。

# 剔除一些极端的骑行距离案例
start_end_distance = df["start_end_distance"]
start_end_distance = start_end_distance.loc[start_end_distance<5000]
sns.distplot(start_end_distance)

剔除5000米以上距离的数据后，骑行距离的分布可以看得更明显了。大部分用户骑行距离还是在1000米内的。
当然，还可以重复上述操作，继续缩小距离到4000米，3000米，会更清晰地查看分布！

通过前面的分析，时间对骑行订单量的分布有明显影响。那么，时间对骑行距离是否也会产生影响呢？
接着分析不同时间段的平均骑行距离。

# 不同时间段的骑行距离
hour_group = df.groupby("hour")
hour_distance = hour_group.agg({"start_end_distance":"mean"}).reset_index()
sns.barplot(x='hour',y='start_end_distance',data=hour_distance)

图形反映出随时间的变化，骑行距离变化趋势较为平缓，可理解为骑行时间对骑行距离不会产生太大影响。

另外，数据集中给出了两种摩拜单车的车型，车型是否对骑行距离有影响呢？
查看车型对应的用户平均骑行距离。

# 摩拜单车分为1代，2代两种车型，分析两种车型的平均骑行距离
g_biketype = df.groupby("biketype")
g_biketype.agg({"start_end_distance":"mean"})

	start_end_distance
biketype
1	808.862414
2	824.435284

两代车型的骑行距离没有太大区别，平均骑行距离都在800米左右，不同的车型对骑车距离没有影响。

用户出发地与目的地分析

分析出发点或到达点每天对应的用户量、车辆数量、订单量分布

def analysis_1(data,target):
    g1 = data.groupby(["day",target])
    group_data = g1.agg({"orderid":"count","userid":"nunique",
						"bikeid":"nunique"}).reset_index()
    for each in ["orderid","userid","bikeid"]:
        sns.distplot(group_data[each])
        plt.show()
    return group_data

group_data = analysis_1(df,"geohashed_start_loc")

上面生成的3个图形，是根据出发点“geohashed_start_loc”计算出的用户量、订单量、单车量的分布。

数量集中在偏向0的位置，说明每个出发点匹配到的用户数量、单车量、订单量都很少。

使用describe()函数，查看各项统计值。

group_data.describe()

	orderid	userid	bikeid
count	483885.000000	483885.000000	483885.000000
mean	3.321136	3.239700	3.306496
std	4.811719	4.722345	4.776035
min	1.000000	1.000000	1.000000
25%	1.000000	1.000000	1.000000
50%	2.000000	2.000000	2.000000
75%	4.000000	4.000000	4.000000
max	154.000000	152.000000	153.000000

每个区块仅平均匹配到3个订单，3个用户，3辆车。25%，50%，75%分位数同样说明了出发点匹配到的骑行相关数量是很少的。
因为这里是按照7位Geohash编码计算的分布情况。考虑到7位编码对应的区块面积非常小，骑行数量很少也不难理解。

如果换位6位编码，区域面积放大，是否订单量、用户量、车辆数都会变化呢？

group_data_6 = analysis_1(df,"geohashed_start_loc_6")

可以明显看出数量范围变大了，用describe函数看统计信息

group_data_6.describe()

	orderid	userid	bikeid
count	56959.000000	56959.000000	56959.000000
mean	28.214119	26.145736	27.414754
std	48.636984	45.326965	46.978754
min	1.000000	1.000000	1.000000
25%	2.000000	2.000000	2.000000
50%	7.000000	6.000000	6.000000
75%	32.000000	29.000000	31.000000
max	546.000000	527.000000	528.000000

每个6位Geohash编码区块中平均产生28个订单，有26个用户，27辆车。

我们可以想象，如果将编码长度继续缩小，对应的订单量等也会相应地变大。

将数据按照日期，出发点、目的点进行分组，统计各记录匹配到的用户量、订单量、单车量、以及平均骑行距离

# 计算 出发点-目的点 的 订单量，车辆数，用户数
start_end = df.groupby(["day","geohashed_start_loc","geohashed_end_loc"])
start_end.agg({"orderid":"count","userid":"nunique","bikeid":"nunique",
				"start_end_distance":"mean"}).reset_index().
				sort_values(by = "orderid",ascending = False)

	day	geohashed_start_loc	geohashed_end_loc	orderid	userid	bikeid	start_end_distance
172759	2017-05-11	wx4f9ky	wx4f9mk	40	38	40	385.045143
290218	2017-05-12	wx4f9ky	wx4f9mk	37	36	37	385.045143
743058	2017-05-16	wx4f9ky	wx4f9mk	33	32	33	385.045143
875354	2017-05-18	wx4f9ky	wx4f9mk	33	33	33	385.045143
1011883	2017-05-19	wx4f9ky	wx4f9mk	30	30	30	385.045143
619106	2017-05-15	wx4f9ky	wx4f9mk	30	29	30	385.045143
875309	2017-05-18	wx4f9kn	wx4f9ms	28	28	28	945.750759
503803	2017-05-14	wx4f9ky	wx4f9mk	28	28	28	385.045143
102471	2017-05-10	wx4gd3e	wx4gd91	28	28	28	765.452392
56190	2017-05-10	wx4f9ky	wx4f9mk	28	28	28	385.045143
290336	2017-05-12	wx4f9mk	wx4f9ky	27	27	26	385.045143
875483	2017-05-18	wx4f9mk	wx4f9ky	27	27	27	385.045143
56310	2017-05-10	wx4f9mk	wx4f9ky	27	26	27	385.045143
743020	2017-05-16	wx4f9kn	wx4f9mk	26	26	26	798.714812
1012006	2017-05-19	wx4f9mk	wx4f9ky	26	26	26	385.045143
619252	2017-05-15	wx4f9ms	wx4f9ky	25	25	25	514.635486
743176	2017-05-16	wx4f9mk	wx4f9ky	24	24	24	385.045143
187689	2017-05-11	wx4fg87	wx4ferq	24	24	24	846.527290
619213	2017-05-15	wx4f9mk	wx4f9ky	23	23	22	385.045143
744399	2017-05-16	wx4f9wb	wx4f9mu	23	23	23	770.061723
618122	2017-05-15	wx4f94q	wx4f94t	23	3	22	192.537565
503902	2017-05-14	wx4f9mk	wx4f9ky	22	21	22	385.045143
172890	2017-05-11	wx4f9mk	wx4f9ky	22	22	22	385.045143
172727	2017-05-11	wx4f9kn	wx4f9mk	22	22	22	798.714812
1011848	2017-05-19	wx4f9kn	wx4f9ms	22	22	22	945.750759
1329605	2017-05-23	wx4f9ky	wx4f9mk	22	22	22	385.045143
875308	2017-05-18	wx4f9kn	wx4f9mk	21	21	21	798.714812
716408	2017-05-16	wx4eq0c	wx4eq23	21	21	21	985.047239
219987	2017-05-11	wx4gd3e	wx4gd91	21	21	21	765.452392
1068753	2017-05-19	wx4ghcm	wx4ghc8	21	21	19	605.232188
...	...	...	...	...	...	...	...
496796	2017-05-14	wx4f6dt	wx4f6e5	1	1	1	385.162205
496795	2017-05-14	wx4f6dt	wx4f6du	1	1	1	192.581816
496794	2017-05-14	wx4f6dt	wx4f6dg	1	1	1	279.993591
496793	2017-05-14	wx4f6dt	wx4f6cy	1	1	1	1151.210912
496792	2017-05-14	wx4f6dt	wx4f6cw	1	1	1	1220.055841
496791	2017-05-14	wx4f6dt	wx4f68f	1	1	1	1125.405599
496789	2017-05-14	wx4f6ds	wx4f6c7	1	1	1	1121.491835
496788	2017-05-14	wx4f6dp	wx4f694	1	1	1	846.989903
496787	2017-05-14	wx4f6dm	wx4f6tc	1	1	1	2188.751354
496806	2017-05-14	wx4f6dy	wx4f6ft	1	1	1	835.479643
496808	2017-05-14	wx4f6e3	wx4f66y	1	1	1	466.037940
496809	2017-05-14	wx4f6e3	wx4f6du	1	1	1	466.037940
496820	2017-05-14	wx4f6e6	wx4f6dh	1	1	1	798.769875
496827	2017-05-14	wx4f6e6	wx4f6tc	1	1	1	1531.530561
496826	2017-05-14	wx4f6e6	wx4f6s8	1	1	1	798.762994
496825	2017-05-14	wx4f6e6	wx4f6f8	1	1	1	839.968993
496824	2017-05-14	wx4f6e6	wx4f6eh	1	1	1	279.985738
496823	2017-05-14	wx4f6e6	wx4f6dt	1	1	1	577.741167
496822	2017-05-14	wx4f6e6	wx4f6dm	1	1	1	704.992737
496821	2017-05-14	wx4f6e6	wx4f6dj	1	1	1	840.762197
496819	2017-05-14	wx4f6e6	wx4f6d9	1	1	1	472.898341
496810	2017-05-14	wx4f6e3	wx4f6mq	1	1	1	1271.321707
496817	2017-05-14	wx4f6e5	wx4f6sd	1	1	1	923.700402
496816	2017-05-14	wx4f6e5	wx4f6s2	1	1	1	840.750429
496815	2017-05-14	wx4f6e5	wx4f6kr	1	1	1	896.232533
496814	2017-05-14	wx4f6e5	wx4f6e6	1	1	1	192.578962
496813	2017-05-14	wx4f6e5	wx4f6dt	1	1	1	385.162205
496812	2017-05-14	wx4f6e5	wx4f6df	1	1	1	192.580389
496811	2017-05-14	wx4f6e4	wx4f6tc	1	1	1	1683.825532
1422322	2017-05-24	wx5j4b2	wx5j48p	1	1	1	192.092410

1422323 rows × 7 columns

通过上述结果，发现数据集采集来源北京某区域有两个热点区域：wx4f9ky以及wx4f9mk。这两个地点发生的骑行订单量较多，而且两点间往返程的数据量也较多。

另外，留意到大部分数据的前5位编码有大量相同。可以联想到，先确定短字节Geohash编码更容易些。这样，就引申出一些模型分析的初步想法~

模型分析的初步想法

思考1：7位Geohash编码出发点，对应的停车点在自己及相邻8个区块中的概率是多少呢？

df["inside"].mean()

0.06715480807044967

df["inside"].sum()

df["inside"].count()

7位编码对应停车点情况：160W出行记录中，仅有10万个出发点，对应的停车点在当前或周围8个邻居区块中，在周围范围内概率仅为6.7%。
如果想直接在7位编码中查找可能的出发点，难度有点大，范围太广。

6位编码对应的情况呢？

df["inside_6"].mean()

0.8146838177826673

df["inside_6"].sum()

df["inside_6"].count()

6位编码对应停车点情况：160W出行记录中，有130W条骑行记录对应的停车点在当前或周围8个邻居区块中，在周围范围内概率达到81.4%。
通过这些数据，分析出出发点对应的停车点对应的6位Geohash代码更为容易。

思考2：编码长度的变化，对出发点、停车点的区块数量会引起多大的变化呢？

# 7位编码区块-出发点数量
len(df["geohashed_start_loc"].unique())

# 7位编码区块-目的点数量
len(df['geohashed_end_loc'].unique())

# 6位编码区块-出发点数量
len(df['geohashed_start_loc_6'].unique())

# 6位编码区块-目的点数量
len(df['geohashed_end_loc_6'].unique())

仅仅是减少一位编码，涉及到的区块量就从8W数量级减少到了不足7K。我们只选取了50%的样本数据，如果是整个数据集，这个区块量的减少是巨大的。

综合考虑目的地在自己周围区块范围内的概率，分析数据的有效性，以及编码区块数量的很大差别。可以考虑分层的处理办法，先找到停车目的地所在的6位编码，接着在一个6位编码内找到对应的7位编码，比直接去搜索7位编码更为有效和便捷！工作量就大大减少了。

思考3：直接从6位编码开始研究吗，考虑到Geohash编码长度对应的区域范围，可以构建多层规则，比如Geohash 4位，Geohash 3位等
数据的处理办法同之前：

# 更短Geohash编码提取
def geohash_process(df):
    df['geohashed_start_loc_5'] = df['geohashed_start_loc'].apply(lambda s : s[:5])
    df['geohashed_end_loc_5'] = df['geohashed_end_loc'].apply(lambda s : s[:5])
    
    df['geohashed_start_loc_4'] = df['geohashed_start_loc'].apply(lambda s : s[:4])
    df['geohashed_end_loc_4'] = df['geohashed_end_loc'].apply(lambda s : s[:4])
    
    df['geohashed_start_loc_3'] = df['geohashed_start_loc'].apply(lambda s : s[:3])
    df['geohashed_end_loc_3'] = df['geohashed_end_loc'].apply(lambda s : s[:3])
    
    return df

geohash_process(df)

# 5位编码对应的出发点数量
df["geohashed_start_loc_5"].unique().size

# 4位编码对应的出发点数量
df["geohashed_start_loc_4"].unique().size

# 3位编码对应的出发点数量
df["geohashed_start_loc_3"].unique().size

4为编码对应的出发点仅为94个。3位编码对应的出发点数量减少为35个。
随着Geohash字符串变短，分析的区块面积扩大，摩拜服务点数量显著变小。

思考4：Geohash编码越短，区块面积越大。出发点应该和停车点在同一个区块内。如果不在同一个区块内，可以判断为异常值进行剔除。进一步过滤数据

# 出发点在g4范围内不一致的数量
len(df.loc[df['geohashed_start_loc_4'] != df['geohashed_end_loc_4']])

# 出发点在g3范围内不一致的数量
len(df.loc[df['geohashed_start_loc_3'] != df['geohashed_end_loc_3']])

# 直接可以当做异常值剔除掉

Geohash 3位编码表示的区域范围已经很大，达到156km*156km，单车骑行能超出此区块的，可以考虑做异常值剔除。

综合上述几个关于模型的小想法，我觉得可以采用分层处理的方式去思考模型的构建。从较短的Geohash编码字符串对应的大区块范围慢慢缩减，有目的地逐步精确到小区块。

以上为摩拜单车数据探索分析的笔记整理，实战期间查询了很多知识点，比如Geohash编码，Haversine公式等，收获颇丰。

如果本文内容有不当之处，欢迎留言评论~

希望总结对您的学习有所帮助！

你可能感兴趣的:(Python)

python里class转换_python实现class对象转换成json/字典的方法八决子 python里class转换
python实现class对象转换成json/字典的方法发布于2016-03-2808:05:44|153次阅读|评论:0|来源:网友投递Python编程语言Python是一种面向对象、解释型计算机程序设计语言，由GuidovanRossum于1989年底发明，第一个公开发行版发行于1991年。Python语法简洁而清晰，具有丰富和强大的类库。它常被昵称为胶水语言，它能够把用其他语言制作的各种模块
解密 Python 的 MRO：C3 线性化如何优雅解决多重继承的菱形难题》
《解密Python的MRO：C3线性化如何优雅解决多重继承的菱形难题》引言：继承的优雅与复杂在Python的面向对象编程中，继承是一种强大的机制，它让我们能够复用代码、构建抽象层次、实现多态行为。然而，当我们引入多重继承时，继承体系的复杂性也随之而来，尤其是著名的“菱形继承问题”。Python通过一种称为C3线性化（C3Linearization）的算法来解决方法解析顺序（MethodResolu
《深入理解 Python 的对象构造机制：__new__ 与 __init__ 的本质区别与实战应用》清水白石008 开发语言学习笔记课程教程 python 开发语言
《深入理解Python的对象构造机制：new与init的本质区别与实战应用》引言：对象的诞生之谜在Python的面向对象编程中，我们习惯于使用__init__方法来初始化对象。但你是否曾注意到，还有一个鲜为人知却至关重要的魔法方法——__new__？它是对象构造过程的起点，掌控着类实例的真正创建。理解__new__与__init__的区别，不仅能帮助你掌握Python的对象模型，还能在构建不可变类
Day9: OpenCV学习（一）—— 图像基础
系列文章目录上一篇：Day8：Python工程化——模块、包文章目录系列文章目录前言一、安装和导入1.安装二、图像认识1.图像2.图像分类三、基础图像操作1.图像读取2.图像显示3.图像裁剪4.图形尺寸修改5.图像保存6.图像绘制7.视频捕获即显示总结前言OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成
python基础语法复习04——函数洛华363 python python
python基础语法目录python基础语法01——基本类型python基础语法02——复合类型python基础语法03——语句构成文章目录python基础语法目录一、初识函数1.定义2.调用二、函数的传参1.位置传参2.关键词传参3.参数默认值4.可变位置参数5.可变关键词参数6.参数解包7.值传递与引用传递总结一、初识函数函数是Python中可重复使用的代码块，用于执行特定任务。通过将代码封装
ubuntu18.04安装geemap 阿西是有梦想的咸鱼 python编程之路遥感影像处理可视化可视化 python ubuntu
文章目录安装测试GEE提供了JavaScript和PythonAPI，可以向EarthEngine服务器发出计算请求。与GEEJavaScriptAPI相比，PythonAPI缺乏易于理解的操作文档和交互式可视化结果的功能。由此，geemap诞生并填补了这一空白[1]。这里给大家介绍下我折腾了一晚上才搞定的geemap的安装及测试过程。这里是geemap的GitHub参考链接。安装如Github中
python进行geeMap环境安装箭梭_ python
近期需要利用geemap搭建一个界面，试了一下相应环境的配置，踏了挺多坑，下面我给大家具体介绍一下geemap的环境搭建：（1）geemap是基于googleearthengine的接口进行开发的，在安装geemap之前，需要先进行earthengie包的安装，参考链接如下：https://zhuanlan.zhihu.com/p/29186942#comment-549701602?notifi
API开发全攻略：从入门到精通的企业级API架构与实战 Android洋芋架构 API设计 RESTful API 微服务架构实战案例
简介API开发已成为现代软件架构的核心能力，掌握API设计与实现技术能显著提升开发效率和系统可扩展性。本文将从零开始，全面解析API的基础概念、架构设计、安全认证、性能优化等关键技术点，并提供完整的Python和Go语言代码实战示例，帮助开发者构建高性能、可扩展的企业级API系统。本文旨在为初学者和进阶开发者提供一份全面的API开发指南。内容涵盖API的基础概念、类型分类、架构设计、安全认证、性能
2023年NOC大赛创客智慧编程赛项Python 复赛模拟题（二）青少儿编程课堂少儿编程资料大全付费专栏 python numpy 开发语言 noc大赛真题 noc试题
题目来自：NOC大赛创客智慧编程赛项Python复赛模拟题(二)NOC大赛创客智慧编程赛项Python复赛模拟题（二）第一题：编写一个成绩评价系统，当输入语文、数学和英语三门课程成绩时，输出三门课程总成绩及其等级。(1)程序提示用户输入三个数字，数字分别表示语文、数学、英语分数，对应的变量名称是Chinese、Math、English,并计算三个分数的和(score)进行输出。注：input()函
【RS】GEE(Python)：大规模分析与导出数据
在前面的章节中，我们探讨了如何在GoogleEarthEngine(GEE)上进行数据加载、处理、分析和可视化。现在，我们将进一步扩展，探索如何处理大规模的数据集和执行复杂的分析任务。通过GEE的云计算能力，用户可以在全球范围内执行大规模的时空分析，并高效地将处理结果导出为所需的格式。大规模分析的基本原则在GEE中，大规模分析是通过ImageCollection和FeatureCollection
【Python篇】Python基础——08day.面向对象编程中类和对象的基本概念及属性和方法的常见分类和使用场景 WXX_s python基础篇 python 分类开发语言学习
目录前言一、类和对象1.类→Class1.1概念1.2创建2.对象→Object2.1概念2.2创建二、属性和方法1.实例属性2.实例方法3.类属性4.类方法5.静态方法5.1综合应用6.构造方法7.初始化方法8.魔术方法8.1常用方法8.2案例参考总结前言这章讲的面向对象编程（Object-OrientedProgramming，简称OOP）是一种通过组织对象来设计程序的编程方法。为什么需要类和
【Python篇】Python基础——04day.Python中运算（简单部分，如果会的可以直接跳过）
文章目录前言一.运算符1.1算术运算符1.2比较运算符1.3逻辑运算符1.4赋值运算符1.5位运算符1.6身份运算符1.7成员运算符1.8三目运算符1.9优先级二.表达式2.1算术表达式2.2比较表达式2.3逻辑表达式2.4赋值表达式2.5成员表达式2.6身份表达式2.7三元表达式2.8函数调用表达式三.推导式3.1列表推导式3.2字典推导式3.3集合推导式总结前言这一章写的是在python中会用
Python 现代时间序列预测第二版（五）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/22eab741fce9c15dfad894ecf37bdd51译者：飞龙协议：CCBY-NC-SA4.0第十七章：概率预测及更多在整本书中，我们学习了生成预测的不同技术，包括一些经典方法，使用机器学习以及一些深度学习架构。但我们一直在关注一种典型的预测问题——为连续时间序列生成点预测，并且没有层级关系且历史数据足够丰富。我们之所以这样做，是因为这
自动化测试中，测试数据如何管理？鱼鱼说测试 java linux 服务器
今晚在某个测试群，看到有人问了一个问题：把测试数据放配置文件读取和放文件通过函数调用读取有什么区别？Python接口自动化测试零基础入门到精通（2025最新版）当时我下意识的这么回答：数据量越大，配置文件越臃肿，放在专门的数据文件（比如excel，csv），方便针对性的维护。乍看没毛病，但回头和人讨论这个问题的时候，就认真思考了一下这个问题，下面是我的一些思考和讨论的一些结果，仅供参考。。。自动化
基于selenium的pyse自动化测试框架鱼鱼说测试 selenium 测试工具
Python接口自动化测试零基础入门到精通（2025最新版）介绍：pyse基于selenium（webdriver）进行了简单的二次封装，比selenium所提供的方法操作更简洁。特点：默认使用CSS定位，同时支持多种定位方法（id\name\class\link_text\xpath\css）。本框架只是对selenium（webdriver）原生方法进行了简单的封装，精简为大约30个方法，这些
自动化测试准备鱼鱼说测试自动化测试
什么是自动化测？Python接口自动化测试零基础入门到精通（2025最新版）首先理清自动化测试的概念，广义上来讲，自动化包括一切通过工具（程序）的方式来代替或辅助手工测试的行为都可以看做自动化，包括性能测试工具（loadrunner、jmeter）,或自己所写的一段程序，用于生成1到100个测试数据。狭义上来讲，通工具记录或编写脚本的方式模拟手工测试的过程，通过回放或运行脚本来执行测试用例，从而代
重塑未来：AI如何重新定义全栈开发熊猫钓鱼>_> 人工智能
在传统认知中，全栈开发者被誉为技术界的“全能选手”。——他们需要精通前端界面构建（HTML/CSS/JavaScript）、后端业务逻辑实现（Python/Java/Node.js）、数据库设计优化（MySQL/MongoDB）以及服务器部署运维（Linux/Docker）。这种“一人包打天下”的能力模型长期被视为高效开发的黄金标准，尤其受到创业公司和小型团队的青睐，因为它能大幅减少沟通成本，加速
OpenCV稠密光流法可直接运行的例程（python） indrrra opencv python 人工智能
#dense_optical_flow.pyimportcv2importnumpyasnpimportargparsedefdense_optical_flow(method,video_path,params=[],to_gray=False):#读取视频cap=cv2.VideoCapture(video_path)#读取第一帧ret,old_frame=cap.read()#创建HSV并使
分布式锁特点、以及用python3实现redis分布式锁数据知道 python3案例和总结分布式 redis 数据库 python
更多内容请见：python3案例和总结-专栏介绍和目录文章目录一、Redis分布式锁核心原理1.1Redis锁机制1.2锁释放二、基础实现代码2.1使用`redis-py`客户端2.2分布式锁类三、使用示例3.1基础锁操作3.2装饰器模式四、高级特性实现4.1Redlock算法（高可用方案）五、生产环境最佳实践5.1锁粒度控制5.2异常处理5.3监控与调试5.4重试机制六、测试代码6.1并发测试6
php、go、python后端接口签名实现奇华智能后台开发 linux 签名接口安全
1.php实现/**生成签名，$args为请求参数，$key为私钥*/functionmakeSignature($args,$key){if(isset($args['sign'])){$oldSign=$args['sign'];unset($args['sign']);}else{$oldSign='';}ksort($args);$requestString='';foreach($arg
python第一次作业
1.技术面试题（1）TCP与UDP的区别是什么？**答：1.TCP是面向连接的协议，而UDP是元连接的协议2.TCP协议传输是可靠的，而UDP协议的传输是“尽力而为3.TCP是可以实现流控，而UDP不行4.TCP可以实现分段，而UDP不行5.TCP的传输速率较慢，占用资源较大，UDP传输速率快，占用资源小。TCP/UDP的应用场景不同TCP适合可靠性高的效率要求低的，UDP可靠性低，效率高。（2）
python www_hhhhhhh python java 面试
1.技术面试题（1）解释Linux中的进程、线程和守护进程的概念，以及如何管理它们？答：进程：是操作系统进行资源分配的基本单位，拥有独立的地址空间、进程控制块，每个进程之间相互隔离。例如，打开一个终端窗口会启动一个bash进程。线程：是操作系统调度的基本单位，隶属于进程，共享进程的资源，但有独立的线程控制块和栈。线程切换开销远小于进程。例如，一个Web服务器的单个进程中，多个线程可同时处理不同客户
Python lambda表达式：匿名函数的适用场景与限制梦幻南瓜 python python 服务器 linux
目录1.Lambda表达式概述1.1Lambda表达式的基本语法1.2简单示例2.Lambda表达式的核心特点2.1匿名性2.2简洁性2.3即时性2.4函数式编程特性3.Lambda表达式的适用场景3.1作为高阶函数的参数3.2简单的数据转换3.3条件筛选3.4GUI编程中的回调函数3.5Pandas数据处理4.Lambda表达式的限制4.1只能包含单个表达式4.2没有语句4.3缺乏文档字符串4.
【python】 www_hhhhhhh python 面试职场和发展
1.技术面试题（1）TCP与UDP的区别是什么？答：TCP（传输控制协议）和UDP（用户数据报协议）是两种常见的传输层协议，主要区别在于连接方式和可靠性。TCP是面向连接的协议，传输数据前需建立连接，通过三次握手确保连接可靠，传输过程中有确认、重传和顺序控制机制，保证数据完整、按序到达，适用于网页浏览、文件传输等对可靠性要求高的场景。UDP是无连接的协议，无需建立连接即可发送数据，不保证数据可靠传
Python函数的返回值
1.返回值定义及案例：2.返回值与print的区别：print仅仅是打印在控制台，而return则是将return后面的部分作为返回值作为函数的输出，可以用变量接走，继续使用该返回值做其它事。3.保存函数的返回值如果一个函数return返回了一个数据，那么想要用这个数据，那么就需要保存.#定义函数defadd2num(a,b): returna+b#调用函数，顺便保存函数的返回值result=
python怎么把函数返回值_python函数怎么返回值
python函数使用return语句返回“返回值”，可以将其赋给其它变量作其它的用处。所有函数都有返回值，如果没有return语句，会隐式地调用returnNone作为返回值。python函数使用return语句返回"返回值"，可以将其赋给其它变量作其它的用处。所有函数都有返回值，如果没有return语句，会隐式地调用returnNone作为返回值。一个函数可以存在多条return语句，但只有一条
Python星球日记 - 第8天：函数基础 Code_流苏 Python星球日记 python 函数 def关键字函数参数返回值
引言：上一篇：Python星球日记-第7天：字典与集合名人说：路漫漫其修远兮，吾将上下而求索。——屈原《离骚》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder）目录一、函数的定义与调用1.什么是函数？2.如何定义函数-`def`关键字3.函数调用方式二、参数与返回值1.函数参数类型2.如何传递参数3.返回值和`return`语句三、局部变量与全局变量1.变量作用域概念2.局部变
华为OD机试2025C卷 - 小明的幸运数 (C++ & Python & JAVA & JS & GO) 无限码力华为od 华为OD机试2025C卷华为OD2025C卷华为OD机考2025C卷
小明的幸运数华为OD机试真题目录点击查看:华为OD机试2025C卷真题题库目录｜机考题库+算法考点详解华为OD机试2025C卷100分题型题目描述小明在玩一个游戏，游戏规则如下：在游戏开始前，小明站在坐标轴原点处（坐标值为0）.给定一组指令和一个幸运数，每个指令都是一个整数，小明按照指令前进指定步数或者后退指定步数。前进代表朝坐标轴的正方向走，后退代表朝坐标轴的负方向走。幸运数为一个整数，如果某个
Python 函数返回值落花雨时 Python基础
#返回值，返回值就是函数执行以后返回的结果#可以通过return来指定函数的返回值#可以之间使用函数的返回值，也可以通过一个变量来接收函数的返回值defsum(*nums):#定义一个变量，来保存结果result=0#遍历元组，并将元组中的数进行累加forninnums:result+=nprint(result)#sum(123,456,789)#return后边跟什么值，函数就会返回什么值#r
存档python爬虫、Web学习资料
1python爬虫学习学习Python爬虫是个不错的选择，它能够帮你高效地获取网络数据。下面为你提供系统化的学习路径和建议：1.打好基础首先要掌握Python基础知识，这是学习爬虫的前提。比如：变量、数据类型、条件语句、循环等基础语法。列表、字典等常用数据结构的操作。函数、模块和包的使用方法。文件读写操作。推荐通过阅读《Python编程：从入门到实践》这本书或者在Codecademy、LeetCo
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟