nadph513

共享单车需求预测

数据集介绍

数据集来自Kaggle的一个Playground竞赛。数据产生于记录了骑行时间，出发地点，到达地点，到达时间的共享单车传感器网络，其可用于研究城市中的移动特性。本次比赛中，参与者要求将历史使用情况于天气数据相结合，以便预测华盛顿特区的共享单车租赁需求。

参数介绍

datetime: hourly date + timestamp
season: 1 = spring, 2 = summer, 3 = fall, 4 = winter
holiday(binary): 是否为节假日
workingday: 当天是工作日还是周末
weather
- 1: 晴，少云，晴间多云，部分多云
- 2: 雾+多云，雾+云，雾+少云，雾
- 3: 小雨，小雨+雷雨+零星云，小雨+零星云
- 4: 大雨+冰雹+雷雨+雾，雪+雾
temp: 气温
atemp: 体感温度
humidity: 相对湿度
windspeed: 风速
casual: 非会员用户租车数量
registered: 会员用户租车数量
count: 总租车数

共12项参数

评价标准

提交的预测使用对数误差方均根(Root Mean Squared Logarithmic Error)，公式如下：

1 n \sum i = 1 n (l o g (p i + 1) - l o g (a i + 1)) 2 - - - - - - - - - - - - - - - - - - - - - - - - - - \sqrt

其中：

n 是测试集数据量
pi 是预测值
ai 是实际值
log(x) 是自然对数

基本数据情况与预处理

import pylab
import numpy as np
import pandas as pd
import seaborn as sn
from datetime import datetime
import calendar
import matplotlib.pyplot as plt
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all" 
%matplotlib inline
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
# %config InlineBackend.figure_format = 'svg'

train = pd.read_csv('./data/train.csv')
test = pd.read_csv('./data/test.csv')

数据基本信息

train.shape
test.shape

(10886, 12) (6493, 9)

train.head(2)
test.head(2)

	datetime	season	holiday	workingday	weather	temp	atemp	humidity	windspeed	casual	registered	count
0	2011-01-01 00:00:00	1	0	0	1	9.84	14.395	81	0.0	3	13	16
1	2011-01-01 01:00:00	1	0	0	1	9.02	13.635	80	0.0	8	32	40

	datetime	season	holiday	workingday	weather	temp	atemp	humidity	windspeed
0	2011-01-20 00:00:00	1	0	1	1	10.66	11.365	56	26.0027
1	2011-01-20 01:00:00	1	0	1	1	10.66	13.635	56	0.0000

训练集有10886组数据，测试集有6493行数据,测试集中有关数量的列是待预测的。

train.dtypes

    datetime       object
    season          int64
    holiday         int64
    workingday      int64
    weather         int64
    temp          float64
    atemp         float64
    humidity        int64
    windspeed     float64
    casual          int64
    registered      int64
    count           int64
    dtype: object

将datetime拆分为日期和时间，将日期转化为距数据集记录的第一天之间的天数，作为新的一组特征。

train['date'] = train.datetime.apply(lambda x: x.split()[0])
train['hour'] = train.datetime.apply(lambda x: x.split()[1].split(':')[0])
begin = datetime(2011, 1, 1)
train['pirod'] = train.date.apply(lambda x: (datetime.strptime(x, "%Y-%m-%d") - begin).days)

删除多余的datetime列

train = train.drop(['datetime'], axis=1)

缺失值

count()统计每列的非空值的个数，len()返回数据的长度。两者相减就能得出相应列数据的缺失情况。如下所示，这个数据集没有值的缺失情况。

train.count() - len(train)

    season        0
    holiday       0
    workingday    0
    weather       0
    temp          0
    atemp         0
    humidity      0
    windspeed     0
    casual        0
    registered    0
    count         0
    date          0
    hour          0
    pirod         0
    dtype: int64

离群点的处理

sn.boxplot(data=train,y="count",orient="v")

首先作出箱型图，在建模中，通常认为大于上界的点为异常数据点，但是考虑到深夜，与高峰用车的差距悬殊问题，故只去除大于三倍标准差的值

outliers_removed = train[np.abs(train['count'] - train['count'].mean()) <= (3 * train['count'].std())]

ax = sn.boxplot(data=outliers_removed,y="count",orient="v")
ax.set(title="去除离群点")

统计分布

axes = sn.distplot(outliers_removed['count'])
axes.set(title="count的统计分布")

“count”的分布有点类似正态分布，但是主要集中在较小的区域内

数据可视化

fig, ax = plt.subplots(1)
fig.set_size_inches(8, 6)
hourAggregated = pd.DataFrame(train.groupby(["hour","season"],sort=True)["count"].mean()).reset_index()
sn.pointplot(x=hourAggregated["hour"], y=hourAggregated["count"],hue=hourAggregated["season"], data=hourAggregated, join=True, ax=ax)
ax.set(xlabel='小时', title='每天各小时使用量均值')

从季节来看，使用量变化都大致一样，从时间上看，使用量有明显的早晚高峰

fig, ax = plt.subplots(1)
fig.set_size_inches(8, 6)
season_aggregated = pd.DataFrame(train.groupby("season")["count"].mean()).reset_index()
sn.barplot(data=season_aggregated,x=season_aggregated['season'],y=season_aggregated['count'],ax=ax)
ax.set(title='季度平均')

春季使用量相对较低，可能与西方重要节日在春季有关，出行量大大减少

fig, ax = plt.subplots(1)
fig.set_size_inches(8, 6)
hourTransformed = pd.melt(train[["hour","casual","registered"]], id_vars=['hour'], value_vars=['casual', 'registered'])
hourAggregated = pd.DataFrame(hourTransformed.groupby(["hour","variable"],sort=True)["value"].mean()).reset_index()
sn.pointplot(x=hourAggregated["hour"], y=hourAggregated["value"],hue=hourAggregated["variable"],hue_order=["casual","registered"], data=hourAggregated, join=True,ax=ax)
ax.set(xlabel='小时', ylabel='count',title="每天会员使用次数与非会员使用次数",label='big')

从上图可以看出，会员用户使用较有规律，有固定的出行方式，表现在早晚高峰的出现。非会员用户只是临时使用，从量上看较为随机

回归预测

train = pd.read_csv('./data/train.csv')
test = pd.read_csv('./data/test.csv')

train['date'] = train.datetime.apply(lambda x: x.split()[0])
train['hour'] = train.datetime.apply(lambda x: int(x.split()[1].split(':')[0]))
begin = datetime(2011, 1, 1)
train['pirod'] = train.date.apply(lambda x: (datetime.strptime(x, "%Y-%m-%d") - begin).days)
train = train.drop(['datetime'], axis=1)
train = train[np.abs(train['count'] - train['count'].mean()) <= (3 * train['count'].std())]

test['date'] = test.datetime.apply(lambda x: x.split()[0])
test['hour'] = test.datetime.apply(lambda x: int(x.split()[1].split(':')[0]))
test['pirod'] = test.date.apply(lambda x: (datetime.strptime(x, "%Y-%m-%d") - begin).days)
submmit_datetime = test['datetime']
test = test.drop(['datetime'], axis=1)

删去体感温度”atemp”,因其与”temp”具有高度的线性相关性

train = train.drop(['atemp'], axis=1)
test = test.drop(['atemp'], axis=1)

test.head(1)
train.head(1)

	season	holiday	workingday	weather	temp	humidity	windspeed	date	hour	pirod
0	1	0	1	1	10.66	56	26.0027	2011-01-20	0	19

	season	holiday	workingday	weather	temp	humidity	windspeed	casual	registered	count	date	hour	pirod
0	1	0	0	1	9.84	81	0.0	3	13	16	2011-01-01	0	0

test.drop(['date'], axis=1).head(1)
train.drop(['date', 'casual', 'registered', 'count'], axis=1).head(1)

	season	holiday	workingday	weather	temp	humidity	windspeed	hour	pirod
0	1	0	1	1	10.66	56	26.0027	0	19

	season	holiday	workingday	weather	temp	humidity	windspeed	hour	pirod
0	1	0	0	1	9.84	81	0.0	0	0

xArr = train.drop(['date','casual', 'registered', 'count'], axis=1).as_matrix()

label = train['count'].as_matrix()

test_arr = test.drop(['date'], axis=1).as_matrix()

局部线性回归

最先想到的是课内预测效果较好的局部线性回归，函数依然不变，将dataframe转成array后代入计算。

from numpy.linalg import LinAlgError
def lwlr(testPoint, xArr, yArr, k = 1.0):
    xMat = np.mat(xArr); yMat = np.mat(yArr).T
    m = np.shape(xMat)[0]
    weights = np.mat(np.eye((m)))                                        
    for j in range(m):                                                  
        diffMat = testPoint - xMat[j, :]                                 
        weights[j, j] = np.exp(diffMat * diffMat.T/(-2.0 * k**2))
    xTx = xMat.T * (weights * xMat)                                        
    if np.linalg.det(xTx) == 0.0:
        print("矩阵为奇异矩阵,不能求逆")
        return
    ws = xTx.I * (xMat.T * (weights * yMat))
    return float(testPoint * ws)

def lwlrTest(testArr, xArr, yArr, k=1.0):
    m = np.shape(testArr)[0]                                           
    yHat = np.zeros(m)    
    for i in range(m):
        try:
            yHat[i] = lwlr(testArr[i],xArr,yArr,k)
        except LinAlgError:
            yHat[i] = yHat[i-1]
    return yHat

ans_arr = lwlrTest(test_arr, xArr, label)

使用局部加权线性回归出现了运行时间过长的问题。运行了将近30分钟，依然没有完成预测的运算。使用十分之一的测试集再次进行运算

ans_arr = lwlrTest(test_arr[0:int(len(test_arr) / 10)], xArr, label)

十分之一的测试集运行了14分钟，效率是难以接受的。并且在运行的过程中出现奇异矩阵的情况，因此寻找成熟的回归算法加以预测

sklearn的回归模型

test.head(1)

	season	holiday	workingday	weather	temp	humidity	windspeed	date	hour	pirod
0	1	0	1	1	10.66	56	26.0027	2011-01-20	0	19

线性回归

from sklearn.linear_model import LinearRegression

dataTrain = train.drop(['date','casual', 'registered', 'count'], axis=1)
dataTest = test.drop(['date'], axis=1)
yLabels = train["count"]
yLablesRegistered = train["registered"]
yLablesCasual = train["casual"]

dataTrain.head(1)
dataTest.head(1)

	season	holiday	workingday	weather	temp	humidity	windspeed	hour	pirod
0	1	0	0	1	9.84	81	0.0	0	0

	season	holiday	workingday	weather	temp	humidity	windspeed	hour	pirod
0	1	0	1	1	10.66	56	26.0027	0	19

model = LinearRegression()
yLabelsLog = np.log1p(yLabels)
model.fit(X=dataTrain, y=yLabelsLog)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

开始使用原始的”count”代入进行训练，发现预测值中有负值，搜索后发现使用 log(1+x) 可以解决这一问题。最后预测出的值在反过来取 exp() 即可。

LR_preds = model.predict(dataTest)

np.exp(LR_preds).mean()

151.46180116796612

submission = pd.DataFrame({
    "datetime": submmit_datetime, 
    "count": np.exp(LR_preds)
})
submission.to_csv('LR_submission.csv', index=False)

得分1.03062

岭回归

from sklearn.linear_model import Ridge
from sklearn.model_selection import GridSearchCV
from sklearn import metrics
import warnings
pd.options.mode.chained_assignment = None
warnings.filterwarnings("ignore", category=DeprecationWarning)

def rmsle(y, y_,convertExp=True):
    if convertExp:
        y = np.exp(y),
        y_ = np.exp(y_)
    log1 = np.nan_to_num(np.array([np.log(v + 1) for v in y]))
    log2 = np.nan_to_num(np.array([np.log(v + 1) for v in y_]))
    calc = (log1 - log2) ** 2
    return np.sqrt(np.mean(calc))

使用训练集来寻找适合的alpha

ridge_m_ = Ridge()
ridge_params_ = { 'max_iter':[3000],'alpha':[0.1, 1, 2, 3, 4, 10, 30,100,200,300,400,800,900,1000]}
rmsle_scorer = metrics.make_scorer(rmsle, greater_is_better=False)
grid_ridge_m = GridSearchCV( ridge_m_,
                          ridge_params_,
                          scoring = rmsle_scorer,
                          cv=5)
yLabelsLog = np.log1p(yLabels)
grid_ridge_m.fit( dataTrain, yLabelsLog )
preds = grid_ridge_m.predict(X= dataTrain)
print (grid_ridge_m.best_params_)
print ("RMSLE Value For Ridge Regression: ",rmsle(np.exp(yLabelsLog),np.exp(preds),False))

fig,ax= plt.subplots()
fig.set_size_inches(8, 6)
df = pd.DataFrame(grid_ridge_m.grid_scores_)
df["alpha"] = df["parameters"].apply(lambda x:x["alpha"])
df["rmsle"] = df["mean_validation_score"].apply(lambda x:-x)
sn.pointplot(data=df,x="alpha",y="rmsle",ax=ax)

GridSearchCV(cv=5, error_score='raise',
       estimator=Ridge(alpha=1.0, copy_X=True, fit_intercept=True, max_iter=None,
   normalize=False, random_state=None, solver='auto', tol=0.001),
       fit_params=None, iid=True, n_jobs=1,
       param_grid={'max_iter': [3000], 'alpha': [0.1, 1, 2, 3, 4, 10, 30, 100, 200, 300, 400, 800, 900, 1000]},
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring=make_scorer(rmsle, greater_is_better=False), verbose=0)



{'alpha': 1000, 'max_iter': 3000}
RMSLE Value For Ridge Regression:  0.9791543152862644

从图中看来alpha取1000的时候误差相对较小，但是还是接近1，因此不是很好的模型，接下来对测试集进行预测

Rd_model = Ridge(alpha=1000)
Rd_model.fit(dataTrain, yLabelsLog)
Rd_preds = Rd_model.predict(X=dataTest)
np.exp(Rd_preds).mean()

Ridge(alpha=1000, copy_X=True, fit_intercept=True, max_iter=None,
   normalize=False, random_state=None, solver='auto', tol=0.001)






151.29011594921747

submission = pd.DataFrame({
    "datetime": submmit_datetime, 
    "count": np.exp(Rd_preds)
})
submission.to_csv('Rd_submission.csv', index=False)

预测的值与线性回归基本相似，得分为1.03079。结果与预想类似，相较于线性回归错误率并没有质的提升

Lasso

from sklearn.linear_model import Lasso

lasso_m_ = Lasso()

alpha  = 1/np.array([0.1, 1, 2, 3, 4, 10, 30,100,200,300,400,800,900,1000])
lasso_params_ = { 'max_iter':[3000],'alpha':alpha}

grid_lasso_m = GridSearchCV( lasso_m_,lasso_params_,scoring = rmsle_scorer,cv=5)
yLabelsLog = np.log1p(yLabels)
grid_lasso_m.fit( dataTrain, yLabelsLog )
preds = grid_lasso_m.predict(X= dataTrain)
print (grid_lasso_m.best_params_)
print ("RMSLE Value For Lasso Regression: ",rmsle(np.exp(yLabelsLog),np.exp(preds),False))

fig,ax= plt.subplots()
fig.set_size_inches(12,5)
df = pd.DataFrame(grid_lasso_m.grid_scores_)
df["alpha"] = df["parameters"].apply(lambda x:x["alpha"])
df["rmsle"] = df["mean_validation_score"].apply(lambda x:-x)
sn.pointplot(data=df,x="alpha",y="rmsle",ax=ax)

GridSearchCV(cv=5, error_score='raise',
       estimator=Lasso(alpha=1.0, copy_X=True, fit_intercept=True, max_iter=1000,
   normalize=False, positive=False, precompute=False, random_state=None,
   selection='cyclic', tol=0.0001, warm_start=False),
       fit_params=None, iid=True, n_jobs=1,
       param_grid={'max_iter': [3000], 'alpha': array([1.00000e+01, 1.00000e+00, 5.00000e-01, 3.33333e-01, 2.50000e-01,
       1.00000e-01, 3.33333e-02, 1.00000e-02, 5.00000e-03, 3.33333e-03,
       2.50000e-03, 1.25000e-03, 1.11111e-03, 1.00000e-03])},
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring=make_scorer(rmsle, greater_is_better=False), verbose=0)



{'alpha': 0.005, 'max_iter': 3000}
RMSLE Value For Lasso Regression:  0.979186612406937

对Lasso回归模型使用相同的方法测试合适的参数，得到alpha为0.005，但是使用训练集测试的RMSLE依然和线性回归没有产生差距。

Ls_model = Ridge(alpha=0.005)
Ls_model.fit(dataTrain, yLabelsLog)
Ls_preds = Ls_model.predict(X=dataTest)
np.exp(Ls_preds).mean()

Ridge(alpha=0.005, copy_X=True, fit_intercept=True, max_iter=None,
   normalize=False, random_state=None, solver='auto', tol=0.001)






151.4617990672634

submission = pd.DataFrame({
    "datetime": submmit_datetime, 
    "count": np.exp(Ls_preds)
})
submission.to_csv('Ls_submission.csv', index=False)

随机森林

查询资料发现，随机森林也能对回归型的数据进行预测，并且考虑到数据集中有相当部分的特征不的数值型的，而是类别型的数据。尝试使用随机森林来预测

随机森林可以应用在分类和回归问题上。实现这一点，取决于随机森林的每颗cart树是分类树还是回归树。

如果是回归树，则cart树是回归树，采用的原则是最小均方差。即对于任意划分特征A，对应的任意划分点s两边划分成的数据集D1和D2，求出使D1和D2各自集合的均方差最小，同时D1和D2的均方差之和最小所对应的特征和特征值划分点。

from sklearn.ensemble import RandomForestRegressor
Rf_model = RandomForestRegressor(n_estimators=100)
Rf_model.fit(dataTrain,yLabelsLog)
preds = Rf_model.predict(X= dataTrain)
rmsle(np.exp(yLabelsLog),np.exp(preds),False)

RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,
           max_features='auto', max_leaf_nodes=None,
           min_impurity_decrease=0.0, min_impurity_split=None,
           min_samples_leaf=1, min_samples_split=2,
           min_weight_fraction_leaf=0.0, n_estimators=100, n_jobs=1,
           oob_score=False, random_state=None, verbose=0, warm_start=False)






0.11153272473377464

在训练集上，随机森林相较于一般的回归方式有较明显的提升，使用随机森林对测试集进行预测。

Rf_preds = Rf_model.predict(X=dataTest)
np.exp(Rf_preds).mean()

188.68494547504852

submission = pd.DataFrame({
    "datetime": submmit_datetime, 
    "count": np.exp(Rf_preds)
})
submission.to_csv('Rf_submission.csv', index=False)

得分0.45785

XGboost

import xgboost as xg

def grid_search():
    xgr=xg.XGBRegressor(max_depth=8,min_child_weight=6,gamma=0.4)
    xgr.fit(dataTrain, yLabelsLog)
    parameters=[{'subsample':[i/10.0 for i in range(6,10)],
 'colsample_bytree':[i/10.0 for i in range(6,10)]}]
    grid_search= GridSearchCV(estimator=xgr, param_grid=parameters, cv=10,n_jobs=-1)
    grid_search=grid_search.fit(dataTrain, yLabelsLog)
    best_accuracy=grid_search.best_score_
    best_parameters=grid_search.best_params_
    return best_accuracy, best_parameters

best_accuracy, best_parameters = grid_search()
best_accuracy
best_parameters

xgr=xg.XGBRegressor(max_depth=8,min_child_weight=6,gamma=0.4,colsample_bytree=0.9,subsample=0.8)
xgr.fit(dataTrain, yLabelsLog)

preds = xgr.predict(dataTrain)
rmsle(np.exp(yLabelsLog),np.exp(preds),False)

xg_preds = xgr.predict(dataTest)
np.exp(Rf_preds).mean()

submission = pd.DataFrame({
    "datetime": submmit_datetime, 
    "count": np.exp(xg_preds)
})
submission.to_csv('xg_submission.csv', index=False)

得分0.41951

上传得分

参考文献

机器学习算法—随机森林实现（包括回归和分类）
Get Started with XGBoost
梯度提升树GBDT原理
《python数据分析与挖掘实战》

你可能感兴趣的:(共享单车需求预测)

Vue.js组件开发-如何处理跨域请求 LCG元前端 vue.js
在Vue.js组件开发中，处理跨域请求（CORS，即跨来源资源共享）通常不是直接在Vue组件中解决的，而是需要后端服务器进行相应的配置，以允许来自不同源的请求。不过，前端开发者也需要了解一些基本的CORS概念和策略，以便与后端团队有效协作，并在必要时进行适当的配置或调试。CORS基本概念1‌.同源策略‌：默认情况下，浏览器遵循同源策略，即只允许加载、执行与当前页面来源（协议、域名、端口）相同的资源
Golang面试题四（并发编程） os-lee go高级 golang 开发语言后端
目录1.Go常见的并发模型2.哪些方法安全读写共享变量3.如何排查数据竞争问题4.Go有哪些同步原语1.Mutex(互斥锁)2.RWMutex(读写互斥锁)3.Atomic3.1.使用场景3.2.整型操作3.3.指针操作3.4.使用示例4.Channel使用场景使用示例5.sync.WaitGroup使用场景使用示例内部结构关键方法源码解析内部实现细节6.sync.Once使用场景使用示例实现原理
GPLv3.0协议介绍萌萌哒240 软件工具网络 tcp/ip 网络协议
GPLv3.0，即GNU通用公共许可证第三版，是开源软件领域广泛采用的一种许可协议。以下是对GPLv3.0协议的详细介绍：一、协议背景GPLv3.0由理查德·斯托曼编写，旨在保护开源软件作者的权益，同时鼓励代码的共享和再创新。作为自由软件和开源软件的最流行许可证之一，GPLv3.0在开源社区中具有重要地位。二、主要特点传染性：这是GPLv3.0最显著的特点。任何基于GPLv3.0软件开发的衍生作品
python多线程锁实战_Python多线程锁 7Nut7 python多线程锁实战
在多线程程序执行过程中，为什么需要给一些线程加锁以及如何加锁，下面就来说一说。1.给线程加锁的原因我们知道，不同进程之间的内存空间数据是不能够共享的，试想一下，如果可以随意共享，谈何安全？但是一个进程中的多个线程是可以共享这个进程的内存空间中的数据的，比如多个线程可以同时调用某一内存空间中的某些数据(只是调用，没有做修改)。试想一下，在某一进程中，内存空间中存有一个变量对象的值为num=8，假如某
python的多线程编程之锁代码输入中... python 爬虫数据分析开发语言 pycharm
1、背景概述在上篇文章中，主要讲述了python中的socket编程的一些基本方面，但是缺少关于锁的相关概念，从而在这篇文章中进行补充。由于在python中，存在了GIL，也就是全局解释器锁，从而在每次进行获得cpu的时候，同时只有一个线程获得了cpu的运行，在这个方面可以认为是线程安全的，但是在线程运行的时候，是共享内存的，共享相同的数据信息，从而这个时候python的线程就不那么安全了。在py
客户案例：致远OA与携程商旅集成方案慧集通-让软件连接更简单！慧集通（DataLinkX）致远OA 客户案例集 API 低代码需求分析产品经理系统集成携程商旅致远OA
一、前言本项目原型客户公司创建于1992年,主要生产并销售包括糖果系列、巧克力系列、烘焙系列、卤制品系列4大类,200多款产品。公司具有行业领先的生产能力,拥有各类生产线100+条,年产能超过10万吨。同时,经过30年的发展,公司积累了完善的销售网络,核心经销商已经超过1200个,超16万个销售终端可以覆盖全国所有城市。在现有优势的基础上,优秀的团队以及雄厚的资金实力将助力公司早日实现“与世界共享
ET199加密狗复制方法步骤详解 +Greer82 网络服务器运维
ET199加密狗作为一种常见的硬件加密设备，被广泛应用于各类软件中，用于保护软件不被非法复制和使用。然而，在某些特定情况下，我们可能需要复制ET199加密狗，以便在多台计算机上共享软件许可证或进行其他用途。本文将详细介绍ET199加密狗的复制方法，但请注意，复制加密狗可能涉及知识产权和合法授权问题，请务必在合法和授权的前提下进行操作。ET199加密狗复制一、ET199加密狗概述ET199加密狗是一
数据仓库的复用性：流程层面 PersistDZ 大数据与AI 数据仓库
在数据仓库建设中，流程层面的复用性是提高开发效率和数据质量的关键。通过标准化ETL流程、模块化设计，以及实时与离线共用的架构，可以最大化数据处理流程的复用性，降低复杂度。以下是详细的介绍和落地方案。1.标准化ETL流程1.1标准化ETL的意义提高流程一致性，减少人为失误。降低维护成本，方便团队协作。支持多项目间共享和复用。1.2标准化ETL设计方法1.2.1标准化流程定义将ETL过程拆分为抽取（E
产品解读 | 构建数智融合时代下的一站式大数据平台
随着智能化技术的飞速发展，尤其是以生成式AI为代表的技术快速应用，推动了数据与智能的深化融合，给数据基础设施带来了新的变革和挑战。如何简化日益复杂的系统架构，提高数据处理效率，降低开发运维成本，促进数据开放共享和创新应用，成为企业关注的核心问题。一站式大数据平台，旨在通过一个平台即可满足各类业务需求，成为数智融合时代下数据基础设施的发展趋势，并从四个维度向四个“一体化”方向演进：数据架构-湖仓集一
redis做为缓存，mysql的数据如何与redis进行同步呢? qq_44199605 java
Redis作为缓存与MySQL之间的数据同步问题，特别是涉及到双写一致性（即缓存与数据库的写操作要保持一致）时，通常有两种常见的解决方案。它们分别适用于不同的一致性要求和延迟容忍度。以下是两种常见的解决方案的详细解释：1.一致性要求高的情况当一致性要求较高时，数据同步必须确保在缓存和数据库中的数据始终保持一致，不能出现“脏数据”或数据不一致的情况。为了实现这一目标，常用的策略包括：(1)共享锁和排
【设计模式-结构型】享元模式博一波设计模式享元模式
一、什么是享元模式享元模式确实是一种结构型设计模式，其名称“享元”虽然听起来有些抽象，但其实包含了该模式的核心概念。我们可以将“享元”这个名字拆开来理解，以便更好地把握其含义和用途。享元模式的命名解释“享”：共享：享元模式的核心在于共享已存在的对象，而不是每次都创建新的对象。通过这种方式，多个客户端可以共享同一个对象实例，而不是每个客户端都拥有自己的独立实例。这种共享机制显著减少了内存的使用，提高
鸿蒙开发进阶(由南向北) Android小码家鸿蒙 harmonyos 华为
文章目录PurpleOH官方示例投屏工具推荐需要HDMI诱骗器智能插件问答社区应用层开发文档开源应用集合第三方仓库竖屏显示源码快速修改验证竖屏效果第一个页面设备端开发文档官方投屏PurplePiOH使用手册固件烧写固件下载源码编译源码导入VSCode指令集repo使用总存储空间使用率搭建编译容器运行编译容器开始编译编译成功查看固件烧录window访问共享路径固件路径复制固件到RKDevtool打开
项目管理中如何做好费用监控、资源共享项目管理
在项目管理中，做好费用监控和资源共享的关键在于：建立详细的预算计划、实施有效的资源共享策略、利用项目管理工具、定期监控和调整。其中，建立详细的预算计划至关重要。通过明确项目的费用目标和预算限制，制定费用控制的方法和措施，确保项目的所有费用都能够被计划和控制。这不仅有助于防止预算超支，还能提高资源利用效率，确保项目顺利进行。一、建立详细的预算计划在项目启动阶段，制定详细的预算计划是费用监控的基础。这
使用idea如何打开python项目梅有卷呀 python intellij-idea
1.查看python路径，win+R==>cmd==>wherepython,可以找到python.exe文件2.解决方案：1.首先找到python安装位置。（如：D:\VS2019\共享组件、工具和SDK\Python37_64）2.查找pip工具路径。（Python37_64->Scripts->pip）3.修改环境变量PATH。（这台电脑->属性->高级系统设置->高级->环境变量->系统变
OpenTelemetry 千源万码 java 开发语言
介绍在第一部分中，我们研究了现代系统的可观察性挑战——微服务、可组合架构、事件驱动、共享组件——所有这些好东西都能很好地解决问题。但是他们真的很难支持。我们强调了对正确数据进行检测的重要性，并得出结论，有许多良好的可观察性解决方案，包括开源的和商业的。但他们都以自己的方式做事，极大地降低了我们的灵活性和适应能力——让我们的老对手供应商锁在门外。在本文中，我们将了解OpenTelemetry如何弥合
Java 内存锁的实现方式、性能比较及使用场景分析 nbsaas-boot java 开发语言
在多线程编程中，内存锁是控制多个线程对共享资源访问的关键机制。Java提供了多种内存锁的实现方式，常见的有synchronized、ReentrantLock、StampedLock和ReadWriteLock等。为了更好地解决分布式系统中的并发问题，我们可以将这些锁实现方式封装成一个基础的服务，并根据需要在不同的场景下使用它们。本文将讨论Java内存锁的实现方式、性能比较及其适用场景，同时介绍如
云数据库PolarDB dream_heheda AliCloud big data postgresql 数据库
PolarDB的概念PolarDB的概念PolarDB是阿里云自研的下一代关系型云数据库，有三个独立的引擎，分别可以100%兼容MySQL，100%兼容PostgreSQL，高度兼容Oracle语法，存储容量最高可达100TB，单库最多可扩展到16个节点，适用于企业多样化的数据库应用场景。PolarDB采用存储和计算分离的架构，所有计算节点共享一份数据，提供分钟级的配置升降级，秒级的故障恢复，全局
什么是PolarDB colorfulyan 数据库 mysql postgresql
PolarDB是阿里巴巴自研的新一代云原生关系型数据库，在存储计算分离架构下，利用了软硬件结合的优势，为用户提供具备极致弹性、高性能、海量存储、安全可靠的数据库服务。PolarDB100%兼容MySQL5.6/5.7/8.0，PostgreSQL11，高度兼容Oracle。PolarDB采用存储和计算分离的架构，所有计算节点共享一份数据，提供分钟级的配置升降级、秒级的故障恢复、全局数据一致性和免费
家政公司的得力助手：这些团队管理工具你值得拥有团队协同
家政团队管理工具是为了帮助家政公司更高效地管理员工、优化服务流程而精心设计的。以下是一些常见的家政团队管理工具及其特点：一、综合型管理工具板栗看板功能：板栗看板是一款以看板为核心的综合型团队协作工具。它提供了直观的任务管理和进度跟踪功能，支持团队成员通过拖拽任务卡片来实时更新任务状态。此外，板栗看板还支持文件共享、在线讨论和多种视图切换，方便团队成员从多个角度了解项目进展。适用场景：家政公司可利用
供应链管理新境界：SCM如何促进信息共享与高效合作团队协作
一、SCM是什么SCM，全称SupplyChainManagement，即供应链管理，是一种集成化的管理思想和方法，它执行供应链中从供应商到最终用户的物流的计划和控制等职能。SCM涵盖了从供应商到制造商、分销商、零售商，直到最终用户的整个过程中商品、服务以及信息的流动和转换。在SCM中，企业努力将顾客所需的正确的产品（RightProduct）能够在正确的时间（RightTime）、按照正确的数量
倒计时 4 天！2024年压轴技术盛宴来了！云计算
亲爱的社区小伙伴们，大家好！2024年，KubeSphere社区已成功在北京、上海、深圳、杭州、成都五座城市举办线下Meetup。现在，年度压轴之站即将开启——12月28日（本周六下午），我们将在广州与您相聚，共赴一场精彩纷呈的云原生与AI技术盛会！诚邀您一同探索云原生与AI的最新趋势与实战应用，共享技术交流的巅峰时刻！活动概览时间：2024年12月28日（本周六）13:30-17:30地点：广州
三个案例，快速了解星环科技如何助力医疗数字化转型科技医疗it
星环科技基于自身的技术优势和产品体系，为医疗行业提供湖仓集一体化医院数据中心、云原生架构的区域医疗中台、医疗数据要素运营流通等解决方案，并在业务应用领域与生态伙伴联合打造端到端的整体解决方案，满足医疗行业专业领域、复杂场景下的数字化转型需求。星环科技助力某三甲医院打造湖仓集一体大数据底座某大型综合三甲医院为解决全院各业务系统数据统一采集、存储、实时共享问题，联合星环科技打造“湖仓集”一体的技术底座
案例分享｜某港口集团企业级数据管理及分析应用体系构建数据分析
平台工具体系｜数据治理某港口集团已建成多个信息化系统，充分满足集团职能管理方面的需求，但垂直化的职能管理使各职能领域的指标体系、业务流程和业务系统呈现出条状划分的鲜明特点，数据共享存在“壁垒”，缺少横向的业务流程梳理和贯通，导致港口数据标准不统一、各业务系统数据“孤岛化”明显，特别是随着对数据增值利用和精细化管理要求的逐步提高，已难以应对日趋复杂的业务需求。通过运用大数据基础平台TDH、大数据开发
.NET用C#导入Excel到数据库
将Excel文件中的数据导入到数据库中不仅能够提升数据处理的效率和准确性，还能极大地促进数据分析和决策制定的过程。尤其在企业级应用中，Excel作为数据输入和初步整理的工具非常普遍，但其功能对于复杂查询、大规模数据管理和跨部门的数据共享来说有所局限。通过使用C#在.NET平台上实现这一过程，可以充分利用其强大的数据操作能力和丰富的库支持，确保数据从Excel无缝迁移到诸如SQLite等关系型数据库
企业项目管理利器：如何挑选最适合的工具以提升协作效率团队协作工具
企业在选择适合自己的项目管理工具时，需要考虑多个因素以确保所选工具能够满足企业的具体需求和目标。以下是一些建议的步骤和考虑因素：一、明确需求●梳理业务：企业需要梳理自己的业务，明确项目类型、规模、复杂度以及参与人员等。●需求分析：基于业务梳理，进行需求分析，确定项目管理工具需要支持哪些功能，如任务管理、进度追踪、团队协作、文档共享、版本控制等。二、研究服务商与产品●企业可靠性：选择具有相关资质、经
qt编写linux守护进程,QT开发（三十五）——QT进程间通信周恰恰 qt编写linux守护进程
QT开发(三十五)——QT进程间通信Qt是一个跨平台的应用框架，其进程间通信机制当然可以使用所在平台的进程间通信机制，如在Windows平台上的Message机制、共享内存、文件映射、管道、Socket等。其中，Qt对一些许多平台共有的IPC机制进行了封装。一、TCP/IP其实就是通过网络模块实现的IPC。不过Qt对其进行了封装，并提供了两个层次的API，包括应用程序级的QNetworkAcces
应届生Java面试50题线程篇（含解析）「已注销」 java 面试
什么是线程？答：线程是操作系统能够进行运算调度的最小单位，是程序执行流的最小单元。在Java中，可以通过实现Runnable接口或继承Thread类来创建线程。创建线程的方式有哪些?各自的优缺点是什么？继承Thread类：继承Thread类并重写run()方法来实现多线程。优点是简单易用，缺点是无法继承其他类，会破坏程序的封装性，而且无法共享代码。实现Runnable接口：实现Runnable接口
ArkTS 父子组件通信若博豆 ArkTS 鸿蒙 typescript
前言鸿蒙开发中有时候会用到父子间的通信。代码一、@Link装饰器：父子双向同步@Link装饰的变量与其父组件中的数据源共享相同的值。父组件：importbuttonTestfrom"./buttonTest";@Entry@ComponentstructIndex{@StatefontSize:number=50build(){Column({space:10}){Text("hello").fo
【Go语言】如何脚踩多条船之互斥锁原理 go
经常脚踩多条船的朋友都知道，为了不翻船，必须时刻确保同一时间只能与一位女友约会。这个情境就像Go中，多个女友就好比是多个goroutine，而我则是共享资源。为了避免冲突，互斥锁（sync.Mutex）用于保证goroutine对临界资源的互斥访问，也就是说，同一时间只能有一个女友独占我，其他女友无权约我（狗头保命）。那么，Go的互斥锁是如何实现的呢？以下结合源码进行分析（基于Go1.23.3版本
区块链领域新进展：技术创新与应用拓展齐头并进
近期，区块链领域不断涌现出新的消息，展现出这一技术在多个方面的持续发展和创新应用。在技术创新方面，我国自主可控、性能良好的区块链软硬件技术体系长安链启动链通全国社保数据。据中国日报1月3日消息，在国家重点研发计划的牵引下，长安链高性能融合隐私计算，在确保原始数据不被泄露的前提下，支持社保大数据服务信息在企业、金融机构可信安全流通和共享，助力实体经济高质量发展。长安链自2021年初问世以来，凭借核心
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb

共享单车需求预测

共享单车需求预测

数据集介绍

参数介绍

评价标准

基本数据情况与预处理

数据基本信息

缺失值

离群点的处理

相关性分析

统计分布

数据可视化

回归预测

局部线性回归

sklearn的回归模型

线性回归

岭回归

随机森林

XGboost

上传得分

参考文献

你可能感兴趣的:(共享单车需求预测)