hu_wenqiong

kaggle练习-共享单车数据

中国小黄车的惨败，激起了我对共享单车的兴趣。国外的这一行业要早于中国，这个数据是来自kaggle的比赛项目，由美国一家共享单车公司提供。（ps：这个项目当做练习已经做了好久了，今天才整理出来，感觉自己有点拖延症上身了哦）

数据基本结构

1、载入数据

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import matplotlib
matplotlib.matplotlib_fname()
train=pd.read_csv('train.csv')
test=pd.read_csv('test.csv')

通过shape我们看到：共有10886个训练样本和6493个测试样本，训练集样本特征为12列。
2、特征说明
datetime：时间。年月日小时格式
season：季节。1：春天；2：夏天；3：秋天；4：冬天
holiday：是否节假日。0：否；1：是
workingday：是否工作日。0：否；1：是
weather：天气。1：晴天；2：阴天；3：小鱼或小雪；4：恶劣天气
temp：实际温度
atemp：体感温度
humidity：湿度
windspeed：风速
casual：未注册用户租车数量
registered：注册用户租车数量
count：总租车数量
3、查看数据缺失情况
用命令train.info()和test.info()，未发现有数据缺失的情况。
4、检查数据异常值
用命令train.describe()来观察数据的描述性统计的信息，如下：

从图中我们可以发现，我们最终需要预测的租赁量（count）标准差很大，来看一下它的分布情况：

plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False
plt.figure(figsize=(10,10))
plt.hist(train['count'],bins=20)
plt.title('租赁量分布趋势')
plt.xlabel('租赁量（count）')

整体的分布倾斜比较严重，需要处理一下，以便于最后不会过拟合。
根据3 $\sigma$ 原则，我们将3个标准差以外的数据排除以后，然后对count做log变换，并查看变换后的分布。

train=train[np.abs(train['count']-train['count'].mean())<=3*train['count'].std()]
fig=plt.figure()
plt.subplot(1,1,1)
sns.distplot(train['count'])
plt.title('移除异常点后的租赁量分布')
plt.xlabel('租赁量（count）')
plt.savefig('1_after.png')
#对数变换
y=train['count'].values
y_log=np.log(y)
sns.distplot(y_log)
plt.title('log变换后的count分布')
plt.savefig('log.png')

我们看到：转换过后，图形的分布倾斜没有那么严重了，差异也变小了。
为了方便清洗数据，我们将训练集和测试集合并。combined=pd.concat([train,test],ignore_index=True)
5、与时间有关的变量处理
我们将时间进行拆分，划分到年、月、日、星期、时段。

combined['date']=combined.datetime.apply(lambda x:x.split()[0])
combined['hour']=combined.datetime.apply(lambda x:x.split()[1].split(':')[0]).astype('int')
combined['year']=combined.datetime.apply(lambda x:x.split()[0].split('-')[0]).astype('int')
combined['month']=combined.datetime.apply(lambda x:x.split()[0].split('-')[1]).astype('int')
combined['weekday']=combined.date.apply( lambda x : datetime.strptime(x,'%Y-%m-%d').isoweekday())

6、观察一些重要的特征
在这里，我们先来观察一下温度（temp）、体感温度（atemp）、湿度（humidity）、风速（windspeed）这几个特征的分布。

fig,axes=plt.subplots(2,2)
fig.set_size_inches(12,10)
sns.distplot(combined['temp'],ax=axes[0,0])
sns.distplot(combined['atemp'],ax=axes[0,1])
sns.distplot(combined['humidity'],ax=axes[1,0])
sns.distplot(combined['windspeed'],ax=axes[1,1])
axes[0,0].set(xlabel='temp',title='气温分布')
axes[0,1].set(xlabel='atemp',title='体感温度分布')
axes[1,0].set(xlabel='humidity',title='湿度分布')
axes[1,1].set(xlabel='windspeed',title='风速分布')
plt.savefig('分布分析.png')

通过这些分布图可以发现：风速为0的数据很多，而在风速1-6之间出现了一些空白，我们推测：有些风速数据是缺失了的，但是数据中将缺失的风速都填充为0了。这些填充为0的数据可能会影响我们的预测。所以我们把这些数据当做缺失数据来进行填充，选用的方法是选取某些特征使用随机森林预测。
7、缺失数据（风速）的填充
相同的年月、季节、温度、湿度等特征都会影响风速，所以我们选择这些特征来进行预测

#用随机森林预测风速
speed_null=combined[combined['windspeed']==0]
speed_notnull=combined[combined['windspeed']!=0]
#选择特征
windspeed_trainX=speed_notnull[['season','weather','humidity','month','temp','year','atemp']]
windspeed_trainY=speed_notnull['windspeed']
windspeed_testX=speed_null[['season','weather','humidity','month','temp','year','atemp']]
from sklearn.ensemble import RandomForestRegressor
from sklearn.grid_search import GridSearchCV
rf=RandomForestRegressor(random_state=10)

param1={'n_estimators':list(range(100,500,50))}
model1=GridSearchCV(estimator = rf,param_grid = param1, scoring='mean_squared_error',cv=5)
model1.fit(windspeed_trainX,windspeed_trainY)
model1.best_score_
model1.best_params_
param2={'max_depth':list(range(3,10,1)),'min_samples_split':list(range(10,20,2))}
model2=GridSearchCV(estimator = RandomForestRegressor(random_state=10,n_estimators=450),param_grid = param2, scoring='mean_squared_error',cv=5)
model2.fit(windspeed_trainX,windspeed_trainY)
model2.best_score_
model2.best_params_

speed_model=RandomForestRegressor(n_estimators=450,random_state=10,max_depth=9,min_samples_split=10)
speed_model.fit(windspeed_trainX,windspeed_trainY)
windspeed_testY=speed_model.predict(windspeed_testX)
combined.loc[combined.windspeed==0,'windspeed']=windspeed_testY

以上的代码运用了交叉验证的方法对随机森林进行调参，分别从bagging框架和树的内部进行调差，选出最优的参数，然后建立模型进行预测。
再来看填充后的数据特征分布：

fig,axes=plt.subplots(2,2)
fig.set_size_inches(12,10)
sns.distplot(combined['temp'],ax=axes[0,0])
sns.distplot(combined['atemp'],ax=axes[0,1])
sns.distplot(combined['humidity'],ax=axes[1,0])
sns.distplot(combined['windspeed'],ax=axes[1,1])
axes[0,0].set(xlabel='temp',title='气温分布')
axes[0,1].set(xlabel='atemp',title='体感温度分布')
axes[1,0].set(xlabel='humidity',title='湿度分布')
axes[1,1].set(xlabel='windspeed',title='风速分布')
plt.savefig('分布分析2.png')

可以看到：填充后的特征分布就比较正常了。

数据可视化

从时间特征分析

1、一天各个时间断的租赁量
我们将数据集按照hour这个属性分组，然后求每一组的平均值。

group_hour=combined.groupby(combined.hour)
hour_mean=group_hour[['count','registered','casual']].mean()
fig=plt.figure(figsize=(10,10))
plt.plot(hour_mean['count'],label='count')
plt.plot(hour_mean['registered'],label='registered')
plt.plot(hour_mean['casual'],label='casual')

plt.title('一天中不同时间的租赁量')
plt.legend(loc=2)
plt.savefig('时间趋势_day.png')

从上面的图形可以看到：图形中有两个峰，一个是早上7-8点，另一个是下午5-6点，分别是早高峰和晚高峰，符合实际情况。下面我们再将工作日和非工作日分开看看一天中时段的区别。

#区分工作日和非工作日
workingday_df=combined[combined['workingday']==1]
group_working=workingday_df.groupby('hour')
hour1_mean=group_working[['count','registered','casual']].mean()
noworkingday_df=combined[combined['workingday']==0]
group_noworking=noworkingday_df.groupby('hour')
hour2_mean=group_noworking[['count','registered','casual']].mean()

plt.figure(figsize=(15,8))
plt.subplot(1,2,1)
plt.plot(hour1_mean['count'],label='count')
plt.plot(hour1_mean['registered'],label='registered')
plt.plot(hour1_mean['casual'],label='casual')
plt.title('工作日一天中不同时间的租赁量')
plt.legend(loc=2)
plt.subplot(1,2,2)
plt.plot(hour2_mean['count'],label='count')
plt.plot(hour2_mean['registered'],label='registered')
plt.plot(hour2_mean['casual'],label='casual')
plt.title('非工作日一天中不同时间的租赁量')
plt.legend(loc=2)
plt.savefig('区分工作日时间趋势.png')

通过工作日和非工作日的趋势对比，我们发现：工作日的时候上下班高峰期表现明显，而在非工作日的时候大家都比较喜欢下午2-3点之后出门。这和我们中国人的习惯是一样的。
2、不同年月租赁量区别

#每日总和
group_yw=combined.groupby(['date','weekday'])
yearweek=group_yw[['count','registered','casual']].sum()
#按月取平均值
group_month=combined.groupby(['year','month'],as_index=False)
month_mean=group_month[['count','registered','casual']].mean()
month_mean['weekday']=group_month['weekday'].min()['weekday']
month_mean.rename(columns={'weekday':'day'},inplace=True)
month_mean['date']=pd.to_datetime(month_mean[['year','month','day']])
X=month_mean['date']
plt.figure(figsize=(18,6))
plt.subplot(1,1,1)
plt.plot(X,month_mean['count'],marker=0,linewidth=1.3,label='总租赁量')
plt.plot(X,month_mean['registered'],marker=1,linewidth=1.3,label='注册用户')
plt.plot(X,month_mean['casual'],marker=2,linewidth=1.3,label='临时用户')
plt.title('每月的日均租赁量变化')
plt.legend()
plt.savefig('每月的日租赁量.png')

从一年的趋势来看，每年的春夏秋季节是租赁量比较高的年份，尤其是6月份的时候；而且每一年的趋势大致相同；但是综合两年来看，两年的租赁量在逐步上升。
3、季节对租赁量的影响
按照季节统计每日的平均租赁量，并分开年份来看：

#季节对租赁量的影响
day_df=combined.groupby('date').agg({'year':'mean','season':'mean',
                                      'casual':'sum', 'registered':'sum',
                                      'count':'sum','temp':'mean',
                                      'atemp':'mean','workingday':'mean',
                                      'weekday':'mean','holiday':'mean',})
season_day_mean=day_df.groupby(['year','season'],as_index=True).agg({'casual':'mean', 'registered':'mean','count':'mean'})
temp_df = day_df.groupby(['year','season'], as_index=True).agg({'temp':'mean', 'atemp':'mean'})
season_day_mean.plot(figsize=(15,9),xticks=range(0,9))
plt.title('不同季节日均租赁量')
plt.savefig('不同季节日均.png')

通过季节和月份的趋势图：我们发现，临时用户和注册用户用车数量变化趋势大体一致，且两年间都在秋季左右达到了比较高的用车辆，说明人们都比较喜欢在这段时间外出游玩。
4是否工作日对租赁量影响

working_df_mean=combined.groupby(['workingday'],as_index=True).agg({'count':'mean','registered':'mean','casual':'mean'})
workingday_df_mean1= working_df_mean.loc[0]
workingday_df_mean2 = working_df_mean.loc[1]
working_df_mean.plot.bar(stacked=True,title='平均每日租赁量（工作日VS非工作日）')
plt.xticks([0,1],('非工作日','工作日'),rotation=30)
plt.savefig('工作日和非工作日.png')

plt.figure(figsize=(15,8))
plt.subplot(1,2,1)
plt.pie(workingday_df_mean1, labels=['count','registered','casual',], autopct='%1.1f%%')
plt.title('非工作日')
plt.subplot(1,2,2)
plt.pie(workingday_df_mean2, labels=['count','registered','casual',], autopct='%1.1f%%')
plt.title('工作日')
plt.savefig('工作vs非工作饼.png')

通过对比非工作日和工作日的饼图，我们发现：在非工作日的时候非注册用户使用共享单车的占比要比工作日的时候要多。这也符合实际情况：非工作日的时候有更多的人（不经常使用共享单车）出来玩。
5、一周内不同的时间对租赁量的影响

#按照星期几统计
weekday_mean=combined.groupby(['weekday'],as_index=True).agg({'casual':'mean','registered':'mean'})
weekday_mean.plot.bar(stacked=True,title='一周内各天平均租赁量')
plt.savefig('一周中的日租赁量.png')

一周之内，星期六的租赁量最高，可以推断这是人们最有时间也最喜欢出去玩的一天，而且非注册用户的数量也是最高的。
6、节假日对租赁量的影响

holiday_group1 =combined.groupby(['date'],as_index=True).agg({'holiday':'mean','year':'mean'})
holiday_count=holiday_group1.groupby(['year']).agg({'holiday':'sum'})
holiday_mean=combined.groupby(['holiday'],as_index=True).agg({'casual':'mean','registered':'mean'})
holiday_mean.plot.bar(stacked=True,title='节假日与非节假日的日均租赁量')
plt.savefig('节假日vs非节假日.png')

通过运行结果我们看到节假日和非节假日的总体租赁量差别并不大，这是因为在一年中节假日也就一周左右，占比非常少，所以结果也是可以理解。

天气因素对租赁量的影响

1、天气情况影响
首先我们要看一下总体天气情况的四类天气汇总

weather_group=combined.groupby(['weather'])
weather_count=weather_group[['count','registered','casual']].count()
weather_mean=weather_group[['count','registered','casual']].mean()
weather_mean.plot.bar(stacked=True,title='不同天气每小时平均租赁量')
plt.savefig('不同天气.png')

天气晴朗的天气占大多数，像天气4这种恶劣的天气记录只有1条，所以我们对每类按小时取平均值。

出乎意料的是：在天气4这么糟糕的情况下，平均每小时租赁量竟然这么高，是为什么呢？把这条数据找出来看看。

从结果显示可以看出：后两条都是测试集数据，忽略；第一条数据的时间是下午6点，刚好是下班的高峰期，所以能够理解为什么这条数据对应的租赁量均值那么高了（均值就是这一条数据的值）。
2、气温对于租赁量的影响

#气温
temp_df=combined.groupby(['temp']).agg({'count':'mean','registered':'mean','casual':'mean'})
temp_df.plot(title='租赁量随温度的变化')
plt.savefig('不同温度.png')

和月份还有季节的图结合起来看，他们达到了一致：气温太高和太低都会使租赁量降低，整体的趋势是随着气温的升高租赁量在上升，直到由于温度过高然后呈现下降趋势、
3、湿度对租赁量的影响
同样的方法，我们来分析湿度对于租赁量的影响。

#湿度
humidity_df=combined.groupby(['humidity']).agg({'count':'mean','registered':'mean','casual':'mean'})
humidity_df.plot(title='租赁量随湿度的变化')
plt.savefig('不同湿度.png')

可以看到湿度在20左右的时候租赁量达到峰值，随后呈现下降趋势。
4、风速对租赁量的影响

windspeed_df=combined.groupby(['windspeed'],as_index=True).agg({'count':'mean','registered':'mean','casual':'mean'})
windspeed_df=windspeed_df.loc[windspeed_df['count'].isnull()==False]
windspeed_df.plot(title='租赁量随风速的变化')
plt.savefig('不同风速.png')

为什么会出现这种情况呢？主要是因为我们在进行填充的时候得到的数据过于密集，并且数据的波动很大，导致每组的数据个数都比较少。

这是分组后的前几条结果，也能看到在风速变化很小的时候，均值可能会发生很大的变化。从后面的数据趋势来看，风速大于30的时候租赁量呈现下降趋势，但是在40过后有一处反弹，注册用户和总体的租赁量呈现相同的反弹，但是临时用户却没有，我们猜测这可能是注册会员的固定行程导致，也许是上下班高峰期的原因。将这条数据打印出来看一下。

时间为下午5点，符合我们的预期。

特征处理和选择

选择特征

通过各项分析后我们在这里将时段（hour）、温度（temp）、湿度（humidity）、年份（year）、月份（month）、季节（season）、天气等级（weather）、风速（windspeed）、星期几（weekday）、是否工作日（workingday）、是否假日（holiday），作为特征值。（当然这里的特征选择方法过于简单，如何在高维数据中选择合适的变量是一个非常重要的课题，有待进一步探索）。
里面的年份（year）、月份（month）、季节（season）、天气等级（weather）多类别型数据，我们使用one-hot转化成多个二分型类别。

combined_back=combined
dummies_month = pd.get_dummies(combined['month'], prefix='month')
dummies_year = pd.get_dummies(combined['year'], prefix='year')
dummies_season = pd.get_dummies(combined['season'], prefix='season')
dummies_weather = pd.get_dummies(combined['weather'], prefix='weather')

接下来就是划分训练集和测试集了

#分开训练集和测试集
combined.columns
train_df=combined.loc[combined['count'].isnull()==False]
test_df=combined.loc[combined['count'].isnull()==True]
datetime_col=test_df['datetime']
ylables=train_df['count']
log_y=np.log(ylables)
drop_columns=['casual','count','datetime','date','registered','atemp','month','season','weather','year']
train_df=train_df.drop(drop_columns,axis=1)
test_df=test_df.drop(drop_columns,axis=1)

构建和评估模型

1、建立训练子集和测试子集
这里我们并不把所有的训练集都用来训练模型，而是随机分成训练子集和测试子集，以便用来评估模型。同时，我们用log之后的count值进行模型的构建，因为原来的变量偏度比较大。

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
labels=log_y
x_train,x_test,y_train,y_test=train_test_split(train_df,labels,train_size=0.8)
x_train.shape
x_test.shape
y_train.shape
y_test.shape

用交叉验证法选择最优的参数（这个过程可能有点久）

param_1={'n_estimators':list(range(300,1000,50))}
model_1=GridSearchCV(estimator = rf,param_grid = param_1, scoring='mean_squared_error',cv=5)
model_1.fit(x_train,y_train)
model_1.best_score_
model_1.best_params_
param_2={'max_depth':list(range(3,10,1)),'min_samples_split':list(range(10,20,2))}
model_2=GridSearchCV(estimator = RandomForestRegressor(random_state=10,n_estimators=900),param_grid = param_2, scoring='mean_squared_error',cv=5)
model_2.fit(windspeed_trainX,windspeed_trainY)
model_2.best_score_
model_2.best_params_

将得到的最优参数运用到模型中去。

model_final=RandomForestRegressor(n_estimators=900,random_state=10,min_samples_split=10,max_depth=9)
model_final.fit(x_train,y_train)
predict_final=model_final.predict(x_test)
from sklearn.metrics import r2_score
r2_score(y_test,predict_final)

在测试集上的r2已经在90%以上，我们认为还是不错的。

产生预测结果

test_pred=model_final.predict(test_df)
final_df=pd.DataFrame({'datetime':datetime_col,'count':np.exp(test_pred)})
final_df.to_csv('C:/Users/86186/Desktop/kaggle/共享单车/result-final.csv')

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
30天风格练习-DAY2 黄希夷
Day2（重义）在一个周日/一周的最后一天，我来到位于市中心/市区繁华地带的一家购物中心/商场，中心内人很多/熙熙攘攘。我注意到/看见一个独行/孤身一人的年轻女孩/，留着一头引人注目/长过腰际的头发，上身穿一件暗红色/比正红色更深的衣服/穿在身体上的东西。走下扶梯的时候，她摔倒了/跌向地面，在她正要站起来/让身体离开地面的时候，过长/超过一般人长度的头发被支撑身体/躯干的手掌压/按在下面，她赶紧用
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
钢筋长度超限检测检数据集VOC+YOLO格式215张1类别 futureflsl 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：215标注数量(xml文件个数)：215标注数量(txt文件个数)：215标注类别数：1标注类别名称:["iron"]每个类别标注的框数：iron框数=215总框数：215使用标注工具：labelImg标注规则：对类别进
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr

kaggle练习-共享单车数据

数据基本结构

数据可视化

从时间特征分析

天气因素对租赁量的影响

特征处理和选择

相关性分析

选择特征

构建和评估模型

产生预测结果

你可能感兴趣的:(kaggle练习-共享单车数据)

kaggle练习-共享单车数据

数据基本结构

数据可视化

从时间特征分析

天气因素对租赁量 的影响

特征处理和选择

相关性分析

选择特征

构建和评估模型

产生预测结果

你可能感兴趣的:(kaggle练习-共享单车数据)

天气因素对租赁量的影响