曹小何

数据分析_泰坦尼克

泰坦尼克号生存预测作为最经典的启蒙数据分析项目，对于初学者来说是应该是最合适的了，后面将分享更多进阶的数据分析项目。如果已经有基础了，推荐：

全文如下：

本文结合泰坦尼克号生存预测，从1.数据探索（数据可视化），2.数据预处理，3.模型训练，4.模型调参这四个步骤进行了完整的梳理：

1. 数据概述与可视化

1.1 数据概述

首先我们导入我们的训练数据和测试数据：

数据集包含train.csv和test.csv两个文件，可以直接在kaggle官网上下载。

train_data = pd.read_csv("input/train.csv", index_col=0)
test_data = pd.read_csv("input/test.csv", index_col=0)
train_data.head()

train_data.describe()

通过describe()函数我们可以简单地看出哪些是数值型数据哪些是字符型数据，对于字符型数据我们当然要转换成数值型数据来处理，比如可以转换成0-1编码的数值型，但需要注意的是，对于一些数值型数据却未必就不需要进一步的处理了，比如Pclass特征，从名字我们就可以看出这是标识仓位等级的特征，取值范围为[1, 2, 3]，这个特征我们不应该简单地当作一个数值型数据放进分类模型中直接跑，应该把它转变为one-hot编码，标识乘客不同的仓位，这一步我们将在数据预处理步骤完成。

我们再看看数据中值为null的数据，这是我们后面需要进一步处理的：

train_data.isnull().sum().sort_values(ascending=False).head(4)

显示结果为：

1.2 数据可视化

为了这篇文章看起来内容多一点（误），我们可以画多点图来展示数据信息，想直接进行数据预处理的读者可以跳过这部分，这部分内容大多来自Kaggle官网的一篇notebook。

1.2.1 性别与生存率

首先我们应该还记得电影里感人的“女士优先”策略：

sns.barplot(x="Sex", y="Survived", data=train_data)

这里我们可以看出女性的生存率远大于男性，这也很符合电影的情节。

1.2.2 仓位等级（社会等级）与生存率

我们还可以猜测不同仓位的乘客应有不同的获救率：

#draw a bar plot of survival by Pclass
sns.barplot(x="Pclass", y="Survived", data=train)

#print percentage of people by Pclass that survived
print("Percentage of Pclass = 1 who survived:", train["Survived"][train["Pclass"] == 1].value_counts(normalize = True)[1]*100)

print("Percentage of Pclass = 2 who survived:", train["Survived"][train["Pclass"] == 2].value_counts(normalize = True)[1]*100)

print("Percentage of Pclass = 3 who survived:", train["Survived"][train["Pclass"] == 3].value_counts(normalize = True)[1]*100)

数据结果还是很现实的，贵的仓位自然有更高的生存率，不然我花这冤枉钱干嘛，生死面前不是人人平等。

1.2.3 家属数与生存率

#draw a bar plot for SibSp vs. survival
sns.barplot(x="SibSp", y="Survived", data=train)

#I won't be printing individual percent values for all of these.
print("Percentage of SibSp = 0 who survived:", train["Survived"][train["SibSp"] == 0].value_counts(normalize = True)[1]*100)

print("Percentage of SibSp = 1 who survived:", train["Survived"][train["SibSp"] == 1].value_counts(normalize = True)[1]*100)

print("Percentage of SibSp = 2 who survived:", train["Survived"][train["SibSp"] == 2].value_counts(normalize = True)[1]*100)

1.2.4 年龄与生存率

#sort the ages into logical categories
train["Age"] = train["Age"].fillna(-0.5)
test["Age"] = test["Age"].fillna(-0.5)
bins = [-1, 0, 5, 12, 18, 24, 35, 60, np.inf]
labels = ['Unknown', 'Baby', 'Child', 'Teenager', 'Student', 'Young Adult', 'Adult', 'Senior']
train['AgeGroup'] = pd.cut(train["Age"], bins, labels = labels)
test['AgeGroup'] = pd.cut(test["Age"], bins, labels = labels)

#draw a bar plot of Age vs. survival
sns.barplot(x="AgeGroup", y="Survived", data=train)
plt.show()

这张图表绘制用到了pandas的一个方法：cut（），可以用这个方法对数据进行切分，我们得到很显然的一个结论，婴儿的生存率神他妈高（我觉得很大一部分原因是不占空间）

1.2.5 仓位特征是否存在与生存率

test["CabinBool"] = (test["Cabin"].notnull().astype('int'))

#calculate percentages of CabinBool vs. survived
print("Percentage of CabinBool = 1 who survived:", train["Survived"][train["CabinBool"] == 1].value_counts(normalize = True)[1]*100)

print("Percentage of CabinBool = 0 who survived:", train["Survived"][train["CabinBool"] == 0].value_counts(normalize = True)[1]*100)
#draw a bar plot of CabinBool vs. survival
sns.barplot(x="CabinBool", y="Survived", data=train)
plt.show()

1.2.6 热力图

我们还可以给数据画上美丽的热力图，虽然没什么卵用：

2. 数据预处理

2.1 拼接数据集

首先我们讲训练集中的Survived特征提取出来，这是我们需要预测的目标函数，这部分也是train_data和test_data的不同点，接着我们可以讲训练集和测试集的数据拼接起来一起进行数据预处理，当然在实际中我们是无从得知测试数据的，但在比赛中为了方便我们可以统一进行处理：

y_train = train_data.pop("Survived")
data_all = pd.concat((train_data, test_data), axis=0)

2.2 处理Name特征，提取出Title

从左往右看我们首先可以看到Name这个特征是比较碍眼的，很多人可能直接把它去掉了，但仔细观察我们可以发现这一列特征里都含有名字的前缀，比如"Mr."，”Mrs.“，"Miss"等，只要学过小学一年级英语的都知道这个特征在一定程度上会代表阶级地位，婚配情况等，我们可以将这个特征做一个映射，实现方式如下：

itle = pd.DataFrame()
title["Title"] = data_all["Name"].map(lambda name:name.split(",")[1].split(".")[0].strip())
# title.head()
Title_Dictionary = {
     
    "Capt":       "Officer",
    "Col":        "Officer",
    "Major":      "Officer",
    "Jonkheer":   "Royalty",
    "Don":        "Royalty",
    "Sir" :       "Royalty",
    "Dr":         "Officer",
    "Rev":        "Officer",
    "the Countess":"Royalty",
    "Dona":       "Royalty",
    "Mme":        "Mrs",
    "Mlle":       "Miss",
    "Ms":         "Mrs",
    "Mr" :        "Mr",
    "Mrs" :       "Mrs",
    "Miss" :      "Miss",
    "Master" :    "Master",
    "Lady" :      "Royalty"
}
title[ 'Title' ] = title.Title.map(Title_Dictionary)
title = pd.get_dummies(title.Title)
# title.head()
data_all = pd.concat((data_all, title), axis=1)
data_all.pop("Name")
data_all.head()

上面这段是什么意思呢？我们可以将种类众多的头衔特征先进行归类，比如"Don"，“Sir”，”Jonkheer"这几个头衔出现的次数极低，大约每个出现次数只有不到十个，因此我们可以将意思相近的归为一类便于模型运行。然后我们用get_dummies将这些特征转为one-hot向量，得到的结果如下：

2.3 提取其他特征

这个 Ticket特征比较麻烦懒得搞了，先把它删掉吧，然后Cabin特征应该是很有用的，你想想嘛我们在船的不同位置到安全通道的距离当然是会随着Cabin位置的不同而不同的，我们简单提取A、B、C、D这几个仓位来作为特征，而不考虑C85、C123中的数字（表示某个仓中的位置），当然由于有些船在A、B、C、D等仓位可能都有安全通道，我们可能提取后面的数字会更适合，为了方便我们先不做此讨论：

data_all["Cabin"].fillna("NA", inplace=True)
data_all["Cabin"] = data_all["Cabin"].map(lambda s:s[0])
data_all.pop("Ticket")

前面也说了Pclass更适合作为One-hot型特征出现，我们先将之转换为字符型特征再进行归类，这里我们顺手把几个靠谱的类别标签做One-hot特征：

data_all["Pclass"] = data_all["Pclass"].astype(str)
feature_dummies = pd.get_dummies(data_all[["Pclass", "Sex", "Embarked", "Cabin"]])
feature_dummies.head()
data_all.drop(["Pclass", "Sex", "Embarked", "Cabin"], inplace=True, axis=1)
data_all = pd.concat((data_all, feature_dummies), axis=1)
data_all.head()

于是我们将特征集合由原来的11列扩充到了27列，噢糟糕我们前面忘了做缺失值填充，不要紧我们现在做也不晚：

mean_cols = data_all.mean()
data_all = data_all.fillna(mean_cols)

这里是使用了平均值对Age和Embarked两个特征进行填充，由于Age刚好是数值型特征，这种填充方式是合理的，且Embarked只有两个缺失值，因此随便填充啦~不碍事的。

2.4 将训练集测试集重新分开

在模型搭建之前不要忘了之前我们拼在一起的训练集和测试集噢，还记得最开始读取数据的时候加入的index_col嘛，这里刚好派上用场啦：

train_df = data_all.loc[train_data.index]
test_df = data_all.loc[test_data.index]
print(train_df.shape, test_df.shape)

打印结果是(891, 27) (418, 27)，符合原训练集测试集的大小，我们的粗略数据预处理就到此为止了，下面进行模型搭建～

3. 模型训练

3.1 Random Forest

首先导入sklearn的包

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
import sklearn

%matplotlib inline
depth_ = [1, 2, 3, 4, 5, 6, 7, 8]
scores = []
for depth in depth_:
    clf = RandomForestClassifier(n_estimators=100, max_depth=depth, random_state=0)
    test_score = cross_val_score(clf, train_df, y_train, cv=10, scoring="precision")
    scores.append(np.mean(test_score))
plt.plot(depth_, scores)

得到了这样一张图，这张图大致反映了模型中树的最大深度以6为最佳，此时可以达到0.84左右的验证准确率，我们当然可以继续调整其他参数获得更优的结果，但接下来我们先继续讨论其他模型。

3.2 Gradient Boosting Classifier

代码和上面差不多：

from sklearn.ensemble import GradientBoostingClassifier
depth_ = [1, 2, 3, 4, 5, 6, 7, 8]
scores = []
for depth in depth_:
    clf = GradientBoostingClassifier(n_estimators=100, max_depth=depth, random_state=0)
    test_score = cross_val_score(clf, train_df, y_train, cv=10, scoring="precision")
    scores.append(np.mean(test_score))
plt.plot(depth_, scores)

成功率最高似乎接近0.82

3.3 Bagging

Bagging把很多小分类器放在一起，每个train随机的一部分数据，然后把它们的最终结果综合起来（多数投票制）

from sklearn.ensemble import BaggingClassifier
params = [1, 10, 15, 20, 25, 30, 40]
test_scores = []

for param in params:
    clf = BaggingClassifier(n_estimators=param)
    test_score = cross_val_score(clf, train_df, y_train, cv=10, scoring="precision")
    test_scores.append(np.mean(test_score))
plt.plot(params, test_scores)

结果又不稳定又不好：

3.4 RidgeClassifier

下面就不说废话了，一个个试就对了：

from sklearn.linear_model import RidgeClassifier
alphas = np.logspace(-3, 2, 50)
test_scores = []

for alpha in alphas:
    clf = RidgeClassifier(alpha)
    test_score = cross_val_score(clf, train_df, y_train, cv=10, scoring="precision")
    test_scores.append(np.mean(test_score))
plt.plot(alphas, test_scores)

3.5 RidgeClassifier + Bagging

ridge = RidgeClassifier(alpha=5)
params = [1, 10, 15, 20, 25, 30, 40]
test_scores = []

for param in params:
    clf = BaggingClassifier(n_estimators=param, base_estimator=ridge)
    test_score = cross_val_score(clf, train_df, y_train, cv=10, scoring="precision")
    test_scores.append(np.mean(test_score))
plt.plot(params, test_scores)

ridge = RidgeClassifier(alpha=5)
params = [1, 10, 15, 20, 25, 30, 40]
test_scores = []

for param in params:
clf = BaggingClassifier(n_estimators=param, base_estimator=ridge)
test_score = cross_val_score(clf, train_df, y_train, cv=10, scoring=“precision”)
test_scores.append(np.mean(test_score))
plt.plot(params, test_scores)

结果比使用默认模型的Bagging策略稍好一些。

3.6 XGBClassifier

from xgboost import XGBClassifier
params = [1, 2, 3, 4, 5, 6]
test_scores = []
for param in params:
    clf = XGBClassifier(max_depth=param)
    test_score = cross_val_score(clf, train_df, y_train, cv=10, scoring="precision")
    test_scores.append(np.mean(test_score))
plt.plot(params, test_scores)

3.7 神经网络

首先我们基于Keras搭建了一个简单的神经网络架构：

import tensorflow as tf
import keras
from keras.models import Sequential
from keras.layers import *

tf.keras.optimizers.Adam(
    learning_rate=0.003, beta_1=0.9, beta_2=0.999, epsilon=1e-07, amsgrad=False,
    name='Adam',
)
model = Sequential()
model.add(Dense(32, input_dim=train_df.shape[1],kernel_initializer = 'uniform', activation='relu'))
model.add(Dense(32, kernel_initializer = 'uniform', activation = 'relu'))
model.add(Dropout(0.4))
model.add(Dense(32,kernel_initializer = 'uniform', activation = 'relu'))
model.add(Dense(1, activation='sigmoid'))
    
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

然后将模型放入train_df进行训练得到结果：

history = model.fit(np.array(train_df), np.array(y_train), epochs=20, batch_size=50, validation_split = 0.2)

最后一轮的结果为：

Epoch 20/20
712/712 [==============================] - 0s 43us/step - loss: 0.4831 - accuracy: 0.7978 - val_loss: 0.3633 - val_accuracy: 0.8715

数据分析项目——物流数据行业数据分析 ~在杰难逃~ 数据分析数据挖掘 python numpy pandas 大数据
提升自己，掌握数据分析的能力，最快的方式就是实践！这里又是一个经典的数据分析项目——物流数据行业数据分析，有需要项目配套数据集的可以关注私信我免费获取(●'◡'●)PS：本文中全部代码都在JupyterNotebook中编写完成，可以使用JupyterNotebook或者JupyterLab直接运行。数据来源：某企业销售的6种商品所对应的送货及用户反馈数据首先我们还是确定下我们需要做些什么一、解决
【摸鱼笔记】python 提取和采集 finereport 未绑定目录的报表模板 The_Singing_Towers 笔记 python 开发语言
背景在企业应用过程中，报表一般会按照数据分析的主题、项目将多个报表放在一处，一些图表类报表会有通过超链接等方式，跳转到对应的明细报表中。并且在正式的使用中，这些报表不会绑定到目录。在梳理数据分析项目使用情况时这些报表会难以辨认所属的项目，因为即使按照很标准的方式【将同一项目的报表放在同一目录】也会有数据分析项目相互包含的问题影响梳理的工作量。同时在finelogDB的访问记录中displayNam
php案例分析百度云_基于阿里云平台的大数据教学案例 —— B站弹幕数据分析 weixin_39892311 php案例分析百度云
简介：实验基于所学的大数据处理知识，结合阿里云大数据相关产品，分组完成一个大数据分析项目，数据集可以使用开源数据集或自行爬取，最终完成一个完整的实验报告：1、能够使用阿里云大数据相关产品完成数据分析、数据建模与模型优化2、能够基于分析结构构建可视化门户或可视化大屏，分析和呈现不少于5个3、分析案例有实用价值并能够形成有效结论4、能够将开源技术与阿里云产品结合，综合利用提升开发效率，降低成本5、能够
49Kaggle 数据分析项目入门实战--绝地求生游戏最终排名预测 Jachin111
绝地求生介绍相信很多都玩过绝地求生这款游戏，其游戏规则主要是将100名玩家空手被扔到一个岛上，这些玩家必须探索、寻找、消灭其他玩家，直到只剩下一个玩家活着。绝地求生很受欢迎。这款游戏销量目前超过5000万份，是有史以来销量排名前五的游戏，每月有数百万活跃玩家。而我们本次实验的任务就是根据玩家在游戏中的种种表现来预测出其在最终的排名。导入数据并预览首先安装实验需要的statsmodels包。!pip
python3 数据分析项目案例,python数据分析报告范文 2301_81895949 oracle
这篇文章主要介绍了python3数据分析项目案例，具有一定借鉴价值，需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获，下面让小编带着大家一起了解一下。1需求分析随着科学技术的不断发展，信息流通日益方便，信息数据不断膨胀，充斥在各行各业。由于数据非常庞大，所以即使在搜索引擎存在的情况下，搜索结果的准确率也不高，这使得在网上查找关键有效信息也变为一项极具挑战性的复杂任务python编程代码画哆啦
小白Pycharm使用（6）：如何使用 Python 开始建立你的数据分析项目程序员八阿哥
python开发新手工具网盘地址下载链接：http://pan.baidu.com/s/1eS8WMR4密码：7esopycharm中文版包网盘地址下载链接：http://pan.baidu.com/s/1dEVkPtn密码：mzetpycharm注册码http://idea.qinxi1992.cnhttp://intellij.mandroid.cn（或http://idea.imsxm.co
让你能进“大厂”的数据分析项目是长怎样？全套路线（建议收藏）悠玩编程编程语言大数据数据分析 java 人工智能
《算法+数据结构》全套路线（建议收藏）前言所谓活到老，学到老，虽然我感觉自己已经学了很多算法了，但是昨天熬夜整理完以后发现，自己还是个弟弟，实在忍不住了，打算把算法学习路线发出来，我把整个算法学习的阶段总结成了五个步骤，分别为：基础语法学习、语法配套练习、数据结构、算法入门、算法进阶。本文梳理了这五个大项的思维导图，在下文会有详细介绍。希望各位能够找到自己的定位，通过自己的努力在算法这条路
基于北京二手房价数据的探索性数据分析和房价评估——项目设计和数据的获取快乐的冲浪码农数据分析数据分析决策树
数据分析项目——北京二手房价数据分析第一步：项目设计和获取数据（获取实验的数据集！！）第二步：数据读取和数据预处理第三步：数据的可视化分析第四步：构建房价评估模型（决策树、随机森林等）整个项目的代码和数据集获取：https://github.com/Proberen/Data-analysis___Beijing__Houseprice该项目的设计思路：
50Kaggle 数据分析项目入门实战--分销商产品未来销售情况预测 Jachin111
分销商产品未来销售情况预测未来销售额预测介绍对于一个产品来说，其未来销售额的预测是一个重要的指标，也是一项重要的任务。例如，对于一部苹果手机来说。在上市之前，得先对销售额进行预测，才能确定出货量的大小。本次实验来源于Kaggle上的一个挑战，即：未来销售额预测，由俄罗斯的1C-Company软件分销公司发起，并提供数据。而本次实验的任务就是根据提供的数据，包含商品类别、商品名称、商店等信息和商品的
大数据分析案例-基于随机森林算法构建电影票房预测模型艾派森大数据分析案例合集 python 机器学习数据分析随机森林人工智能
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+喜欢大数据分析项目的小伙伴，希望可以多多支持该系列的其他文章大数据分析案例合集大数据分析案例-基于随机森林算法预测人类预期寿命大数据分析案例-基于随机森林算法的商品评价情感分析大数据分析案例-用RFM模型对客户价值分析(聚类)大数据分析案例-对电信客户流失
我的第一个数据分析项目——51job“数据分析”岗位分析（数据清洗篇二）大力SAMA
一、工作经验字段完善虽然概要描述中显示无工作经验，但实际职位描述中仍旧要求工作经验，因此要把职位描述中的内容取出来更新到工作经验这一列。网页数据显示excel数据显示代码如下：#-*-coding:utf-8-*-"""CreatedonWedSep1213:05:272018@author:shirley"""fromopenpyxlimportload_workbookimportrepath
看书笔记【R语言数据分析项目精解：理论、方法、实战 8】小胡涂记 R语言资料实现笔记 r语言数据分析
看书笔记——R语言Chapter8从数据中寻找优质用户8.1项目背景、目标和方案8.1.1项目背景8.1.2项目目标8.1.3项目方案8.2项目技术理论简介8.2.1逻辑回归的基本概念8.2.2建模流程1.模型开发2.模型验证阶段3.模型测试阶段4.模型实施阶段8.2.3模型开发阶段1.数据采样2.数据探索3.数据填缺4.离散型变量压缩5.连续型变量压缩6.变量筛选（用到的时候再细看一下，主要是权
看书标记【R语言数据分析项目精解：理论、方法、实战 7】小胡涂记 R语言资料实现 r语言数据分析开发语言
看书标记——R语言Chapter7构建用户画像7.1项目背景、目标和方案7.1.1项目背景7.1.2项目目标7.2项目技术理论简介7.2.1用户画像的基本概念7.2.2用户画像应用领域7.2.3用户画像分类7.2.4用户画像构建1.数据源2.用户画像构建粒度3.用户画像构建抽象方法4.用户画像标签创建流程5.用户画像标签构建难点7.2.5用户画像标签的数值处理方法1.数值归一化2.连续型数值的离散
看书标记【R语言数据分析项目精解：理论、方法、实战 6】小胡涂记 R语言资料实现 r语言数据分析开发语言
看书标记——R语言Chapter6变量筛选技术6.1项目背景、目标和方案6.1.1项目背景6.1.2项目目标6.1.3项目方案6.2项目技术简介6.2.1变量相关性1.定类变量和定类变量2.定序变量与定类变量3.定距（连续型）变量与定距变量4.定类变量与定序变量6.2.2变量筛选1．基于变量距离的层次聚类2.基于变量距离的模糊聚类6.2.3变量降维1.主成分分析（PCA）2.因子分析6.2.4R语
看书标记【R语言数据分析项目精解：理论、方法、实战 3】小胡涂记 R语言资料实现 r语言数据分析开发语言
看书标记——关于R语言chapter3互联网运营指标的建立3.1项目背景、目标及方案3.1.1项目背景3.1.2项目目标3.1.3项目方案3.2项目技术理论简介3.2.1骨灰级流量指标1.PV（pageviews访问页面数）2.UV（UniqueVistors唯一访问人数）3.Visit(会话)3.2.2登录和激活3.2.3访问深度和吸引力1.PV/Visit2.Vist/UV3.Duration
数据分析项目｜淘宝用户行为分析（Python+可视化）程序员小猴紫 python 编程数据分析 python 数据分析用户分析
一、认识数据了解数据的来源、字段等信息1.1数据来源及介绍本数据来源于阿里云天池，是其随机选择约100万用户在2017年11月25日至12月3日之间发生的行为记录，具有包括点击、购买、加购物车和收藏商品的行为。数据集的每一行表示一条用户行为，由用户ID、商品ID、商品类目ID、行为类型和时间戳组成，并以逗号分隔。1.2数据格式二、提出问题针对不同的数据提出问题，总结分析思路了解到所给数据集只有5个
看书标记【R语言数据分析项目精解：理论、方法、实战 9】小胡涂记 R语言资料实现 r语言数据分析开发语言
看书标记——R语言Chapter9文本挖掘——点评数据展示策略9.1项目背景、目标和方案9.1.1项目背景9.1.2项目目标9.1.3项目方案1.建立评论文本质量量化指标2.建立用户相似度模型3.对用户评论进行情感性分析9.2项目技术理论简介9.2.1评论文本质量量化指标模型1.主题覆盖量2.评论文本分词数量3.评论点赞数4.评论中的照片数5.评论分值偏移9.2.2用户相似度模型1.pearson
从数据角度分析年龄与NBA球员赛场表现的关系【数据分析项目分享】报告，今天也有好好学习数据分析数据分析 pandas 数据可视化数据分析案例数据分析项目
好久不见朋友们，今天给大家分享一个我自己很感兴趣的话题分析——NBA球员表现跟年龄关系到底大不大？数据来源于Kaggle，感兴趣的朋友可以点赞评论留言，我会将数据同代码一起发送给你。目录NBA球员表现的探索性数据分析导入Python库和加载数据数据简要概述数据可视化年龄与上场时间的比较年龄与出场次数相比较年龄与PER相比较结论NBA球员表现的探索性数据分析美国国家篮球协会(NBA)中有各个年龄段的
olist巴西电商数据分析项目 sql+tableau @程序媛有个猫 sql
一、分析背景巴西Olist是当地电商平台，本数据集包含2016年9月-2018年8月的数据，本文将通过对平台的整体情况、用户、商家、产品、销售五个方面分析平台的经营状况，目的是为了发现平台可能存在的问题，分析可能的原因并给出建议。数据链接：https://www.kaggle.com/jainaashish/orders-merged数据字段说明：1、product_id：商品ID2、seller
Python多线程爬虫——数据分析项目实现详解雪碧有白泡泡粉丝福利活动 python 爬虫开发语言
前言「作者主页」：雪碧有白泡泡「个人网站」：雪碧的个人网站ChatGPT体验地址文章目录前言爬虫获取cookie网站爬取与启动CSDN爬虫爬虫启动将爬取内容存到文件中多线程爬虫选择要爬取的用户线程池爬虫爬虫是指一种自动化程序，能够模拟人类用户在互联网上浏览网页、抓取网页内容、提取数据等操作。爬虫通常用于搜索引擎、数据挖掘、网络分析、竞争情报、用户行为分析等领域。我们以爬取某个用户的博文列表并存储到
Python Pandas 数据分析项目实例 weixin_42098295 python pandas 数据分析
假设我们有一个电子商务公司的销售数据，包含了客户购买记录、商品价格、购买日期等信息。我们的目标是分析这些数据，提取有价值的信息，例如总销售额、最畅销的产品、销售趋势等。1、安装引用Pandas如没有安装Pandas，可以通过pip安装它。参考下面的文档。然后在Python脚本或Jupyter笔记本中导入Pandas。参考文档：PythonPandas安装和设置2、加载数据使用Pandas加载数据。
基于 Python 的数据分析与可视化百事没事阿 python 数据分析开发语言自动化数据挖掘学习 windows
学好数据分析，可以干什么呢？第一，用于实现自动化办公，解放自我。比如：可以使用Python读取Excel、CSV等格式的数据文件，进行数据清洗、转换、计算等操作，进行自动化数据处理。可以使用Python读取Word、PDF等格式的文档文件，进行文本提取、格式修改、内容替换等操作，进行自动化文档处理。第二，用于企业研发，数据建模必备技能。针对日益复杂的项目需求，很多企业数据分析项目需要高阶数学建模，
统计案例 | 统计数据会说谎？写代码的阿呆统计案例统计学统计案例被平均均值估计统计数据会说谎
统计案例|统计数据会说谎？一、前言二、统计和数学的关系？三、统计数据会说谎？四、写在最后—大咖说统计！一、前言各位小伙伴好，小编在今年将会推出【统计案例】系列文章，目的是通过一系列的实际案例（经典统计案例+小编实际参与的数据分析项目）来洞悉这些案例背后所体现的“统计思维”，一方面可以培养自己基于实际案例的统计思维，另一方面对于后续希望从事统计相关工作的同学也会有所裨益（毕竟好的统计思维是通用的），
MySQL+Excel数据分析项目：淘宝母婴购物分析材哥儿数据分析信息可视化数据挖掘 mysql excel 数据库机器学习
项目简介：随着互联网的发展和人口日益增长，人们对于母婴产品的需求不断增加，淘宝作为中国最大的电子商务平台之一，在母婴商品领域拥有大量的用户和丰富的购物数据。深入分析这些数据可以帮助商家了解用户行为和需求，优化产品和服务，提升用户体验和市场竞争力。1.分析目的通过数据分析和可视化展示，充分挖掘数据的价值，让数据更好地为业务服务，可作如下分析：销量分析：年/季度/月/日的商品销量关系产品分析：商品销量
Excel数据分析项目实战材哥儿数据分析数据挖掘 excel
项目模拟：boss说：你给我分析最近店铺的销售情况，以及如何提升.然后发给我一份销售表此时就需要数据分析师来完成boss提出的需求了.根据数据分析流程：数据分析流程-CSDN博客逐步完成即可.1.分析目的很明显，boss所提的需求太泛化，此时就需要剖解需求，细分需求.对于问题：最近店铺的销售情况结合给的销售表，可将问题分解为多个维度：时间，空间，其他时间维度与销售额，销量的关系空间维度与销售额，销
数据分析面试应该准备什么？ CDA·数据分析师数据分析
2020年6月求职季，虽然受到疫情的影响，但是也挡不住各位小伙伴，找工作的热情。目前，数据分析行业大火，相信很多小伙伴都想去这一行业试试水。想要成功进入数据分析行业，就必须得通过数据分析面试，面试应该准备什么，怎么准备，各位小伙伴都知道吗?1.简历大家都知道面试一定要带简历，那么怎样才能制作出一份让面试官满意的简历呢。这里小编建议大家可以试试STAR法则，可以着重凸显出自己在数据分析项目中取得的成
数据分析入门准备小跳蛙leapfrog 数据分析数据挖掘人工智能
目标：数据挖掘，数据分析偏数据挖掘方向春招找到工作，11月找到实习入门参考资料：1.数据分析求职面试指南拿下Offer：数据分析师求职面试指南（掌阅）2.stone教你如何做数据分析项目Stone教你如何做数据分析项目（上）_哔哩哔哩_bilibili计划：三天看完并修改简历
大数据分析案例-基于LinearRegression回归算法构建房屋价格预测模型艾派森大数据分析案例合集机器学习人工智能数据挖掘数据分析回归
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+喜欢大数据分析项目的小伙伴，希望可以多多支持该系列的其他文章大数据分析案例合集大数据分析案例-基于随机森林算法预测人类预期寿命大数据分析案例-基于随机森林算法的商品评价情感分析大数据分析案例-用RFM模型对客户价值分析(聚类)大数据分析案例-对电信客户流失
全球海洋数据 (GLODAP) v2.2023(海洋碳数据产品) 此星光明 GEE数据集专栏人工智能 javascript 算法
全球海洋数据分析项目(GLODAP)v2.2023¶全球海洋数据分析项目(GLODAP)v2.2023代表了海洋生物地球化学瓶数据合成方面的重大进步。此更新主要关注海水无机碳化学，以GLODAPv2.2022为基础，包含多项关键增强功能。值得注意的是，增加了43条新航线，以将数据集的覆盖范围扩大到2020年。数据质量控制过程涉及删除温度缺失的条目。此外，每次巡航都包含数字对象标识符(DOI)，增强
互联网加竞赛基于LSTM的天气预测 - 时间序列预测 Mr.D学长 python java
0前言优质竞赛项目系列，今天要分享的是机器学习大数据分析项目该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1数据集介绍df=pd.read_csv(‘/home/kesci/input/jena1246/jena_climate_2009_2016.csv’)df.head()如上
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &