我不拽世界怎麼精彩

泰坦尼克号数据分析

案例：泰坦尼号数据分析

背景：

泰坦尼克号的沉没是历史上最臭名昭着的沉船之一。1912年4月15日，在首次航行期间，泰坦尼克号撞上冰山后沉没，2224名乘客和机组人员中有1502人遇难。这场轰动的悲剧震撼了国际社会，并导致了更好的船舶安全条例。
海难导致生命损失的原因之一是没有足够的救生艇给乘客和机组人员。虽然幸存下来的运气有一些因素，但一些人比其他人更有可能生存，比如妇女，儿童和上层阶级。

数据集描述

数据中的特征共有11个，它们分别是：

Survived:0代表死亡，1代表存活

Pclass:乘客所持票类，有三种值(1,2,3)

Name:乘客姓名

Sex:乘客性别

Age:乘客年龄(有缺失)

SibSp:乘客兄弟姐妹/配偶的个数(整数值)

Parch:乘客父母/孩子的个数(整数值)

Ticket:票号(字符串)

Fare:乘客所持票的价格(浮点数，0-500不等)

Cabin:乘客所在船舱(有缺失)

Embark:乘客登船港口:S、C、Q(有缺失)

各特征与存活的关系分析

读取数据并查看数据格式

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

train=pd.read_csv('train.csv')
train=pd.DataFrame(train,columns=['PassengerId','Pclass','Name','Sex','Age','SibSp','Parch','Ticket','Fare','Cabin','Embarked','Survived'])
train.head()

Pclass特征分析

利用饼图分别求出Pclass的类别（1、2、3）与人员存活之间的比例，思路是：求出Pclass为1、2、3，而且存活和死亡的人数,再进行比较，最后用饼图清晰表示出来。

Pclass1_survived_number=train.loc[(train['Pclass']==1)&(train['Survived']==1)]['Pclass'].count()  #类别为1且存活的人数数量
Pclass1_unsurvived_number=train.loc[(train['Pclass']==1)&(train['Survived']==0)]['Pclass'].count() #类别为1且死亡的人数数量
Pclass2_survived_number=train.loc[(train['Pclass']==2)&(train['Survived']==1)]['Pclass'].count() #类别为2且存活的人数
Pclass2_unsurvived_number=train.loc[(train.Pclass==2)&(train.Survived==0)]['Pclass'].count()#类别为2，死亡的人数
Pclass3_survived_number=train.loc[(train['Survived']==1)&(train['Pclass']==3)]['Pclass'].count()  #类别为3，存活的人数
Pclass3_unsurvived_number=train.loc[(train['Pclass']==3)&(train.Survived==0)]['Pclass'].count() #类别为3，死亡的人数

pu1=(Pclass1_unsurvived_number)/(Pclass1_unsurvived_number+Pclass1_survived_number)
ps1=(Pclass1_survived_number)/(Pclass1_unsurvived_number+Pclass1_survived_number)
pu2=(Pclass2_unsurvived_number)/(Pclass2_unsurvived_number+Pclass2_survived_number)
ps2=(Pclass2_survived_number)/(Pclass2_unsurvived_number+Pclass2_survived_number)
pu3=(Pclass3_unsurvived_number)/(Pclass3_unsurvived_number+Pclass3_survived_number)
ps3=(Pclass3_survived_number)/(Pclass3_unsurvived_number+Pclass3_survived_number)

colors=['red','green']
plt.figure(figsize=(8,2))
plt.subplot(131)
plt.pie([pu1,ps1],colors=colors,autopct='%1.1f%%',explode=[0.04,0.04],labels=['Unsurvived','Survived'])
plt.title('Pclass_1')

plt.subplot(132)
plt.pie([pu2,ps2],colors=colors,autopct="%1.1f%%",explode=[0.04,0.04],labels=['Unsurvived','Survived'])
plt.title('Pclass_2')

plt.subplot(133)
plt.pie([pu3,ps3],colors=colors,autopct='%1.1f%%',explode=[0.04,0.04],labels=['Unsurvived','Survived'])
plt.title('Pclass_3')


plt.show()

分析：从图中可以清楚地看出Pclass类别为3的死亡人数最高，高达75.8%，其次就是类别为2，其死亡率高达52.7%，死亡最少的类别为1，其死亡人数不到一半。

Name特征分析

因为存活率和名字无关，因此Name特征不做分析。

Sex特征分析

M_S=train.loc[(train.Sex=='male')&(train.Survived==1)]['Sex'].count()  #男性存活人数
M_U=train.loc[(train.Sex=='male')&(train.Survived==0)]['Sex'].count()  #男性死亡人数
F_S=train.loc[(train.Sex=='female')&(train.Survived==1)]['Sex'].count()  #女性存活人数
F_U=train.loc[(train.Sex=='female')&(train.Survived==0)]['Sex'].count() #女性死亡人数
all_M=train.loc[train.Sex=='male']['Sex'].count() #所有男性人数
all_F=train.loc[train.Sex=='female']['Sex'].count()  #所有女性人数

p1=[M_S/all_M,M_U/all_M]  #存活男性和死亡男性在所有男性所占的概率
p2=[F_S/all_F,F_U/all_F]  #存活女性和死亡女性在所有女性所占的概率

plt.figure(figsize=(6,2))
colors=['green','red']
plt.subplot(121)
plt.pie(p1,colors=colors,explode=[0.04,0.04],labels=['Survived','Unsurvived'],autopct='%1.1f%%')
plt.title('Male')
plt.subplot(122)
plt.pie(p2,colors=colors,explode=[0.04,0.04],labels=['Survived','Unsurvived'],autopct='%1.1f%%')
plt.title('Female')
plt.show()

分析：由图可知，男性死亡人数远远高于女性。导致这种情况的原因可能是出现危险时，男性都愿意保护女性，或者男性相信自己的游泳技术，从而不找任何漂浮物跳下船舱。

Age特征分析

（1）Age特征存在缺失值，且一个人的年龄不能利用均值、方差等来填充，因此第一种分析分为有年龄特征的分析和无年龄特征的分析

A_S=train.loc[(train['Age'].notnull())&(train.Survived==1)]['Age'].count()  #有年龄特征且存活的数量
A_U=train.loc[(train.Age.notnull())&(train.Survived==0)]['Age'].count()  #有年龄特征且死亡的数量
Not_A_S=train.loc[(train.Age.isnull())&(train.Survived==1)]['Pclass'].count()  # 无年龄特征且存活的数量   #此句和下句的Pclass若改为Age，则显示结果为0，是因为isnull()的原因
Not_A_U=train.loc[(train.Age.isnull())&(train.Survived==0)]['Pclass'].count()  #无年龄特征且死亡的数量
all_A=train.loc[train.Age.notnull()]['Age'].count()  #所有有年龄特征的人数
all_Not_A=train.loc[train.Age.isnull()]['Pclass'].count() #所有无年龄特征的人数

p1=[A_S/all_A,A_U/all_A]  #有年龄特征存活和死亡的概率
p2=[Not_A_S/all_Not_A,Not_A_U/all_Not_A]  #无年龄特征存活和死亡的概率

plt.figure(figsize=(6,2))
plt.subplot(121)
colors=['green','red']
explode=[0.04,0.04]

plt.pie(p1,colors=colors,autopct='%1.1f%%',explode=explode,shadow=1,labels=['Age Survived','Age Unsurvived'])
plt.title('Age')

plt.subplot(122)
plt.pie(p2,colors=colors,autopct='%1.1f%%',explode=explode,shadow=1,labels=['Non-Age Survived','Non-Age Unsurvived'])
plt.title('Non-Age')

plt.show()

从图中看出无年龄特征的人数死亡率高于有年龄特征的人数。
（2）将有年龄特征的分为三组：未成年A（0-17），青年人B（18-65），老年人C（66-）
重新建立一个特征Rank，其值为A\B\C

#将有年龄特征分为ABC三组
train2=train.loc[train.Age.notnull()]
train2['Rank']=pd.cut(train2.Age,bins=[1,17,65,120],labels=['A','B','C'])
train2.head()

#利用堆积柱状图进行可视化
A_Sur=train2.loc[(train2.Rank=='A')&(train2.Survived==1)]['Rank'].count()   #未成年人生存的人数
A_Unsur=train2.loc[(train2.Rank=='A')&(train2.Survived==0)]['Rank'].count()    #未成年人死亡的人数
B_Sur=train2.loc[(train2.Rank=='B')&(train2.Survived==1)]['Rank'].count() #中年人生存的人数
B_Unsur=train2.loc[(train2.Rank=='B')&(train2.Survived==0)]['Rank'].count()   #中年人死亡的人数
C_Sur=train2.loc[(train2.Rank=='C')&(train2.Survived==1)]['Rank'].count()   #老年人生存的人数
C_Unsur=train2.loc[(train2.Rank=='C')&(train2.Survived==0)]['Rank'].count()   #老年人死亡的人数
a=[A_Unsur,B_Unsur,C_Unsur]
b=[A_Sur,B_Sur,C_Sur]

x=np.linspace(-0.5,1.7,3)

plt.bar(x,a,color='r',label='Unsurvived')
plt.bar(x,b,bottom=a,label='Survived',color='g')
plt.xticks(np.arange(3),('Young','Adult','Old'))
plt.xlabel('Type')
plt.ylabel('Number')
#显示范围
plt.xlim(-0.3,2.5)
plt.ylim(0,600)

#显示图例
plt.legend(loc='upper right')
plt.grid(axis='y', color='gray', linestyle=':', linewidth=2)
plt.show()

从图中看出：船上的成年人最多，未成年人其次，最少是老年人，而且老年人死亡率很高。

SibSp特征分析

本特征的分析，主要先查看SibSp的数据类型，再将各类的数据划分到不同的变量，再对各个变量进行存活率的比较

train.SibSp.unique()  #查看SibSp特征的情况

#将数据按照SibSp的类型拆分
s0=train.loc[train.SibSp==0]
s1=train.loc[train.SibSp==1]
s2=train.loc[train.SibSp==2]
s3=train.loc[train.SibSp==3]
s4=train.loc[train.SibSp==4]
s5=train.loc[train.SibSp==5]
s8=train.loc[train.SibSp==8]

#将每一个拆分后的数据集对存活和死亡的数量进行分析，利用堆积图可视化出来
s0_s=s0.loc[s0.Survived==1]['SibSp'].count()   #0特征的存活数量
s0_u=s0.loc[s0.Survived==0]['SibSp'].count()   #0特征的死亡数量

s1_s=s1.loc[s1.Survived==0]['SibSp'].count()
s1_u=s1.loc[s1.Survived==1]['SibSp'].count()

s2_s=s2.loc[s2.Survived==0]['SibSp'].count()
s2_u=s2.loc[s2.Survived==1]['SibSp'].count()

s3_s=s3.loc[s3.Survived==0]['SibSp'].count()
s3_u=s3.loc[s3.Survived==1]['SibSp'].count()

s4_s=s4.loc[s4.Survived==0]['SibSp'].count()
s4_u=s4.loc[s4.Survived==1]['SibSp'].count()

s5_s=s5.loc[s5.Survived==0]['SibSp'].count()
s5_u=s5.loc[s5.Survived==1]['SibSp'].count()

s8_s=s8.loc[s8.Survived==0]['SibSp'].count()
s8_u=s8.loc[s8.Survived==1]['SibSp'].count()

c=[s0_s,s1_s,s2_s,s3_s,s4_s,s5_s,s8_s]
d=[s0_u,s1_u,s2_u,s3_u,s4_u,s5_u,s8_u]

x=np.arange(7)
width=0.5
plt.bar(x,c,width,color='g',label='Survived')
plt.bar(x,d,width,bottom=c,color='r',label='Unsurvived')

plt.xticks(x,[0,1,2,3,4,5,8])  
plt.xlabel('Type of SibSp')
plt.ylabel('Number of SibSp')
plt.legend(loc='upper right')

plt.show()

从图中看出，类型为0的特征人数最多，其次就是类型2的人数；相应的死亡人数也比其他特征要高很多。

Parch特征分析

利用相似的方法对Parch特征进行堆积图可视化。

train.Parch.unique()

P0_s=train.loc[(train.Parch==0)&(train.Survived==1)]['Parch'].count()
P0_u=train.loc[(train.Parch==0)&(train.Survived==0)]['Parch'].count()

P1_s=train.loc[(train.Parch==1)&(train.Survived==1)]['Parch'].count()
P1_u=train.loc[(train.Parch==1)&(train.Survived==0)]['Parch'].count()

P2_s=train.loc[(train.Parch==2)&(train.Survived==1)]['Parch'].count()
P2_u=train.loc[(train.Parch==2)&(train.Survived==0)]['Parch'].count()

P3_s=train.loc[(train.Parch==3)&(train.Survived==1)]['Parch'].count()
P3_u=train.loc[(train.Parch==3)&(train.Survived==0)]['Parch'].count()

P4_s=train.loc[(train.Parch==4)&(train.Survived==1)]['Parch'].count()
P4_u=train.loc[(train.Parch==4)&(train.Survived==0)]['Parch'].count()

P5_s=train.loc[(train.Parch==5)&(train.Survived==1)]['Parch'].count()
P5_u=train.loc[(train.Parch==5)&(train.Survived==0)]['Parch'].count()

P6_s=train.loc[(train.Parch==6)&(train.Survived==1)]['Parch'].count()
P6_u=train.loc[(train.Parch==6)&(train.Survived==0)]['Parch'].count()

m=[P0_s,P1_s,P2_s,P3_s,P4_s,P5_s,P6_s]
n=[P0_u,P1_u,P2_u,P3_u,P4_u,P5_u,P6_u]

h=np.arange(7)
plt.bar(h,m,color='g',label='Survived')
plt.bar(h,n,bottom=m,color='r',label='Unsurvived')
plt.xticks(h,[0,1,2,3,4,5,6])
plt.xlabel('Type of Parch')
plt.ylabel('Number of Parch')
plt.legend(loc='upper right')
plt.show()

Ticket特征分析

因为在数据中，Ticket特征提取不了有用的信息，故此特征不做分析。

Fare特征分析

将Fare特征分为5个部分，然后分析各个部分的生存和死亡梳理，利用堆积图进行可视化

train_F=train

train_F['Rank']=pd.cut(train_F.Fare,bins=[0,100,200,300,400,550],labels=['A','B','C','D','E'])

a_s=train_F.loc[(train_F.Rank=="A")&(train_F.Survived==1)]['Rank'].count()
a_u=train_F.loc[(train_F.Rank=='A')&(train_F.Survived==0)]['Rank'].count()

b_s=train_F.loc[(train_F.Rank=="B")&(train_F.Survived==1)]['Rank'].count()
b_u=train_F.loc[(train_F.Rank=='B')&(train_F.Survived==0)]['Rank'].count()

c_s=train_F.loc[(train_F.Rank=="C")&(train_F.Survived==1)]['Rank'].count()
c_u=train_F.loc[(train_F.Rank=='C')&(train_F.Survived==0)]['Rank'].count()

d_s=train_F.loc[(train_F.Rank=="D")&(train_F.Survived==1)]['Rank'].count()
d_u=train_F.loc[(train_F.Rank=='D')&(train_F.Survived==0)]['Rank'].count()

e_s=train_F.loc[(train_F.Rank=="E")&(train_F.Survived==1)]['Rank'].count()
e_u=train_F.loc[(train_F.Rank=='E')&(train_F.Survived==0)]['Rank'].count()

x1=[a_s,b_s,c_s,d_s,e_s]
x2=[a_u,b_u,c_u,d_u,e_u]

i=np.arange(5)
plt.bar(i,x1,color='g',label='Survived')
plt.bar(i,x2,color='r',bottom=x1,label='Unsurvived')
plt.xticks(i,['0-100','101-200','201-300','301-400','401-550'],rotation=60)
plt.xlabel('Region of Fare')
plt.ylabel('Number of Fare')
plt.legend(loc='upper right')
plt.show()

由图可知，Fare出现在0-100这个范围的人数最多。

Cabin特征分析

c_s=train.loc[(train.Cabin.isnull())&(train.Survived==1)]['Survived'].count()
c_u=train.loc[(train.Cabin.isnull())&(train.Survived==0)]['Survived'].count()

nc_s=train.loc[(train.Cabin.notnull())&(train.Survived==1)]['Survived'].count()
nc_u=train.loc[(train.Cabin.notnull())&(train.Survived==0)]['Survived'].count()

p1=[c_s,c_u]
p2=[nc_s,nc_u]

plt.figure(figsize=(6,2))
colors=['green','red']

plt.subplot(121)
plt.pie(p1,explode=[0.04,0.04],shadow=True,colors=colors,labels=['Survived','Unsurvived'],autopct='%1.1f%%')
plt.title('Non Cabin Record')
plt.subplot(122)
plt.pie(p2,explode=[0.04,0.04],shadow=True,colors=colors,labels=['Survived','Unsurvived'],autopct='%1.1f%%')
plt.title('Cabin Record')
plt.show()

Embarked特征分析

train.Embarked.unique()

es_s=train.loc[(train.Embarked=='S')&(train.Survived==1)]['Survived'].count()
es_u=train.loc[(train.Embarked=='S')&(train.Survived==0)]['Survived'].count()

ec_s=train.loc[(train.Embarked=='C')&(train.Survived==1)]['Survived'].count()
ec_u=train.loc[(train.Embarked=='C')&(train.Survived==0)]['Survived'].count()

eq_s=train.loc[(train.Embarked=='Q')&(train.Survived==1)]['Survived'].count()
eq_u=train.loc[(train.Embarked=='Q')&(train.Survived==0)]['Survived'].count()

enon_s=train.loc[(train.Embarked.isnull())&(train.Survived==1)]['Survived'].count()
enon_u=train.loc[(train.Embarked.isnull())&(train.Survived==0)]['Survived'].count()

p9=[es_s,es_u]
p8=[ec_s,ec_u]
p7=[eq_s,eq_u]
p6=[enon_s,enon_u]

plt.figure(figsize=(10,2))
colors=['green','red']
explode=[0.04,0.04]
autopct='%1.1f%%'
label=['Survived','Unsurvived']

plt.subplot(141)
plt.pie(p9,colors=colors,autopct=autopct,explode=explode,labels=label)
plt.title('Embark_S')

plt.subplot(142)
plt.pie(p8,colors=colors,autopct=autopct,explode=explode,labels=label)
plt.title('Embark_C')

plt.subplot(143)
plt.pie(p7,colors=colors,autopct=autopct,explode=explode,labels=label)
plt.title('Embark_Q')

plt.subplot(144)
plt.pie(p6,colors=colors,autopct=autopct,explode=explode,labels=label)
plt.title('Embark_NON')

plt.show()

利用决策树算法对存活率预测

首先将无用的特征删除


train_c=train.drop(['Name','Ticket','Cabin','Rank','PassengerId'],axis=1) #删除无用的特征Name，Ticket，cabin

#将男性女性换为1,0
train_c['Sex'].replace(['male','female'],[1,0],inplace=True)
train_c['Sex']=train_c['Sex'].astype(int)
"""另一种替换方法
train.loc[(train.Sex)=='male','Sex']=1
train.loc[(train.Sex)=='female','Sex']=0
"""
#将登船港口数据转为数值类型
embarked_unique=train_c['Embarked'].unique().tolist()  #将港口类型不重复地提取出来，并转为列表形式
train_c['Embarked']=train_c['Embarked'].apply(lambda x:embarked_unique.index(x))  #把港口换为0,1,2,3,也可以用前面的方法

train_d=train_c.dropna()  #删除有缺失值的行

此时得到的数据全为数值形式

然后利用sklearn中的交叉验证法划分数据集

from sklearn.cross_validation import train_test_split
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.3)

from sklearn.tree import DecisionTreeClassifier
clf=DecisionTreeClassifier()
clf.fit(x_train,y_train)

clf.score(x_test,y_test)

from sklearn.metrics import classification_report
y_pre=clf.predict(x_test)
print(classification_report(y_pre,y_test,target_names=['Unsurvived','Survived']))

Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
python读写CSV文件 bcbobo21cn .Net python 开发语言机器学习 CSV
做数据分析，有时候要分析的数据在CSV文件里；先看一下python读写CSV文件；importpandasaspddf=pd.read_csv('test1.csv')print(df)print('')print(df.head(2))companyname=["A1","B2","E3","F4"]legperson=["lier","yanqi","wangwu","zhangsan"]le
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
python数据分析知识点大全编程零零七 python数据分析 python 开发语言 python数据分析数据分析知识点大全 python数据分析知识点 python教程 python基础
Python数据分析知识点大全可以归纳为以下几个主要方面：一、基础概念与目的数据分析定义：数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论，对数据加以详细研究和概括总结的过程。其目的在于从数据中挖掘规律、验证猜想、进行预测。Python在数据分析中的优势：Python因其易学性、快速开发、丰富的扩展库（如NumPy、Pandas等）和成熟的框架，成为数据分析领域的
数据分析-24-时间序列预测之基于keras的VMD-LSTM和VMD-CNN-LSTM预测风速皮皮冰燃数据分析数据分析
文章目录1普通的LSTM模型1.1数据重采样1.2数据标准化1.3切分窗口1.4划分数据集1.5建立模型1.6预测效果2VMD-LSTM模型2.1VMD分解时间序列2.2对每一个IMF建立LSTM模型2.2.1IMF1—LSTM2.2.2IMF2-LSTM2.2.3统一代码2.3评估效果3CNN-LSTM模型3.1数据预处理3.2建立模型3.3效果预测4VMD-CNN-LSTM模型4.1VMD分解
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
OmicsTools除b站教学视频外已整理的零代码生信全流程分析文档邢博士谈科教医学科研生信分析 r语言数据可视化数据挖掘数据分析生信医学生信分析
OmicsTools软件介绍和下载安装配置软件简介我开发了一款本地电脑无限使用的零代码生信数据分析作软图神器电脑软件OmicsTools，欢迎大家使用OmicsTools进行生物医学科研数据分析和作图，该软件件能让大家在不需要任何编程和代码编写的基础上，分析次数没有限制，可以无限使用，让您在自己电脑上快速进行大量的生信分析和加速大家的科研。OmicsTools生信分析电脑软件可以做医学生物生信各个
【数据分析】利用Python+AI+工作流实现自动化数据分析-全流程讲解 z千鑫 AI领域 FLASK基础 Python基础人工智能数据分析 python AI编程 AI工作流 ai 自动化
文章目录一、为什么要用AI进行自动化分析？二、AI自动化分析场景三、编写Python脚本示例1、用flask实现让AI分析数据内容使用说明：示例2、用定时任务的方式，定时处理AI数据代码说明四、把AI分析的数据，放到AI工作流中做展示五、openAI的key结尾在信息爆炸的时代，如何快速获取有价值的洞察力成为了各行各业的迫切需求。传统的内容分析方法往往又耗时又费力，并且难以满足快速变化的市场需求。
Mall4j商城实战 - 部署 canal 数据库增量日志解析 yueerba126 Mall4j商城实战数据库 spring cloud 微服务架构
Canal简介Canal是基于MySQL数据库增量日志解析的工具，主要用于增量数据的订阅和消费。Canal主要用途基于MySQL数据库增量日志解析详细功能：实时解析MySQL的二进制日志（Binlog）。捕获数据库中的所有增量变更，如插入、更新和删除操作。使用场景：适用于实时监控数据库变化的应用，比如数据复制、数据备份或实时数据分析等。提供增量数据订阅和消费服务
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
Rust: duckdb和polars读csv文件比较 songroom rust 开发语言后端
duckdb在数据分析上，有非常多不错的特质。1、快；2、客户体验好，特别是可以同时批量读csv（在一个目录下的csv等文件）。polars的性能比pandas有非常多的超越。但背后的一些基于arrow的技术栈有很多相同之类。今天想比较一下两者在csv数据读写的情况。一、文件准备csv样本内容，是N行9列的csv标准格式，有字符串，有浮点数，有整型。具体如下：本次准备了两个csv文件，一个大约是2
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
Java基于spring boot的国产电影数据分析与可视化python+java+node.js QQ_511008285 java spring boot 数据分析 python django vue.js flask
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以该系统使用进行大数据处理和
爱自己是终身浪漫的开始不语_2880
在《25岁，我的初老症状》那篇文章下，有个姑娘跟我说“爱自己是终身浪漫的开始“突然也想到李上安歌词里唱的那句”爱自己才能终身浪漫，爱别人才能获取温暖“二刷完《泰坦尼克号》后，尽管还是被最后的结局赚足了眼泪，被那个说最怕冰凉刺骨的海水却还是毫不犹豫的将露丝推上了唯一漂浮板的爱情所感动“你以后要坚强的活下去，结婚，生子，好好过完这一生”但也一直在想露丝愿意放下一切跟他走，到底是因为那个人的爱，还是自己
Python最全的股票数据API接口 w_traveler python 开发语言大数据
python最全的股票数据API接口使用python是一种有效的方式来获取高频股票数据，以便进行股票行情数据分析和量化交易。python是一种广泛应用于金融数据领域的编程语言，可用于与股票数据API接口进行交互。通过调用股票数据API接口，我们可以获取实时的股票数据，包括tick数据和k线历史数据。tick数据提供了每次交易的详细信息，而k线历史数据则提供了一段时间内港股、美股、A股、沪深行情数据
R 地图绘制-比例尺与指北针 jamesjin63
ggplot绘制mapR语言可以进行数据分析，也可以进行地图绘制，而且非常简洁，快速。虽然Arcgis基于桌面可视化操作，能够进行空间分析，但是唯一不足的就是操作步骤繁琐而且一不小心，就要从头再来，可重复性较低。这篇文章主要讲述如何利用R语言中的ggplot与sf绘制带有指北针、图列与标尺的地图屏幕快照2020-06-28下午9.27.59.png数据我们下载非洲地区54个国家的图层Afirca.
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
新质农业-再生农业的应用橙蜂智农人工智能制造创业创新
橙蜂智能公司致力于提供先进的人工智能和物联网解决方案，帮助企业优化运营并实现技术潜能。公司主要服务包括AI数字人、AI翻译、埃域知识库、大模型服务等。其核心价值观为创新、客户至上、质量、合作和可持续发展。橙蜂智农的智慧农业产品涵盖了多方面的功能，如智能化推荐、数据分析、远程监控和决策支持系统。用户可以通过应用获得个性化的作物种植建议、实时的生长状态监控以及精确的灌溉和施肥指导，提升农业生产效率。文
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><