sdhpl

Kaggle——Titanic数据分析

目录

Titanic数据分析报告

问题背景
研究方法
研究过程

获取数据
统计性描述
数据预处理
特征提取
模型构建

结果

Titanic数据分析报告

问题背景

泰坦尼克号沉没事故为和平时期死伤人数最为惨重的一次海难。1912年4月15日，以“永不沉没”著名的泰坦尼克号邮轮在它的处女航行中，不幸与冰山相撞并沉没。2224名船员及乘客中，1517人丧生。
本项目旨在分析具有哪些特征的乘客更有可能存活。首先从kaggle平台获取船上乘客数据，对乘客多维度属性进行处理、分析，运用机器学习方法来实现乘客幸存与否的预测，最后对预测结果进行评价。

研究方法

数据获取&结果评估：kaggle平台
编程语言：python(numpy, pandas, sklearn)

研究过程

获取数据

数据下载：从kaggle项目:Titanic: Machine Learning From Disaster 页面下载数据集
数据导入：使用pandas库的read_csv方法，并查看数据集信息。

train=pd.read_csv("./train.csv")
test=pd.read_csv("./test.csv")
train.info()
test.info()

可以看到，数据中有12个字段，分别为：PassengerId（乘客编号）、Survived（乘客是否幸存）、Pclass（船舱等级）、Name（姓名）、Sex（性别）、Age（年龄）、SibSp（兄弟姐妹/配偶数量）、Parch（父母/子女数量）、Ticket（船票编号）、Fare（船票价格）、Cabin（船舱号）、Embarked（上船码头）。其中，训练集中共有891条记录，预测集中共有418条记录。

合并数据集（便于数据处理）

full=train.append(test,ignore_index=True)
full.info()
full.head()

统计性描述

逐一查看各变量与最终是否存活的关系，以找出可能与存活率有关的特征。其中，PassengerId, Ticket二者仅作为编号使用，属于无关变量，不再考虑。
首先查看性别与存活率之间是否有关，使用matplotlib画图函数画出不同性别乘客中死亡和幸存的人数。
pd.crosstab(train["Sex"],train["Survived"]).plot(kind="bar")

从图中可以看到，女性乘客的存活率更高，而男性乘客大多数都不能幸存（和“女士优先”的绅士文化有关），显然性别与存活率的相关性很强，后期应重点关注。
同理，找出其他变量和存活率的关系。

pd.crosstab(train["SibSp"],train["Survived"]).plot(kind="bar") #兄弟姐妹/配偶数量
pd.crosstab(train["SibSp"],train["Survived"]).plot(kind="bar") #父母/子女数量
pd.crosstab(train["Embarked"],train["Survived"]).plot(kind="bar"） #登船港口
pd.crosstab(train["Pclass"],train["Survived"]).plot(kind="bar") #船舱等级
pd.crosstab(train["Fare"],train["Survived"]).plot() #船票价格
pd.crosstab(train["Age"],train["Survived"]).plot()  #年龄

从图中可以得出以下结论：

家族人数为1-2人的乘客幸存率更大
船舱等级越高（1>2>3）/船票价格越高，幸存率越大
15岁以下儿童的存活率似乎比成年人更高，可能获得了成年人的帮助
登船港口C的生存率更高

数据预处理

在获取数据阶段中已经看到，1309条记录中，’Age’只有1046条记录，‘Cabin’字段只有295条记录，’Embarked’字段缺失2条记录，‘Fare’字段缺失1条记录。现在进行填充缺失值工作。

数值型。缺失记录中，‘Age’和‘Fare’为数值型变量。对于年龄，使用随机森林模型进行预测。

from sklearn.ensemble import RandomForestRegressor

age_df = full[['Age','Fare', 'Parch', 'SibSp', 'Pclass']]
age_df_notnull = age_df.loc[(full['Age'].notnull())]
age_df_isnull = age_df.loc[(full['Age'].isnull())]
X = age_df_notnull.values[:,1:]
y = age_df_notnull.values[:,0]
model = RandomForestRegressor(n_estimators=1000, n_jobs=-1)
model.fit(X,y)
predictAges = model.predict(age_df_isnull.values[:,1:])
full.loc[full['Age'].isnull(), ['Age']]= predictAges

对于船票价格，由于票价和船舱等级是高度相关的，且缺失数据只有一条，因此选择查看该条记录的船舱等级并填充相应的票价平均值。

full[full.Fare.isnull()].Pclass   #pclass=3
full['Fare']=full['Fare'].fillna(full[full.Pclass==3].Fare.mean())

字符型。缺失记录中，‘Embarked’和‘Cabin’为数值型变量。
由于‘Embarked‘字段缺失比较少，因此采用众数填充。

full['Embarked'].value_counts()
[out]:
S    914
C    270
Q    123  
full['Embarked'] = full['Embarked'].fillna( 'S' )

而’Cabin‘字段缺失比较多，将空值用’U’(Unkown)填充。
full['Cabin']=full['Cabin'].fillna('U')

特征提取

分类数据

分类数据主要有以下三种：性别Sex（男/女），登船港口Embarked（Q/S/C）和船舱等级Pclass（1/2/3）。对这一类数据，进行one-hot编码即可。
首先处理Sex字段。利用字典映射，将性别转换成数字（1-男，0-女）。

sex_mapDict={'male':1, 'female':0}  
full['Sex']=full['Sex'].map(sex_mapDict)

然后处理Embarked字段。对这种离散型变量，使用pandas的get_dummies()方法进行one-hot编码。

embarkedDf=pd.DataFrame()
embarkedDf=pd.get_dummies(full['Embarked'],prefix='Embarked')  #列名前缀是Embarked

把这些特征合并入原表，原表中的‘Embarked’字段可以删除。

full = pd.concat([full,embarkedDf],axis=1)
full.drop('Embarked',axis=1,inplace=True)

同理，对Pclass字段进行处理。

pclassDf=pd.DataFrame()
pclassDf=pd.get_dummies(full['Pclass'],prefix='Pclass')
full=pd.concat([full,pclassDf],axis=1)
full.drop('Pclass',axis=1,inplace=True)

字符串数据

Name、Cabin两个字段虽然并不是直接的分类数据或数字，但还是可以从中提取出信息的。
首先处理’Name’字段。 利用命令full[ 'Name' ].head()查看乘客姓名中有什么特征。

可以发现乘客姓名的格式均为：[名], [头衔].[姓] 的格式，而从头衔中可以得出乘客性别、婚姻状况甚至是社会阶级、收入等信息。因此，要先编写一个函数，把姓名中的头衔提取出来。

def getTitle(name):
    str1=name.split(',')[1]
    str2=str1.split('.')[0]
    title=str2.strip()
    return title

随机使用一位乘客姓名进行测试：getTitle('Braund, Mr. Owen Harris')，得到结果‘Mr’，说明功能实现。将这一函数运用到所有数据中，并查看共有多少种头衔。

titleDf=pd.DataFrame()
titleDf['Title']=full['Name'].map(getTitle)
titleDf['Title'].value_counts()

头衔数量过多，为了简化数据，根据网上查阅的信息定义以下几种头衔类别：
Officer 政府官员
Royalty 王室成员
Mr 男士
Mrs 已婚妇女
Miss 未婚女子
Master 专业技术人员
建立字典并映射到数据当中，就转换成了分类数据，再同样使用pandas的get_dummies()方法进行one-hot编码，并添加到full数据表中。

title_mapDict = {
                    "Capt":       "Officer",
                    "Col":        "Officer",
                    "Major":      "Officer",
                    "Jonkheer":   "Royalty",
                    "Don":        "Royalty",
                    "Sir" :       "Royalty",
                    "Dr":         "Officer",
                    "Rev":        "Officer",
                    "the Countess":"Royalty",
                    "Dona":       "Royalty",
                    "Mme":        "Mrs",
                    "Mlle":       "Miss",
                    "Ms":         "Mrs",
                    "Mr" :        "Mr",
                    "Mrs" :       "Mrs",
                    "Miss" :      "Miss",
                    "Master" :    "Master",
                    "Lady" :      "Royalty"
                    }
titleDf['Title']=titleDf['Title'].map(title_mapDict)
titleDf=pd.get_dummies(titleDf['Title'])
full=pd.concat([full,titleDf],axis=1)
full.drop('Name',axis=1,inplace=True)

**再处理‘Cabin’字段。**从船舱号中提取出首字母作为船舱号的类别，再同样进行one-hot编码处理。

cabinDf=pd.DataFrame()
full['Cabin']=full['Cabin'].map(lambda s:s[0])   #提取船舱号首字母
cabinDf=pd.get_dummies(full['Cabin'],prefix='Cabin')
full=pd.concat([full,cabinDf],axis=1)
full.drop('Cabin',axis=1,inplace=True)

数值型数据

‘Age’,‘SibSp’,'Parch’等字段是数值类型的。
首先处理‘Age’字段。 在统计性描述分析中已经发现15岁以下的人可能有更高的存活率，因此将年龄分为15岁以下和以上两个区间。

ageDf=pd.DataFrame()
ageDf['Age_child']=full['Age'].map(lambda x:1 if x<15 else 0)
ageDf['Age_adult']=full['Age'].map(lambda x:1 if x>=15 else 0)
full=pd.concat([full,ageDf],axis=1)

然后处理’SibSp’,'Parch‘两个字段。 前述发现家庭成员规模适中的乘客更容易存活，因此首先根据这两个字段计算出每个乘客家庭成员的数量，再分成小规模、中等规模、大规模三种家庭类别，然后转换成数字编码加入full数据表内即可。

familyDf=pd.DataFrame()
familyDf['FamilySize']=full['Parch']+full['SibSp']+1
familyDf['Family_small']=familyDf['FamilySize'].map(lambda x:1 if x==1 else 0)
familyDf['Family_medium']=familyDf['FamilySize'].map(lambda x:1 if 2<=x<=4 else 0)
familyDf['Family_large']=familyDf['FamilySize'].map(lambda x:1 if x>4 else 0)
full=pd.concat([full,familyDf],axis=1)

此时，特征处理工作结束，接下来进行特征的选择。利用corr()方法查看每个特征与存活的相关系数，并画出热力图。

corrmat =full.corr()
plt.subplots(figsize=(10,10))
sns.heatmap(corrmat, vmax=0.9, square=True)

根据各个特征与Survived的相关系数大小，选择了以下特征作为模型的输入：头衔、船舱等级、家庭规模、船票价格、船舱号、登船港口、性别。

full_X=pd.concat([titleDf,#头衔
                     pclassDf,#客舱等级
                     ageDf,#年龄
                     familyDf,#家庭大小
                     full['Fare'],#船票价格
                     cabinDf,#船舱号
                     embarkedDf,#登船港口
                     full['Sex']#性别
                    ] , axis=1 )

模型构建

从所有拆分出训练集、测试集和预测集，并选择一个机器学习模型开始训练。

随机森林模型

from sklearn.ensemble import RandomForestClassifier
row=891   #训练集共有891条记录
X=full_X.loc[0:row-1,:]   
y=full.loc[0:row-1,'Survived']
pred_X=full_X.loc[row:,:]
model = RandomForestClassifier(n_estimators=100)
model.fit(X,y)

逻辑回归

from sklearn.linear_model import LogisticRegression
row=891   #训练集共有891条记录
X=full_X.loc[0:row-1,:]   
y=full.loc[0:row-1,'Survived']
pred_X=full_X.loc[row:,:]
model = LogisticRegression()
model.fit(X,y)

模型训练完成后，使用预测集内的数据进行预测，并将结果按kaggle格式要求输出到csv文件中。

prediction=model.predict(pred_X)
prediction=prediction.astype(int)
passenger_id = test['PassengerId']
predDf = pd.DataFrame( 
    { 'PassengerId': passenger_id , 
     'Survived': prediction } )
predDf.to_csv('my_predictions.csv',index=False)

结果

将预测结果上传到kaggle平台，得分0.775/1，排名前58%。

你可能感兴趣的:(Kaggle——Titanic数据分析)

Python数据分析高频面试题及答案闲人编程程序员面试 python 数据分析面试题核心
目录1.基础知识2.数据处理3.数据可视化4.机器学习模型5.进阶问题6.数据清洗与预处理7.数据转换与操作8.时间序列分析9.高级数据分析技术10.数据降维与特征选择11.模型评估与优化12.数据操作与转换13.数据筛选与分析14.数据可视化与报告15.数据统计与分析16.高级数据处理以下是一些Python数据分析的高频核心面试题及其答案，涵盖了基础知识、数据1.基础知识问1：Python中列表
数据分析思维幽兰的天空 combo box 数据仓库大数据
了解数据分析的本质是什么在数据中寻找解决问题的方法。使用大量的数据、统计分析、定量、定性分析和预测模型及基于事实的管理来推动决策过程和实现价值增生。数据分析思维1.一个思维模型：目标导向分析法2.做好分析准备：探索性数据分析数据分析的四个层级1.描述性分析2.诊断性分析3.预测性分析4.决策性分析
Python数据分析常见面试题和答案01-10 飞翔还哈哈6 Python数据分析 python pandas 数据分析
以下是一些Python数据分析常见面试题和答案：1.Python中的list和tuple的区别是什么？答：List是可变的，而元组（tuple）是不可变的。因此，使用list来存储需要频繁修改的数据，而使用元组来存储不能更改的数据项。2.解释NumPy中的数组？为什么numpy在数据分析中很重要？答：NumPy是Python中提供高性能科学计算和数据分析的包。NumPy数组是一种类似于列表的数据结
【数据分析岗】关于数据分析岗面试python的金典问题+解答，包含数据读取、数据清洗、数据分析、机器学习等内容摇光~ 数据分析面试 python
大家好，我是摇光~，用大白话讲解所有你难懂的知识点最近和几个大佬交流了，说了很多关于现在职场面试等问题，然后也找他们问了问他们基本面试的话都会提什么问题。所以我收集了很多关于python的面试题，希望对大家面试有用。类别1：数据读取与处理问题1：如何用Python从Excel文件中读取数据？答：在Python中，可以使用pandas库从Excel文件中读取数据。pandas提供了read_exce
Python 数据建模完整流程指南木觞清 3天入门Python python 开发语言
在数据科学和机器学习中，建模是一个至关重要的过程。通过有效的数据建模，我们能够从原始数据中提取有用的洞察，并为预测或分类任务提供支持。在本篇博客中，我们将通过Python展示数据建模的完整流程，包括数据准备、建模、评估和优化等步骤。1.导入必要的库在进行任何数据分析或建模之前，首先需要导入必需的Python库。这些库提供了各种工具和算法，帮助我们更高效地完成任务。importnumpyasnpim
MATLAB语言的计算机基础疯狂小小小码农包罗万象 golang 开发语言后端
MATLAB语言的计算机基础引言在当今信息技术飞速发展的时代，编程能力已成为当代人士必备的一项基本技能。MATLAB（矩阵实验室）作为一种高级编程语言和环境，广泛应用于数据分析、算法开发、模型创建、数字图像处理和计算机视觉等多个领域。MATLAB以其强大的矩阵运算和可视化能力，成为了科研人员和工程师的重要工具，尤其在数学、物理、工程等学科中，它的应用不可或缺。本文将从MATLAB的基本概念、环境搭
Python 爬虫实战案例 - 获取社交平台事件热度并进行影响分析西攻城狮北 Python实用案例 python 爬虫事件热度影响分析
目录一、引言二、数据爬取三、数据分析四、可视化展示五、总结一、引言在当今信息爆炸的时代，社交平台成为了各类事件发酵和传播的重要场所。了解社交平台上事件的热度以及其潜在影响，对于舆情监测、市场营销、社会趋势分析等领域具有重要意义。本文将通过一个实际案例，展示如何使用Python爬虫技术获取社交平台上特定事件的相关数据，并对其热度和影响进行深入分析。在本篇博客中，我们将学习如何使用Python编写一个
大数据毕业设计—基于python+Django自然灾害频发地区情况数据分析系统 qq_1406299528 python 计算机毕业设计 python 大数据课程设计
一、项目技术开发语言：Pythonpython框架：Django软件版本：python3.7/python3.8数据库：mysql5.7或更高版本数据库工具：Navicat11开发软件：PyCharm/vscode前端框架:vue.js二、项目内容和项目介绍 1.项目内容 1.开发语言：该系统采用Python作为开发语言，Python具有优雅的语法和动态类型，以及解释型语言的本质，使其成为许多
利用Python爬虫获取阿里巴巴商品详情：代码示例与实践指南小爬虫程序猿 API python 爬虫开发语言
在电商数据分析和市场研究中，获取商品详情是至关重要的一步。虽然阿里巴巴开放平台提供了官方API来获取商品信息，但在某些情况下，使用爬虫技术来抓取数据也是一种有效的手段。本文将介绍如何利用Python爬虫获取阿里巴巴商品详情，并提供详细的代码示例。一、准备工作（一）环境搭建确保你的Python环境已经安装了以下必要的库：requests：用于发送HTTP请求。BeautifulSoup：用于解析HT
TOGAF中的企业架构：让业务架构与数据、应用、技术架构形成闭环的魔法之旅火山说数数字化企业架构架构微服务云原生
前言你是否曾经有过这样一种感觉：企业在进行数字化转型时，架构之间常常感觉像是一盘散沙？业务部门、IT部门、数据分析师各自为政，技术团队则像一群“救火队员”随时准备扑灭各种系统bug。好消息是，TOGAF（TheOpenGroupArchitectureFramework）可以帮助企业打破这种局面，让业务架构（BusinessArchitecture）和其他“三A”架构——数据架构（DataArch
R语言的计算机基础 java熊猫包罗万象 golang 开发语言后端
R语言计算机基础引言R语言是一种用于数据分析、统计计算和图形显示的编程语言。它被广泛应用于统计学、数据科学、生态学、生物信息学等多个领域。由于其强大的功能和灵活性，R语言在学术界和工业界都得到了广泛的认可和应用。本文将从R语言的基本概念、数据类型、数据结构、函数、控制结构、图形绘制等方面进行介绍，帮助读者掌握R语言的基础知识。一、R语言的基本概念R语言源于新西兰的维特利大学，最初由RobertGe
R语言的正则表达式代码驿站520 包罗万象 golang 开发语言后端
R语言中的正则表达式详解引言在数据分析和处理过程中，文本数据占据着重要的角色。为了从这些文本数据中提取有价值的信息，正则表达式（RegularExpressions）便成为了一种强有力的工具。尤其是在R语言这一数据分析的强大工具中，掌握正则表达式的使用能够显著提高我们的工作效率。本文将对R语言中的正则表达式进行深入探讨，从基本概念到实际应用，力求让读者能够全面理解并运用这一技术。正则表达式的基本概
智能裂变引流系统：通过用户验证与分享激励获取目标手机号威哥说编程 c#
在现代数字营销中，快速增长用户并引导其主动分享，已经成为许多企业提高转化率和扩大市场份额的核心策略。尤其是在一些特定行业，如医疗、金融、电子商务等领域，精准获取用户信息（尤其是手机号）至关重要。这些信息是后续营销、数据分析、精准推送等活动的基础。而通过裂变营销，我们可以利用现有用户的社交网络，快速获取更多高质量的目标用户。本文将介绍如何设计和实现一个智能裂变引流系统，通过用户信息验证、手机号查询、
Web APP 阶段性综述预测模型的开发与应用研究 APP construction web app
WebAPP阶段性综述当前，WebAPP主要应用于电脑端，常被用于部署数据分析、机器学习及深度学习等高算力需求的任务。在医学与生物信息学领域，WebAPP扮演着重要角色。在生物信息学领域，诸多工具以WebAPP的形式呈现，相较之下，医学领域的此类应用数量相对较少。在医学和生物信息学的学术论文中，WebAPP是展示研究成果的有效工具，并且还能部署到网络上，服务于实际应用场景。ShinyAPP平台特性
推荐文章：libpopcnt——高效位计数的神器胡蓓怡
推荐文章：libpopcnt——高效位计数的神器libpopcntFastC/C++bitpopulationcountlibrary项目地址:https://gitcode.com/gh_mirrors/li/libpopcnt在数字处理和大数据分析的世界里，每毫秒的性能提升都是宝贵的。今天，我们要向大家隆重介绍一个名为libpopcnt的开源库，它专为快速计算数组中“1”比特的数量而生，是优化
Python pandas离散化方法优化与应用实例 python慕遥 Python数据分析 Pandas 数据科学 python pandas 机器学习
大家好，在数据分析中，离散化是将连续数据划分为不同区间的一种重要方法。这种方法可以更好地理解数据分布、简化分析、或在分类建模中对特征进行转换。在Python的Pandas库中，cut和qcut是两个强大的工具，分别用于基于固定区间和基于分位数对数据进行离散化。它们的灵活性和易用性使其在数据处理过程中十分常用。离散化可以将复杂的连续数据转化为更直观的区间，帮助快速发现数据分布规律，并且在机器学习中，
什么是数据仓库？狮歌~资深攻城狮数据仓库
什么是数据仓库？数据仓库（DataWarehouse，简称DW）是一种面向分析和决策的数据存储系统，它将企业中分散的、异构的数据按照一定的主题和模型进行集成和存储，为数据分析、报表生成以及商业智能（BI）提供支持。数据仓库是大数据体系的重要组成部分，主要用于对大量历史数据的存储、处理和分析。简单来说，数据仓库是一个为数据分析和业务决策服务的系统，通过整合来自不同来源的数据，形成面向主题的、可查询的
Pandas数据预处理：处理缺失值 - 插值法代码艺术巧匠 pandas Python
Pandas数据预处理：处理缺失值-插值法在数据分析和机器学习任务中，处理缺失值是一个常见的挑战。缺失值可能由于多种原因而产生，例如数据采集过程中的错误、设备故障或者用户不完整的输入。为了有效地处理缺失值，插值法是一种常用的技术。在本文中，我们将使用Python中的Pandas库来演示如何使用插值法处理缺失值。首先，我们需要导入Pandas库并加载包含缺失值的数据集。假设我们有一个名为df的数据框
Python Pandas中的高级数据插值方法 python慕遥 Pandas pandas
大家好，在数据分析过程中，缺失值是一个常见的问题，尤其是在处理真实世界的数据集时，缺失值的存在可能会对分析结果产生较大的影响。为了解决这个问题，Pandas库提供了多种处理缺失值的方式，其中插值法是一种有效且灵活的解决方案。插值法可以通过已有的数据估算出缺失值，从而填补数据空白，提升数据的完整性和分析的准确性。1.插值法概述插值法是一种通过已知数据点来推算未知数据点的数学方法。在数据分析中，插值法
Text2SQL的三种实现方法 AI科技分享算法线性回归回归深度学习 rnn
传统BI工具通常分为数据接入层、分析工具层和基于该工具平台的各种行业应用层面，大模型可以在这些环节发挥作用。在数据处理层面，大模型可以帮助传统的ETL过程简化难度，提高实时交互效率。在数据分析层面，大模型可以替代拖拽交互方式，让业务用户用更简单、更高效的方式以自然语言形式与底层数据交互，构建需要的报表和看板。在行业应用层面，大模型可以真正发挥对行业知识的理解能力，与具体数据结合，形成具针对客户、特
日期和时间数据类型的深入探讨：理论与实践
title:日期和时间数据类型的深入探讨：理论与实践date:2025/1/3updated:2025/1/3author:cmdragonexcerpt:日期和时间数据类型在数据库管理系统中扮演着重要角色，尤其是在数据分析、时间序列数据和事件追踪等领域。这些数据类型不仅可以准确表示时间信息，还能在信息检索、数据存储和计算功能上发挥重要作用。categories:前端开发tags:日期和时间数据库
.NET用C#导入Excel到数据库
将Excel文件中的数据导入到数据库中不仅能够提升数据处理的效率和准确性，还能极大地促进数据分析和决策制定的过程。尤其在企业级应用中，Excel作为数据输入和初步整理的工具非常普遍，但其功能对于复杂查询、大规模数据管理和跨部门的数据共享来说有所局限。通过使用C#在.NET平台上实现这一过程，可以充分利用其强大的数据操作能力和丰富的库支持，确保数据从Excel无缝迁移到诸如SQLite等关系型数据库
数仓数据分层(ODS DWD DWS ADS)换个角度看闻香识代码大数据数仓数据仓库大数据 ods dw
数仓数据分层简介1.背景数仓是什么,其实就是存储数据,体现历史变化的一个数据仓库.因为互联网时代到来,基于数据量的大小,分为了传统数仓和现代数仓.传统数仓,使用传统的关系型数据库进行数据存储,因为关系型数据库本身可以使用SQL以及函数等做数据分析.所以把数据存储和数据分析功能集合为一体,加上一个可视化界面,就能从数据存储,数据分析,数据展示完整方案.到了互联网时代,由于上网用户剧增,特别是移动互联
T检验：一种通俗易懂的统计分析方法从零开始学习人工智能算法人工智能机器学习
摘要T检验（T-test或Student'sT-test）是统计学中用于比较两组数据均值是否存在显著差异的重要工具。本文旨在以通俗易懂的方式介绍T检验的基本概念、类型、数学公式、应用步骤及其在各个领域中的实际应用。引言在科学研究、数据分析等领域，我们经常需要评估两组数据之间的差异是否具有统计学意义。T检验正是为此目的而设计的，它基于T分布理论，通过计算样本数据的T值和P值来推断总体均数之间的差异。
数仓分层ODS、DWD、DWM、DWS、DIM、DM、ADS 青秋. 数据仓库大数据数据仓库
往期推荐数仓入门：数据分析模型、数仓建模、离线实时数仓、Lambda、Kappa、湖仓一体-CSDN博客数仓常见名词解析和名词之间的关系-CSDN博客数据仓库及数仓架构概述-CSDN博客大数据HBase图文简介-CSDN博客目录1.数仓分层1.1数据源层：ODS（OperationalDataStore）1.2数据仓库层：DW（DataWarehouse）1.2.1数据明细层：DWD（DataWa
如何选择合适的软件开发团队？
一、明确项目需求在寻找软件开发团队之前，首先要清晰地明确自己的项目需求。这包括确定软件的功能、预期的用户群体、使用场景、性能要求、安全需求以及预算范围等。不同的软件项目，如企业管理系统、移动应用程序、电子商务平台或数据分析软件，需要不同的技术栈和开发经验。只有清楚了解自己的需求，才能找到最适合的团队。二、评估团队的技术能力编程语言和技术栈：查看团队成员是否熟悉所需的编程语言，如开发Web应用时是否
【机器学习】—时序数据分析：机器学习与深度学习在预测、金融、气象等领域的应用云边有个稻草人热门文章机器学习数据分析深度学习笔记
云边有个稻草人-CSDN博客目录引言1.时序数据分析基础1.1时序数据的特点1.2时序数据分析的常见方法2.深度学习与时序数据分析2.1深度学习在时序数据分析中的应用2.1.1LSTM（长短期记忆网络）2.2深度学习在金融市场预测中的应用2.2.1股票市场预测2.3深度学习在设备故障检测中的应用3.强化学习与时序数据分析3.1强化学习的基本概念3.2强化学习在金融市场中的应用3.3强化学习在设备故
使用 AI 在医疗影像分析中的应用探索
摘要医疗影像分析是AI在医疗领域的重要应用方向，能够提高诊断效率，减少误诊率。本文将深入探讨AI技术在医疗影像数据分析中的应用，包括核心算法、关键实现步骤和实际案例，并提供一个基于卷积神经网络（CNN）的图像分类Demo。引言随着医疗影像数据的爆炸式增长，传统的人工分析已无法满足高效、精准诊断的需求。AI技术通过深度学习算法，在医疗影像的识别、分类和标注中发挥了重要作用。本文章将结合技术实现与案例
为什么要训练最懂您企业的AI助理？
随着人工智能技术的蓬勃发展，企业级AI助理已成为提升工作效率、优化客户服务体验的重要利器。这些智慧化的系统，通过模拟人类的认知功能，能够轻松应对复杂的数据分析、自动化繁琐的日常任务，甚至为企业决策提供有力支持。拥有一款懂您的企业AI助理，意味着您能够以更智能、更高效的方式推动企业前行。一、构建高度整合与个人化体验为了让AI机器人真正懂您的企业，我们首先要实现高度整合。通过连接企业资料库、应用程序、
Java 大视界 -- Java 开发 Spark 应用：RDD 操作与数据转换一只蜗牛儿 java spark 开发语言
ApacheSpark是一个强大的分布式计算框架，提供了高效的数据处理能力，广泛应用于大数据分析与机器学习。Spark提供了多种高级API，支持批处理和流处理。Spark提供了两种主要的数据抽象：RDD（弹性分布式数据集）和DataFrame。本文将重点介绍如何使用Java开发Spark应用，并深入探讨RDD的操作与数据转换。一、Spark环境搭建首先，确保您的环境中安装了Java和Spark。您
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他