隐形的S先森

机器学习实战之Kaggle泰坦尼克初尝试

项目简介

项目说明：泰坦尼克号的沉没是历史上最臭名昭著的海难之一，1912年4月15日，在她的处女航中，被广泛认为的“沉没” RMS泰坦尼克号与冰山相撞后沉没。不幸的是，船上没有足够的救生艇供所有人使用，导致2224名乘客和机组人员中的1502人死亡。虽然幸存有一些运气，但似乎有些人比其他人更有可能生存。本次主要是根据提供的数据来判断什么样的人更容易生存。

数据来源：Kaggle泰坦尼克生存预测

数据说明：

PassengerId	乘客编号
Survived	是否生还（0、1）
Pclass	船票等级（1、2、3）
Name	姓名
Sex	性别（male、female）
Age	年龄
SibSp	船上的兄弟姐妹、配偶数量
Parch	船上的父母、子女数量
Ticket	票号
Fare	票价
Cabin	船舱口
mbarked	登船港口

数据分析

这部分主要进行数据的导入、查看、缺失值的处理及数据的可视化显示，目前先是针对训练数据进行分析，后续需要对训练数据和测试数据进行统计处理，保证一致性。

导入数据

import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings("ignore")
# 导入数据
train_data = pd.read_csv("titanic_train.csv")
test_data = pd.read_csv("titanic_test.csv")

查看数据

查看前五行

# 查看数据
train_data.head()

结果如下：

查看整体统计

# 整体统计
train_data.describe()

结果如下：

可以看出，训练集中有891条数据，整体的生存率为38.4%，平均年龄为29.699，平均票价为32.2

查看数据缺失值

# 查看数据
train_data.info()
# 缺失值数量查看
train_data.isnull().sum()

结果如下：

可以看到，船舱口数据缺失较大、登船港口有两条缺失、乘员年龄数据也有缺失，后续需要对缺失值进行填充。

缺失值处理

由上面可以数据有缺失，需要对其进行处理，主要是依据填充的形式，对于Embarked使用众数进行填充，对于年龄使用平均值进行填充（当然也可以根据其他特征使用模型拟合进行填充，本次为了简便使用了年龄均值的方式），对于Carbin，博主使用的是去除该特征，代码如下：

# 数据缺失值处理
# 年龄使用了平均值来填充
train_data["Age"] = train_data["Age"].fillna(train_data["Age"].mean())
# Embarked使用众数填充
train_data["Embarked"] = train_data["Embarked"].fillna(train_data["Embarked"].mode().iloc[0])
#缺失值较大的Cabin可以暂时不考虑此特征

数据可视化

本部分主要是通过数据可视化可以直观看到数据之间的关系

查看生存率

# 中文显示
plt.rcParams['font.family'] = ['sans-serif']
plt.rcParams['font.sans-serif'] = ['SimHei']
# 生存率饼图
train_data["Survived"].value_counts().plot(kind='pie',autopct = '%1.2f%%',labels=['No Survived', 'Survived'])
plt.show()

结果如下：

性别与生存率关系

# 性别与存活率的关系
train_data.groupby(["Sex","Survived"])["Survived"].count()
# 绘制柱状图
train_data.groupby("Sex")["Survived"].mean().plot(kind="bar",color=['g','y'])
plt.xlabel("性别")
plt.ylabel("存活率")
plt.xticks(rotation=0)
plt.show()

结果如下：

可以看出，女性相对男性生存率较高，体现了女士优先

船舱等级与生存率关系

# 存活率与船舱等级关系
train_data.groupby(["Pclass","Survived"])["Survived"].count()
print(train_data.groupby("Pclass")["Survived"].mean())
train_data.groupby("Pclass")["Survived"].mean().plot(kind="bar",color=['g','grey','b'])
plt.xlabel("船舱等级")
plt.ylabel("存活率")
plt.xticks(rotation=0)
plt.show()

结果如下：

可以看出，生存率与船舱等级有关，等级高的生存率高，有钱真好！

同时我们也针对不同船舱查看了男、女的生存情况，如下：

print(train_data.groupby(["Pclass","Sex"])["Survived"].mean())
train_data.groupby(["Pclass","Sex"])["Survived"].mean().plot(kind="bar",color=['g','grey','b'])
plt.xlabel("船舱等级/性别")
plt.ylabel("存活率")
plt.xticks(rotation=0)
plt.show()

结果如下：

我们可以看到，不同等级的船舱中女性存活率还是相对较高，接下来我们看看年龄和存活率的关系，如下：

# 年龄与存活率的关系
plt.figure(figsize=(18,5))
plt.subplot(1,2,1)
plt.yticks(range(0,110,10))
sns.violinplot("Pclass","Age",hue="Survived",data=train_data,split=True)
plt.title("Pclass and Age vs Survived")
plt.grid(linewidth=0.4)
plt.subplot(1,2,2)
plt.yticks(range(0,110,10))
sns.violinplot("Sex","Age",hue="Survived",data=train_data,split=True)
plt.title("Sex and Age vs Survived")
plt.grid(linewidth=0.4)
plt.show()

结果如下：

我们来看看年龄段分布和生存率的关系，如下：

# 划分年龄段
bins = [0, 12, 18, 65, 100]
train_data["Age_group"] = pd.cut(train_data["Age"], bins)
train_data["Age_group"].value_counts()
# 数据可视化
train_data.groupby("Age_group")["Survived"].mean().plot(kind="bar",color=['g','y','b','grey'])
plt.xticks(rotation=0)
plt.title("生存率随年龄段分布情况")
plt.show()

结果如下：

可以看出，年龄小的生存率较高，随着年龄的增加，生存率不断减小，体验了女儿和孩子先行。

其实还有其他相关数据的可视化，如家庭成员和生存率的关系、票价和生存率的关系、登船港口和生存率的关系、姓名相关因素和生存率的关系等，这些都与上面的实现形式类似，此处暂不一一说明了，有兴趣的可以自己实现下。

特征工程

之前我们对训练数据进行了处理分析，实际应用中，需要对训练数据和测试数据同时进行处理，从而确保数据特征的一致性，融合代码如下：

# 特征工程（对训练集和测试集同时进行处理）
test_data["Survived"] = 0
combain_data = train_data.append(test_data)

其中combain_data为融合在一起的数据，接下来对数据一起进行处理

性别转换

特征中性别的取值为male、female值，将其转换成0、1值，如下：

# 将male和female转换成数值型，male为0，female为1
train_data["Sex"] = train_data["Sex"].apply(lambda x:0 if x=="male" else 1)

港口转换

数据中港口为C、S、Q，需要将其转换成数值型，如下：

# Embarked使用众数填充
combain_data["Embarked"] = combain_data["Embarked"].fillna(combain_data["Embarked"].mode().iloc[0])
# 将Embarked（港口）转出数值型，其中S为0、C为1、Q为2
combain_data["Embarked"] = combain_data["Embarked"].apply(lambda x: 0 if x== 'S' else 1 if x == 'C' else 2)

年龄填充

本次使用年龄的平均值进行填充，当然你也可以根据其他特征通过模型模拟进行年龄填充，博主为了方便在此处使用了平均值进行填充，如下：

combain_data['Age']=combain_data['Age'].fillna( combain_data['Age'].mean())

票价填充

数据中票价存在缺失值，本次仍然使用平均值进行填充，如下：

# 对Fare进行填充(本次使用缺失值的所属港口的票价平均值进行填充，当然也可以加入年龄、是否为团体票等因素进行填充)
combain_data["Fare"] = combain_data["Fare"].fillna(combain_data.groupby("Embarked").mean()["Fare"].iloc[0])

家庭人数

将家庭总人数作为一个特征，处理如下：

# 家庭人数
combain_data["FamilySize"] = combain_data["SibSp"] + combain_data["Parch"] + 1

家庭类型

主要是根据家庭人数来判断家庭类型，此处参考了Python数据挖掘进阶--泰坦尼克号案例分析

如下：

'''
家庭类别：
小家庭Family_Single：家庭人数=1
中等家庭Family_Small: 2<=家庭人数<=4
大家庭Family_Large: 家庭人数>=5
'''
combain_data["Family_Single"] = combain_data["FamilySize"].apply(lambda x: 1 if x==1 else 0)
combain_data["Family_Small"] = combain_data["FamilySize"].apply(lambda x: 1 if 2 <= x <= 4 else 0)
combain_data["Family_Large"] = combain_data["FamilySize"].apply(lambda x: 1 if x >= 5 else 0)

当然还可以根据姓名提取其头衔、如：已婚女士、男士、未婚女士、政府官员、王室等特征、博主没有进行此方面的数据特征挖掘，本次主要是为了了解大致的处理流程，后续可以进行更深入的挖掘。

特征选择

根据上面的相关性计算结果，本次选择的特征有：PassengerId、Survived、Embarked、Sex、Family_Small、Fare、Parch、FamilySize

# 特征选择（选择相关度比较大的下面几个特征）
need_data = pd.DataFrame(combain_data[['PassengerId', 'Survived','Embarked','Sex','Family_Small','Fare','Parch','FamilySize']])

构建模型

主要是使用训练数据和选择的算法模型来得到机器学习模型，用测试数据进行模型的评估验证

划分数据集

主要对need_data数据进行训练数据集和测试数据集的划分，其中前891条为训练数据，剩余的为测试数据，具体实现如下：

# 划分数据集
# 训练数据如下:
train_data_x = need_data.iloc[0:891,2:]
train_data_y = need_data.iloc[0:891,1]
# 测试数据如下：
test_data_x = need_data.iloc[891:,2:]
test_data = need_data.iloc[891:,0:]

使用交叉验证的方式，需要对训练集再次划分，如下:

# 交叉验证数据
from sklearn.model_selection import train_test_split
train_x,test_x,train_y,test_y = train_test_split(train_data_x, train_data_y, train_size=0.8, random_state=0)

模型选择

此问题为分类问题，同时为二分类问题，因为我们选择比较简单的逻辑回归算法，如下：

# 导入模型(使用逻辑回归模型)
from sklearn.linear_model import LogisticRegression
# 创建模型
model = LogisticRegression()

注：可以使用其他分类算法，另外可以加入模型融合，本文仅使用简单的逻辑回归算法。

模型训练

# 训练模型
model.fit(train_x,train_y)

结果如下：

模型评估

使用score方法进行模型评估，如下：

model.score(test_x, test_y)

结果如下：

可以看到正确率为73.18%

模型应用

模型预测，主要使用predict方法对测试集进行预测，如下：

prediction = model.predict(test_data_x)

最后我们将加过导出为CSV格式文件，便于提交到kaggle中，如下：

# 选取乘员ID及预测结果
result = pd.DataFrame({'PassengerId':test_data['PassengerId'], 'Survived':prediction.astype(np.int32)})
# 导出为csv文件
result.to_csv("LogisticRegression.csv",index=False)

提交结果

将我们生产的CSV文件提交到kaggle平台上，从而计算我们的正确率及排名，如下：

提交成功之后就可以看到我们的结果，如下，可以看出，正确率还属于比较低，排名也比较靠后，靠前的都是100%正确率，因此后续我们还需要从模型特征、算法选择，模型融合方面下手，继续优化。

总结

本次是针对比较经典的Kaggle项目，主要是为了了解机器学习的大致流程，后续需要不断完善提高自己处理相关部分内容的技能，如果你感觉对你有帮助的话不如顺手点个赞吧！

100天精通Python（基础篇）——第19天：异常类型大全、异常处理介绍袁袁袁袁满 100天精通Python python 开发语言后端 mce异常
目录1.异常的概念2.异常类型1）Python内置异常2）requests爬虫模块内置异常类3）自定义异常2.捕获异常1）简单的捕获异常语法2）错误类型捕获3）异常捕获完整语法3.异常的传递4.抛出raise异常1）应用场景2）抛出异常1.异常的概念程序在运行时，如果Python解释器遇到到一个错误，会停止程序的执行，并且提示一些错误信息，这就是异常程序停止执行并且提示错误信息这个动作，我们通常称
Python私房菜——筑基篇（已完结）陪我一起学编程 python 青少年编程自动化开发语言 pycharm django
1Python私房菜【一】——（前置基础）大白可直接跳转到：Python私房菜——高级篇1.1编码就是把人类语言（文字）通过编码的形式一一映射成计算机认识的语言（二进制：0101…），即将人类语言通过某种形式转换成计算机认识的二进制数。这种编码形式是人为定义的，因此就有多种不同的编码方式。在不同编码表中，规定了每个字符在表中的唯一位置，这个位置称之为码点，如“A”在ASCII表中的位置【码点】是6
python创建按钮command怎么用_python图形界面tk 1.4 按钮（Button） weixin_39955825
创建按钮和设置它们的文本属性#!/usr/bin/envpython#-*-coding:utf-8-*-importtkinterastkfromtkinterimportttkwin=tk.Tk()win.title("PythonGUI")#添加标题aLabel=ttk.Label(win,text="ALabel")#创建一个标签,text：显示标签的内容aLabel.grid(colum
python中graphviz 参数_python graphviz的使用(画图工具) weixin_39900608 python中graphviz 参数
一、graphviz安装及配置graphviz实际上是一个绘图工具，可以根据dot脚本画出树形图等。1、windows安装配置环境变量：把bin文件夹的路径加入到环境变量path里安装python的graphviz模块：pipinstallgraphviz2、linuxcentos7安装yum下载graphviz软件：yum-yinstallgraphviz安装python的graphviz模块：
2018年年度总结 weixin_30514745 前端后端 php ViewUI
首先先看2017年定下的小目标：PHP基础知识的再次学习。（今年在工作的时候也发现了这个问题，所以将PHP基础知识再学习了一遍，对一些容易混淆的概念进行了学习。这个目标算是实现了80%吧）对前端新特性的了解。（因为之前在太原工作的时候，前端后端都干，所以当时觉得前端和后台都很重要，今年在北京主要干的是后端的工作，所以这个并没有去进行了解）python的学习。（这个也没有进行学习，了解了也没有用，今
Python调用讯飞星火大模型v3.x api接口使用教程2.0（python sdk，支持图片理解） IT大头 NLP实战 python 人工智能语言模型 nlp chatgpt
前言本篇文章是针对星火大模型api接口使用的新篇章，本次主要是介绍对于pythonSDK使用，以及图片理解等新功能。相对于上篇博客中的使用方法，本次的教程相对来说更简单方便。话不多说，直接享用。1、获取api接口的ID和key参考上篇文章：https://blog.csdn.net/qq_45156060/article/details/134072123?spm=1001.2014.3001.5
python glob模块蘑菇棒棒哒 python
0.摘要：glob是实用的文件名匹配库，glob.glob()函数将会匹配给定路径下的所有pattern，并以列表形式返回。用它可以查找符合特定规则的文件路径名。查找文件只用到三个匹配符：””,匹配0个或多个字符；“?”,”?”匹配单个字符；“[]”：”[]”匹配指定范围内的字符，如：[0-9]匹配数字；注意：如果文件名以“点”开头，无法被'’和'?'匹配，如：".card.gif"glob方法：
【Python】已解决ERROR: Could not find a version that satisfies the requirement 云天徽上 python运行报错解决记录 python 开发语言 tensorflow 人工智能 numpy
成功解决“ERROR:Couldnotfindaversionthatsatisfiestherequirement”错误的全面指南一、引言在Python开发中，经常需要通过pip工具来安装各种依赖包。然而，有时在尝试安装某个包时，可能会遇到“ERROR:Couldnotfindaversionthatsatisfiestherequirement”的错误。这个错误表明pip无法找到与你的请求匹配
球球大作战Python单机版本酷码编程接单空间 pygame python oracle django tornado fastapi
球球大作战是一个多人在线游戏，玩家需要控制一个小球，通过吞食地图上的小点来增加自己的体积，同时避免被其他更大的球体吞噬。下面是一个简化版的球球大作战游戏，使用Python语言和pygame库来实现。在这个简化版中，我们将只使用控制台输入输出来模拟游戏。首先，你需要安装pygame库，可以使用以下命令安装：pipinstallpygame然后，你可以使用以下代码来创建一个简化版的球球大作战游戏：im
【人工智能】Python实战：构建高效的多任务学习模型蒙娜丽宁 Python杂谈 AI 人工智能 python 学习
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界多任务学习（Multi-taskLearning,MTL）作为机器学习领域中的一种重要方法，通过在单一模型中同时学习多个相关任务，不仅能够提高模型的泛化能力，还能有效利用任务间的共享信息。本文深入探讨了多任务学习的基本概念、优势及其在实际应用中的重要性。
Python读取通达信日线数据（.day文件）逝去的紫枫 Python python
Python读取通达信日线数据（.day文件）1.day文件位置2.day文件内容的构成3.Python代码识别day文件4.将识别结果输出为csv文件5.最终结果展示在金融数据分析中，通达信软件提供的数据文件（如日线数据文件.day）是非常宝贵的资源。本文将详细介绍如何使用Python读取和解析这些文件，并将解析结果输出为CSV文件，以便进行进一步的数据分析和处理。1.day文件位置通达信日线数
以Python构建ONE FACE管理界面：从基础至进阶的实战探索 Allen_LVyingbo python python pyqt
一、引言1.1研究背景与意义在人工智能技术蓬勃发展的当下，面部识别技术凭借其独特优势，于安防、金融、智能终端等众多领域广泛应用。在安防领域，可助力监控系统精准识别潜在威胁人员，提升公共安全保障水平；金融行业中，实现刷脸支付、远程开户等便捷服务，优化用户体验并强化交易安全。智能终端方面，为设备解锁、身份验证等功能提供支持，提升设备使用的便捷性与安全性。然而，现有面部识别系统在数据安全、检索效率及用户
Python模块学习：glob 文件路径查找 semiler python python glob
文章转载自《伯乐在线》原文出处：DarkbullPython模块学习：glob文件路径查找glob模块是最简单的模块之一，内容非常少。用它可以查找符合特定规则的文件路径名。跟使用windows下的文件搜索差不多。查找文件只用到三个匹配符：”*”,“?”,“[]“。”*”匹配0个或多个字符；”?”匹配单个字符；”[]“匹配指定范围内的字符，如：[0-9]匹配数字。glob.glob返回所有匹配的文件
Android 内核开发之—— repo 使用教程 ByteSaid Android 开发 android git
前言repo是一个用于管理多个Git仓库的工具，特别适用于管理大型项目如Android的源码。它是由Google开发的，用于解决多个Git仓库的同步、管理和代码审查等问题。因此，做Android内核开发，首先要了解repo是什么，它是如何使用的？1repo的概念repo是一种代码版本管理工具，它是由一系列的Python脚本组成，封装了一系列的Git命令，用来统一管理多个Git仓库。2repo的作用
Python: 修改源知多少技术探索者 #python python 开发语言
一.Windows源在Windows中使用Python修改源,需要通过修改pip配置文件或者使用pip命令直接指定源来实现。1.修改pip配置文件Windows用户通常在以下路径中找到pip配置文件%APPDATA%\pip\pip.ini注意:如果不存在的话，可以手动创建这个文件夹和文件。然后在pip.ini文件中添加以下内容，将源修改为你想要的源：[global]index-url=https
用Python的glob模块查找文件路径名洪小帅 python 开发语言
用Python的glob模块查找文件路径名基本用法示例`glob`的函数示例：使用`iglob()`处理大型文件总结大家好,我素洪小帅~glob模块是Python的一个标准库模块，用于查找符合特定规则的文件路径名，它支持使用通配符来匹配文件。glob模块可以方便地列出文件目录中的文件，并对文件名进行模式匹配。基本用法导入模块：importglob使用通配符匹配文件*：匹配零个或多个字符。?：匹配一
[Python]已解决。pycharm突然打不开了，安装PyCharm后，双击没反应。pycharm无法打开一罐小牛奶7 python pycharm 开发语言
前两天刚装的pycharm，今天双击之后突然打不开了，好几次没有反应。我试了以下方法：1.方法一：管理员身份运行，直接右键选择，或者在下方搜索框输入PyCharm后点以管理员身份运行如果你也和我一样，这一步还不行，请继续往下看。2.方法二：修改Roaming文件2.1找到AppData。C盘--用户--User（找不到该文件的往下看）如果User下没有AppData文件，不要慌，可能是隐藏了：点查
华为OD机试E卷 --羊、狼、农夫过河--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript c语言 python
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述羊、狼、农夫都在岸边，当羊的数量小于狼的数量时，狼会攻击羊，农夫则会损失羊。农夫有一艘容量固定的船，能够承载固定数量的动物。要求求出不损失羊情况下将全部羊和狼运到对岸需要的最小次数。只计算农夫去对岸的次数，回程时农夫不会运送羊和狼。备注:农夫在或农夫离开后羊的数量大于狼的数量
华为OD机试E卷 --手机App防沉迷系统--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript python c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述智能手机方便了我们生活的同时，也侵占了我们不少的时间。“手机App防沉迷系统”能够让我们每天合理地规划手机App使用时间，在正确的时间做正确的事。它的大概原理是这样的：在一天24小时内，可以注册每个App的允许使用时段一个时间段只能使用一个AppApp有优先级，数值越高，优先
Python读取通达信一分钟K线数据（.lc1文件）逝去的紫枫 Python python
Python读取通达信一分钟K线数据（.lc1文件）1.lc1文件位置2.lc1文件内容的构成3.Python代码识别lc1文件4.将识别结果输出为csv文件5.最终结果展示在金融数据分析中，通达信软件提供的数据文件（如1分钟K线数据文件.lc1）是非常宝贵的资源。本文将详细介绍如何使用Python读取和解析这些文件，并将解析结果输出为CSV文件，以便进行进一步的数据分析和处理。1.lc1文件位置
python graphviz 中文乱码晓梦OvO python 决策树
问题：在调用graphviz库进行决策树绘图的时候，即使我们设置了fontname='SimHei',encoding='utf-8'，我们同样会发现出现了中文乱码的情况fromgraphvizimportDigraphdot=Digraph('决策树',encoding='utf-8')dot.attr(fontname='SimHei',encoding='utf-8')#改为系统中的中文字体
搭建个人AI知识库：RAG与本地模型实践指南 ai开发知识库
引言你是否想过拥有一个私人订制的AI助手，能够随时为你提供最个性化的信息？本文将带你一步步搭建一个基于本地模型和RAG技术的个人知识库。搭建本地模型环境os:archlinux内存:32gcpu:6核12线程python:3.12.7docker27.3.1+docker-compose向量库:milvus2.4.13+attu2.4(客户端)ollamapacman-Sollamasystemc
农夫过河——python贪心算法实现贝桑不止学Python
1.问题描述：一个农夫在河的西岸带了一匹狼、一只羊和一棵白菜，他需要把这三样东西用船带到河的东岸。然而，这艘船只能容下农夫本人和另外一样东西。如果农夫不在场的话，狼会吃掉羊，羊也会吃掉白菜。2.问题分析：由于整个过程涉及四个对象，多个步骤，而各个步骤中各个对象所处位置相对不同，因此可以定义一个二维数组，分别存储对象及初始状态——initial_state[0][0]，[1][0]，[1][1]，[
python元组+字典学IT的那些年 python
#案例#访问元组#aTuple=(23,35,56,34,11,21)#下标为2#print(aTuple[2])#索引值不存在#print(aTuple[20])#查询个数#aTuple=('b','c','d','e','f','g')#print(aTuple.count('d'))#查询索引#print(aTuple.index('d',0,4))#无对应元素#print(aTuple.i
Python的元组和字典汤姆666 测试工具测试软件测试 python
1.元组Python的元组与列表类似，不同之处在于元组的元素不能修改。元组使用小括号，列表使用方括号。格式：变量名=（，，，，）案例aTuple=(23,35,56,34,11,21)1.1访问元组通过索引取数据索引值存在aTuple=(23,35,56,34,11,21)print(aTuple[2])结果561.2查询个数count查询出现的个数aTuple=('b','c','d','e',
第4篇：使用ChatterBot构建基本聊天机器人 Python测试之道聊天机器人机器人人工智能
在这一篇文章中，我们将实际构建一个简单的聊天机器人，展示如何使用ChatterBot库进行基本的对话交互。我们将集中讨论代码实现，并介绍一些有用的功能扩展。4.1创建聊天机器人4.1.1编写聊天机器人代码首先，创建一个新的Python文件，例如chatbot.py，并输入以下代码：fromchatterbotimportChatBotfromchatterbot.trainersimportLis
Python中的元组和字典 DuADC python
Python中的元组和字典1.元组什么是元组（tuple）元组是容器型数据类型；将()作为容器的标志，里面多个文件用逗号隔开(元素1,元素2,…)元组不可变(只能查)元组有序-支持下标操作元素：和列表一样只有一个元素的元组-唯一的元素后面必须加逗号list1=[12]print(list1,type(list1),len(list1))#[12]1t2=(12)print(t2,type(t2))
python中系统找不到指定文件怎么办,Python“系统找不到指定的文件” 许早早
我正在尝试编写一个OpenDyslexic字体的安装程序。我已经在https://github.com/kirbyfan64/OpenDyslexic-Installer上有一个Linux版本，但是Windows版本(显然)目前还不太好用。这是UAC问题吗？我想不出别的办法了。有两个奇怪的部分：程序正在通过else子句和filecmp找到了第一个文件。我有一种感觉，执行else是因为与filecm
python获取当前文件路径 weixin_33877885 python
python获取当前文件路径学习了：https://www.cnblogs.com/strongYaYa/p/7200357.htmlhttps://blog.csdn.net/heatdeath/article/details/78070832https://www.cnblogs.com/WonderHow/p/4403727.htmlimportosprint(os.getcwd())#fo
python笔记(一)获取当前目录路径和文件（抄录） z-pan python
一、获取当前路径1、使用sys.argv[0]importsysprintsys.argv[0]#输出#本地路径2、os模块importosprintos.getcwd()#获取当前工作目录路径printos.path.abspath('.')#获取当前工作目录路径printos.path.abspath('test.txt')#获取当前目录文件下的工作目录路径printos.path.abspa
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

机器学习实战之Kaggle泰坦尼克初尝试

项目简介

数据分析

导入数据

查看数据

缺失值处理

数据可视化

特征工程

性别转换

港口转换

年龄填充

票价填充

家庭人数

家庭类型

相关性计算

特征选择

构建模型

划分数据集

模型选择

模型训练

模型评估

模型应用

提交结果

总结

你可能感兴趣的:(数据分析实战,机器学习,机器学习,数据挖掘,python)