ncc1995

Titanic

不管学习什么，都是觉得原理好简单，但是实际操作起来好难，其实也不是难，就是觉得麻烦。尤其是让我理解可以，就是不想动手去写代码。这次对于kaggle题目也是如此，但是这样实在不好，所以强逼着自己来写代码，来做个自己的整理。

一、数据分析

1.读取数据

下载的train、test文件都是csv格式，用Python的Pandas包读取。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from pandas import DataFrame, Series

data_train = pd.read_csv("/home/futao/Downloads/all/train.csv")
data_test = pd.read_csv("/home/futao/Downloads/all/test.csv")
data_train.head()

#显示train文件的前几行
print(data_train.head())
#统计train文件的数据信息
print(data_train.info())

#显示test文件的数据信息
print(data_test.info())

train信息：

RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)

test信息：

RangeIndex: 418 entries, 0 to 417
Data columns (total 11 columns):
PassengerId    418 non-null int64
Pclass         418 non-null int64
Name           418 non-null object
Sex            418 non-null object
Age            332 non-null float64
SibSp          418 non-null int64
Parch          418 non-null int64
Ticket         418 non-null object
Fare           417 non-null float64
Cabin          91 non-null object
Embarked       418 non-null object
dtypes: float64(2), int64(4), object(5)

从上面的信息可以看出训练数据和测试数据都存在缺失值，Age和Cabin 的缺失值最多，Fare 和Embarked的缺失值较少，具体怎么处理在下面会讨论。接下来先进行数据的分析。

2.分析属性与幸存之间的关系

为了顺便熟悉Python的数据处理方法，接下来会用两种方法来展示关系图。

不同属性对获救人数影响的对比
不同属性的获救概率

(1) 船舱等级对获救的影响分析

a.不同等级对获救人数的影响

#分析Pclass对Survived的影响
#dataframe的行索引作为x轴，将Pclass作为行索引
#Survived作为比较值
Sur_0 = data_train.Pclass[data_train.Survived == 0].value_counts()
Sur_1 = data_train.Pclass[data_train.Survived == 1].value_counts()

df_Pclass = DataFrame({'Survived': Sur_1, 'no_Survived': Sur_0})
print(df_Pclass)
df_Pclass.plot(kind='bar')
plt.title("different class")
plt.xlabel("Pclass")
plt.ylabel("num people")
plt.show()

可见，等级1获救的可能性更大，等级3的获救可能最最小。等级制度还是很明显的。

b.不同等级的获救概率图

获得概率主要使用pandas的分组运算groupby，顺便学习了解了一下groupby的使用。

（1）统计不同等级获救的人数

#s = data_train.groupby(['Pclass', 'Survived'])['Pclass'].count()

s = data_train.groupby(['Pclass', 'Survived', 'Sex'])['Age'].count()

data.groupby()的使用：从得到的结果可以分析出，先将数据按groupby中的第一个参数分类，再把每一类分别按第二个属性分类，以此类推。得到的统计数据待统计的数据属性与分类结果的匹配。

（2）求出每个等级获救的概率

data_train[['Pclass','Survived']].groupby(['Pclass']).mean().plot.bar()

将Survived按Pclass分类，由于Survived采用0和1来表示，所以直接求均值就是获救的概率。

求均值可以用上面代码来写，也可以用下面代码，区别在于有没有提前将Pclass的数据提取出来备用。

data_train[['Survived']].groupby(data_train['Pclass']).mean().plot.bar()

上面是groupby的简单总结。接下来是画出概率图。

s = data_train.groupby(['Pclass', 'Survived'])['Pclass'].count()
print(s)
data_train[['Pclass', 'Survived']].groupby(['Pclass']).mean().plot.bar()
plt.show()

概率图可以更加直观的看出不同等级的获救可能大小。

(2) 性别对获救与否的影响

a.不同性别获救人数的对比

#思路类似不同等级
Sur_Sex0 = data_train.Sex[data_train.Survived == 0].value_counts()
Sur_Sex1 = data_train.Sex[data_train.Survived == 1].value_counts()
df_sex = DataFrame({'Survived': Sur_Sex1, 'no_Survived':Sur_Sex0})
print(df_sex)
df_sex.plot(kind='bar')
plt.title("different Sex")
plt.xlabel("Sex")
plt.ylabel("number")
plt.show()

b.不同性别获救概率大小

#获救概率分析
#分别统计男女的获救人数
#再将获救人数通过性别进行分类计算均值
num = data_train.groupby(['Sex', 'Survived'])['Sex'].count()
print(num)
data_train[['Sex', 'Survived']].groupby(['Sex']).mean().plot(kind='bar')
plt.title('different Sex')
plt.ylabel('percent')
plt.show()

原来，女性的获救概率超出男性这么多！

(3) 兄弟姐妹对获救影响

a.有无兄弟姐妹对获救与否人数对比

Sur_0 = data_train.SibSp[data_train.Survived == 0].value_counts()
Sur_1 = data_train.SibSp[data_train.Survived == 1].value_counts()
print(Sur_0)
print(Sur_1)
df_SibSp = DataFrame({'Survived': Sur_1, 'no_Survived': Sur_0})
df_SibSp.plot(kind='bar')
plt.title('different SibSp')
plt.xlabel('SibSp')
plt.ylabel('number of people')
plt.show()

从得到的图来看感觉影响不大，接下来不区分兄弟姐妹个数，只讨论有无来看一下。

def sta(series):
    no_zero = 0
    for i in series.index:
        if i != 0:
            no_zero = series[i] +no_zero
        else:
            zero = series[i]
    s1 = Series([zero, no_zero], index=[0, 1])
    return s1

Sur_0 = data_train.SibSp[data_train.Survived == 0].value_counts()
Sur_1 = data_train.SibSp[data_train.Survived == 1].value_counts()
s_0 = sta(Sur_0)
s_1 = sta(Sur_1)

df_SibSp1 = DataFrame({'Survived': s_1, 'no_Survived': s_0})
df_SibSp1.plot(kind='bar')
plt.title('have Sibsp?')
plt.xlabel('SibSp')
plt.ylabel('number of people')
plt.show()

没有找到直接统计Serise索引0与非0的办法，只好自己写了一个函数来统计，这么来看的话有没有兄弟姐妹还是有一定的影响的，下面再来看看更直观的概率图。

b.有无兄弟姐妹获救概率大小

插入一个小广告，用plt画图的两种方法总结。

#不用先设定图纸大小
plt.figure(figsize=(10, 5))
plt.subplot(121)
plt.subplot(122)
#先设定图纸大小
fig = plt.figure()
plt.subplot2grid((2, 3), (0, 0))

下面是查看获救概率的代码：

plt.figure(figsize=(10, 5))
sibSp0 = data_train[data_train['SibSp'] == 0]
sibSp1 = data_train[data_train['SibSp'] != 0]
plt.subplot(121)
sibSp0['Survived'].value_counts().plot.pie(labels=['no_Survived', 'Survived'], autopct='%0.1f%%')
plt.xlabel('no_SibSp')
plt.subplot(122)
sibSp1['Survived'].value_counts().plot.pie(labels=['no_Survived', 'Survived'], autopct='%0.1f%%')
plt.xlabel('SibSp')
plt.title('have Sibsp?')
plt.show()

概率图，可以更加直观的看出有兄弟姐妹的获救概率更加大一些。

(4) 有无父母与小孩

完全类似兄弟姐妹。

a. 看有无父母孩子对获救人数的对比

Sur_0 = data_train.Parch[data_train.Survived == 0].value_counts()
Sur_1 = data_train.Parch[data_train.Survived == 1].value_counts()
df_SibSp1 = DataFrame({'Survived': Sur_1, 'no_Survived': Sur_0})
df_SibSp1.plot(kind='bar')
plt.title('have Parch?')
plt.xlabel('Parch')
plt.ylabel('number of people')
plt.show()

从这里面看的话，稍微能看出来一些信息，但是并不直观，下面直接从有没有孩子这个角度来区分。

def sta(series):
    no_zero = 0
    for i in series.index:
        if i != 0:
            no_zero = series[i] +no_zero
        else:
            zero = series[i]
    s1 = Series([zero, no_zero], index=[0, 1])
    return s1


Sur_0 = data_train.Parch[data_train.Survived == 0].value_counts()
Sur_1 = data_train.Parch[data_train.Survived == 1].value_counts()
s_0 = sta(Sur_0)
s_1 = sta(Sur_1)
df_SibSp1 = DataFrame({'Survived': s_1, 'no_Survived': s_0})
df_SibSp1.plot(kind='bar')
plt.title('have Parch?')
plt.xlabel('Parch')
plt.ylabel('number of people')
plt.show()

1代表有孩子，0代表没有孩子，差别还是蛮大的。

b.有无父母孩子的获救概率

plt.figure(figsize=(10, 5))
sibSp0 = data_train[data_train['Parch'] == 0]
sibSp1 = data_train[data_train['Parch'] != 0]
plt.subplot(121)
sibSp0['Survived'].value_counts().plot.pie(labels=['no_Survived', 'Survived'], autopct='%0.1f%%')
plt.xlabel('no_Parch')
plt.subplot(122)
sibSp1['Survived'].value_counts().plot.pie(labels=['no_Survived', 'Survived'], autopct='%0.1f%%')
plt.xlabel('Parch')
plt.title('have Parch?')
plt.show()

可以看出影响还是蛮大的。

(5) 登船港口对获救的影响

a.不同港口获救人数对比

sur_0 = data_train.Embarked[data_train.Survived == 0].value_counts()
sur_1 = data_train.Embarked[data_train.Survived == 1].value_counts()

print(sur_0)
df = DataFrame({'survived:': sur_1, 'no_survived':sur_0})
print(df)
df.plot(kind='bar')

plt.xlabel('different embark')
plt.ylabel('number of people')
plt.show()

可以看出不同港口获救情况还是很不一样的。

b.不同港口获救概率对比

t = data_train.groupby(['Embarked', 'Survived'])['Embarked'].value_counts()
print(t)
r = data_train[['Embarked', 'Survived']].groupby(['Embarked']).mean()
print(r)
r.plot(kind='bar')
plt.show()

从概率图来看，差别还算大吧。

(6) 票价对获救的影响

将票价进行分区间处理，不同区间人数大致相同。

data_train['difFare'] = pd.qcut(data_train.Fare, 4)
print(data_train['difFare'].value_counts())
res = data_train[['difFare', 'Survived']].groupby(['difFare']).mean()
print(res)
res.plot(kind='bar')
plt.show()

得到的分区间结果为

(7.91, 14.454]     224
(-0.001, 7.91]     223
(31.0, 512.329]    222
(14.454, 31.0]     222
Name: difFare, dtype: int64

人数，大致相同，而四个区间的获救概率分别为

可以看出两个信息吧，买超低票价的人普遍多，但是获救概率很低。所以票价对获救与否影响还是比较大的。

(7) 年龄对获救的影响

最后再考虑的就是信息不全的两个特征了，Age和Cabin。首先考虑年龄，年龄的话未知的信息较少，所以可以把已知信息当成训练样本，未知信息当成测试样本来处理，特征采用其他的数值特征。有很多处理缺失值的办法，我觉得这是比较靠谱的一个办法了。

import pandas as pd
from sklearn.ensemble import RandomForestRegressor


def SetMissingAges(data):
    data_num = data[['Age', 'Fare', 'Parch', 'SibSp', 'Pclass']]
    #print(data_num)
    known_Age = data_num[pd.notnull(data_num.Age)].as_matrix()
    #print(' known ', known_Age)
    notknown_Age = data_num[pd.isnull(data_num.Age)].as_matrix()
    #print(notknown_Age)

    train_X = known_Age[:, 1:]
    train_y = known_Age[:, 0]

    test_X = notknown_Age[:, 1:]

    rfr = RandomForestRegressor(random_state=0, n_estimators=2000, n_jobs=-1)
    rfr.fit(train_X, train_y)


    pre_Ages = rfr.predict(test_X)
    data.loc[(data.Age.isnull()), 'Age'] = pre_Ages
    return data



if __name__ == '__main__':
    data = pd.read_csv("/home/futao/Downloads/all/train.csv")

    data = SetMissingAges(data)
    print(data[data.Age.isnull()])

处理好年龄后进行分析。由于年龄的值多，范围也大，我同样采用分区间处理。

listbins = [0, 18, 30, 55, 80]
data = SetMissingAges(data_train)
data['difAge'] = pd.cut(data.Age, bins=listbins)
print(data['difAge'].value_counts())
per = data[['difAge', 'Survived']].groupby(data.difAge).mean()
print(per)
per.plot(kind='bar')
plt.show()

(18, 30]    349
(30, 55]    345
(0, 18]     155
(55, 80]     42
Name: difAge, dtype: int64

采用的是这几个区间，这几个区间基本代表了少年，青年，中年与老年四个阶段吧，当然我有稍微改变中年阶段的取值，发现变化并不大，所以说明这阶段的获救概率还是蛮高的。

可以看出少年获救概率最高，其次是中年。

(8) Cabin对获救的影响

Cabin的缺失值非常多，所以可以把是否具有这一特征作为一个条件来判断。

def SetCabinType(data):
    data.loc[data.Cabin.notnull(), 'Cabin'] = 'yes'
    data.loc[data.Cabin.isnull(), 'Cabin'] = 'no'
    return data

data = SetCabinType(data_train)
per = data[['Cabin', 'Survived']].groupby(['Cabin']).mean()
print(per)
per.plot(kind='bar')
plt.show()

可见，有无Cabin对获救影响还是蛮大的。

最后，还值得分析的就是姓名一项，里面包含了很多称呼信息，不过我们先采用现有的数据特征预测一下。

2.数据处理

数值型特征进行归一化处理，使训练模型更加稳定。
非数值型特征要转化为数值型特征。

（未完，参考链接后面会附上）

kaggle-ISIC 2024 - 使用 3D-TBP 检测皮肤癌-学习笔记 supernova121 学习笔记
问题描述：通过从3D全身照片(TBP)中裁剪出单个病变来识别经组织学确诊的皮肤癌病例数据集描述：图像+临床文本信息评价指标：pAUC，用于保证敏感性高于指定阈值下的AUC主流方法分析（文本）基于CatBoost、LGBM和XGBoost三者的组合，为每个算法创建了XX个变体，总共XX个模型，进行集成学习。CatBoost在传统梯度提升决策树（GBDT）基础上，引入了一系列关键技术创新，以提升处理类
基于python的手写数字识别knn_用sklearn中的KNN实现Kaggle手写数字识别普和司
importcsvfromsklearnimportneighbors#导入训练数据和测试数据defloadData(filename1,filename2,trainDataSet,trainTargetSet,testDataSet):withopen(filename1,'r')ascsvfile1:lines1=csv.reader(csvfile1)dataSet=list(lines1
kaggle竞赛（初识）薛定谔的码* 人工智能
PART0:Kaggle介绍Kaggle是什么？答案很简单Kaggle是数据挖掘比赛火起来的，以至于中国兴起了很多很多类似的比赛；Kaggle是一个数据科学竞赛的平台，很多公司会发布一些接近真实业务的问题，吸引爱好数据科学的人来一起解决。Kaggle提供了一个介于“完美”与真实之间的过渡，问题的定义基本良好，却夹着或多或少的难点，一般没有完全成熟的解决方案。在参赛过程中与论坛上的其他参赛者互动，能
python3中的os.path模块 hgz_dm 编程语言 python3 os.path
os.path模块主要用于获取文件的属性，这里对该模块中一些常用的函数做些记录。os.abspath(path):获取文件的绝对路径。这里path指的是路径，例如我这里输入“data.csv”[In]os.path.abspath('data.csv')[Out]'E:\\kaggle\\Titanic\\data.csv'os.path.basename(path):获取文件名称。该函数默认通过
基于机器学习的恶意软件检测系统的详细设计与实现源码空间站11 机器学习人工智能课程设计 python 网络安全信息安全恶意软件检测
以下是一个基于机器学习的恶意软件检测系统的详细设计与实现，适合作为课程作业或项目开发。我们将实现一个通过机器学习模型分析恶意软件特征来检测文件是否为恶意软件的系统。总体思路数据准备：选择现有的恶意软件数据集（如Kaggle的恶意软件数据集）或构造模拟数据集。数据集中包含文件的特征（如二进制特征、字符串特征、API调用特征等）和标签（"恶意"或"正常"）。特征提取：提取文件的静态特征（如文件大小、字
chatglm3如何进行微调 learner_ctr 人工智能 chatglm3 llm
一、需要的环境内存：因为在loadmodel时，是先放在内存里面，所以内存不能小，最好在30GB左右显存：如果用half()精度来loadmodel的话(int4是不支持微调的)，显存在16GB就可以，比如可以用kaggle的t4gpu，这款性能相当于2070系列，但是显存翻倍python：3.10即可需要安装的包和版本：!pipinstallmodelscope-ihttps://pypi.tu
编程小白冲Kaggle每日打卡（6）--kaggle学堂：＜Python＞功能和获取帮助 AZmax01 编程小白冲Kaggle每日打卡 python 开发语言
Kaggle官方课程链接：FunctionsandGettingHelp本专栏旨在Kaggle官方课程的汉化，让大家更方便地看懂。目录FunctionsandGettingHelpGettingHelpDefiningfunctionsDocstringsFunctionsthatdon'treturnDefaultargumentsFunctionsAppliedtoFunctionsYourT
1.7 Kaggle大白话：Eedi竞赛Transformer框架解决方案07-调用AI模型输出结果 AI量金术师 Kaggle竞赛人工智能 transformer 深度学习 python 算法
目录0.本栏目竞赛汇总表1.本文主旨2.调用AI模型输出结果架构3.模型准备3.1代码实现3.2大白话模型准备4.数据处理4.1代码实现4.2大白话数据处理5.特征提取5.1代码实现5.2大白话特征提取6.相似度匹配6.1代码实现6.2大白话相似度匹配7.系列总结7.1章节回顾7.2竞赛排名7.3其他优秀项目（皆为竞赛金牌）0.本栏目竞赛汇总表Kaggle竞赛汇总1.本文主旨大白话：上一篇文章中，
编程小白冲Kaggle每日打卡（17）--kaggle学堂：＜机器学习简介＞随机森林 AZmax01 编程小白冲Kaggle每日打卡机器学习随机森林人工智能
Kaggle官方课程链接：RandomForests本专栏旨在Kaggle官方课程的汉化，让大家更方便地看懂。RandomForests使用更复杂的机器学习算法。介绍决策树给你留下了一个艰难的决定。一棵有很多叶子的深树会被过度拟合，因为每一个预测都来自它叶子上少数房子的历史数据。但是，叶子很少的浅树表现不佳，因为它无法在原始数据中捕捉到尽可能多的区别。即使是当今最复杂的建模技术也面临着欠拟合和过拟
0. Kaggle实战：Kaggle竞赛实战记录列表（持续更新） AI量金术师 Kaggle竞赛人工智能 python 开发语言机器学习金融
目录1.专栏描述2.Kaggle竞赛列表2.1Eedi-MiningMisconceptionsinMathematics（持续更新中）1.专栏描述本专栏专注于记录与分享Kaggle竞赛的解题思路、项目框架及代码实现。通过通俗易懂的讲解和简单明了的测试数据，帮助每位读者轻松掌握参赛技巧，快速提升实战能力，一起探索数据科学的魅力！2.Kaggle竞赛列表2.1Eedi-MiningMisconcep
编程小白冲Kaggle每日打卡（7）--kaggle学堂：＜Python＞布尔型和条件形 AZmax01 编程小白冲Kaggle每日打卡 python 开发语言
Kaggle课程官网链接：BooleansandConditionals本专栏旨在Kaggle官方课程的汉化，让大家更方便地看懂。目录BooleansandConditionalsBooleansComparisonOperationsCombiningBooleanValuesConditionalsBooleanconversionYourTurnBooleansandConditionals
编程小白冲Kaggle每日打卡（4）--kaggle学堂：＜编程简介＞列表 AZmax01 编程小白冲Kaggle每日打卡机器学习人工智能 python
Kaggle课程官网链接：IntrotoLists本专栏旨在Kaggle官方课程的汉化，让大家更方便地看懂。IntrotoLists整理您的数据，以便您能够高效地使用它。Introduction在进行数据科学研究时，您需要一种组织数据的方法，以便高效地使用它。Python有许多数据结构可用于保存数据，如列表、集合、字典和元组。在本教程中，您将学习如何使用Python列表。Motivation在“花
编程小白冲Kaggle每日打卡（5）--kaggle学堂：＜Python＞Hello,Python! AZmax01 编程小白冲Kaggle每日打卡 python 机器学习深度学习
Kaggle课程官方链接：Hello,Python本专栏旨在Kaggle官方课程的汉化，让大家更方便地看懂。Hello,PythonPython语法、变量赋值和数字的快速介绍本课程涵盖了您需要的关键Python技能，以便您可以开始将Python用于数据科学。这门课程非常适合那些有一些编程经验的人，他们想把Python添加到他们的技能库中。（如果你是第一次编程，我们鼓励你查看我们的编程入门课程，该课
自编大模型系列之 01 使用 Python 从头构建 LLaMA 3 编写您自己的十亿参数LLM（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 python llama 开发语言
LLaMA3是继Mistral之后最有前途的开源模型之一，可以解决各种任务。我之前在Medium上写过一篇博客，介绍如何使用LLaMA架构从头开始创建一个具有超过230万个参数的LLM。现在LLaMA-3已经发布，我们将以更简单的方式重新创建它。我们不会在本博客中使用GPU，但您至少需要17GB的RAM，因为我们将加载一些大小超过15GB的文件。如果这对您来说是个问题，您可以使用Kaggle作为解
编程小白冲Kaggle每日打卡（14）--kaggle学堂：＜机器学习简介＞你的第一个机器学习模型 AZmax01 编程小白冲Kaggle每日打卡机器学习人工智能
Kaggle官方课程链接：YourFirstMachineLearningModel本专栏旨在Kaggle官方课程的汉化，让大家更方便地看懂。YourFirstMachineLearningModel建立你的第一个模型。好哇！选择建模数据你的数据集有太多的变量，你无法理解，甚至无法很好地打印出来。你如何将如此庞大的数据量缩减到你能理解的程度？我们将从使用直觉选择几个变量开始。后续课程将向您展示自动
《机器学习实战》专栏 No12：项目实战—端到端的机器学习项目Kaggle糖尿病预测带娃的IT创业者机器学习实战机器学习人工智能分类算法 python
《机器学习实战》专栏第12集：项目实战——端到端的机器学习项目Kaggle糖尿病预测本集为专栏最后一集，本专栏的特点是短平快，聚焦重点，不长篇大论纠缠于理论，而是在介绍基础理论框架基础上，快速切入实战项目和代码，所有代码都经过实践检验，是读者入门和熟悉上手的上佳知识材料在本集中，我们将通过Kaggle平台的经典糖尿病预测（PimaIndiansDiabetesDataset）数据集，系统回顾完整的
人工智能与机器学习入门：决策树应用决策树机器学习入门
在人工智能与机器学习入门：使用Kaggle完成Titanic推断学习一文中，给出了使用Kaggle进行机器学习入门的方法，本文基于上文的需求。尝试使用决策树模型来训练数据，并进行test数据集的测试。什么是决策树决策树，简单来讲可以认为是一个大的ifelse判断树，有了决策树后，测试集中的数据便可以使用该决策树进行判断了。比如根据Titanic的训练数据构造了上次决策树后，便可以根据测试数据的性别
编程小白冲Kaggle每日打卡（8）--kaggle学堂：＜Python＞列表 AZmax01 编程小白冲Kaggle每日打卡 python windows 开发语言
Kaggle课程官方链接：Lists本专栏旨在Kaggle官方课程的汉化，让大家更方便地看懂。Lists¶列表以及你可以用它们做的事情。包括索引、切片和变异Python中的列表表示值的有序序列。以下是一个如何创建它们的示例：primes=[2,3,5,7]我们可以把其他类型的东西放在列表中：planets=['Mercury','Venus','Earth','Mars','Jupiter','S
机器学习基本篇胖胖的小肥猫机器学习
1基本概念机器学习，分为回归，分类，聚类，降维有监督学习回归，分类，有特征，有标签，进行训练，然后对新数据进行预测无监督学习聚类，降维。题目越多，训练越好，2基本流程数据预处理——模型训练与评估可以优化为获取数据——数据预处理——EDA分析——特征工程——模型训练——可解释性分析2.0数据获取利用kaggle,天池等平台的开源数据，2.1预处理目的：让数据更符合逻辑让数据更容易计算借助函数实现变换
更符合DeepSeek的提问方式，学术论文方面的能力我总结了这几十个提示词！ AIWritePaper官方账号 AIWritePaper DeepSeek 学术论文人工智能 chatgpt 数据分析 prompt 论文阅读
DeepSeek提问技巧总结1.聚焦核心，细化问题：提问时应精准明确，避免过于宽泛或模糊。例如不要问“如何学习机器学习？”而应问“零基础如何机器学习”。对于复杂问题，可将其拆解为多个小问题，逐一提问。比如先问“学习机器学习先学习python更好吗？”再问“如何用Kaggle进行机器学习相关的数据竞赛？”2.提供背景，结构化描述：在提问时，提供问题的背景信息或目标，以便DeepSeek更准确地理解需
DeepSeek API 输出解析【非流式输出篇】 - OpenAI SDK Hoper.J AIGC DeepSeek DeepSeek API AI
代码文件下载：Code在线链接：Kaggle|Colab前置文章：DeepSeekAPI的获取与对话示例文章目录如何切换平台认识输出DeepSeek-ChatDeepSeek-Reasoner附录如何切换平台本文不引入环境变量，如果对其感兴趣可以阅读《初识LLMAPI：环境配置与多轮对话演示》的「环境变量配置」部分。代码文件已包含文章中所有平台的正确配置。以DeepSeek单轮对话的代码样例进行讲
【深度学习实战：kaggle自然场景的图像分类-----使用keras框架实现vgg16的迁移学习】机器学习司猫白深度学习分类 keras
Hello大家好，今天和大家分享一个kaggle自然场景的图像分类的竞赛，使用的keras框架实现vgg16的迁移学习完成自然场景分类，对数据集感兴趣的同学可以在上方下载数据集。项目简介本次数据集来自kaggle，该数据集包括自然场景的图像。模型应该预测每个图像的正确标签。您的目标是实现分类问题的高精度。数据集train.csv-训练集test.csv-测试集SceneImages-图像文件夹训练
视频分析：基于目标检测（YOLO）实现走路看手机检测、玩手机检测、跌倒检测等 shiter 人工智能系统解决方案与技术架构音视频深度学习人工智能
文章大纲背景行为检测的定义与挑战视频分析数据集目标检测数据集自制数据集思路Kaggle数据集COCO数据集OpenImagesDatasetV7人类行为视频分析yolo进行行为分析的检测看手机行为检测--方法与数据集方法数据集跌倒行为检测--方法与数据集跌倒检测-数据集跌倒检测-目标检测跌倒检测-姿态估计参考文献与学习路径背景行为检测在自动驾驶、视频监控等领域的广阔应用前景使其成为了视频分析的研究
kaggle花分类比赛91.168% 仙尊方媛分类数据挖掘机器学习 keras tensorflow
之前一直都没注意显存，也没注意数据格式，直到跑模型的时候电脑直接崩了，因为排队用TPU，感觉人多，就直接在自己电脑上跑，我自己是有一张8G的4070,没想到啊，光是读取数据，就占用了6G历次成绩这个是用分布式gpu跑的，kaggle给配了两张16G显存的卡，TPU我前面56个人，人太多了,分辨率本身有影响，我使用192×192这里使用512×512的分辨率，效果明显提高了，Tan和Le，2019年
DeepSeek API 的获取与对话示例 Hoper.J AIGC DeepSeek API AI
代码文件下载：Code在线链接：Kaggle|Colab文章目录注册并获取API环境依赖设置API单轮对话多轮对话流式输出更换模型注册并获取API访问https://platform.deepseek.com/sign_in进行注册并登录：新用户注册后将赠送10块钱余额，有效期为一个月：点击左侧的APIkeys（或者访问https://platform.deepseek.com/api_keys）
使用 Python 的 LSTM 进行股市预测无水先生数据分析深度学习人工智能综合 python lstm 开发语言
目录一、说明二、为什么需要时间序列模型？三、下载数据3.1从Alphavantage获取数据3.1从Kaggle获取数据3.3数据探索3.4数据可视化四、将数据拆分为训练集和测试集五、数据标准化六、通过平均进行一步预测6.1标准平均值6.2指数移动平均线6.3如果指数移动平均线这么好，为什么还需要更好的模型？6.4预测未来不止一步七、LSTM简介：预测未来的股票走势7.1数据生成器7.2数据增强7
【AI日记】25.01.25 AI完全体 AI日记人工智能 kaggle 比赛机器学习读书
【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】【AI日记】【读书与思考】AIkaggle比赛：ForecastingStickerSales读书书名：法治的细节律己AI：8小时，良作息：00:30-8:30，良短视频：大于1小时，差读书和写作：1小时，优饮食：安全健康
Kaggle房价预测一名小菜鸟的学习之路深度学习pytorch 深度学习机器学习 python 人工智能神经网络
Kaggle房价预测作为深度学习基础篇章的总结，我们将对本章内容学以致用。下面，让我们动手实战一个Kaggle比赛：房价预测。本节将提供未经调优的数据的预处理、模型的设计和超参数的选择。我们希望读者通过动手操作、仔细观察实验现象、认真分析实验结果并不断调整方法，得到令自己满意的结果。%matplotlibinlineimporttorchimporttorch.nnasnnimportnumpya
6 回归集成：xgb、lgb、cat 汀沿河 #2比赛常用的代码回归数据挖掘人工智能
这个代码是从kaggle上拷贝过来的：如何使用三个树模型模块化训练；文本特征如何做，如何挖掘；时间特征的处理；模型权重集成；importpandasaspdimportmathimportnumpyasnpimportjoblibimportoptunafromlightgbmimportLGBMRegressorfromcatboostimportCatBoostRegressorfromxgb
kaggle上面有哪些适合机器学习新手的比赛和项目 xiamu_CDA 机器学习人工智能
Kaggle上面有哪些适合机器学习新手的比赛和项目？在当今数据驱动的时代，机器学习已经成为一门炙手可热的技能。Kaggle作为全球最大的数据科学竞赛平台，不仅汇聚了众多顶尖的数据科学家和机器学习工程师，也为初学者提供了丰富的学习资源和实战机会。对于机器学习新手来说，选择合适的比赛和项目是至关重要的第一步。本文将为你推荐一些适合新手的Kaggle比赛和项目，并提供一些实用的建议，帮助你在机器学习的道
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =