gemmax

Kaggle-Titanic入门教程2

数据分析

序

原文链接

重构发行 2017.01.29

我们主要基于(a)从读者那收集的评价；(b)从Jupyter kernel2.7移植到Kaggle kernel3.5的错误；(c)阅览了一些更好的实践kernels重构了notebook。

用户评价

对于如将数据中的名称转换为数值的特定操作组合训练和测试数据。(thanks @Sharan Naribole)
正确的观察 - 近30%的乘客的兄弟姐妹或伴侣在船上。(thanks @Reinhard)
正确解释逻辑回归系数。(thanks @Reinhard)

移植错误

指定plot的维度，将legend带入plot。

最好的实践

在项目早期，进行特征相关分析。

为了可读性，采用多个图取代层叠图。

# data analysis and wrangling
import pandas as pd
import numpy as np
import random as rnd

# visualization
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

# machine learning
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC, LinearSVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import Perceptron
from sklearn.linear_model import SGDClassifier
from sklearn.tree import DecisionTreeClassifier

获取数据

python的pandas包帮助我们处理我们的数据集。我们从获取Pandas的DataFrame形式的训练集和测试集开始。我们也在执行两个数据集都需要的确定操作时组合这些数据集。

train_df = pd.read_csv('../input/train.csv')
test_df = pd.read_csv('../input/test.csv')
combine = [train_df, test_df]

通过描述数据进行分析

在项目初期，Pandas也通过回答下列问题帮助描述数据集（Pandas also helps describe the datasets answering following questions early in our project.）

数据集中哪些特征是有用的？

为了直接操作或分析这些注意特证名。这些特征名在Kaggle data页面有描述。

print(train_df.columns.values)

哪些特征是类别特征？

这些值将样本分类到相似样本的集合中。类别特征的值都是名词(nominal)、序数(ordinal)、比例(ratio)或间隔(interval)? 除此之外，这有助于我们选择合适的图表进行可视化。

类别特征: Survived, Sex 和 Embarked.
序数特征: Pclass.

哪些特征是数值的？

哪些特征是数值的？这些值随着样本的不同而不同。数值特征是离散的、连续的还是基于时序的？除此之外，这有助于我们选择合适的图表进行可视化。

连续特征: Age, Fare.
离散特征: SibSp, Parch.

# preview the data
train_df.head()

哪些特征是混合数据类型？

同一特征中的数字、字母数据是待修正的候选值。

Ticket是混合了数字和字母的数据类型。Cabin是字母数字组成的。

那些特征可能包含错误或拼写错误？

对于大型数据集来说，这是很难审查的，但是从较小的数据集中查看一些样本可能会直接告诉我们，哪些特征可能需要纠正。

Name特征可能包含错误或拼写错误，因为这里用了多种方式描述名称，包括标题（titles），圆括号以及用于替代或短名称的引号。

train_df.tail()

哪些特征包含空白、空值？

这将需要被修正。

按照训练集中的顺序 Cabin > Age > Embarked 特征依次包含着一些空值。

在测试数据集的情况下，Cabin > Age是不完整的。

各种特征是什么数据类型的？

这个问题能在转换时协助我们。

七个特征是整数或浮点数。六个在测试集中。

五个特征是string类型（对象、object）。

train_df.info()
print('_'*40)
test_df.info()

样本中数值特征值的分布是什么？

根据其他早期的见解，这有助于我们确定实际问题领域的训练集的代表性。

“泰坦尼克号”（2,224）的实际乘客总数为891或40％。
Survived是一个类别特征，值为0或1。
大约38%个样本存活率代表了32%的实际存活率。
大多数乘客(>75%)没有和父母孩子一起旅行。
约30%的乘客有兄弟或配偶在船上。
票价差别很大，少数乘客（<1％）票价高达512美元。
少数年龄在65-80岁之间的老年乘客（<1％）。

train_df.describe()
# Review survived rate using `percentiles=[.61, .62]` knowing our problem description mentions 38% survival rate.
# Review Parch distribution using `percentiles=[.75, .8]`
# SibSp distribution `[.68, .69]`
# Age and Fare `[.1, .2, .3, .4, .5, .6, .7, .8, .9, .99]`

类别特征的分布是什么？

数据集中Name是唯一的 (count=unique=891)。
Sex可变为两个可能的值，男性为65％(top=male, freq=577/count=891)。
Cabin值有多个样本的重复。或者几个乘客共享一个小屋。
Embarked有三种取值。大多数乘客都是S值。（顶部= S）
Ticket特征具有高重复值（22％）（唯一= 681）。

train_df.describe(include=['O'])

基于数据分析的假设

基于至今为止所做的数据分析，我们可以得到以下假设。我们可能会在采取适当行动之前进一步验证这些假设。

关联

我们想知道每一个特征与Survival的相关度。我们想在项目早期完成这个，并且在项目后期中，将这些快速相关联特征与模型化的匹配。

填充

因为Age特征与survival直接相关我们可能想去填充Age特征
我们可能想填充Embarked特征，因为它可能也与survival或其他重要的特征相关。

修正

Ticket特征可能会从我们的分析中丢弃，因为它包含着高重复率(22%)，并且在Ticket与survival之间可能没有关联。
Cabin特征可能因为它高度的不完整性或在训练集和测试集中包含太多空值而被丢弃。
PassengerId因为对survival没有贡献而可能从训练集中删除。
Name特征相对不独立，可能不能对survival产生直接贡献，所以可能会被丢弃。

创造

我们可能想基于Parch和SibSp创建一个名为Family的新特征，来获得在船上的家庭成员的个数。
我们可能想改造Name特征，提取Title作为新特征。
我们可能想为年龄区间创造一个新特征。这使得连续数值特征转化为序列类别特征。
如果能对我们分析有所帮助，我们可能也想去创建一个Fare范围特征。

归类

我们也可以根据以前提到的问题描述增加我们的假设。

女人(Sex=female)更可能存活。
儿童(Age < ?)更可能存活。
上层阶级乘客(Pclass=1)更可能存活。

旋转特征分析

为了确认我们的一些观察和假设，我们可以通过相互转换特征来快速分析我们的特征相关性。我们只能在这个阶段为没有任何空值的特征做到这一点。这仅对于类别（Sex），序数（Pclass）或离散（SibSp，Parch）类型的特征才有意义。

train_df[['Pclass', 'Survived']].groupby(['Pclass'], as_index=False).mean().sort_values(by='Survived', ascending=False)

Pclass 我们观察到Pclass=1与存活率之间显著的相关性（>0.5）(基于数据分析的假设.归类 #3)。我们决定将这个特征加入到模型中。

train_df[["Sex", "Survived"]].groupby(['Sex'], as_index=False).mean().sort_values(by='Survived', ascending=False)

Sex 我们确定在问题定义的观察中发现Sex=female有74%的很好的存活率(基于数据分析的假设.归类 #1).

train_df[["SibSp", "Survived"]].groupby(['SibSp'], as_index=False).mean().sort_values(by='Survived', ascending=False)

train_df[["Parch", "Survived"]].groupby(['Parch'], as_index=False).mean().sort_values(by='Survived', ascending=False)

SibSp 和 Parch 这些特征对于某些值有零相关性。最好从这些单个特征中衍生出一个或一组特征。 (基于数据分析的假设.创造 #1).

可视化数据分析

现在我们可以继续使用可视化分析数据来确定一些我们的假设。

数值特征的相关性

让我们从理解数值特征和解决方案目标（存活）之间的相关性开始。

矩形图对于分析连续数值变量（如Age）是有用的，它的分段或范围将帮助识别有用的模式。矩形图可以使用自定义的分箱或等距范围的分段来表明样本的分布。这将帮助我们回答与特定区间相关的问题。(婴儿有更好的存活率吗？)

注意可视化矩形图的x轴表示样本或乘客的数量。

观察

幼儿(Infants) (Age <=4)有更高的存活率。
老年乘客(Age = 80) 存活。
大量15-25 岁乘客没有存活。
大多数乘客年龄在15-35岁之间。

决策

这个简单的分析证实了我们的假设是后续工作流程阶段的决策。

我们应该考虑将Age加入到模型训练中(基于数据分析的假设.归类 #2)。
对Age特征的所有空值填充(基于数据分析的假设.填充 #1)。
我们应该将年龄分段 (基于数据分析的假设.创造 #3)。

g = sns.FacetGrid(train_df, col='Survived')
g.map(plt.hist, 'Age', bins=20)

数值和序数特征的相关性

我们可以使用单个图组合多个特征来识别相关性。这可以通过具有数字值的数字和分类特征来完成。

观察

Pclass=3 有最多的乘客，然而大量都没有存活下来。证实了假设：基于数据分析的假设.归类 #2
Pclass=2和Pclass=3的婴儿乘客大多数都存活下来。进一步证实了假设：基于数据分析的假设.归类 #2
大多数Pclass=1的乘客都存活下来了。证实了假设：基于数据分析的假设.归类 #3
Pclass在乘客的不同年龄组中分布不同。

决策

考虑将Pclass加入模型训练。

# grid = sns.FacetGrid(train_df, col='Pclass', hue='Survived')
grid = sns.FacetGrid(train_df, col='Survived', row='Pclass', size=2.2, aspect=1.6)
grid.map(plt.hist, 'Age', alpha=.5, bins=20)
grid.add_legend();

类别特征的相关性

现在，我们可以探索类别特征和我们的解决目标之间的相关性。

观察

女性乘客比男性有更好的存活率。证实基于数据分析的假设.归类 #1
Embarked=C时例外，男性有更高的存活率。这可能是因为在Pclass与Embarked之间存在相关性，Pclass和Survived之间也存在相关性，不一定是Embarked与Survived之间存在直接关联。
与在Embarked = C和Q的Pclass = 2的男性相比，Pclass=3的男性有更好的存活率。基于数据分析的假设.填充 #2。
对于Pclass=3的男性乘客而言，不同登船口有不同的存活率。基于数据分析的假设.关联 #1。

决策

将Sex特征添加到模型训练中。
填充并增加Embarked特征到模型训练中。

# grid = sns.FacetGrid(train_df, col='Embarked')
grid = sns.FacetGrid(train_df, row='Embarked', size=2.2, aspect=1.6)
grid.map(sns.pointplot, 'Pclass', 'Survived', 'Sex', palette='deep')
grid.add_legend()

类别和数值特征的相关性

我们可能也想将（非数值）类别特征和数值特征相关联。我们考虑将Embarked (非数值类别), Sex (非数值类别), Fare (连续数值), 和Survived (数值类别)相关联。

观察

支付更高票价的乘客有更好的存活率。证实我们的假设（基于数据分析的假设.创造 #4）
登船港口与存活率相关。证实基于数据分析的假设.关联 #1 和基于数据分析的假设.填充 #2

决策

考虑将Fare特征分段。

# grid = sns.FacetGrid(train_df, col='Embarked', hue='Survived', palette={0: 'k', 1: 'w'})
grid = sns.FacetGrid(train_df, row='Embarked', col='Survived', size=2.2, aspect=1.6)
grid.map(sns.barplot, 'Sex', 'Fare', alpha=.5, ci=None)
grid.add_legend()

总结

了解数据
提出假设
使用统计与可视化方式验证假设

Kaggle教程系列

Kaggle-Titanic入门教程1
Kaggle-Titanic入门教程2
Kaggle-Titanic入门教程3

你可能感兴趣的:(Kaggle,数据竞赛,机器学习,数据竞赛入门,翻译)

Ubuntu零基础入门到精通【1.3讲】：为什么选择 Ubuntu？ bug菌¹ 滚雪球学Ubuntu ubuntu linux 运维为什么选择Ubuntu 零基础教程
目录：上期回顾：Ubuntu的生态与社区✨前言：为什么我们都在谈论Ubuntu？为什么Ubuntu是个人和企业的首选？1️⃣安全性与开源：Ubuntu构建的安全生态系统更高的安全性：Ubuntu对安全的极致追求✨️开放性与可审查性：更透明的操作系统长期支持版（LTS）：稳定与安全的完美平衡2️⃣对比其他Linux发行版：Ubuntu如何脱颖而出？Fedora：创新的前沿，但稳定性欠佳CentOS：
二叉树的三种遍历【树的遍历】（C++实现）Binary Tree Traversal Vitalia 理论基础 c++树的遍历二叉树
图论入门【数据结构基础】：什么是树？如何表示树？之前我们有分别讲解二叉树的三种遍历的相关代码实现：⭐算法OJ⭐二叉树的前序遍历【树的遍历】（C++实现）BinaryTreePreorderTraversal⭐算法OJ⭐二叉树的中序遍历【树的遍历】（C++实现）BinaryTreeInorderTraversal⭐算法OJ⭐二叉树的后序遍历【树的遍历】（C++实现）BinaryTreePostord
yum install locate出现Error: Unable to find match: locate解决方案爱编程的喵喵 Linux解决方案 linux locate yum 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了yuminstalllocate出现
【人工智能机器学习基础篇】——深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理猿享天开人工智能数学基础专讲人工智能机器学习无监督学习降维
深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理在当今数据驱动的世界中，数据维度的增多带来了计算复杂性和存储挑战，同时也可能导致模型性能下降，这一现象被称为“维度诅咒”（CurseofDimensionality）。降维作为一种重要的特征提取和数据预处理技术，旨在通过减少数据的维度，保留其主要信息，从而简化数据处理过程，并提升模型的性能。本文将深入探讨两种广泛应用于无监督学习中的降
Flink启动任务 swg321321 flink 大数据
Flink以本地运行作为解读例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Flink前言StreamExecutionEnvironmentLocalExecutorMiniClusterStreamGraph二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发
Rancher从入门到精通-2.0 Post https://xxx:8088/oauth/token: dial tcp 1xxx:8088: i/o timeout 未来AI编程 Rancher入门到精通 k8s探险记
Posthttps://xxx:8088/oauth/token:dialtcp1xxx:8088:i/otimeout配置gitlab时报错没有走内网，走的域名形式授权
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
【机器学习】建模流程 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能线性回归逻辑回归
1、数据获取1.1来源数据获取是机器学习建模的第一步，常见的数据来源包括数据库、API、网络爬虫等。数据库是企业内部常见的数据存储方式，例如：MySQL、Oracle等关系型数据库，以及MongoDB等非关系型数据库，它们能够存储大量的结构化和非结构化数据API（应用程序编程接口）提供了从外部获取数据的便捷方式，例如：社交媒体平台的API可以获取用户发布的内容和互动信息网络爬虫则适用于从网页中提取
【C++】C++从入门到精通教程（持续更新...）废人一枚 C++c++开发语言
前言最近在整理之前一些C++资料，重新整理出了一套C++从基础到实践的教程，包含概念、代码、运行结果以及知识点的扩展，感兴趣的后续大家持续关注。以下是更新的文章目录，文章之后整理了一个知识思维导图，看起来比较清楚点。目录1、C++基础知识C++基础知识一个简单的C++程序函数重载引用的概念引用与指针的区别引用作为函数参数引用作为返回值面向对象类的定义类的声明结构体与类的区别inline函数this
Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！） y江江江江机器学习大模型 gpt chatgpt
HuggingFace预训练GPT微调ChatGPT（微调入门！新手友好！）在实战中，⼤多数情况下都不需要从0开始训练模型，⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。在各种⼤模型开源库中，最具代表性的就是HuggingFace。HuggingFace是⼀家专注于NLP领域的AI公司，开发了⼀个名为Transformers的开源库，该开源库拥有许多预训练后的深度学习模型，如BERT、G
Visual C++从入门到精通第三版 PDF 下载范武心Lucinda
VisualC++从入门到精通第三版PDF下载【下载地址】VisualC从入门到精通第三版PDF下载VisualC++从入门到精通第三版PDF下载项目地址:https://gitcode.com/open-source-toolkit/f4bb4资源介绍本仓库提供《VisualC++从入门到精通第三版》的PDF版本下载。这本书是一本非常适合初学者的入门书籍，内容涵盖了从C++基础知识到Visual
自学网络安全（黑客技术）2025年 —三个月学习计划 csbDD web安全学习安全网络 python
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包前言什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习
Webpack4从入门到精通以及和webpack5对比_webpack现在用的是哪个版本 2501_90253044 webpack 前端 node.js
'css-loader',//less-loader：将less文件编译成css文件，需要下载less-loader和less'less-loader'],},{test:/\.css$/,//使用多个loader用use,使用一个loader用loaderuse:['style-loader','css-loader'],},{//url-loader：处理图片资源，问题：默认处理不了html中
2025年零基础入门学网络安全（详细），看这篇就够了网安大师兄 web安全安全网络网络安全密码学
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包一、自学网络安全学习的误区和陷阱1.不要试图先成为一名程序员（以编程为基础的学习）再开始学习我在之前的回答中，我都一再强调不要以编程为基础再开始学习网络安全，一般来说，学习编程不但学习周期长，而且实际向安全过渡后可用到的关键知识并不多一般人如果想要把编程学好再开始学习网络安全往往需要花费很长时间，容易半途而废。而且学习编程只是工具不是
30岁了，零基础想转行网安从头开始现实吗？白帽子凯哥哥 tcp/ip 安全 web安全学习网络
这篇文章没有什么套路。就是一套自学理论和方向，具体的需要配合网络黑白去学习。毕竟是有网络才会有黑白！有自学也有培训！1.打死也不要相信什么分分钟钟教你成为大黑阔的，各种包教包会的教程,就算打不死也不要去购买那些所谓的盗号软件之类的东西。2，我之前让你们在没有目的的时候学习linux,在学习LINUX的同时你第一个遇到的问题就是命令。作为一个黑客入门着来说你必须要懂什么是命令化系统,什么是图形化系统
【C++】动态规划从入门到精通諰. 动态规划 c++
一、动态规划基础概念详解什么是动态规划动态规划（DynamicProgramming，DP）是一种通过将复杂问题分解为重叠子问题，并存储子问题解以避免重复计算的优化算法。它适用于具有以下两个关键性质的问题：最优子结构：问题的最优解包含子问题的最优解重叠子问题：不同决策序列会重复求解相同的子问题下面用一些例子（由浅入深）了解动态规划1.1斐波那契数列递归实现解析intfib(intn){if(n>d
机器学习课堂4线性回归模型+特征缩放木尘152132 机器学习线性回归 python
一、实验2-2，线性回归模型，计算模型在训练数据集和测试数据集上的均方根误差代码：#2-2线性回归模型importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplt#参数设置iterations=3000#迭代次数learning_rate=0.0001#学习率m_train=3000#训练样本的数量flag_plot_lines=False
【机器学习】模型拟合 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能欠拟合过拟合
1、欠拟合1.1现象欠拟合是机器学习和统计建模中的一种常见问题，表现为模型无法充分捕捉数据中的潜在规律和模式。无论是训练数据还是测试数据，模型的预测误差都居高不下。在实际应用中，欠拟合的模型往往显得过于简单和粗糙，无法对数据进行有效的拟合和描述。1.2原因模型过于简单是导致欠拟合的主要原因：例如，使用直线去拟合具有明显曲线趋势的数据，或者使用低阶多项式去拟合高阶的复杂函数关系。这种情况下，模型的表
统计领域英语专业词汇补充月亮月亮要去太阳算法其他
应统考研复试：多元统计、回归分析、时间序列三大领域专业词汇翻译以下是多元统计、回归分析和时间序列三大统计领域的常见专业词汇的英汉互译，按类别整理：多元统计（MultivariateStatistics）英文术语中文术语MultivariateAnalysis多元分析PrincipalComponentAnalysis(PCA)主成分分析FactorAnalysis因子分析ClusterAnalys
使用 OpenAI Chat 模型进行对话开发的入门指南 eahba python
技术背景介绍OpenAI的对话模型（ChatOpenAI）为开发者提供了强大的自然语言处理功能，可以实现高度交互的AI应用。这篇文章将帮助您快速入门，了解如何在您的应用中集成和使用这些模型，并探讨不同的功能特性。核心原理解析ChatOpenAI模型是基于OpenAI的GPT家族，能够理解上下文并产生对话式回应。最新版的模型不仅支持标准文本输入输出，还支持工具调用、结构化输出等高级特性，满足多种复杂
自学网络安全（黑客技术）2025年 —90天学习计划网安CILLE web安全学习安全网络 linux
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包前言什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习
自学网络安全（黑客技术）2025年 —90天学习计划网安CILLE web安全学习安全网络网络安全
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包前言什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习
2024下半年——【寒假】自学黑客计划（网络安全）网安CILLE web安全网络安全 linux 网络安全密码学 ddos
CSDN大礼包：基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包前言什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客
2024自学手册——网络安全（黑客技术）网安CILLE web安全安全网络
前言什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习导航三大章节，涉及价值观、方法论、执行力、行业分类、职位解读、法
【GPT入门】第26课掌握langchain LCEL 链式调用的三种方法 *星星之火* 大模型 gpt langchain
【GPT入门】第26课掌握langchainLCEL链式调用的三种方法1.使用`__call__`语法（直接调用链对象）2.使用`invoke`方法3.使用`apply`方法（针对批量输入）总结在LangChain里，链式调用构建完成后有多种调用方式，invoke方法就是其中之一，下面为你详细介绍常见的调用方法。1.使用__call__语法（直接调用链对象）这是最常用且直观的调用方式，就像调用普通
基于Python的智能决策支持系统：实现智能化决策的关键要素 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
文章目录基于Python的智能决策支持系统：实现智能化决策的关键要素11.背景介绍2.核心概念与联系数据收集与预处理模型构建与训练决策规则生成与优化决策结果评估与反馈3.核心算法原理具体操作步骤数据挖掘算法机器学习算法优化算法4.数学模型和公式详细讲解举例说明线性回归模型最小二乘法5.项目实践：代码实例和详细解释说明6.实际应用场景金融领域医疗领域供应链管理智能制造7.工具和资源推荐编程语言和开发
src小白入门简介吃饱饭，练球安全网络安全 src
隐雾src01为什么别人挖得到洞你挖不到？相信有很多师傅都有在网上看过不少别人发的挖洞的文章为什么你看完之后感觉自己懂了，但真正去实战的时候却挖不到？这就涉及到一个知识转化率的问题在读完这篇文章之后你有没有抓住细节、抓住该学习的点呢？以前怎么样不重要，现在教你们怎么去读一篇文章，然后学习到自己想要的这里我拿北山的一篇文章做例子：https://mp.weixin.qq.com/s?__biz=Mz
python爬虫之scrapy框架入门，万字教学，从零开始到实战演练，超详细！！！（21）盲敲代码的阿豪 python之爬虫系统教学 python 爬虫 scrapy
文章目录前言1、scrapy的概念和流程1.1学习目标1.2scrapy的概念1.3scrapy框架的作用1.4scrapy的工作流程1.5总结2、scrapy的入门使用2.1学习目标2.2安装scrapy框架2.3scrapy项目开发流程2.4创建项目2.5创建爬虫文件2.6scrapy项目文件说明2.7案例演示2.8实战案例（抓取链家租房信息，存入本地）2.8.1修改items.py文件，在这
Spring Boot 3.4.0 发布：功能概览与示例小DuDu Java spring boot java
SpringBoot3.4.0带来了许多增强功能，使现代应用开发更加高效、便捷和强大。以下是最新功能的完整概述，以及一些帮助您快速入门的代码示例。1.应用程序版本管理SpringBoot引入了spring.application.version属性，方便开发者设置和访问应用程序版本。示例在application.properties中：spring.application.version=1.2.
Oracle数据库从入门到精通系列之六：临时文件快乐骑行^_^ 数据库日常分享专栏 Oracle数据库临时文件
Oracle数据库从入门到精通系列之六：临时文件Oracle中的临时数据文件是一种特殊类型的数据文件。当内存不足时，Oracle会使用它来存储一些临时数据，比如说一些比较大的排序或散列操作的中间结果、临时表中的数据以及结果集数据等。自12c起，对临时表的操作所产生的undo也会放到临时表空间中永久性的表和索引永远不会存储在临时表空间中，但是临时表中的数据及其索引会存放在这里。也就是应用程序储存数据
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他