机器学习算法与Python学习-公众号

推荐 | Python机器学习项目实战（附代码 + 可下载）【一】

这是一篇完全手把手进行机器学习项目构建的教程，包含：

1. 数据清理和格式化

2. 探索性数据分析

3. 特征工程和特征选择

4. 在性能指标上比较几种机器学习模型

5. 对最佳模型执行超参数调整

6. 在测试集合中评估最佳模型

7. 解释模型结果

8. 得出结论。

今天是第一部分（1-3）从数据清理，到数据分析，到特征工程，再到Baseline的构建，作者以浅显易懂的语言和清晰的示例和代码教你从头开始走过一个机器学习之旅，并且附详细的代码，大家可以收藏和学习。

作者 | William Koehrsen

编译 | 专知

参与 | Chaofan, Xiaowen

添加微信：MLAPython

（姓名-单位-方向）

即可加入机器学习交流群

全文下载方式：

公众号后台回复关键词

20180813

用python完成一个完整的机器学习项目

第一部分

Putting the machine learning pieces together

阅读一本数据科学书籍或学习一门相关的课程，你可能感觉你有了独立的碎片，但不知道如何将它们拼在一起。想要继续推进下去并解决完整的机器学习问题可能令人望而生畏，但完成第一个项目后将使你有信心应对任何数据科学问题。本系列文章将介绍——使用了真实世界数据集的机器学习项目的完整解决方案，让你了解所有碎片是如何拼接在一起的。

我们将按照一般机器学习的工作流程逐步进行：

1. 数据清理和格式化

2. 探索性数据分析

3. 特征工程和特征选择

4. 在性能指标上比较几种机器学习模型

5. 对最佳模型执行超参数调整

6. 在测试集合中评估最佳模型

7. 解释模型结果

8. 得出结论

按照上述流程，我们将介绍每个步骤如何进入到下一步，以及如何用Python实现每个部分。完整的项目在GitHub上可以找到，第一个notebook在这里。第一篇文章将涵盖步骤1-3，其余的内容将在后面的文章中介绍。

GitHub完整项目链接：

https://github.com/WillKoehrsen/machine-learning-project-walkthrough

问题定义

编码之前的第一步是了解我们试图解决的问题和可用的数据。在这个项目中，我们将使用公共可用的纽约市的建筑能源数据【1】。

目标是使用能源数据建立一个模型，来预测建筑物的Energy Star Score（能源之星分数），并解释结果以找出影响评分的因素。

数据包括Energy Star Score，意味着这是一个监督回归机器学习任务：

监督：我们可以知道数据的特征和目标，我们的目标是训练可以学习两者之间映射关系的模型。

回归：Energy Star Score是一个连续变量。

我们想要开发一个模型，在准确性上——它可以实现预测Energy Star Score，并且结果接近真实值。在解释上—— 我们可以理解模型的预测。

一旦我们知道了目标，在深入挖掘数据并构建模型时，就可以用它来指导我们的决策。

数据清洗

与大多数数据科学课程所相信的相反，并非每个数据集都是一组完美的观测数据，没有缺失值或异常值（你可以查看你的mtcars【2】和iris数据集【3】）。现实世界的数据很乱，这意味着在我们开始分析之前，我们需要清理并将其转换为可接受的格式【4】。数据清理，是大多数实际的数据科学问题中不具吸引力，但必不可少的一部分。

首先，我们可以将数据用Pandas DataFrame加载并查看：

import pandas as pd
import numpy as np
# Read in data into a dataframe
data = pd.read_csv('data/Energy_and_Water_Data_Disclosure_for_
Local_Law_84_2017__Data_for_Calendar_Year_2016_.csv')
# Display top of dataframe
data.head()

这是包含60列的完整数据的子集。我们已经可以看到几个问题：首先，我们知道我们想要预测的Energy Star Score的情况，但我们不知道任何一列的含义。虽然这不一定是个问题——我们通常可以在没有任何变量知识的情况下创建一个准确的模型——我们想把重点放在模型的可解释性上，而至少了解一些列可能是重要的。

起初，我从初创阶段得到任务时，我不想问所有的列名是什么意思，所以我查看了csv文件的名称，

并决定搜索“Local Law 84”。所以在上文我解释——这是纽约法律要求的，所有具有一定规模的建筑物报告其能源使用情况。关于列的更多搜索内容在这里。也许看一个文件名是一个明显的开始，但对我来说，这是提醒你要放慢速度，这样你才不会错过任何重要的东西！

我们不需要研究所有的列的定义，但我们至少应该了解Energy Star Score，它被描述为：

根据报告年度中，自我报告的能源使用情况而进行的1至100百分位的排名。 Energy Star Score是用于比较建筑物能效的相对度量。【5】

这解决了第一个小问题，但第二个问题是缺少的值被编码为“Not Available”。这是Python中的一个字符串，这意味着甚至包含数字的列都将被存储为object数据类型，因为Pandas会将包含任何字符串的列转换为所有元素都为字符串的列。我们可以使用dataframe.info（）方法来查看列的数据类型：

# See the column data types and non-missing values
data.info()

当然，一些明确包含数字（例如ft²）的列被存储为object类型。我们不能对字符串进行数值分析，因此必须将其转换为数字（特别是浮点数）数据类型！

这里有一个简短的Python代码，用不是数字（np.nan）代替所有“Not Available”条目，np.nan可以被解释为数字，这样就可以将相关列转换为float数据类型：

# Replace all occurrences of Not Available with numpy not a number
data = data.replace({'Not Available': np.nan})

# Iterate through the columns
for col in list(data.columns):
# Select columns that should be numeric
if ('ft²' in col or 'kBtu' in col or 'Metric Tons CO2e' in col
or 'kWh' in
col or 'therms' in col or 'gal' in col or 'Score' in col):
# Convert the data type to float
data[col] = data[col].astype(float)

一旦列是数字，我们就可以开始进行调查数据。

缺少数据和异常值

除了不正确的数据类型外，处理真实世界数据时的另一个常见问题是缺失值。这可能是由于许多原因引起的，在我们训练机器学习模型之前必须填写或删除。首先，让我们了解每列中有多少缺失值（请参阅notebook中的代码）。

（为了创建这个表，我使用了这个Stack Overflow论坛的一个函数【6】）。

尽管我们总是希望小心删除信息，但如果列中缺失值的比例很高，那么它对我们的模型可能不会有用。删除列的阈值应该取决于实际问题，并且对于此项目，我们将删除缺失值超过50％的列。

此时，我们可能还想要移除异常值。这些异常可能是由于数据输入中的拼写错误，单位中的错误，或者它们可能是合法但是极端的值。对于这个项目，我们将根据极端异常值的定义来消除异常：

1. the first quartile − 3 ∗ interquartile range

2. he third quartile + 3 ∗ interquartile range

（有关删除列和异常的代码，请参阅notebook）。在数据清理和异常清除过程结束时，我们剩下11,000多个建筑物和49个特征。

探索性数据分析

现在，数据清理这个乏味但必要的步骤已经完成，我们可以继续探索我们的数据！探索性数据分析（EDA）是一个开放式的过程，我们可以计算统计数据，并画图去发现数据中的趋势，异常，模式或关系。（trends, anomalies, patterns, or relationships）

简而言之，EDA的目标是了解我们的数据可以告诉我们什么。它通常以高层概述开始，在我们发现有趣的数据部分后，再缩小到特定的区域。这些发现本身可能很有意思，或者可以用于通知我们的建模选择，例如帮助我们决定使用哪些特征。

单变量图

目标是预测Energy Star Score（将其重新命名为score），因此合理的开始是检查此变量的分布。直方图是可视化单个变量分布的简单而有效的方法，使用matplotlib很容易。

import matplotlib.pyplot as plt
# Histogram of the Energy Star Score
plt.style.use('fivethirtyeight')
plt.hist(data['score'].dropna(), bins = 100, edgecolor = 'k');
plt.xlabel('Score'); plt.ylabel('Number of Buildings');
plt.title('Energy Star Score Distribution');

这看起来很可疑！ Energy Star Score是百分位数，这意味着我们期望看到一个统一的分布，即每个得分分配给相同数量的建筑物。然而，不成比例的建筑物具有最高的100分或最低的1分（对于Energy Star Score来说更高表示越好）。

如果我们回到score的定义，我们会看到它基于“自我报告能量使用”，这可能解释了分数偏高——要求建筑物所有者报告自己的能源使用情况就像要求学生在测试中报告自己的分数！因此，这可能不是衡量建筑能效的最客观标准。

如果我们有无限的时间，我们可能想要调查为什么这么多建筑物有非常高和非常低的分数——我们可以通过选择这些建筑物并查看它们的共同点。但是，我们的目标只是预测分数，而不是设计更好的建筑物评分方法！我们可以在我们的报告中记下分数具有可疑分布，但我们主要关注预测分数。

寻找关系

EDA的主要部分是搜索特征和目标之间的关系。与目标相关的变量对模型很有用，因为它们可用于预测目标。通过使用seaborn库的密度图可以检查目标上的分类变量（仅采用有限的一组值）的效果。

密度图可以被认为是平滑的直方图，因为它显示了单个变量的分布。我们可以按类别对密度图进行着色，以查看分类变量如何改变分布。下面的代码创建了一个用建筑物类型（仅限于具有超过100个数据点的建筑物类型）着色的Energy Star Score密度图：

# Create a list of buildings with more than 100 measurements
types = data.dropna(subset=['score'])
types = types['Largest Property Use Type'].value_counts()
types = list(types[types.values > 100].index)

# Plot of distribution of scores for building categories
figsize(12, 10)

# Plot each building
for b_type in types:
# Select the building type
subset = data[data['Largest Property Use Type'] == b_type]

# Density plot of Energy Star scores
sns.kdeplot(subset['score'].dropna(),
label = b_type, shade = False, alpha = 0.8);

# label the plot
plt.xlabel('Energy Star Score', size = 20); plt.ylabel('Density',
size = 20);
plt.title('Density Plot of Energy Star Scores by Building Type',
size = 28);

我们可以看到建筑类型对Energy Star Score有重大影响。办公楼往往有较高的分数，而酒店的分数较低。这告诉我们，我们应该在建模中包含建筑类型，因为它确实对目标有影响。作为分类变量，我们将不得不对建筑物类型进行one-hot编码。

同上，可以显示自治市镇的Energy Star Score：

自治市镇对建筑类型的评分似乎没有太大的影响。尽管如此，我们可能希望将其纳入我们的模型中，因为各区之间存在细微的差异。

为了量化变量之间的关系，我们可以使用Pearson相关系数。它可以用来衡量两个变量之间的线性关系的强度和方向。 +1分是完美的线性正相关关系，-1分是完美的负线性关系。相关系数的几个值如下所示：

虽然相关系数无法捕捉非线性关系，但它是开始计算变量如何相关的好方法。在Pandas中，我们可以轻松计算数据框中任何列之间的相关性：

# Find all correlations with the score and sort
correlations_data = data.corr()['score'].sort_values()

与目标的最负面（左）和最正面（右）相关性：

特征与目标之间存在几个强烈的负相关性，而EUI对目标最为负面。（这些测量方法在计算方式上略有不同）EUI——能源使用强度（Energy Use Intensity）——是建筑物使用的能源量除以建筑物的平方英尺。它意味着衡量一个建筑，效率越低越好。直观地说，这些相关性是有意义的：随着EUI的增加，Energy Star Score趋于下降。

双变量图

为了可视化两个连续变量之间的关系，我们使用散点图。我们可以在点的颜色中包含附加信息，例如分类变量。例如，下面的图表显示了不同建筑物类型的Energy Star Score与site EUI的关系：

这个图让我们可以看到-0.7的相关系数。随着Site EUI减少，Energy Star Score增加，这种关系在建筑类型中保持稳定。

我们将做的最后的探索性plot被称为Pairs Plot。这是一个很好的探索工具，因为它可以让我们看到多个变量对之间的关系以及单个变量的分布。在这里，我们使用seaborn可视化库和PairGrid函数来创建上三角上具有散点图的配对图，对角线上的直方图以及下三角形上的二维核密度图和相关系数。

# Extract the columns to plot
plot_data = features[['score', 'Site EUI (kBtu/ft²)',
'Weather Normalized Source EUI (kBtu/ft²)',
'log_Total GHG Emissions (Metric Tons CO2e)']]

# Replace the inf with nan
plot_data = plot_data.replace({np.inf: np.nan, -np.inf: np.nan})

# Rename columns
plot_data = plot_data.rename(columns = {'Site EUI (kBtu/ft²)':
'Site EUI',
'Weather Normalized Source EUI (kBtu/ft²)': 'Weather Norm EUI',
'log_Total GHG Emissions (Metric Tons CO2e)': 'log GHG Emissions'})

# Drop na values
plot_data = plot_data.dropna()

# Function to calculate correlation coefficient between two columns
def corr_func(x, y, **kwargs):
r = np.corrcoef(x, y)[0][1]
ax = plt.gca()
ax.annotate("r = {:.2f}".format(r),
xy=(.2, .8), xycoords=ax.transAxes,
size = 20)

# Create the pairgrid object
grid = sns.PairGrid(data = plot_data, size = 3)

# Upper is a scatter plot
grid.map_upper(plt.scatter, color = 'red', alpha = 0.6)

# Diagonal is a histogram
grid.map_diag(plt.hist, color = 'red', edgecolor = 'black')

# Bottom is correlation and density plot
grid.map_lower(corr_func);
grid.map_lower(sns.kdeplot, cmap = plt.cm.Reds)

# Title for entire plot
plt.suptitle('Pairs Plot of Energy Data', size = 36, y = 1.02);

要查看变量之间的交互，我们查找行与列相交的位置。例如，要查看Weather EUorm EUI与score的相关性，我们查看Weather EUorm EUI行和score列，并查看相关系数为-0.67。除了看起来很酷之外，诸如这些图可以帮助我们决定在建模中应该包含哪些变量。

特征工程和选择

特征工程和选择通常会为机器学习问题投入最大的时间。首先，让我们来定义这两个任务是什么：

特征工程：获取原始数据并提取或创建新特征的过程。这可能意味着需要对变量进行变换，例如自然对数和平方根，或者对分类变量进行one-hot编码，以便它们可以在模型中使用。一般来说，我认为特征工程是从原始数据创建附加特征。

特征选择：选择数据中最相关的特征的过程。在特征选择中，我们删除特征以帮助模型更好地总结新数据并创建更具可解释性的模型。一般来说，我认为特征选择是减去特征，所以我们只留下那些最重要的特征。

机器学习模型只能从我们提供的数据中学习，因此确保数据包含我们任务的所有相关信息至关重要。如果我们没有给模型提供正确的数据，那么我们将它设置为失败，我们不应该期望它学习！

对于这个项目，我们将采取以下功能设计步骤：

One-hot编码分类变量（borough and property use type）。
添加数值变量的自然对数转换。

在模型中，分类变量的One-hot编码是必要的。机器学习算法无法理解像“office”这样的建筑类型，因此如果建筑物是办公室，则必须将其记录为1，否则将其记录为0。

添加转换特征可以帮助我们的模型学习数据中的非线性关系。采用平方根，自然对数或特征的次幂是数据科学中的常见做法，也是基于领域知识或在实践中最有效的方法。这里我们将使用数字特征的自然对数。

以下代码选择数字特征，对这些特征进行对数转换，选择两个分类特征，对这些特征进行one-hot编码，然后将两个特征结合在一起。这似乎需要做很多工作，但在pandas中相对简单！

# Copy the original data
features = data.copy()

# Select the numeric columns
numeric_subset = data.select_dtypes('number')

# Create columns with log of numeric columns
for col in numeric_subset.columns:
# Skip the Energy Star Score column
if col == 'score':
next
else:
numeric_subset['log_' + col] = np.log(numeric_subset[col])

# Select the categorical columns
categorical_subset = data[['Borough', 'Largest Property Use Type']]

# One hot encode
categorical_subset = pd.get_dummies(categorical_subset)

# Join the two dataframes using concat
# Make sure to use axis = 1 to perform a column bind
features = pd.concat([numeric_subset, categorical_subset], axis = 1)

在这个过程之后，我们有超过11,000个具有110列（特征）的观测值（建筑物）。并非所有这些特征都可能对预测Energy Star Score有用，所以现在我们将转向特征选择从而去除一些变量。

特征选择

我们数据中的110个特征中的许多特征是多余的，因为它们彼此高度相关。例如，以下是Site EUI与Weather Normalized SiteEUI的相关系数为0.997的图。

相互强相关的特征被称为共线，消除这些特征对中的一个变量通常可以帮助机器学习模型推广并更易于解释。（我应该指出，我们正在讨论特征与其他特征的相关性，而不是与目标的相关性，这有助于我们的模型！）

有许多方法可以计算特征之间的共线性，其中最常见的是方差扩大因子。在这个项目中，我们将使用相关系数来识别和删除共线特征。如果它们之间的相关系数大于0.6，我们将放弃一对特征中的一个。对于实现，看看notebook（和这个stack overflow答案）

虽然这个阈值可能看起来是任意的，但我尝试了几个不同的阈值，这个选择产生了最好的模型机器学习是一个经验性领域，通过试验来发现性能最好的！特征选择后，我们剩下64个特征和1个目标。

# Remove any columns with all na values
features = features.dropna(axis=1, how = 'all')
print(features.shape)
(11319, 65)

建立Baseline

我们现在已经完成了数据清理，探索性数据分析和特征工程。开始建模之前要做的最后一步是建立一个Baseline。这实际上是我们可以比较我们的结果的一种猜测。如果机器学习模型没有超越这个猜测，那么我们可能必须得出结论，机器学习对于任务来说是不可接受的，或者我们可能需要尝试不同的方法。

对于回归问题，合理的Baseline是猜测测试集中所有示例的训练集上目标的中值。这设置了一个任何模型都要超越的相对较低的标准。

我们将使用的度量标准是平均绝对误差（Mean Absolute Error）（MAE），它测量预测的平均绝对误差。有很多回归的指标，但我喜欢Andrew Ng的建议【7】，选择一个指标，然后在评估模型时坚持使用它。平均绝对误差很容易计算，并且可以解释。

在计算Baseline之前，我们需要将我们的数据分成一个训练集和一个测试集：

1. 训练集是我们在训练期间给我们的模型提供特征以及答案的。目地是让模型学习特征与目标之间的映射。

2. 测试集合的特征用于评估训练的模型。模型不允许查看测试集的答案，并且只能使用特征进行预测。我们知道测试集的答案，因此我们可以将测试预测与答案进行比较。

我们将使用70％的数据进行训练，30％用于测试：

# Split into 70% training and 30% testing set
X, X_test, y, y_test = train_test_split(features, targets,
test_size = 0.3,
random_state = 42)

现在我们可以计算出Baseline的性能：

# Function to calculate mean absolute error
def mae(y_true, y_pred):
return np.mean(abs(y_true - y_pred))

baseline_guess = np.median(y)

print('The baseline guess is a score of %0.2f' % baseline_guess)
print("Baseline Performance on the test set: MAE = %0.4f" %
mae(y_test, baseline_guess))

The baseline guess is a score of 66.00
Baseline Performance on the test set: MAE = 24.5164

Baseline的估计在测试集中约为25分。得分范围从1到100，所以这代表25％的误差，相当低的一个超越！

结论

在本文中，我们走过了机器学习问题的前三个步骤。在定义问题之后，我们：

1. 清理并格式化原始数据

2. 进行探索性数据分析以了解数据集

3. 开发了一系列我们将用于模型的特征

最后，我们还完成了建立我们可以判断我们的机器学习算法的Baseline的关键步骤。

第二篇文章将展示如何使用Scikit-Learn评估机器学习模型，选择最佳模型并执行超参数调整来优化模型。

1.http://www.nyc.gov/html/gbee/html/plan/ll84_scores.shtml

2.http://stat.ethz.ch/R-manual/R-devel/library/datasets/html/mtcars.html

3.https://archive.ics.uci.edu/ml/datasets/iris

4.https://www.springboard.com/blog/data-wrangling/

5.https://www.energystar.gov/buildings/facility-owners-and-managers/existing-buildings/use-portfolio-manager/interpret-your-results/what

6.https://stackoverflow.com/questions/26266362/how-to-count-the-nan-values-in-a-column-in-pandas-dataframe/39734251#39734251

7.https://www.coursera.org/learn/machine-learning-projects/lecture/wIKkC/single-number-evaluation-metric

原文链接：

https://towardsdatascience.com/a-complete-machine-learning-walk-through-in-python-part-one-c62152f39420

代码链接：

https://github.com/WillKoehrsen/machine-learning-project-walkthrough/blob/master/Machine%20Learning%20Project%20Part%201.ipynb

你可能感兴趣的:(推荐 | Python机器学习项目实战（附代码 + 可下载）【一】)

.NET架构师：全网最全“权限系统”设计剖析数字智慧化基地 .NET/C#中大型项目开发 .net .netcore 微服务架构系统架构
作者：科技、互联网行业优质创作者专注领域：.Net技术、软件架构、人工智能、数字化转型、DeveloperSharp、微服务、工业互联网、智能制造欢迎关注我（Net数字智慧化基地），里面有很多高价值技术文章，是你刻苦努力也积累不到的经验，能助你快速成长。升职+涨薪！！1为什么需要权限管理日常工作中权限的问题时时刻刻伴随着我们，程序员新入职一家公司需要找人开通各种权限，比如网络连接的权限、编码下载提
二、C语言分支循环语句无他.唯手熟尔 c语言开发语言
目录1、if语句1.1if语句的基本语法1.1.1单分支结构1.1.2双分支结构1.1.3多分支结构1.2if语句的核心规则1.2.1条件表达式1.2.2代码块与大括号1.2.3嵌套if语句1.3if语句的使用场景1.3.1数值范围判断1.3.2字符或枚举类型判断1.3.3逻辑组合判断1.4if语句的注意事项1.4.1常见错误1.4.2悬空else问题1.5if语句的优缺点1.6总结2、switc
鸿蒙OS系统技术架构特性解析 - 探索新技术HarmonyOS JfdCoding harmonyos 架构华为
随着智能设备的快速发展，操作系统的重要性日益凸显。鸿蒙OS（HarmonyOS）是华为公司为各类设备开发的全场景分布式操作系统，它具备强大的技术架构特性。本文将深入探讨鸿蒙OS的技术架构，并通过相应的源代码示例来解释其特性。分布式架构鸿蒙OS采用分布式架构，这是它最显著的特点之一。分布式架构允许不同设备之间实现高效的通信和资源共享，提供卓越的用户体验。下面是一个简单的代码示例，展示了如何在鸿蒙OS
第9章安全漏洞、威胁和对策（9.17-9.19） HeLLo_a119 #OSG9 安全网络安全
9.17移动设备(mobiledevice)移动设备是指电池驱动的任何东西,通常不需要电源线就可以运行的任何东西。备考时要把智能手机与移动设备、笔记本电脑、平板电脑乃至智能手表或计步器也考虑进来。一些移动设备连典型的默认安全设置都做不到，更别提可供使用的安全性能了，因为它们运行的往往是简约版操作系统或定制的移动操作系统，而这些操作系统不像流行的PC机操作系统那样在安全性方面有漫长的改进史。无论是计
[漏洞挖掘与防护] 01.漏洞利用之CVE-2019-0708复现及防御详解（含学习路线） Eastmount 网络安全自学篇网络安全漏洞挖掘 web渗透 CVE 系统安全
这是作者新开的一个专栏——“漏洞挖掘与防护”，前期会复现各种经典和最新漏洞，并总结防护技巧；后期尝试从零学习漏洞挖掘技术，包括Web漏洞和二进制及IOT相关漏洞，以及Fuzzing技术。新的征程，新的开启，漫漫长征路，偏向虎山行。享受过程，感谢您的陪伴，一起加油~欢迎关注作者新建的『网络攻防和AI安全之家』知识星球（文章末尾）第一篇文章将详细介绍Windows远程桌面服务漏洞（CVE-2019-0
SpringBoot整合WebSocket服务码云217 spring boot websocket 后端
1、前言2、开始使用2.1、加入Maven依赖2.2(推荐方式)使用WebSocketConfigurer方式创建WebSocket端点(二选一)2.2.1创建一个测试WebSocket处理器2.2.2开启WebSocket并且注册WebSocket处理器2.3使用ServerEndpoint方式创建WebSocket端点(二选一)2.3.1创建一个测试WebSocket处理器2.3.2开启Web
栈和队列-滑动窗口最大值 Hasno. 算法 leetcode 数据结构
代码随想录-刷题笔记239.滑动窗口最大值-力扣（LeetCode）内容：这道题给我的收获真的很大，主要是学会了一个新的数据结构。单调队列:单调-从名字就可以知道，要么单调递增，要么单调递减。单调队列是从队首开始递减的一个队列，并且一定是单调递减队首应该是第一大，依次是第二大，第三大....针对滑动窗口，无非是进行遍历，使用双指针,一个为start,一个为end二者分别代表窗口的起点和终点，距离是
MATLAB基础学习相关知识没有不重的名么 matlab 学习数据结构
MATLAB安装参考：抖音-记录美好生活MATLAB基础知识学习参考：【1小时Matlab速成教程-哔哩哔哩】https://b23.tv/CnvHtO3第1部分：变量定义和基本运算生成矩阵：%生成矩阵%直接法%,表示行;表示列a=[1,2,3;4,5,6;7,8,9];%冒号一维矩阵a=开始：步长：结束，步长为1可省略b=1:1:10;%1,2,...10b=1:10;%与上一个等价%函数生成%
[HarmonyOS]简单说一下鸿蒙架构郝晨妤 HarmonyOS harmonyos 架构华为鸿蒙
鸿蒙操作系统（HarmonyOS）是由华为公司开发的一款面向全场景的操作分布式系统。它旨在提供一个统一的操作系统平台，支持多种设备，包括智能手机、平板电脑、智能电视、可穿戴设备、智能家居等。鸿蒙架构的设计目标是实现设备之间的无缝协同，提升用户体验。鸿蒙架构的主要特点1.分布式架构：分布式软总线：鸿蒙操作系统的核心技术之一，实现了设备之间的高效通信。通过分布式软总线，不同设备可以像同一设备上的不同进
JavaScript 类型转换的意外神明木佑 javascript 开发语言 ecmascript
在JavaScript中，类型转换是将一个数据类型转换为另一个数据类型的过程。它可以是显式的，即通过使用特定的转换函数或操作符来实现，也可以是隐式的，即由JavaScript引擎自动完成。以下是JavaScript中的一些常见类型转换规则：字符串转换：使用String()函数或toString()方法可以将其他类型的值转换为字符串类型。varnum=42;varstr=String(num);//
HTML 图像标签使用陷阱神明木佑 html 前端
新手在使用标签时常见的错误有：忘记设置alt属性：alt属性用于提供图像的替代文本信息，当图像无法显示时，浏览器会显示alt属性中的文本。如果忘记设置alt属性，用户在无法看到图像的情况下无法获取替代文本信息，降低了网站的可访问性。错误地设置图像大小：可以通过设置width和height属性来指定图像的显示大小，但是一些新手可能会错误地设置了不合适的大小值，导致图像在页面上显示过大或过小，从而破坏
input的Checkbox（复选框）属性具体怎么使用神明木佑前端 javascript 开发语言
Checkbox（复选框）是一种常用的表单元素，允许用户从一组选项中选择一个或多个选项。它在各种应用程序和网站中广泛使用，为用户提供灵活的选择方式。以下是Checkbox的一些基本用法和注意事项：基本用法：在HTML中，Checkbox是通过标签创建的。每个Checkbox都有一个name属性，用于标识该Checkbox所属的组。当用户提交表单时，只有被选中的Checkbox的值会被发送。Chec
基于Python第三方模块Pandas以指定数量分割数据写入同一个Excel的不同Sheet表中袁袁袁袁满 Python实用技巧大全 python pandas excel 不同Sheet表
记录一下工作中的小技巧：在Python中，使用pandas库来从SQLServer或者Mysql读取数据（或其他数据来源），然后根据需要将数据分割并写入不同的Excelsheet。下面是一个详细的步骤说明，包括如何连接SQLServer或者Mysql数据库、读取数据、分割数据以及将分割后的数据写入不同的Excelsheet。文章目录步骤1:安装必要的库步骤2:连接数据库并读取数据步骤3:分割数据步
第二部分：typora linux kernel 笔记笔记
第二部分：typora目前typora是付费才能使用的，不过还好，一次购买终身使用。typora的使用一般传统的markdown编辑器都有两个窗口，左边是源码，右边是渲染后的效果。但是typora不同，它把源码和预览合二为一，实现了所见即所得。在typora中，有两种编辑方式，一种是混合界面（也就是源码和预览合二为一的界面），另一个就是源码模式（也就是编写源码的界面）。我们接下来提到的一些语法是对
软件测试技术之iOS 单元测试—逻辑测试学掌门 IT 软件测试单元测试 ios junit
单元测试分为3种：逻辑测试：测试逻辑方法异步测试：测试耗时方法（用来测试包含多线程的方法）性能测试：测试某一方法运行所消耗的时间本节介绍逻辑测试，直接创建一个项目，并选中IncludeUnitTests选项。创建工程时选中UnitTests.png1.新建一个Person类，提供字典转模型的方法，这个方法就是需要进行单元测试的：＋(instancetype)personWithDict:(NSDi
C语言学习，插入排序五味香 c语言学习排序算法算法开发语言 android 数据结构
C语言，插入排序是一种简单直观的排序算法，插入排序是通过构建有序序列，对于未排序数据，在已排序序列中从后向前扫描，找到相应位置并插入。示例：//插入排序函数voidinsertionSort(intarr[],intn){for(inti=1;i=0&&arr[j]>key){arr[j+1]=arr[j];j=j-1;}arr[j+1]=key;}}//打印voidprintArray(inta
小白怎么买到顶级纯原莆田鞋?选择这三家商家就可以了. MM老狼爱吃肉生活
速览小白购买顶级纯原莆田鞋，推荐考察商家口碑、店铺资质，并选择信誉良好的商家。具体可关注Karry鞋业等357，但记得多渠道验证商家信誉。详答对于小白来说，想要购买到顶级纯原莆田鞋，需要关注以下几个方面：1.了解市场顶级纯原莆田鞋特点：这类鞋子通常具备高品质、精细工艺以及接近或等同于正品的外观和舒适度。市场现状：莆田鞋市场鱼龙混杂，存在大量仿冒和次品，因此选择可靠的购买渠道至关重要。2.选择商家原
鸿蒙NEXT开发-应用数据持久化之用户首选项东林知识库鸿蒙学习 harmonyos 华为
注意：博主有个鸿蒙专栏，里面从上到下有关于鸿蒙next的教学文档，大家感兴趣可以学习下如果大家觉得博主文章写的好的话，可以点下关注，博主会一直更新鸿蒙next相关知识目录1.应用数据持久化2.应用数据持久化-用户首选项2.1概述2.2约束限制2.3常用方法2.3.1封装用户首选项工具类2.3.2初始化用户首选项2.3.3使用用户首选项1.应用数据持久化应用数据持久化，是指应用将内存中的数据通过文件
在linux中安装anaconda，并激活问题咨询解答微信：wyj140615 linux 运维服务器
在linux中安装anaconda，并激活base)wyj@wyj:~/下载$history1sudodpkg-isogoupinyin_4.2.1.145_arm64.deb2sudodpkg-iWeChatLinux_x86_64.deb3sudodpkg-isogoupinyin_4.2.1.145_arm64.deb4ls5pwd6gitclonesudoaptinstallnet-too
前端必备：正则表达式入门指南与高频场景实战禅意码农 js 正则表达式 javascript node.js
正则表达式是处理文本的瑞士军刀，但对于新手来说可能有些复杂。本文通过通俗易懂的讲解和实用案例，带你快速上手！一、正则表达式基础组成1.修饰符（Flags）修饰符放在正则表达式末尾（如/pattern/igm），用于控制匹配模式：修饰符名称作用iignoreCase忽略大小写（如匹配"A"和"a"）gglobal全局匹配（匹配所有结果，而非第一个）mmultiline多行模式（允许^和$匹配行首行尾
7天撸完KTV点歌系统,含后台管理系统(完整版) 码上来財 Node Vue Node Vue Mongodb ElementUI Express
最近手有点痒琢磨着做个啥,朝思暮想还是写个KTV点歌系统,模拟了一下KTV开户的思路,7天累死我了,不过技术点还挺多的,希望你可以看完（〜㉨)〜用Node(Express)教你写KTV点歌系统，包括前台内容和后台管理系统，整合Express框架和Mongodb数据库服务器开发；教你用Vue.JS，ElementUI和iViewUI写出超漂亮的页面,随心点歌随心听思维导图技术栈后端：Express+
2025年最新整理，RAID级别对比大全，建议收藏！ wljslmz 网络技术服务器 RAID
在数字化的浪潮中，数据已成为现代社会的“新石油”。无论是企业的核心数据库，还是个人珍藏的照片视频，一旦丢失都可能引发灾难性后果。然而，传统的单一硬盘存储方式，就像“独木舟航行在大海”——随时可能因硬件故障、人为错误或意外事件而倾覆。这时，RAID（独立冗余磁盘阵列）横空出世！它像一支训练有素的“数据护卫队”，通过多硬盘协作，在速度、容量和安全性之间找到完美平衡⚡。本文将深入解析RAID的奥秘，从技
〖程序员的自我修养 - 认知剖析篇②〗- 学习编程之前你需要知道这些哈哥撩编程程序员：职场效能必修宝典程序员的自我修养学习编程前的思考如何选择一门编程语言职场和发展学习编程可以做什么
人之所以会觉得迷茫，本质上是欠缺对自己的一个控制力、识别庞杂信息、去伪存真的独立思考与认知能力。说明：该文属于程序员的自我修养专栏，购买任意白宝书体系化专栏可加入易编程社区，早鸟价订阅模式除外。福利：加入社区的小伙伴们，除了可以获取博主所有付费专栏的阅读权限之外，还可加入星荐官共赢计划，详情请戳我。作者：不渴望力量的哈士奇(哈哥)，十余年工作经验,跨域学习者，从事过全栈研发、产品经理等工作，现任研
python异常处理游客520 python从入门到出家 python全栈学习 python 开发语言
在编写Python程序时，难免会遇到各种错误和异常。无论是文件不存在、网络连接失败，还是简单的除以零操作，这些异常情况都可能导致程序崩溃。为了让程序更加健壮，Python提供了强大的异常处理机制。本文将详细介绍Python中的异常处理，帮助你编写更加可靠的代码。1.什么是异常？异常是程序在执行过程中发生的错误或意外情况。当Python解释器遇到无法处理的错误时，它会抛出一个异常。如果不进行处理，程
tkinter做一个倒计时弹窗游客520 python全栈学习
效果图：通过clock_time参数定义倒计时的时间，当倒计时结束时，窗口会自动关闭。root.protocol("WM_DELETE_WINDOW",no_closing)#该指令设置点击窗口时执行的函数，本例为pass，没有做任何事，所以关闭按钮是无效状态。importtkinterdefrefresh_current_time():"""刷新当前时间"""globalclock_timede
python办公自动化-业务实操：xlwings解决excel批量插产品图的问题斑点鱼 SpotFish python xlwings python excel 前端
近期，业务同事有个巨大的烦恼一直困扰着她，因使用频繁一直麻烦其他同事帮忙插图实在很不方便，她找到了斑点鱼帮她解决这个问题。业务同事A:斑点鱼，可以帮我修复excel宏插图错位的问题么？Spotfish:宏斑点鱼不会，斑点鱼可以用python对excel插图，但要按照规定格式来，你还需要吗？业务同事A:可以，只要不错位就行，不用再麻烦其他同事帮我跑图~Spotfish:好的，那斑点鱼就用Python
【Kafka专栏 12】实时数据流与任务队列的较量：Kafka与RabbitMQ有什么不同夏之以寒夏之以寒-kafka专栏 kafka rabbitmq 数据流任务队列
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
java设计模式单件模式_Head First设计模式（5）：单件模式 weixin_39822493 java设计模式单件模式
更多的可以参考我的博客，也在陆续更新inghttp://www.hspweb.cn/单件模式确保一个类只有一个实例，并提供一个全局访点。例子：学生的学号生成方案，是在学生注册后，通过录入学生的基本信息，包括入学学年、学院、专业、班级等信息后，保存相应的资料后自动生成的。学号生成器的业务算法为：入学学年(2位)+学院代码(2位)+专业代码(2位)+班级代码(2位)+序号(2位)1.目录image2.
鸿蒙NEXT（开发进阶）通过关系型数据库实现数据持久化你不要给我蛙蛙叫啊鸿蒙开发 HarmonyOS OpenHarmony harmonyos 华为鸿蒙前端鸿蒙系统 android 数据库
鸿蒙NEXT开发实战往期必看文章：一分钟了解”纯血版！鸿蒙HarmonyOSNext应用开发！“非常详细的”鸿蒙HarmonyOSNext应用开发学习路线！（从零基础入门到精通）HarmonyOSNEXT应用开发案例实践总结合（持续更新......）HarmonyOSNEXT应用开发性能优化实践总结（持续更新......）场景介绍关系型数据库基于SQLite组件，适用于存储包含复杂关系数据的场景，
【Python】list（列表）：有序、可变的集合彬彬侠 Python基础 list 列表集合 python
在Python中，list（列表）是一种非常常见的数据结构，它是一个有序、可变的集合，可以包含多个元素（包括不同类型的元素）。Python提供了丰富的操作来处理列表，下面我将详细介绍常见的列表操作。1.创建列表你可以通过方括号[]来创建一个列表。#创建一个空列表empty_list=[]#创建一个包含多个元素的列表fruits=["apple","banana","cherry"]#列表可以包含不
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi