极客小普冲呀

如何在 Python 中开始机器学习？(小白必看）

其实学习机器学习的最好方法是设计和完成小项目。

Python 是一种流行且功能强大的解释型语言。与 R 不同，Python 是一种完整的语言和平台，可用于研究和开发以及开发生产系统。

还有很多模块和库可供选择，提供多种方式来完成每项任务。

开始使用 Python 进行机器学习的最佳方式是完成一个项目。

安装并启动 Python 解释器。
逐步完成一个小项目的、图。
在其中你也会收获成就感，一边接下来一直做下去

初学者需要一个小的端到端项目

大家可以参考一下基础步骤：

定义问题。
准备数据。
评估算法。
改善结果。
呈现结果。

真正适应新平台或工具的最佳方法是端到端地完成机器学习项目并涵盖关键步骤。就是从加载数据、汇总数据、评估算法和做出一些预测。

做完这些之后，你就有了一个模板，你可以在其他数据集上使用，之后再进一步的数据准备和改进结果任务。

Python 中的机器学习：分步教程

在本节中，我们将端到端地完成一个小型机器学习项目。

以下是我们将要介绍的内容的概述：

安装 Python 和 SciPy 平台。
加载数据集。
总结数据集。
可视化数据集。
评估一些算法。
做出一些预测。

完成每一步，尝试自己输入命令或复制并粘贴命令。

具体操作教程：

1. 下载、安装和启动 Python SciPy

系统上安装 Python 和 SciPy 平台，

1.1 安装 SciPy 库

本教程假设 Python 版本为 2.7 或 3.6+。

您需要安装 5 个关键库。以下是本教程所需的 Python SciPy 库列表：

scipy
numpy
matplotlib
pandas
sklearn

有很多方法可以安装这些库。我最好的建议是选择一种方法。

该SciPy的安装页面提供了多个不同的平台，如Linux，Mac OS X和Windows上安装上述库极好的说明。（觉得使用记得给小普一个点赞，编辑不易~）

在 Mac OS X 上，您可以使用 macports 来安装 Python 3.6 和这些库。
在 Linux 上，您可以使用包管理器（例如 Fedora 上的 yum）来安装 RPM。

如果您使用的是 Windows ，我建议安装Anaconda的免费版本。

注意：本教程假设您安装了 scikit-learn 0.20 或更高版本。

需要的话，小普会出一些教程：

如何使用Anaconda为机器学习设置Python环境

如何使用Python3创建用于机器学习的Linux虚拟机

1.2 启动Python并检查版本

确保您的 Python 环境已成功安装并按预期工作是一个好主意。

下面的脚本将帮助您测试您的环境。它导入本教程中所需的每个库并打印版本。

打开命令行并启动python解释器：

python

我建议直接在解释器中工作或编写脚本而不是大型编辑器和 IDE 上运行它们，专注于机器学习而不是工具链。

键入或复制并粘贴以下脚本：

# Check the versions of libraries
 
# Python version
import sys
print('Python: {}'.format(sys.version))
# scipy
import scipy
print('scipy: {}'.format(scipy.__version__))
# numpy
import numpy
print('numpy: {}'.format(numpy.__version__))
# matplotlib
import matplotlib
print('matplotlib: {}'.format(matplotlib.__version__))
# pandas
import pandas
print('pandas: {}'.format(pandas.__version__))
# scikit-learn
import sklearn
print('sklearn: {}'.format(sklearn.__version__))

这是我在 OS X 工作站上得到的输出：

Python: 3.6.11 (default, Jun 29 2020, 13:22:26) 
[GCC 4.2.1 Compatible Apple LLVM 9.1.0 (clang-902.0.39.2)]
scipy: 1.5.2
numpy: 1.19.1
matplotlib: 3.3.0
pandas: 1.1.0
sklearn: 0.23.2

将上述输出与您的版本进行比较。

理想情况下，你的版本应该匹配或更新。API 不会快速更改，因此如果你落后几个版本，这个教程也适用。

2. 加载数据

我们将使用鸢尾花数据集。这个数据集很出名，因为它被几乎所有人用作机器学习和统计中的“hello world”数据集。

该数据集包含 150 个鸢尾花的观察结果。花有四列以厘米为单位的测量值。第五列是观察到的花的种类。所有观察到的花都属于三个物种之一。

你可以网商搜索相关数据集

在这一步中，我们将从 CSV 文件 URL 加载。

2.1 导入库

首先，让我们导入我们将在本教程中使用的所有模块、函数和对象。

# Load libraries
from pandas import read_csv
from pandas.plotting import scatter_matrix
from matplotlib import pyplot
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
...

如果有错误，可能需要一个有效的 SciPy 环境。请参阅上面有关设置环境的建议。

2.2 加载数据集

我们可以直接从 UCI 机器学习存储库加载数据。

我们正在使用Pandas 加载数据。接下来，我们还将使用 Pandas 通过描述性统计和数据可视化来探索数据。

请注意，我们在加载数据时指定了每列的名称。这将有助于稍后我们探索数据。

# Load dataset
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/iris.csv"
names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class']
dataset = read_csv(url, names=names)

数据集应该正常加载。

如果您确实有网络问题，您可以将iris.csv文件下载到您的工作目录并使用相同的方法加载它，将 URL 更改为本地文件名。

3. 总结数据集

现在是查看数据的时候了。

在这一步中，我们将通过几种不同的方式查看数据：

数据集的维度。
查看数据本身。
所有属性的统计汇总。
按类变量细分数据。

别着急，每看一次数据就是一个命令。这些是有用的命令，您可以在未来的项目中反复使用。

3.1 数据集维度

我们可以通过 shape 属性快速了解数据包含多少个实例（行）和多少个属性（列）。

...
# shape
print(dataset.shape)

应该看到 150 个实例和 5 个属性：

(150, 5)

3.2 查看数据

实际观察您的数据也总是一个好主意。

...
# head
print(dataset.head(20))

您应该看到数据的前 20 行：


    sepal-length  sepal-width  petal-length  petal-width        class
0            5.1          3.5           1.4          0.2  Iris-setosa
1            4.9          3.0           1.4          0.2  Iris-setosa
2            4.7          3.2           1.3          0.2  Iris-setosa
3            4.6          3.1           1.5          0.2  Iris-setosa
4            5.0          3.6           1.4          0.2  Iris-setosa
5            5.4          3.9           1.7          0.4  Iris-setosa
6            4.6          3.4           1.4          0.3  Iris-setosa
7            5.0          3.4           1.5          0.2  Iris-setosa
8            4.4          2.9           1.4          0.2  Iris-setosa
9            4.9          3.1           1.5          0.1  Iris-setosa
10           5.4          3.7           1.5          0.2  Iris-setosa
11           4.8          3.4           1.6          0.2  Iris-setosa
12           4.8          3.0           1.4          0.1  Iris-setosa
13           4.3          3.0           1.1          0.1  Iris-setosa
14           5.8          4.0           1.2          0.2  Iris-setosa
15           5.7          4.4           1.5          0.4  Iris-setosa
16           5.4          3.9           1.3          0.4  Iris-setosa
17           5.1          3.5           1.4          0.3  Iris-setosa
18           5.7          3.8           1.7          0.3  Iris-setosa
19           5.1          3.8           1.5          0.3  Iris-setosa

3.3 统计汇总

现在我们可以看一下每个属性的摘要。

这包括计数、平均值、最小值和最大值以及一些百分位数。

...
# descriptions
print(dataset.describe())

我们可以看到，所有的数值都具有相同的刻度（厘米），并且在 0 到 8 厘米之间具有相似的范围。

       sepal-length  sepal-width  petal-length  petal-width
count    150.000000   150.000000    150.000000   150.000000
mean       5.843333     3.054000      3.758667     1.198667
std        0.828066     0.433594      1.764420     0.763161
min        4.300000     2.000000      1.000000     0.100000
25%        5.100000     2.800000      1.600000     0.300000
50%        5.800000     3.000000      4.350000     1.300000
75%        6.400000     3.300000      5.100000     1.800000
max        7.900000     4.400000      6.900000     2.500000

3.4 类分布

现在让我们看看属于每个类的实例（行）数。我们可以将其视为绝对计数。

...
# class distribution
print(dataset.groupby('class').size())

我们可以看到每个类都有相同数量的实例（数据集的 50 或 33%）。

class
Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50

3.5 完整示例

作为参考，我们可以将之前的所有元素组合到一个脚本中。

下面列出了完整的示例。

4. 数据可视化

我们现在对数据有了一个基本的了解。我们需要通过一些可视化来扩展它。

我们将看两种类型的图：

单变量图以更好地理解每个属性。
多变量图以更好地理解属性之间的关系。

4.1 单变量图

我们从一些单变量图开始，即每个单独变量的图。

鉴于输入变量是数字变量，我们可以创建每个变量的箱线图。

...
# box and whisker plots
dataset.plot(kind='box', subplots=True, layout=(2,2), sharex=False, sharey=False)
pyplot.show()

这让我们对输入属性的分布有了更清晰的了解：

我们还可以创建每个输入变量的直方图以了解分布情况。

...
# histograms
dataset.hist()
pyplot.show()

看起来可能有两个输入变量具有高斯分布。这很有用，因为我们可以使用可以利用这个假设的算法。

4.2 多元图

现在我们可以看看变量之间的相互作用。

首先，让我们看一下所有属性对的散点图。这有助于发现输入变量之间的结构化关系。

...
# scatter plot matrix
scatter_matrix(dataset)
pyplot.show()

注意一些属性对的对角线分组。这表明高度相关性和可预测的关系。

.3 完整示例

作为参考，我们可以将之前的所有元素组合到一个脚本中。

下面列出了完整的示例。

# visualize the data
from pandas import read_csv
from pandas.plotting import scatter_matrix
from matplotlib import pyplot
# Load dataset
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/iris.csv"
names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class']
dataset = read_csv(url, names=names)
# box and whisker plots
dataset.plot(kind='box', subplots=True, layout=(2,2), sharex=False, sharey=False)
pyplot.show()
# histograms
dataset.hist()
pyplot.show()
# scatter plot matrix
scatter_matrix(dataset)
pyplot.show()

5. 评估一些算法

现在是时候创建一些数据模型并估计它们对看不见的数据的准确性了。

这是我们将在此步骤中介绍的内容：

分离出一个验证数据集。
设置测试工具以使用 10 折交叉验证。
建立多个不同的模型，从花卉测量中预测物种
选择最佳模型。

5.1 创建验证数据集

我们需要知道我们创建的模型是好的。

稍后，我们将使用统计方法来估计我们在看不见的数据上创建的模型的准确性。我们还希望通过在实际未见数据上评估最佳模型对未见数据的准确性进行更具体的估计。

也就是说，我们将保留一些算法不会看到的数据，我们将使用这些数据来获得关于最佳模型实际上可能有多准确的第二个独立想法。

我们将加载的数据集分成两部分，其中 80% 将用于训练、评估和在模型中选择，20% 将作为验证数据集保留。

...
# Split-out validation dataset
array = dataset.values
X = array[:,0:4]
y = array[:,4]
X_train, X_validation, Y_train, Y_validation = train_test_split(X, y, test_size=0.20, random_state=1)

您现在在X_train和Y_train 中拥有用于准备模型的训练数据以及我们稍后可以使用的X_validation和Y_validation集。

请注意，我们使用 Python 切片来选择 NumPy 数组中的列。

5.2 测试线束

我们将使用分层 10 折交叉验证来估计模型准确性。

这会将我们的数据集分成 10 个部分，对 9 部分进行训练，对 1 部分进行测试，并对所有训练-测试分割组合重复。

分层意味着数据集的每次折叠或拆分都旨在使示例在整个训练数据集中的分布相同。

我们通过random_state参数将随机种子设置为固定数字，以确保在训练数据集的相同分割上评估每个算法。

我们正在使用“准确度”指标来评估模型。

这是正确预测的实例数除以数据集中的实例总数再乘以 100 的比率（例如，准确率为 95%）。我们将在接下来运行构建和评估每个模型时使用评分变量。

5.3 构建模型

我们不知道哪种算法可以很好地解决这个问题或使用什么配置。

我们从图中得到一个想法，即某些类在某些维度上是部分线性可分的，因此我们期望得到总体上良好的结果。

让我们测试 6 种不同的算法：

逻辑回归 (LR)
线性判别分析 (LDA)
K-最近邻（KNN）。
分类和回归树 (CART)。
高斯朴素贝叶斯 (NB)。
支持向量机 (SVM)。

这是简单线性（LR 和 LDA）、非线性（KNN、CART、NB 和 SVM）算法的良好混合。

让我们构建和评估我们的模型：

...
# Spot Check Algorithms
models = []
models.append(('LR', LogisticRegression(solver='liblinear', multi_class='ovr')))
models.append(('LDA', LinearDiscriminantAnalysis()))
models.append(('KNN', KNeighborsClassifier()))
models.append(('CART', DecisionTreeClassifier()))
models.append(('NB', GaussianNB()))
models.append(('SVM', SVC(gamma='auto')))
# evaluate each model in turn
results = []
names = []
for name, model in models:
	kfold = StratifiedKFold(n_splits=10, random_state=1, shuffle=True)
	cv_results = cross_val_score(model, X_train, Y_train, cv=kfold, scoring='accuracy')
	results.append(cv_results)
	names.append(name)
	print('%s: %f (%f)' % (name, cv_results.mean(), cv_results.std()))

5.4 选择最佳模型

我们现在有 6 个模型和每个模型的准确度估计。我们需要将模型相互比较并选择最准确的。

运行上面的例子，我们得到以下原始结果：

LR: 0.960897 (0.052113)
LDA: 0.973974 (0.040110)
KNN: 0.957191 (0.043263)
CART: 0.957191 (0.043263)
NB: 0.948858 (0.056322)
SVM: 0.983974 (0.032083)

注意：您的结果可能会因为算法或评估程序的随机性或数值精度的差异而有所不同。考虑多次运行该示例并比较平均结果。

你得了多少分？
在下面的评论中发布您的结果。

在这种情况下，我们可以看到支持向量机 (SVM) 的估计准确度得分最高，约为 0.98 或 98%。

我们还可以创建模型评估结果图，并比较每个模型的传播和平均准确度。每个算法都有一组准确度度量，因为每个算法都被评估了 10 次（通过 10 倍交叉验证）。

比较每个算法的结果样本的一种有用方法是为每个分布创建一个箱线图并比较这些分布。

...
# Compare Algorithms
pyplot.boxplot(results, labels=names)
pyplot.title('Algorithm Comparison')
pyplot.show()

我们可以看到盒须图在范围的顶部被压扁，许多评估达到了 100% 的准确度，有些则推到了 80% 的高准确度。

5.5 完整示例

作为参考，我们可以将之前的所有元素组合到一个脚本中。

下面列出了完整的示例。

# compare algorithms
from pandas import read_csv
from matplotlib import pyplot
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import StratifiedKFold
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
# Load dataset
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/iris.csv"
names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class']
dataset = read_csv(url, names=names)
# Split-out validation dataset
array = dataset.values
X = array[:,0:4]
y = array[:,4]
X_train, X_validation, Y_train, Y_validation = train_test_split(X, y, test_size=0.20, random_state=1, shuffle=True)
# Spot Check Algorithms
models = []
models.append(('LR', LogisticRegression(solver='liblinear', multi_class='ovr')))
models.append(('LDA', LinearDiscriminantAnalysis()))
models.append(('KNN', KNeighborsClassifier()))
models.append(('CART', DecisionTreeClassifier()))
models.append(('NB', GaussianNB()))
models.append(('SVM', SVC(gamma='auto')))
# evaluate each model in turn
results = []
names = []
for name, model in models:
	kfold = StratifiedKFold(n_splits=10, random_state=1, shuffle=True)
	cv_results = cross_val_score(model, X_train, Y_train, cv=kfold, scoring='accuracy')
	results.append(cv_results)
	names.append(name)
	print('%s: %f (%f)' % (name, cv_results.mean(), cv_results.std()))
# Compare Algorithms
pyplot.boxplot(results, labels=names)
pyplot.title('Algorithm Comparison')
pyplot.show()

6. 做出预测

我们必须选择一种算法来进行预测。

上一节的结果表明 SVM 可能是最准确的模型。我们将使用这个模型作为我们的最终模型。

现在我们想了解模型在验证集上的准确性。

这将使我们对最佳模型的准确性进行独立的最终检查。保留验证集很重要，以防万一您在训练过程中出现失误，例如过度拟合训练集或数据泄漏。这两个问题都会导致过于乐观的结果。

6.1 做出预测

我们可以在整个训练数据集上拟合模型并对验证数据集进行预测。

...
# Make predictions on validation dataset
model = SVC(gamma='auto')
model.fit(X_train, Y_train)
predictions = model.predict(X_validation)

6.2 评估预测

我们可以通过将预测与验证集中的预期结果进行比较来评估预测，然后计算分类准确率，以及混淆矩阵和分类报告。

....
# Evaluate predictions
print(accuracy_score(Y_validation, predictions))
print(confusion_matrix(Y_validation, predictions))
print(classification_report(Y_validation, predictions))

我们可以看到，在保留数据集上的准确率为 0.966 或约 96%。

混淆矩阵提供了所犯错误的指示。

最后，分类报告按精度、召回率、f1-score 和显示出色结果的支持（假设验证数据集很小）提供了每个类别的细分。

0.9666666666666667
[[11  0  0]
 [ 0 12  1]
 [ 0  0  6]]
                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00        11
Iris-versicolor       1.00      0.92      0.96        13
 Iris-virginica       0.86      1.00      0.92         6

       accuracy                           0.97        30
      macro avg       0.95      0.97      0.96        30
   weighted avg       0.97      0.97      0.97        30

6.3 完整示例

作为参考，我们可以将之前的所有元素组合到一个脚本中。

下面列出了完整的示例。

# make predictions
from pandas import read_csv
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.svm import SVC
# Load dataset
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/iris.csv"
names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class']
dataset = read_csv(url, names=names)
# Split-out validation dataset
array = dataset.values
X = array[:,0:4]
y = array[:,4]
X_train, X_validation, Y_train, Y_validation = train_test_split(X, y, test_size=0.20, random_state=1)
# Make predictions on validation dataset
model = SVC(gamma='auto')
model.fit(X_train, Y_train)
predictions = model.predict(X_validation)
# Evaluate predictions
print(accuracy_score(Y_validation, predictions))
print(confusion_matrix(Y_validation, predictions))
print(classification_report(Y_validation, predictions))

可以用 Python 进行机器学习

完成上面的教程。最多需要 5 到 10 分钟！

无需了解所有内容。你的目标是端到端地完成教程并获得结果。您不需要在第一遍就了解所有内容。一边走一边列出你的问题。大量使用Python中的help(“FunctionName”)帮助语法来了解您正在使用的所有函数。

不需要知道算法是如何工作的。了解限制以及如何配置机器学习算法很重要。但是可以稍后学习算法。你需要在很长一段时间内慢慢积累这些算法知识。今天，首先要熟悉这个平台。

无需成为 Python 程序员。如果您不熟悉 Python 语言，它的语法可能很直观。就像其他语言一样，关注函数调用（例如function()）和赋值（例如a = “b”）。这将使您大获全胜。您是一名开发人员，您知道如何快速掌握一门语言的基础知识。刚开始，稍后再深入了解细节。

无需成为机器学习专家。您可以稍后了解各种算法的优点和局限性，并且您可以稍后阅读大量帖子，以了解机器学习项目的步骤以及使用交叉验证评估准确性的重要性。

机器学习项目中的其他步骤呢？我们没有涵盖机器学习项目中的所有步骤，因为这是您的第一个项目，我们需要关注关键步骤。即加载数据，查看数据，评估一些算法并进行一些预测。在后面的教程中，我们可以查看其他数据准备和结果改进任务。

概括

在本文中，您逐步了解了如何使用 Python 完成您的第一个机器学习项目。

您发现完成从加载数据到进行预测的小型端到端项目是熟悉新平台的最佳方式。

你的下一步

你完成了教程吗？

完成上述教程。
列出你的任何问题。
搜索或研究答案。
请记住，可以使用Python 中的help(“FunctionName”)来获取任何函数的帮助。

你有问题吗？
请写在下方的评论区，一起讨论。

你可能感兴趣的:(编程,python)

Python小游戏28——水果忍者虞书欣的C 游戏 pycharm 人工智能小程序开发语言
首先，你需要安装Pygame库。如果你还没有安装，可以使用以下命令进行安装：【bash】pipinstallpygame《水果忍者》游戏代码：【python】importpygameimportrandomimportsys#初始化Pygamepygame.init()#设置屏幕尺寸screen_width=800screen_height=600screen=pygame.display.set
如何用Python爬取网站数据：基础教程与实战大梦百万秋知识学爆 python 开发语言
数据爬取（WebScraping）是从网站中自动获取信息的过程。借助Python强大的库和工具，数据爬取变得非常简单且高效。本文将介绍Python爬取网站数据的基础知识、常用工具，以及一个简单的实战示例，帮助你快速上手网站数据爬取。1.什么是网站数据爬取？网站数据爬取是通过编写程序自动抓取网页内容的技术，通常用于从公开网站中提取特定数据。数据爬取的应用场景非常广泛，包括：收集商品价格和评论数据新闻
python实现滑雪游戏是叶子耶 pygame python 开发语言
游戏逻辑说明初始化：设置游戏窗口、颜色、滑雪者和障碍物的基本属性。绘制窗口：在每一帧中绘制滑雪者、障碍物和当前得分。用户输入：通过键盘的左右箭头控制滑雪者的移动。障碍物生成和移动：随机生成障碍物，并使其向下移动。碰撞检测：检查滑雪者是否与任何障碍物碰撞，若碰撞则结束游戏。得分系统：每一帧增加得分。importpygameimportrandom#初始化pygamepygame.init()#游戏窗
如何抓取社交媒体上的公开用户信息：完整的Python爬虫教程与实战 Python爬虫项目媒体 python 爬虫 selenium 开发语言 ajax
引言社交媒体平台如Twitter、Instagram、Facebook和LinkedIn等，成为了现代社会中获取信息、表达观点、社交互动的主要场所。通过社交媒体，用户分享个人信息、兴趣、活动以及与他人的互动数据，极大地丰富了网络世界的内容。在数据分析、市场研究、舆情监控等领域，抓取社交媒体上的公开用户信息是非常重要的任务。对于很多数据科学家、市场分析师、爬虫开发者来说，如何高效地抓取社交媒体平台的
基于Python的股市数据爬取与分析：从实时行情到历史数据的完整教程 Python爬虫项目 2025年爬虫实战项目 python 数据挖掘开发语言爬虫 oracle 人工智能
引言股市投资是一项具有高度风险和回报的活动，实时行情和历史数据的获取是股市分析和决策的基础。随着数据科学和爬虫技术的迅速发展，许多投资者和分析师通过编写Python爬虫来获取股市数据，进行数据分析、技术分析和预测。无论是获取实时股市行情，还是分析股票的历史数据，Python都能为我们提供强大的工具支持。本篇博客将为你提供一个完整的股市数据爬取与分析教程，介绍如何利用Python爬虫获取实时股市行情
Python爬虫教程：抓取区块链交易信息及加密货币市场数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫区块链开发语言人工智能网络爬虫
前言随着区块链技术和加密货币的迅猛发展，区块链交易和加密货币市场的数据逐渐成为金融、技术、经济研究等领域的热点。对于开发者和研究者而言，实时获取区块链交易数据和加密货币市场行情，对于投资分析、市场预测、技术研究等具有重要的参考价值。本文将通过Python爬虫技术，介绍如何抓取区块链交易信息及加密货币市场数据，详细阐述数据获取的原理、技术方案、实现方法以及抓取到的数据的存储与分析。我们将依托最新的爬
Python 爬虫：商品价格监控与波动分析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 ide 网络爬虫
随着电子商务的迅猛发展，商品价格的监控和波动分析在各类应用中具有重要价值。通过爬取电商平台的商品价格数据，我们不仅可以分析商品的价格趋势，还可以预测未来的价格波动，并为定价、促销策略提供数据支持。本文将详细介绍如何利用Python编写爬虫，抓取商品价格数据，并进行价格波动分析。目录1.爬虫概述与技术选型2.环境配置与依赖库安装3.目标平台与数据抓取3.1获取商品价格示例：抓取京东商品价格3.2抓取
python爬虫短视频平台数据抓取：抓取视频和评论 Python爬虫项目 2025年爬虫实战项目 python 爬虫音视频网络爬虫开发语言
随着短视频平台如抖音、快手、TikTok等的兴起，越来越多的内容创作者和观众通过短视频平台分享和观看视频内容。短视频平台包含了丰富的数据，如视频内容、评论、点赞数、分享数等，这些数据对市场分析、用户行为分析、视频推荐算法等方面具有重要意义。抓取这些数据可以帮助我们获取平台的动态信息，为数据分析提供基础。本文将详细介绍如何使用Python编写爬虫抓取短视频平台上的视频和评论数据，包括技术栈选择、爬虫
Android应用开发入门：从Android Studio环境设置到Java编程基础 Python爬虫项目移动开发精通教程 android android studio java gitee ide
目录介绍步骤一：设置AndroidStudio环境步骤二：了解AndroidStudio界面步骤三：学习Java编程基础变量和数据类型数组和集合控制流类和方法结论介绍Android应用开发是一个令人兴奋和有趣的领域。如果你对移动应用程序开发感兴趣，并且想要学习如何开始构建自己的Android应用，那么你来对地方了！本篇博客将带你从头开始，介绍如何设置AndroidStudio环境，学习Java编程
Python 常用基础模块（三）：os.path模块 Amo Xiang Python3高级核心技术 python 开发语言
目录一、os.path模块介绍二、常用方法2.1exists()方法——判断路径是否存在(准确)2.2isdir()方法——判断是否为目录2.3isabs()方法——判断是否为绝对路径2.4isf ile()方法——判断是否为普通文件2.5join()方法——拼接路径2.6abspath()方法——获取绝对路径2.7basename()方法——从一个路径中提取文件名2.8dirname()方法——
Python字典实战：打造高效学生成绩管理系统清水白石008 python Python题库 python 开发语言
Python字典实战：打造高效学生成绩管理系统在日常学习和工作中，我们经常需要管理和查询数据。Python的字典（Dictionary）是一种非常强大的数据结构，它以键值对（key-valuepairs）的形式存储数据，能够实现高效的数据检索。本文将以创建一个学生成绩管理系统为例，深入讲解如何使用Python字典存储学生姓名和成绩信息，并实现根据姓名查找成绩的功能。本文旨在提供实用性强、内容丰富、
【Rust自学】13.7. 迭代器 Pt.3：使用闭包捕获环境配合迭代器的使用 SomeB1oody Rust自学 rust 后端开发语言
13.7.0.写在正文之前Rust语言在设计过程中收到了很多语言的启发，而函数式编程对Rust产生了非常显著的影响。函数式编程通常包括通过将函数作为值传递给参数、从其他函数返回它们、将它们分配给变量以供以后执行等等。在本章中，我们会讨论Rust的一些特性，这些特性与许多语言中通常称为函数式的特性相似：闭包迭代器（本文）使用闭包和迭代器改进I/O项目闭包和迭代器的性能喜欢的话别忘了点赞、收藏加关注哦
python系列：Python删除文件夹以及文件夹下所有文件坦笑&&life #python python java linux
Python删除文件夹以及文件夹下所有文件Python删除文件夹下所有文件python删除文件夹下的文件Python删除文件夹下的文件方法一：使用os模块方法二：使用shutil模块总结Python删除文件夹下所有文件在Python中，您可以使用os模块来删除文件夹下的所有文件，但保留文件夹本身。以下是一个简单的例子：importosdefdelete_files_in_folder(folder
python使用Flask框架创建一个简单的动态日历镜花照无眠 #Python python flask 开发语言
0.运行效果运行代码，然后在浏览器中访问http://127.0.0.1:5000/，将看到一个动态日历，能够通过点击按钮切换月份。1.安装Flask首先，确保你已经安装了Flask。如果没有，可以使用以下命令安装：pipinstallFlask测试：fromflaskimportFlask#fromflaskimportFlask,render_template,requestapp=Flask
材料力学仿真软件：MSC Nastran_（15）.案例研究与实践 kkchenjj 材料力学仿真服务器运维开发语言材料力学仿真模拟性能优化
案例研究与实践在这一节中，我们将通过具体的案例研究和实践来深入理解如何在材料力学仿真软件中进行二次开发。我们将探讨如何使用Python脚本与MSCNastran进行交互，如何优化仿真模型，以及如何处理仿真结果。每个案例都将提供详细的操作步骤和代码示例，以帮助读者更好地掌握这些技术。1.使用Python脚本自动化模型生成1.1.案例背景在实际工程中，往往需要生成大量的仿真模型。手动创建这些模型不仅耗
python 将doc转换docx 代码李姝瑶 python 开发语言
使用Python将.doc文件转换为.docx文件，可以使用python-docx库。代码如下：#安装python-docx库!pipinstallpython-docx#导入库importosimportdocx#获取文件路径file_path="/path/to/file.doc"#打开.doc文件doc=docx.opendocx(file_path)#将.doc文件保存为.docx文件do
pythonsvm模型优化_Python进化算法工具箱的使用（三）用进化算法优化SVM参数 weixin_39878698 pythonsvm模型优化
前言自从上两篇博客详细讲解了Python遗传和进化算法工具箱及其在带约束的单目标函数值优化中的应用以及利用遗传算法求解有向图的最短路径之后，我经过不断学习工具箱的官方文档以及对源码的研究，更加掌握如何利用遗传算法求解更多有趣的问题了。与前面的文章不同，本篇采用差分进化算法来优化SVM中的参数C和Gamma。(用遗传算法也可以，下面会给出效果比较)首先简单回顾一下Python高性能实用型遗传和进化算
python 删除文件-python实现删除文件与目录的方法 weixin_39876282
本文实例讲述了python实现删除文件与目录的方法。分享给大家供大家参考。具体实现方法如下：os.remove(path)删除文件path.如果path是一个目录，抛出OSError错误。如果要删除目录，请使用rmdir().remove()同unlink()的功能是一样的在Windows系统中，删除一个正在使用的文件，将抛出异常。在Unix中，目录表中的记录被删除，但文件的存储还在。os.rem
python 删除文件、目录_python删除文件和删除目录的方法 weixin_39778214 python 删除文件目录
下面来看一下python里面是如何删除一个文件及文件夹的~~首先引入OS模块importos删除文件：os.remove()删除空目录：os.rmdir()递归删除空目录：os.removedirs()递归删除目录和文件（类似DOS命令DeleteTree）：方法1：#Deleteeverythingreachablefromthedirectorynamedin'top',#assumingth
差分进化算法_Python进化算法工具箱的使用（三）用进化算法优化SVM参数 weixin_39747075 差分进化算法
前言自从上两篇博客详细讲解了Python遗传和进化算法工具箱及其在带约束的单目标函数值优化中的应用以及利用遗传算法求解有向图的最短路径之后，我经过不断学习工具箱的官方文档以及对源码的研究，更加掌握如何利用遗传算法求解更多有趣的问题了。与前面的文章不同，本篇采用差分进化算法来优化SVM中的参数C和Gamma。（用遗传算法也可以，下面会给出效果比较）首先简单回顾一下Python高性能实用型遗传和进化算
高可用架构-CAP理论 weixin_33939843
2019独角兽企业重金招聘Python工程师标准>>>整理自:《从零开始学架构》李运华著转载于:https://my.oschina.net/grace233/blog/2236736
如何使用 Python 和 Selenium WebDriver 获取 localStorage 潮易 python selenium 开发语言
如何使用Python和SeleniumWebDriver获取localStorage要使用Python和SeleniumWebDriver获取localStorage，您可以遵循以下步骤：###1.安装必要的库首先，您需要安装selenium库。可以通过pip进行安装：```bashpipinstallselenium```###2.下载WebDriver根据您的浏览器类型（如Chrome、Fir
如何在BlogSpot中一次上传多篇博客文章？潮易 python
如何在BlogSpot中一次上传多篇博客文章？在BlogSpot中一次性上传多篇博客文章的方法是使用API来批量上传文章。以下是详细的步骤和代码示例：1.首先，你需要从GoogleDevelopersConsole创建一个项目并启用BloggerAPI。2.然后，你需要在你的项目中添加BloggerAPI的客户端库，例如使用Python的`google-api-python-client`库。3.
使用迭代工具返回连续负数的最长列表。groupby 潮易 python
使用迭代工具返回连续负数的最长列表。groupby要使用Python编程解决这个问题，我们可以采用迭代和条件判断的方法。以下是一个简单的实现方法：```pythondeflongest_negatives(nums):max_length=0current_length=0start=-1foriinrange(len(nums)):ifnums[i]<0:ifcurrent_length==0:
Python服务器“通常只允许每个套接字地址使用一次“ 潮易 python 服务器开发语言
Python服务器“通常只允许每个套接字地址使用一次"在Python中，如果你遇到“通常只允许每个套接字地址使用一次”的错误，通常是因为你尝试在同一端口上启动了多个服务器实例。这可能会导致一个端口被占用了，而另一个进程无法再使用该端口监听新的连接请求。解决这个问题，你可以采取以下步骤：1.确认你的服务器是否已经正确关闭，或者如果可能的话，尝试将端口强制释放。2.如果你是在本地开发环境中遇到了这个错
将十六进制转换为浮点数潮易 mongodb
将十六进制转换为浮点数的Python程序可以从以下几种方法实现：1.使用内置函数`float()`直接转换：```python#将十六进制字符串转换为浮点数hex_str='1.23e-03'#这是一个十六进制形式的浮点数，需要先转换为十进制形式decimal_str=hex_str.replace('p','E')#将科学计数法中的'p'替换为'E'，以便于转换为十进制float_number=
Python批量转换doc为docx格式测试开发K 日常工作 python 开发语言
札记：对于IT从业人员会经常接触到各种文件，其中Word文档是最常见之一，它分为.doc和.docx两种格式。通过Python操作Word文档的第三方库有python-docx和pywin32，python-docx只能处理.docx格式的文件，至于.doc格式文件，可调用pywin32库直接操作，但效果不好，可能出现莫名的报错或读写缺失等情况。一．解决思路翻阅网上各种解决办法，其中最为简单的处理
python延时函数的使用锅锅是锅锅 Python python
库importtime函数time.sleep(seconds)参数：seconds延迟执行代码的秒数示例importtimewhile(1):print("helloguoguo")time.sleep(1)
Python 烟花展示：使用 Pygame 创建绚丽的夜空长风清留扬趣味Python pygame python 开发语言 Python小游戏 Python动画画图
在Python中，使用pygame库可以轻松地创建图形和动画效果，非常适合制作各种游戏和视觉展示。今天，我们将一起探索如何使用pygame来制作一个简单的烟花展示程序。这个程序将模拟烟花在夜空中绽放的壮丽景象，通过随机生成的粒子来模拟烟花的爆炸效果。准备工作首先，确保你已经安装了pygame库。如果还没有安装，可以通过pip命令来安装：pipinstallpygame导入必要的库importpyg
python 实现延时队列独壹@无贰 python 开发语言
python实现延时队列#延时队列importthreadingimportfunctoolsimportqueueimportdatetimedeftest():print("执行成功")defseconds_chagne(dt):returndt.seconds+dt.days*24*60*60#延迟任务类classDelayTask:#delay_time即将过期的时间#task参与延迟的任
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要