dmg17866

Python数据挖掘指南

Data Mining in

Python: A Guide

转载原文：https://www.springboard.com/blog/data-mining-python-tutorial/（全英）

译文：

1、数据挖掘和算法

数据挖掘是从大型数据库的分析中发现预测信息的过程。对于数据科学家来说，数据挖掘可能是一项模糊而艰巨的任务 - 它需要多种技能和许多数据挖掘技术知识来获取原始数据并成功获取数据。您需要了解统计学的基础，以及可以帮助您大规模进行数据挖掘的不同编程语言。

本指南将提供一个示例填充的使用Python的数据挖掘简介，Python是最广泛使用的数据挖掘工具之一 - 从清理和数据组织到应用机器学习算法。首先，让我们更好地理解数据挖掘及其完成方式。

1.1、数据挖掘定义

数据挖掘的期望结果是从给定数据集创建模型，该模型可以将其洞察力推广到类似数据集。从银行和信贷机构的自动欺诈检测中可以看到成功的数据挖掘应用程序的真实示例。

如果您的银行检测到您的帐户存在任何可疑活动，您的银行可能会制定一项提醒您的政策 - 例如在您注册的住所以外的州内重复提取ATM或大量购物。这与数据挖掘有何关系？数据科学家通过应用算法来创建该系统，通过将交易与欺诈性和非欺诈性收费的历史模式进行比较，对交易是否具有欺诈性进行分类和预测。该模型“知道”如果你住在加利福尼亚州圣地亚哥，那么向俄罗斯人口稀少的省份收取的数千美元购买的可能性很大。

这只是数据挖掘的众多强大应用之一。数据挖掘的其他应用包括基因组测序，社交网络分析或犯罪成像 - 但最常见的用例是分析消费者生命周期的各个方面。公司使用数据挖掘来发现消费者的偏好，根据他们的购买活动对不同的消费者进行分类，并确定对付高薪客户的要求 - 这些信息可以对改善收入流和降低成本产生深远影响。

如果您正在努力获得良好的数据集以开始分析，我们为您的第一个数据科学项目编译了19个免费数据集。

什么是数据挖掘技术？

有多种方法可以从数据集构建预测模型，数据科学家应该了解这些技术背后的概念，以及如何使用代码生成类似的模型和可视化。这些技术包括：

回归 - 通过优化误差减少来估计变量之间的关系。

具有拟合线性回归模型的散点图的示例

分类 - 识别对象所属的类别。一个例子是将电子邮件分类为垃圾邮件或合法邮件，或者查看某人的信用评分并批准或拒绝贷款请求。

聚类分析 - 根据数据的已知特征查找数据对象的自然分组。在营销中可以看到一个例子，其中分析可以揭示具有独特行为的客户分组 - 这可以应用于业务战略决策中。

散点图的示例，其中数据按群集分段和着色

关联和相关分析 - 寻找不明显的变量之间是否存在唯一关系。一个例子就是着名的啤酒和尿布案例：在本周末购买纸尿裤的男性更有可能购买啤酒，因此商店将它们放在一起以增加销量。

异常值分析 - 检查异常值以检查所述异常值的潜在原因和原因。其中一个例子是在欺诈检测中使用离群值分析，并试图确定规范之外的行为模式是否是欺诈。

业务数据挖掘通常使用事务和实时数据库执行，该数据库允许轻松使用数据挖掘工具进行分析。其中一个例子是在线分析处理服务器或OLAP，它允许用户在数据服务器内进行多维分析。OLAP允许企业查询和分析数据，而无需下载静态数据文件，这在数据库日常增长的情况下很有用。但是，对于那些希望学习数据挖掘和自己练习的人来说，iPython笔记本非常适合处理大多数数据挖掘任务。

让我们来看看如何使用Python来使用上述两种数据挖掘算法执行数据挖掘：回归和聚类。

2、在Python中创建回归模型

我们想解决的问题是什么？

我们想要建立变量之间线性关系的估计，打印相关系数，并绘制最佳拟合线。对于这个分析，我将使用来自Kaggle的King's County数据集中的House Sales的数据。如果您对Kaggle不熟悉，那么它是查找适合数据科学实践的数据集的绝佳资源。King's County的数据包含有关房价和房屋特征的信息 - 让我们看看我们是否可以估算房价与房屋面积之间的关系。

第一步：为工作提供合适的数据挖掘工具 - 安装Jupyter，熟悉一些模块。

首先，如果您想要跟随，请在桌面上安装Jupyter。它是一个免费的平台，为iPython笔记本（.ipynb文件）提供了一个非常直观的处理器。请按照以下说明进行安装。我在这里所做的一切都将在Jupyter的“Python [Root]”文件中完成。

我们将使用Python 的Pandas mo dule来清理和重构我们的数据。Pandas是一个开源模块，用于处理数据结构和分析，这对于使用Python的数据科学家来说无处不在。它允许数据科学家以任何格式上传数据，并提供一个简单的平台来组织，排序和操作该数据。如果这是您第一次使用Pandas，请查看有关基本功能的精彩教程！

在[1]中：

导入 pandas as pd

In [1]:

import pandas as pd

import matplotlib.pyplot as plt

import numpy as np

import scipy.stats as stats

import seaborn as sns

from matplotlib import rcParams

%matplotlib inline

%pylab inline

从numpy和matplotlib填充交互式命名空间

在上面的代码中，我导入了一些模块，这里是他们所做的细分：

Numpy - 科学计算的必要包。它包含一个非常通用的结构，用于处理数组，这是scikit-learn用于输入数据的主要数据格式。

Matplotlib - Python中数据可视化的基础包。该模块允许创建从简单的散点图到三维等高线图的所有内容。请注意，从matplotlib我们安装pyplot，这是模块层次结构中最高级的状态机环境（如果这对你没有任何意义，请不要担心它，只需确保将它导入到你的笔记本中）。使用'％matplotlib inline'对于确保所有图表都显示在笔记本中至关重要。

Scipy - python中统计工具的集合。Stats是导入回归分析函数的scipy模块。

让我们分解如何应用数据挖掘来逐步解决回归问题！在现实生活中，您很可能不会立即准备好应用机器学习技术的数据集，因此您需要首先清理和组织数据。

In [2]:

df = pd.read_csv('/Users/michaelrundell/Desktop/kc_house_data.csv')

df.head()

OUT [2]：

使用pandas（pd.read_csv）从Kaggle读取csv文件。

In [3]:

df.isnull().any()

Out[3]:

id False

date False

price False

bedrooms False

bathrooms False

sqft_living False

sqft_lot False

...

dtype: bool

Checking to see if any of our data has null values. If there were any, we’d drop or filter the null values out.

In [4]:

df.dtypes

Out[4]:

id int64

date object

price float64

bedrooms int64

bathrooms float64

sqft_living int64

sqft_lot int64

...

dtype: object

检查每个变量的数据类型。我们想要了解数据是否是数字（int64，float64）或不是（对象）。

我使用Pandas从csv文件导入了数据框，我做的第一件事是确保它正确读取。我还使用了“isnull（）”函数来确保我的数据都不能用于回归。在现实生活中，单个列可能具有整数，字符串或NaN形式的数据，所有这些都在一个地方 - 这意味着您需要检查以确保类型匹配并且适合回归。这个数据集恰好已经非常严格地准备好了，你不会经常在自己的数据库中看到这些数据集。

下一篇：简单的探索性分析和回归结果。

让我们在进一步了解之前了解数据，重要的是要查看数据的形状 - 并仔细检查数据是否合理。损坏的数据并不罕见，因此最好始终运行两项检查：首先，使用df.describe（）查看分析中的所有变量。其次，使用plt.pyplot.hist（）绘制分析所针对的变量的直方图。

In [5]:

df.describe()

out[5]：

	价钱	卧室	浴室	sqft_living
计数	21613	21613	21613	21613
意思	540088.10	3.37	2.11	2079.90
STD	367127.20	0.93	0.77	918.44
分	75000.00	0.00	0.00	290.00
25％	321950.00	3.00	1.75	1427.00
50％	450000.00	3.00	2.25	1910.00
75％	645000.00	4.00	2.50	2550.00
最大	7700000.00	33.00	8.00	13540.00

快速消息：我们正在处理包含21,613个观测资料的数据集，平均价格约为$ 540k，中位数价格约为$ 450k，而且平均房屋面积为2080 ft 2

In [19]:

fig = plt.figure(figsize=(12, 6))

sqft = fig.add_subplot(121)

cost = fig.add_subplot(122)

sqft.hist(df.sqft_living, bins=80)

sqft.set_xlabel('Ft^2')

sqft.set_title("Histogram of House Square Footage")

cost.hist(df.price, bins=80)

cost.set_xlabel('Price ($)')

cost.set_title("Histogram of Housing Prices")

plt.show()

使用matplotlib（plt），我们打印了两个直方图，以观察房价和平方英尺的分布情况。我们发现两个变量的分布都是右倾的。
现在我们已经很好地了解了我们的数据集，并且知道了我们试图测量的变量的分布，让我们做一些回归分析。首先，我们导入statsmodels以获得最小二乘回归估计函数。在“普通最小二乘法”模块会做大量的工作，当涉及到捣弄数字在Python中回归。

In [15]:

import statsmodels.api as sm

from statsmodels.formula.api import ols

当您使用只有两个变量的OLS编码生成线性回归摘要时，这将是您使用的公式：

Reg = ols（'因变量〜自变量，数据帧）.fit（）

打印（Reg.summary（））

当我们查看King's县的房屋价格和房屋面积时，我们打印出以下摘要报告：

In [16]:

m = ols('price ~ sqft_living',df).fit()

print (m.summary())

警告：

[1]标准错误假设正确指定了错误的协方差矩阵。

[2]条件数很大，5.63e + 03。这可能表明存在

强多重共线性或其他数值问题。

简单线性回归模型摘要输出的示例。

当您打印OLS回归的摘要时，可以轻松找到所有相关信息，包括R平方，t统计量，标准误差和相关系数。从产量来看，很明显平方英尺和房价之间存在极其显着的关系，因为存在极高的t值144.920，并且 P> | t | 0％ - 这实际上意味着这种关系由于统计变异或机会而几乎为零。

这种关系也有一个不错的规模 - 每增加100平方英尺的房子，我们可以预测房子平均价格会高出28,000美元。可以很容易地调整此公式以包含多个自变量，只需遵循以下公式：

Reg = ols(‘Dependent variable ~ivar1 + ivar2 + ivar3… + ivarN, dataframe).fit()

print(Reg.summary())

In [26]:

m = ols('price ~ sqft_living + bedrooms + grade + condition',df).fit()

print (m.summary())

警告：

[1]标准错误假设正确指定了错误的协方差矩阵。

[2]条件数很大，2.5e + 04。这可能表明存在

强多重共线性或其他数值问题。

多元线性回归的一个例子。

在我们上面的多元回归输出中，我们了解到通过使用额外的自变量，例如卧室的数量，我们可以提供更好地拟合数据的模型，因为此回归的R平方已增加到0.555。这意味着我们能够通过添加更多的自变量来解释模型中49.3％的变异到55.5％。

可视化回归结果:

使用回归汇总输出对于检查回归模型的准确性以及用于估计和预测的数据非常重要 - 但是可视化回归是以更易消化的格式传达回归结果的重要步骤。

本节将完全依赖于Seaborn（sns），它具有非常简单和直观的功能，可以使用散点图绘制回归线。我选择为平方英尺和价格创建一个联合图，显示回归线以及每个变量的分布图。

In [24]:

sns.jointplot(x="sqft_living", y="price", data=df, kind = 'reg',fit_reg= True, size = 7)

plt.show()

/Users/michaelrundell/anaconda/lib/python3.5/site-packages/statsmodels/nonparametric/kdetools.py:20:VisibleDeprecationWarning：使用非整数而不是整数将导致将来出错

y = X [：m / 2 + 1] + np.r_ [0，X [m / 2 + 1：]，0] * 1j

这包含了我的回归示例，但是在python中还有许多其他方法可以执行回归分析，尤其是在使用某些技术时。有关回归模型的更多信息，请参阅以下资源。接下来我们将介绍集群分析。

使用Seaborn可视化线性关系 - 本文档提供了具体示例，说明如何修改回归图，并显示您可能不知道如何自行编码的新功能。它还教你如何适应不同类型的模型，如二次或逻辑模型。
Python中的统计信息 - 本教程介绍了在python中执行回归的不同技术，还将教您如何进行假设测试和交互测试。

如果您想了解更多可帮助您可视化结果的数据挖掘软件，您应该查看我们编译的这31个免费数据可视化工具。

3、在Python中创建聚类模型

我们希望为一组数据对象创建自然分组，这些数据对象可能未在数据本身中明确说明。我们的分析将使用黄石公园着名间歇泉Old Faithful喷发的数据。Barney Govan 从这个Github存储库中找到了这些数据。它只包含两个属性，即喷发（分钟）和喷发长度（分钟）之间的等待时间。只有两个属性可以很容易地创建一个简单的k-means集群模型。

什么是k-means集群模型？

K-Means Cluster模型以下列方式工作 - 所有这些博客都归功于此：

（1）、从一组随机选择的k个质心（k个簇的假定中心）开始

（2）、根据最接近的质心确定哪个观测点在哪个群集中（使用平方欧几里德距离：Σpj= 1（xij-xi'j）2其中p是维数。

（3）、通过最小化与群集中每个观察的平方欧几里德距离来重新计算每个群集的质心

（4）、重复2.和3.直到簇的成员（以及因此质心的位置）不再改变。

（5）、如果这仍然令人困惑，请查看Jigsaw Academy的这段有用的视频。现在，让我们继续将此技术应用于我们的Old Faithful数据集。

第一步：探索性数据分析

您需要安装一些模块，包括一个名为Sci-kit Learn的新模块- 用于Python中机器学习和数据挖掘的工具集（阅读我们使用Sci-kit进行神经网络模型的教程）。Cluster是sci-kit模块，它使用聚类算法导入函数，因此从sci-kit导入它。

首先，让我们将所有必要的模块导入我们的iPython Notebook并进行一些探索性数据分析。

In [18]:

import pandas as pd

import numpy as np

import matplotlib

import matplotlib.pyplot as plt

import sklearn

from sklearn import cluster

%matplotlib inline

faithful = pd.read_csv('/Users/michaelrundell/Desktop/faithful.csv')

faithful.head()

out[18]：

	爆发	等候
0	3.600	79
1	1.800	54
2	3.333	74
3	2.283	62
4	4.533	85

阅读旧的忠实csv并导入所有必要的值

我所做的就是从本地目录中读取csv，这恰好是我计算机的桌面，并显示了数据的前5个条目。幸运的是，我知道这个数据集没有缺少或NaN值的列，因此我们可以跳过此示例中的数据清理部分。我们来看一下数据的基本散点图。

In [19]:

faithful.columns = ['eruptions', 'waiting']

plt.scatter(faithful.eruptions, faithful.waiting)

plt.title('Old Faithful Data Scatterplot')

plt.xlabel('Length of eruption (minutes)')

plt.ylabel('Time between eruptions (minutes)')

Out[19]:

重命名列并使用matplotlib创建一个简单的散点图

关于我的过程的一些快速说明：我重新命名了列 - 它们与肉眼看起来没什么不同，但是“等待”列在单词之前有一个额外的空间，并且为了防止与进一步分析混淆我更改了它确保我不会忘记或在路上犯任何错误。

第二步：构建集群模型

我们看到的是散点图，其中有两个很容易明显的聚类，但数据集并未将任何观察标记为属于任何一个组。接下来的几个步骤将涵盖视觉上区分两组的过程。在下面的代码中，我建立了一些重要的变量并改变了数据的格式。

In [20]:

faith = np.array(faithful)

k = 2

kmeans = cluster.KMeans(n_clusters=k)

kmeans.fit(faith)

labels = kmeans.labels_

centroids = kmeans.cluster_centers_

格式化和功能创建：

1、我将忠实的数据帧读作一个numpy数组，以便sci-kit能够读取数据。

2、选择K = 2作为簇的数量，因为我们正在尝试创建2个明确的分组。

3、'kmeans'变量由sci-kit中的集群模块调用的输出定义。我们采用了K个簇，并将数据拟合到数组'faith'中。

现在我们已经设置了用于创建集群模型的变量，让我们创建一个可视化。下面的代码将绘制按簇颜色的散点图，并给出最终的质心位置。具体的代码行的说明可以在下面找到。

In [21]:

for i in range(k):

# select only data observations with cluster label == i

ds = faith[np.where(labels==i)]

# plot the data observations

plt.plot(ds[:,0],ds[:,1],'o', markersize=7)

# plot the centroids

lines = plt.plot(centroids[i,0],centroids[i,1],'kx')

# make the centroid x's bigger

plt.setp(lines,ms=15.0)

plt.setp(lines,mew=4.0)

plt.show()

创建群集模型的可视化

快速细分上面的代码：

1、将数据分组为2组的所有工作都在上一段代码中完成，我们使用命令kmeans.fit（faith）。代码的这一部分只是创建了显示它的图。

2、ds变量只是原始数据，但重新格式化为包含基于组数的新颜色标签 - k中的整数数。

3、plt.plot调用x数据，y数据，对象的形状和圆的大小。

4、其余代码显示k-means聚类过程的最终质心，并控制质心标记的大小和厚度。

在这里我们拥有它 - 一个简单的集群模型。此代码适用于包含不同数量的群集，但对于此问题，仅包含2个群集是有意义的。现在我们已经将这些聚类看起来很好地定义了，我们可以从这两个聚类中推断出意义。他们代表什么？绿色集群：主要由火山爆发组成，火山爆发之间的短暂等待时间可以定义为“弱火或快速射击”，而蓝色火星群可以称为“火力爆发”。

值得注意的是：这种技术不适用于所有数据集 - 数据科学家David Robinson 在他的文章中完美地解释了K-means聚类“不是免费的午餐”。如果您的数据具有不均匀的聚类概率，K-means的假设会失败（它们在每个簇中没有大致相同的观察量），或者具有非球形簇。如果您认为您的群集问题不适用于K-means群集，请查看有关替代群集建模技术的这些资源：

Sci-kit群集模块 - 此文档有一个漂亮的图像，可以直观地比较scikit-learn中的聚类算法，因为它们会查找不同的散点图。如果您有一个类似于其中一个示例的散点图，则使用此文档可以指向正确的算法。它还为您提供了有关如何以数学方式评估聚类模型的一些见解。

聚类算法 - 这个来自斯坦福大学CS345课程的Powerpoint演示文稿，数据挖掘，可以深入了解不同的技术 - 它们如何工作，有效和无效等等。它是理解聚类在理论层面如何工作的一个很好的学习资源。

结论

数据挖掘包含许多预测建模技术，您可以使用各种数据挖掘软件。要学习使用Python来应用这些技术是很困难的 - 将练习和勤奋应用到您自己的数据集上是很困难的。在早期，您将遇到无数的错误，错误消息和包版广告。 - 但在数据挖掘尝试中保持持久和勤奋。我希望通过查看上面的集群和线性回归模型的代码和创建过程，您已经了解到数据挖掘是可以实现的，并且可以使用有效数量的代码完成。

转载于:https://www.cnblogs.com/zhuPython/p/9466770.html

你可能感兴趣的:(Python数据挖掘指南)

淘宝/天猫店铺订单数据导出、销售报表设计与数据分析指南不会玩技术的技术girl API 数据分析人工智能数据库
在电商运营中，订单数据是店铺运营的核心资产之一。通过对订单数据的导出、整理和分析，商家可以更好地了解销售情况、优化运营策略、提升客户满意度，并制定科学的业务决策。本文将详细介绍淘宝/天猫店铺订单数据的导出方法、销售报表的设计思路以及数据分析的实用技巧，帮助电商从业者高效管理店铺数据。一、订单数据导出（一）手动导出订单数据淘宝和天猫平台提供了手动导出订单的功能，适用于数据量较小或临时性需求的场景。商
2025基金公司私有化部署趋势分析：技术自主权的崛起
标题：基金公司私有化部署：数据主权时代的战略选择与实战指南副标题：从DeepSeek到板栗看板，解密金融巨头如何用私有化部署重塑竞争力【热点引入：一场无声的金融科技革命】2025年2月，、十余家公募基金密集宣布完成DeepSeek大模型的私有化部署，这一现象登上财经热搜榜首。据不完全统计，超60%的头部基金公司已启动私有化部署计划，涉及投研、风控、客户服务等核心场景。这场革命背后的驱动力，正是金融
如何选择最佳国外邮箱？注册、登录与购买指南 html
在如今的数字化时代，邮箱已经成为我们日常生活和工作中不可或缺的工具。无论是个人通信、商务往来，还是注册各种在线服务，一个功能强大、稳定可靠的邮箱都是必不可少的。而在众多国外邮箱服务中，如何选择最适合自己的邮箱？本文将以Zoho邮箱为例，为您详细讲解如何选择、注册、登录以及购买国外邮箱服务。一、为什么选择国外邮箱？在选择邮箱服务时，很多人会考虑国外邮箱。以下是国外邮箱的几大优势：隐私保护更强国外邮箱
管理升级的关键：2024年6大国内项目管理平台实测与选择指南（禅道、钉钉、云效、简道云、Tapd、Teambition）
以下是一篇满足您要求的博客稿件：引言在当今快节奏的商业环境中，项目管理的重要性不言而喻。一款优秀的项目管理工具能够助力团队提高效率、优化流程，从而实现项目的成功交付。2024年，国内有众多项目管理平台可供选择，本文将对禅道、TAPD、云效、简道云、钉钉、Teambition这6大国内项目管理平台进行实测与分析，为您提供选择指南，帮助您找到最适合团队的项目管理工具。项目管理工具介绍禅道：开源且专业，
如何快速定位并解决 Linux 系统性能瓶颈：终极全攻略 BitTalk 性能优化 linux 服务器 java
在现代IT环境中，Linux系统被广泛应用于服务器、嵌入式设备和超级计算机等各类场景。随着系统负载的增加，性能瓶颈不可避免地会影响系统的可靠性和效率。因此，了解如何有效地诊断和解决Linux系统中的性能问题至关重要。本篇博客将深入探讨Linux性能瓶颈的可能来源，介绍各种性能评估方法和概念，并最终提供使用Linux命令查找性能瓶颈的实用指南。性能瓶颈的可能来源在Linux系统中，性能瓶颈可能出现在
在瑞芯微RK3588平台上使用RKNN部署YOLOv8Pose模型的C++实战指南机＿长 YOLO系列模型有效涨点改进深度学习落地实战 YOLO c++开发语言
在人工智能和计算机视觉领域，人体姿态估计是一项极具挑战性的任务，它对于理解人类行为、增强人机交互等方面具有重要意义。YOLOv8Pose作为YOLO系列中的新成员，以其高效和准确性在人体姿态估计任务中脱颖而出。本文将详细介绍如何在瑞芯微RK3588平台上，使用RKNN（RockchipNeuralNetworkToolkit）框架部署YOLOv8Pose模型，并进行C++代码的编译和运行。注本文全
探索 TypeScript Redux：构建大规模JavaScript应用的终极指南柳旖岭
探索TypeScriptRedux：构建大规模JavaScript应用的终极指南去发现同类优质开源项目:https://gitcode.com/在当今快速发展的前端开发领域中，组合正确工具集来应对复杂性和扩展性挑战至关重要。今天，我们将深入了解一个令人兴奋的开源项目——TypeScriptRedux，它结合了TypeScript、JSPM、typings、React和Redux的强大功能，为开发者
HarmonyOS全栈开发指南：从入门到精通，构建万物智联的未来生态（一）林钟雪 Harmonyos harmonyos 华为
一、HarmonyOS基础认知篇1.HarmonyOS发展历程与核心使命内容摘要：HarmonyOS，由华为公司于2019年首次公开发布，标志着华为在操作系统领域的深度布局。从最初的智能物联网设备操作系统定位，到如今面向万物智联时代的分布式全场景操作系统，HarmonyOS经历了多次迭代与升级。发展历程：初期探索：2019年，华为正式推出HarmonyOS，旨在打造一个适用于智能物联网设备的操作系
Vue.js 基础与实战指南：从入门到跑路王嘉俊705 前端 javascript visual studio code html 前端 vue.js
一、Vue的两种使用方式扩展核心包开发直接通过引入Vue.js，适用于简单页面或局部功能增强。优点：轻量，无需构建工具。缺点：难以管理复杂项目，缺少工程化支持。工程化开发使用VueCLI、Vite等工具创建项目，结合Webpack/Vite构建。支持单文件组件（.vue文件），结构清晰（`,,）。插件生态丰富（如VueRouter、Vuex、Pinia）。二、Vue实例的深入理解核心配置项 new
Playwright 入门介绍和使用指南 IT鱼多多 Python基础 #Python接口测试框架 python 开发语言 Playwright
Playwright入门介绍,Playwright使用指南请参考另一篇博客此博客为Playwright官网：译文希望让读者可以快速了解Playwriht可以用来做什么，怎么用。有些专业名词可能翻译不准确哈文章目录1.入门1.1Installation安装1.1.1AddExampleTest添加示例测试1.1.2RunningtheExampleTest运行示例测试1.2WritingTests编
大模型（含deepseek r1）本地部署利器ollama的API操作指南人工智能llm
ollama介绍：Ollama是一个开源的大型语言模型（LLM）平台，旨在让用户能够轻松地在本地运行、管理和与大型语言模型进行交互。它支持多种预训练的大型语言模型（如LLaMA2、Mistral、Gemma、DeepSeek等），并提供了一个简单高效的方式来加载和使用这些模型。出现Error:somethingwentwrong,pleaseseetheollamaserverlogsfordet
chatgpt4.0账号购买指南：畅享体验更加丝滑的GPT 4.0/4o chatgpt
解锁4.0的宇宙，开启无限可能！快来体验4.0的超能力，感受未来科技的魅力！✨以下是五大理由，让你立刻爱上它：1️⃣语言理解力MAX！ChatGPT4.0不仅仅是升级，更是进化！相比之前的版本，它拥有更强大的语言理解和生成能力，能够像一位真正的专家一样理解你的复杂问题，并提供更相关、更深入、更令人信服的答案。告别答非所问的尴尬，迎接精准高效的沟通！2️⃣多模态支持，玩转图文交互！️ChatGPT4
全面解析 Enterprise Architect（EA）活动图的工具集：从元素到关系的详尽指南泡沫o0 C/C++编程世界:探索C/C++的奥妙 c++20 开发语言 c++嵌入式 qt uml arm
目录标题第一章:引言——理解活动图的重要性1.1什么是活动图？1.1.1活动图的组成元素1.1.2活动图的应用场景1.2为什么选择EA作为建模工具？1.2.1EA的强大功能1.2.2EA与其他建模工具的对比第二章:活动图中的核心元素2.1活动类元素2.1.1Activity（活动）示例：2.1.2Action（动作）示例：2.1.3Partition（泳道）示例：2.1.4Send（发送）与Rec
国内如何使用Claude 3.5/4.0？只有这3种方法！最后一种适合新手！ claude
绕过限制，畅享Claude3.5/4.0：国内用户使用指南最近，很多小伙伴都想体验Claude的魅力，感受AI的强大。然而，由于Anthropic对Claude，特别是Claude3.5/4.0的访问限制，以及对新用户注册的严格把控️，国内用户想要顺畅使用真的不容易啊！别担心！本文将化身你的锦囊妙计，详细介绍几种在国内使用Claude3.5/4.0的策略，并提供全面的操作指南和注意事项，让你轻松玩
PSINS工具箱函数介绍——ggnss（ggpsvars+gbdvars+gglovars） MATLAB卡尔曼 PSINS函数 matlab PSINS
文章目录关于工具箱工具箱概述学习路径指南GNSS参数初始化函数`ggnss`函数功能参数体系结构典型应用场景系统参数初始化操作指南执行流程运行结果解析函数源码深度解析代码架构扩展开发建议关于工具箱kfinit是kf的参数初始化函数，用于初始化滤波参数本文所述的代码需要基于PSINS工具箱，工具箱的讲解：PSINS初学指导：https://blog.csdn.net/callmeup/article
【k8s应用管理】kubernetes HPA+rancher Karoku066 kubernetes rancher 容器运维云原生
文章目录KubernetesHPA部署指南概述部署metrics-server部署HPARancher管理Kubernetes集群指南实验环境安装及配置RancherKubernetesHPA部署指南概述KubernetesHPA（HorizontalPodAutoscaling）可以根据Pod的CPU利用率自动调整Deployment、ReplicationController或ReplicaS
2025年三个月自学手册网络安全（黑客技术）网安kk web安全安全网络网络安全人工智能
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习导航
前端开发入门指南：HTML、CSS和JavaScript基础知识方向感超强的 javascript css html 前端
引言：大家好，我是一名简单的前端开发爱好者，对于网页设计和用户体验的追求让我深深着迷。在本篇文章中，我将带领大家探索前端开发的基础知识，涵盖HTML、CSS和JavaScript。如果你对这个领域感兴趣，或者想要了解如何开始学习前端开发，那么这篇文章将为你提供一个良好的起点。1.前端开发概述在我们深入了解前端开发的细节之前，让我们先了解一下前端开发的定义和作用。简而言之，前端开发涉及构建用户直接与
《运维工程师如何利用DeepSeek实现智能运维：分级实战指南》进击的雷神武林绝学：技术杂谈剑影流转运维
目录智能运维革命：DeepSeek带来的范式转变DeepSeek核心运维能力全景解析分级实战场景与解决方案3.1初级工程师：自动化运维入门3.2中级工程师：复杂系统诊断与优化3.3高级工程师：架构级智能运维典型项目案例深度剖析4.1金融系统全链路监控体系构建4.2电商大促资源弹性调度实战4.3混合云环境下的安全加固分级能力提升路径效能提升数据验证挑战与演进方向构建智能运维体系行动指南1.智能运维革
pycdc 安装和配置指南左洋蔷Rory
pycdc安装和配置指南pycdcC++pythonbytecodedisassembleranddecompiler项目地址:https://gitcode.com/gh_mirrors/py/pycdc1.项目基础介绍和主要的编程语言项目名称:pycdc项目简介:pycdc是一个用C++编写的Python字节码反编译器和反汇编器。它的目标是帮助开发者将编译后的Python字节码（.pyc文件）
高并发系统架构设计全链路指南 power-辰南 java技术架构师成长专栏系统架构分布式高并发 springcloud
第一章：架构优化核心目标：提升系统高并发&高可用能力，优化架构，提高吞吐量。1.1微服务高可用优化解决问题：微服务可能存在单点故障、扩展性差、调用效率低等问题。1.1.1服务无状态化目的：让服务实例可以随时扩缩容、快速恢复，避免单点故障。可能的问题现象影响本地存储Session，导致用户粘连某个实例实例挂掉后，用户重新登录订单等业务逻辑依赖本地缓存容器扩缩时数据丢失静态文件（Excel/图片）存本
Selenium使用指南程序员杰哥 selenium 测试工具 python 测试用例职场和发展程序人生功能测试
概述selenium是网页应用中最流行的自动化测试工具，可以用来做自动化测试或者浏览器爬虫等。官网地址为：相对于另外一款web自动化测试工具QTP来说有如下优点：免费开源轻量级，不同语言只需要一个体积很小的依赖包支持多种系统，包括Windows，Mac，Linux支持多种浏览器，包括Chrome，FireFox，IE，safari，opera等支持多语言，包括Java，C，python，c#等主流
Day48（补）【AI思考】-设计模式三大类型统一区分与记忆指南一个一定要撑住的学习者 #AI深度思考学习方法设计模式
文章目录设计模式三大类型统一区分与记忆指南**一、创建型模式（对象如何生？）****二、结构型模式（对象如何组？）****三、行为型模式（对象如何动？）****1.行为型类模式（靠继承）****2.行为型对象模式（靠组合）****四、统一对比表****五、终极记忆技巧**设计模式三大类型统一区分与记忆指南让思想碎片重焕生机的灵魂：行为模式分三类，每一类又有好多不同的模式，特别是行为式模式，还要区分
使用Yuan 2.0与LangChain构建智能聊天应用：完整指南 scaFHIO langchain python
技术背景介绍Yuan2.0是IEIT系统开发的新一代基础大语言模型，包括Yuan2.0-102B、Yuan2.0-51B和Yuan2.0-2B三种版本。相比之前的Yuan1.0，Yuan2.0使用了更广泛的高质量预训练数据，并通过指令微调数据集增强了模型的语义理解、数学推理、编程知识等能力。为了方便开发者集成，Yuan2.0提供了兼容OpenAIAPI的服务接口。本文将介绍如何通过LangChai
Git入门与进阶：详细使用指南向着开发进攻 git git
Git入门与进阶：详细使用指南Git是一款强大的分布式版本控制工具，广泛用于软件开发中的源代码管理。无论你是一个刚刚开始学习编程的新手，还是一个已经有经验的开发者，Git都是你日常工作中的必备工具。在这篇文章中，我将详细介绍Git的使用方法，帮助你从基础到进阶掌握Git。什么是Git？Git是一种分布式版本控制系统（VCS），它让多个开发者能够高效地协同开发，跟踪代码的历史版本，并且管理项目的不同
在Linux上安装和使用Docker 向着开发进攻 linux linux docker
在Linux上安装和使用Docker：一步步指南Docker是一种流行的容器化平台，它可以帮助开发者轻松构建、部署和运行应用程序。在本文中，我们将介绍如何在Linux系统上安装Docker，并提供一些常用的Docker命令和使用说明。1.安装DockerUbuntu系统更新包索引并安装必要的软件包以允许apt通过HTTPS使用存储库：sudoaptupdatesudoaptinstallapt-t
NFC碰一碰发视频源码高质量矩阵宣传视频，支持OEM 余~~18538162800 python 开发语言音视频
一、引言在当今竞争激烈的商业环境中，创新的拓客方式对于企业的生存与发展至关重要。NFC（NearFieldCommunication）碰一碰技术的出现，为营销领域带来了新的机遇。结合视频传播的强大影响力，NFC碰一碰发视频拓客系统应运而生。本文将深入探讨该系统的源码搭建过程，并详细阐述如何实现对OEM（原始设备制造商）的支持，为开发者和企业提供一套全面的技术指南。二、系统架构设计（一）NFC交互层
DeepSeek指导手册从入门到精通向画功能 java c语言 lua laravel eclipse github vue.js
第一章:准备篇(30分钟上手)1.1三分钟创建你的AI伙伴步骤详解访问官网：在浏览器输入｢www.deepseek.com｣。注册账号：点击右上角｢笑脸图标｣，选择｢邮箱/手机注册｣（建议使用常用邮箱）。验证身份：查看收件箱找到验证邮件，点击蓝色确认按钮（找不到可检查垃圾箱）。首次登录：输入密码时建议使用｢大小写字母+数字｣组合（例如:Deep2024@seek）。避坑指南如果遇到验证码不显示，尝
使用LangChain与AI21Jurassic模型进行交互 fgayif langchain 交互 python
在本指南中，我们将探讨如何使用LangChain与AI21的Jurassic模型进行交互。为了使用Jamba模型，请使用ChatAI21对象。您可以在LangChain上查看AI21模型和工具的完整列表。环境准备首先，我们需要安装langchain-ai21库。!pipinstall-qUlangchain-ai21环境设置在开始之前，我们需要获取AI21的API密钥，并设置AI21_API_KE
AnythingLLM 项目安装与配置指南龙聪山Diane
AnythingLLM项目安装与配置指南anything-llm为开源和闭源的大型语言模型（LLMs）、嵌入器和向量数据库提供开源的ChatGPT体验。在一个应用中提供无限的文档、消息和并发用户，以及权限管理。项目地址:https://gitcode.com/gh_mirrors/an/anything-llm1.项目基础介绍和主要编程语言AnythingLLM是一个全栈应用程序，旨在帮助用户将任
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod