weixin_39728544

python机器学习算法_手把手教你使用Python实现机器学习算法

这是一篇手把手教你使用 Python 实现机器学习算法，并在数值型数据和图像数据集上运行模型的入门教程，当你看完本文后，你应当可以开始你的机器学习之旅了！

本教程会采用下述两个库来实现机器学习算法：

scikit-learn

Keras

此外，你还将学习到：

评估你的问题

准备数据(原始数据、特征提取、特征工程等等)

检查各种机器学习算法

检验实验结果

深入了解性能最好的算法

在本文会用到的机器学习算法包括：

KNN

朴素贝叶斯

逻辑回归

SVM

决策树

随机森林

感知机

多层前向网络

CNNs

安装必备的 Python 机器学习库

开始本教程前，需要先确保安装了一下的 Python 库：

Numpy：用于 Python 的数值处理

PIL：一个简单的图像处理库

scikit-learn：包含多种机器学习算法(注意需要采用 0.2+ 的版本，所以下方安装命令需要加上 --upgrade )

Kears 和 TensorFlow：用于深度学习。本教程可以仅采用 CPU 版本的 TensorFlow

OpenCV：本教程并不会采用到 OpenCV，但 imutils 库依赖它；

imutils ：作者的图像处理/计算机视觉库

安装命令如下，推荐采用虚拟环境(比如利用 anaconda 创建一个新的环境)：

$ pip install numpy$ pip install pillow$ pip install --upgrade scikit-learn$ pip install tensorflow # or tensorflow-gpu$ pip install keras$ pip install opencv-contrib-python$ pip install --upgrade imutils

数据集

本教程会用到两个数据集来帮助更好的了解每个机器学习算法的性能。

第一个数据集是 Iris(鸢尾花) 数据集。这个数据集的地位，相当于你刚开始学习一门编程语言时，敲下的 “Hello，World！”

这个数据集是一个数值型的数据，如下图所示，其实就是一个表格数据，每一行代表一个样本，然后每一列就是不同的属性。这个数据集主要是收集了三种不同的鸢尾花的数据，分别为：

Iris Setosa

Iris Versicolor

Iris Virginica

对应图中最后一列 Class label，然后还有四种属性，分别是：

Sepal length--萼片长度

Sepal width--萼片宽度

Petal length--花瓣长度

Petal width--花瓣宽度

这个数据集可能是最简单的机器学习数据集之一了，通常是用于教导程序员和工程师的机器学习和模式识别基础的数据集。

对于该数据集，我们的目标就是根据给定的四个属性，训练一个机器学习模型来正确分类每个样本的类别。

需要注意的是，其中有一个类别和另外两个类别是线性可分的，但这两个类别之间却并非线性可分，所以我们需要采用一个非线性模型来对它们进行分类。当然了，在现实生活中，采用非线性模型的机器学习算法是非常常见的。

第二个数据集是一个三场景的图像数据集。这是帮助初学者学习如何处理图像数据，并且哪种算法在这两种数据集上性能最优。

下图是这个三场景数据集的部分图片例子，它包括森林、高速公路和海岸线三种场景，总共是 948 张图片，每个类别的具体图片数量如下：

Coast: 360

Forest: 328

Highway: 260

这个三场景数据集是采样于一个八场景数据集中，作者是 Oliva 和 Torralba 的 2001 年的一篇论文，Modeling the shape of the scene: a holistic representation of the spatial envelope

利用 Python 实现机器学习的步骤

无论什么时候实现机器学习算法，推荐采用如下流程来开始：

评估你的问题

准备数据(原始数据、特征提取、特征工程等等)

检查各种机器学习算法

检验实验结果

深入了解性能最好的算法

这个流程会随着你机器学习方面的经验的积累而改善和优化，但对于初学者，这是我建议入门机器学习时采用的流程。

所以，现在开始吧！第一步，就是评估我们的问题，问一下自己：

数据集是哪种类型？数值型，类别型还是图像？

模型的最终目标是什么？

如何定义和衡量“准确率”呢？

以目前自身的机器学习知识来看，哪些算法在处理这类问题上效果很好？

最后一个问题非常重要，随着你使用 Python 实现机器学习的次数的增加，你也会随之获得更多的经验。根据之前的经验，你可能知道有一种算法的性能还不错。

因此，接着就是准备数据，也就是数据预处理以及特征工程了。

一般来说，这一步，包括了从硬盘中载入数据，检查数据，然后决定是否需要做特征提取或者特征工程。

特征提取就是应用某种算法通过某种方式来量化数据的过程。比如，对于图像数据，我们可以采用计算直方图的方法来统计图像中像素强度的分布，通过这种方式，我们就得到描述图像颜色的特征。

而特征工程则是将原始输入数据转换成一个更好描述潜在问题的特征表示的过程。当然特征工程是一项更先进的技术，这里建议在对机器学习有了一定经验后再采用这种方法处理数据。

第三步，就是检查各种机器学习算法，也就是实现一系列机器学习算法，并应用在数据集上。

这里，你的工具箱应当包含以下几种不同类型的机器学习算法：

线性模型(比如，逻辑回归，线性 SVM)

非线性模型(比如 RBF SVM，梯度下降分类器)

树和基于集成的模型(比如决策树和随机森林)

神经网络(比如多层感知机，卷积神经网络)

应当选择比较鲁棒(稳定)的一系列机器学习模型来评估问题，因为我们的目标就是判断哪种算法在当前问题的性能很好，而哪些算法很糟糕。

决定好要采用的模型后，接下来就是训练模型并在数据集上测试，观察每个模型在数据集上的性能结果。

在多次实验后，你可能就是有一种“第六感”，知道哪种算法更适用于哪种数据集。比如，你会发现：

对于有很多特征的数据集，随机森林算法的效果很不错；

而逻辑回归算法可以很好处理高维度的稀疏数据；

对于图像数据，CNNs 的效果非常好。

而以上的经验获得，当然就需要你多动手，多进行实战来深入了解不同的机器学习算法了！

开始动手吧！

接下来就开始敲代码来实现机器学习算法，并在上述两个数据集上进行测试。本教程的代码文件目录如下，包含四份代码文件和一个 3scenes文件夹，该文件夹就是三场景数据集，而 Iris 数据集直接采用 scikit-learn 库载入即可。

├── 3scenes│ ├── coast [360 entries]│ ├── forest [328 entries]│ └── highway [260 entries]├── classify_iris.py├── classify_images.py├── nn_iris.py└── basic_cnn.py

首先是实现 classify_iris.py，这份代码是采用机器学习算法来对 Iris 数据集进行分类。

首先导入需要的库：

可以看到在 sklearn 库中就集成了我们将要实现的几种机器学习算法的代码，包括：

KNN

朴素贝叶斯

逻辑回归

SVM

决策树

随机森林

感知机

我们直接调用 sklearn 中相应的函数来实现对应的算法即可，比如对于 knn算法，直接调用 sklearn.neighbors 中的 KNeighborsClassifier() 即可，只需要设置参数 n_neighbors ，即最近邻的个数。

这里直接用一个 models 的字典来保存不同模型的初始化，然后根据参数 --model 来调用对应的模型，比如命令输入 python classify_irs.py --model knn 就是调用 knn 算法模型。

接着就是载入数据部分：

print("[INFO] loading data...")dataset = load_iris()(trainX, testX, trainY, testY) = train_test_split(dataset.data, dataset.target, random_state=3, test_size=0.25)

这里直接调用 sklearn.datasets 中的 load_iris() 载入数据，然后采用 train_test_split 来划分训练集和数据集，这里是 75% 数据作为训练集，25% 作为测试集。

最后就是训练模型和预测部分：

# 训练模型print("[INFO] using '{}' model".format(args["model"]))model = models[args["model"]]model.fit(trainX, trainY)# 预测并输出一份分类结果报告print("[INFO] evaluating")predictions = model.predict(testX)print(classification_report(testY, predictions, target_names=dataset.target_names))

完整版代码代码如下：

接着就是采用三场景图像数据集的分类预测代码 classify_images.py ，跟 classify_iris.py 的代码其实是比较相似的，首先导入库部分，增加以下几行代码：

from sklearn.preprocessing import LabelEncoderfrom PIL import Imagefrom imutils import pathsimport numpy as npimport os

其中 LabelEncoder 是为了将标签从字符串编码为整型，然后其余几项都是处理图像相关。

对于图像数据，如果直接采用原始像素信息输入模型中，大部分的机器学习算法效果都很不理想，所以这里采用特征提取方法，主要是统计图像颜色通道的均值和标准差信息，总共是 RGB 3个通道，每个通道各计算均值和标准差，然后结合在一起，得到一个六维的特征，函数如下所示：

def extract_color_stats(image): ''' 将图片分成 RGB 三通道，然后分别计算每个通道的均值和标准差，然后返回 :param image: :return: ''' (R, G, B) = image.split() features = [np.mean(R), np.mean(G), np.mean(B), np.std(R), np.std(G), np.std(B)] return features

然后同样会定义一个 models 字典，代码一样，这里就不贴出来了，然后图像载入部分的代码如下：

# 加载数据并提取特征print("[INFO] extracting image features...")imagePaths = paths.list_images(args['dataset'])data = []labels = []# 循环遍历所有的图片数据for imagePath in imagePaths: # 加载图片，然后计算图片的颜色通道统计信息 image = Image.open(imagePath) features = extract_color_stats(image) data.append(features) # 保存图片的标签信息 label = imagePath.split(os.path.sep)[-2] labels.append(label)# 对标签进行编码，从字符串变为整数类型le = LabelEncoder()labels = le.fit_transform(labels)# 进行训练集和测试集的划分，75%数据作为训练集，其余25%作为测试集(trainX, testX, trainY, testY) = train_test_split(data, labels, test_size=0.25)

上述代码就完成从硬盘中加载图片的路径信息，然后依次遍历，读取图片，提取特征，提取标签信息，保存特征和标签信息，接着编码标签，然后就是划分训练集和测试集。

接着是相同的训练模型和预测的代码，同样没有任何改变，这里就不列举出来了。

完整版如下：

from sklearn.neighbors import KNeighborsClassifierfrom sklearn.naive_bayes import GaussianNBfrom sklearn.linear_model import LogisticRegressionfrom sklearn.svm import SVCfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.neural_network import MLPClassifierfrom sklearn.preprocessing import LabelEncoderfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import classification_reportfrom PIL import Imagefrom imutils import pathsimport numpy as npimport argparseimport osdef extract_color_stats(image): ''' 将图片分成 RGB 三通道，然后分别计算每个通道的均值和标准差，然后返回 :param image: :return: ''' (R, G, B) = image.split() features = [np.mean(R), np.mean(G), np.mean(B), np.std(R), np.std(G), np.std(B)] return features# 设置参数ap = argparse.ArgumentParser()ap.add_argument("-d", "--dataset", type=str, default="3scenes", help="path to directory containing the '3scenes' dataset")ap.add_argument("-m", "--model", type=str, default="knn", help="type of python machine learning model to use")args = vars(ap.parse_args())# 定义一个保存模型的字典，根据 key 来选择加载哪个模型models = { "knn": KNeighborsClassifier(n_neighbors=1), "naive_bayes": GaussianNB(), "logit": LogisticRegression(solver="lbfgs", multi_class="auto"), "svm": SVC(kernel="rbf", gamma="auto"), "decision_tree": DecisionTreeClassifier(), "random_forest": RandomForestClassifier(n_estimators=100), "mlp": MLPClassifier()}# 加载数据并提取特征print("[INFO] extracting image features...")imagePaths = paths.list_images(args['dataset'])data = []labels = []# 循环遍历所有的图片数据for imagePath in imagePaths: # 加载图片，然后计算图片的颜色通道统计信息 image = Image.open(imagePath) features = extract_color_stats(image) data.append(features) # 保存图片的标签信息 label = imagePath.split(os.path.sep)[-2] labels.append(label)# 对标签进行编码，从字符串变为整数类型le = LabelEncoder()labels = le.fit_transform(labels)# 进行训练集和测试集的划分，75%数据作为训练集，其余25%作为测试集(trainX, testX, trainY, testY) = train_test_split(data, labels, random_state=3, test_size=0.25)# print('trainX numbers={}, testX numbers={}'.format(len(trainX), len(testX)))# 训练模型print("[INFO] using '{}' model".format(args["model"]))model = models[args["model"]]model.fit(trainX, trainY)# 预测并输出分类结果报告print("[INFO] evaluating...")predictions = model.predict(testX)print(classification_report(testY, predictions, target_names=le.classes_))

完成这两份代码后，我们就可以开始运行下代码，对比不同算法在两个数据集上的性能。

因为篇幅的原因，这里我会省略原文对每个算法的介绍，具体的可以查看之前我写的对机器学习算法的介绍：

常用机器学习算法汇总比较(上）

常用机器学习算法汇总比较(中）

常用机器学习算法汇总比较(完）

KNN

这里我们先运行下 classify_irs.py，调用默认的模型 knn ，看下 KNN 在 Iris 数据集上的实验结果，如下所示：

其中主要是给出了对每个类别的精确率、召回率、F1 以及该类别测试集数量，即分别对应 precision, recall, f1-score, support 。根据最后一行第一列，可以看到 KNN 取得 95% 的准确率。

接着是在三场景图片数据集上的实验结果:

这里 KNN 取得 72% 的准确率。

(ps：实际上，运行这个算法，不同次数会有不同的结果，原文作者给出的是 75%，其主要原因是因为在划分训练集和测试集的时候，代码没有设置参数 random_state，这导致每次运行划分的训练集和测试集的图片都是不同的，所以运行结果也会不相同！)

朴素贝叶斯

接着是朴素贝叶斯算法，分别测试两个数据集，结果如下：

同样，朴素贝叶斯在 Iris 上有 98% 的准确率，但是在图像数据集上仅有 63% 的准确率。

那么，我们是否可以说明 KNN 算法比朴素贝叶斯好呢？

当然是不可以的，上述结果只能说明在三场景图像数据集上，KNN 算法优于朴素贝叶斯算法。

实际上，每种算法都有各自的优缺点和适用场景，不能一概而论地说某种算法任何时候都优于另一种算法，这需要具体问题具体分析。

逻辑回归

接着是逻辑回归算法，分别测试两个数据集，结果如下：

同样，逻辑回归在 Iris 上有 98% 的准确率，但是在图像数据集上仅有 77%的准确率(对比原文作者的逻辑回归准确率是 69%)

支持向量机 SVM

接着是 SVM 算法，分别测试两个数据集，结果如下：

同样，SVM 在 Iris 上有 98% 的准确率，但是在图像数据集上仅有 76% 的准确率(对比原文作者的准确率是 83%，主要是发现类别 coast 差别有些大)

决策树

接着是决策树算法，分别测试两个数据集，结果如下：

同样，决策树在 Iris 上有 98% 的准确率，但是在图像数据集上仅有 71% 的准确率(对比原文作者的决策树准确率是 74%)

随机森林

接着是随机森林算法，分别测试两个数据集，结果如下：

同样，随机森林在 Iris 上有 96% 的准确率，但是在图像数据集上仅有 77%的准确率(对比原文作者的决策树准确率是 84%)

注意了，一般如果决策树算法的效果还不错的话，随机森林算法应该也会取得不错甚至更好的结果，这是因为随机森林实际上就是多棵决策树通过集成学习方法组合在一起进行分类预测。

多层感知机

最后是多层感知机算法，分别测试两个数据集，结果如下：

同样，多层感知机在 Iris 上有 98% 的准确率，但是在图像数据集上仅有 79% 的准确率(对比原文作者的决策树准确率是 81%).

深度学习以及深度神经网络

神经网络

最后是实现深度学习的算法，也就是 nn_iris.py 和 basic_cnn.py 这两份代码。

(这里需要注意 TensorFlow 和 Keras 的版本问题，我采用的是 TF=1.2 和 Keras=2.1.5)

首先是 nn_iris.py 的实现，同样首先是导入库和数据的处理：

这里我们将采用 Keras 来实现神经网络，然后这里需要将标签进行 one-hot编码，即独热编码。

接着就是搭建网络模型的结构和训练、预测代码：

# 利用 Keras 定义网络模型model = Sequential()model.add(Dense(3, input_shape=(4,), activation="sigmoid"))model.add(Dense(3, activation="sigmoid"))model.add(Dense(3, activation="softmax"))# 采用梯度下降训练模型print('[INFO] training network...')opt = SGD(lr=0.1, momentum=0.9, decay=0.1 / 250)model.compile(loss='categorical_crossentropy', optimizer=opt, metrics=["accuracy"])H = model.fit(trainX, trainY, validation_data=(testX, testY), epochs=250, batch_size=16)# 预测print('[INFO] evaluating network...')predictions = model.predict(testX, batch_size=16)print(classification_report(testY.argmax(axis=1), predictions.argmax(axis=1), target_names=dataset.target_names))

这里是定义了 3 层全连接层的神经网络，前两层采用 Sigmoid 激活函数，然后最后一层是输出层，所以采用 softmax 将输出变成概率值。接着就是定义了使用 SGD 的优化算法，损失函数是 categorical_crossentropy，迭代次数是 250 次，batch_size 是 16。

完整版如下：

from keras.models import Sequentialfrom keras.layers.core import Densefrom keras.optimizers import SGDfrom sklearn.preprocessing import LabelBinarizerfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import classification_reportfrom sklearn.datasets import load_iris# 载入 Iris 数据集，然后进行训练集和测试集的划分，75%数据作为训练集，其余25%作为测试集print("[INFO] loading data...")dataset = load_iris()(trainX, testX, trainY, testY) = train_test_split(dataset.data, dataset.target, test_size=0.25)# 将标签进行 one-hot 编码lb = LabelBinarizer()trainY = lb.fit_transform(trainY)testY = lb.transform(testY)# 利用 Keras 定义网络模型model = Sequential()model.add(Dense(3, input_shape=(4,), activation="sigmoid"))model.add(Dense(3, activation="sigmoid"))model.add(Dense(3, activation="softmax"))# 采用梯度下降训练模型print('[INFO] training network...')opt = SGD(lr=0.1, momentum=0.9, decay=0.1 / 250)model.compile(loss='categorical_crossentropy', optimizer=opt, metrics=["accuracy"])H = model.fit(trainX, trainY, validation_data=(testX, testY), epochs=250, batch_size=16)# 预测print('[INFO] evaluating network...')predictions = model.predict(testX, batch_size=16)print(classification_report(testY.argmax(axis=1), predictions.argmax(axis=1), target_names=dataset.target_names))

直接运行命令 python nn_iris.py，输出的结果如下：

这里得到的是 100% 的准确率，和原文的一样。当然实际上原文给出的结果如下图所示，可以看到其实类别数量上是不相同的。

CNN

最后就是实现 basic_cnn.py 这份代码了。

同样首先是导入必须的库函数：

同样是要导入 Keras 来建立 CNN 的网络模型，另外因为是处理图像数据，所以 PIL、imutils 也是要导入的。

然后是加载数据和划分训练集和测试集，对于加载数据，这里直接采用原始图像像素数据，只需要对图像数据做统一尺寸的调整，这里是统一调整为 32×32，并做归一化到 [0,1] 的范围。

# 加载数据并提取特征print("[INFO] extracting image features...")imagePaths = paths.list_images(args['dataset'])data = []labels = []# 循环遍历所有的图片数据for imagePath in imagePaths: # 加载图片，然后调整成 32×32 大小，并做归一化到 [0,1] image = Image.open(imagePath) image = np.array(image.resize((32, 32))) / 255.0 data.append(image) # 保存图片的标签信息 label = imagePath.split(os.path.sep)[-2] labels.append(label)# 对标签编码，从字符串变为整型lb = LabelBinarizer()labels = lb.fit_transform(labels)# 划分训练集和测试集(trainX, testX, trainY, testY) = train_test_split(np.array(data), np.array(labels), test_size=0.25)

接着定义了一个 4 层的 CNN 网络结构，包含 3 层卷积层和最后一层输出层，优化算法采用的是 Adam 而不是 SGD 。代码如下所示：

# 定义 CNN 网络模型结构model = Sequential()model.add(Conv2D(8, (3, 3), padding="same", input_shape=(32, 32, 3)))model.add(Activation("relu"))model.add(MaxPooling2D(pool_size=(2, 2), strides=(2, 2)))model.add(Conv2D(16, (3, 3), padding="same"))model.add(Activation("relu"))model.add(MaxPooling2D(pool_size=(2, 2), strides=(2, 2)))model.add(Conv2D(32, (3, 3), padding="same"))model.add(Activation("relu"))model.add(MaxPooling2D(pool_size=(2, 2), strides=(2, 2)))model.add(Flatten())model.add(Dense(3))model.add(Activation("softmax"))# 训练模型print("[INFO] training network...")opt = Adam(lr=1e-3, decay=1e-3 / 50)model.compile(loss="categorical_crossentropy", optimizer=opt, metrics=["accuracy"])H = model.fit(trainX, trainY, validation_data=(testX, testY), epochs=50, batch_size=32)# 预测print("[INFO] evaluating network...")predictions = model.predict(testX, batch_size=32)print(classification_report(testY.argmax(axis=1), predictions.argmax(axis=1), target_names=lb.classes_))

完整版如下：

from keras.models import Sequentialfrom keras.layers.convolutional import Conv2Dfrom keras.layers.convolutional import MaxPooling2Dfrom keras.layers.core import Activationfrom keras.layers.core import Flattenfrom keras.layers.core import Densefrom keras.optimizers import Adamfrom sklearn.preprocessing import LabelBinarizerfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import classification_reportfrom PIL import Imagefrom imutils import pathsimport numpy as npimport argparseimport os# 配置参数ap = argparse.ArgumentParser()ap.add_argument("-d", "--dataset", type=str, default="3scenes", help="path to directory containing the '3scenes' dataset")args = vars(ap.parse_args())# 加载数据并提取特征print("[INFO] extracting image features...")imagePaths = paths.list_images(args['dataset'])data = []labels = []# 循环遍历所有的图片数据for imagePath in imagePaths: # 加载图片，然后调整成 32×32 大小，并做归一化到 [0,1] image = Image.open(imagePath) image = np.array(image.resize((32, 32))) / 255.0 data.append(image) # 保存图片的标签信息 label = imagePath.split(os.path.sep)[-2] labels.append(label)# 对标签编码，从字符串变为整型lb = LabelBinarizer()labels = lb.fit_transform(labels)# 划分训练集和测试集(trainX, testX, trainY, testY) = train_test_split(np.array(data), np.array(labels), test_size=0.25)# 定义 CNN 网络模型结构model = Sequential()model.add(Conv2D(8, (3, 3), padding="same", input_shape=(32, 32, 3)))model.add(Activation("relu"))model.add(MaxPooling2D(pool_size=(2, 2), strides=(2, 2)))model.add(Conv2D(16, (3, 3), padding="same"))model.add(Activation("relu"))model.add(MaxPooling2D(pool_size=(2, 2), strides=(2, 2)))model.add(Conv2D(32, (3, 3), padding="same"))model.add(Activation("relu"))model.add(MaxPooling2D(pool_size=(2, 2), strides=(2, 2)))model.add(Flatten())model.add(Dense(3))model.add(Activation("softmax"))# 训练模型print("[INFO] training network...")opt = Adam(lr=1e-3, decay=1e-3 / 50)model.compile(loss="categorical_crossentropy", optimizer=opt, metrics=["accuracy"])H = model.fit(trainX, trainY, validation_data=(testX, testY), epochs=50, batch_size=32)# 预测print("[INFO] evaluating network...")predictions = model.predict(testX, batch_size=32)print(classification_report(testY.argmax(axis=1), predictions.argmax(axis=1), target_names=lb.classes_))

运行命令 python basic_cnn.py，输出结果如下：

CNN 的准确率是达到 90%，它是优于之前的几种机器学习算法的结果。

小结

最后，这仅仅是一份对机器学习完全是初学者的教程，其实就是简单调用现有的库来实现对应的机器学习算法，让初学者简单感受下如何使用机器学习算法，正如同在学习编程语言的时候，对着书本的代码例子敲起来，然后运行代码，看看自己写出来的程序的运行结果。

通过这份简单的入门教程，你应该明白的是：

没有任何一种算法是完美的，可以完全适用所有的场景，即便是目前很热门的深度学习方法，也存在它的局限性，所以应该具体问题具体分析！

记住开头推荐的 5 步机器学习操作流程，这里再次复习一遍：

评估你的问题

准备数据(原始数据、特征提取、特征工程等等)

检查各种机器学习算法

检验实验结果

深入了解性能最好的算法

最后一点，是我运行算法结果，和原文作者的结果会不相同，这实际上就是每次采样数据，划分训练集和测试集不相同的原因！这其实也说明了数据非常重要，对于机器学习来说，好的数据很重要！

接着，根据这份教程，你可以继续进一步了解每种机器学习算法，了解每种算法的基本原理和实现，尝试自己手动实现，而不是简单调用现有的库，这样更加能加深印象，这里推荐《机器学习实战》，经典的机器学习算法都有介绍，并且都会带你一步步实现算法！

最后，极力推荐大家去阅读下原文作者的博客，原文作者也是一个大神，他的博客地址如下：https://www.pyimagesearch.com/

他的博客包含了 Opencv、Python、机器学习和深度学习方面的教程和文章，而且作者喜欢通过实战学习，所以很多文章都是通过一些实战练习来学习某个知识点或者某个算法，正如同本文通过实现这几种常见的机器学习算法在两个不同类型数据集上的实战来带领初学者入门机器学习。

你可能感兴趣的:(python机器学习算法)

PyQt和PySide的区别和比较 PgosOcaml pyqt mfc c++
PyQt和PySide的区别和比较PyQt和PySide是两个用于创建图形用户界面(GUI)的Python库。它们都是基于Qt框架，Qt是一个跨平台的应用程序和UI开发框架。本文将介绍PyQt和PySide之间的区别和比较，并提供相应的源代码示例。开发者许可证：PyQt的开发者许可证是商业许可证，因此如果您想在商业项目中业项目中使用PyQt，您需要购买相应的许可证。而Py业项目中使用PyQt，您需
Python 错误处理赔罪 Python 系统学习 python 开发语言
目录try调用栈记录错误抛出错误练习小结在程序运行的过程中，如果发生了错误，可以事先约定返回一个错误代码，这样，就可以知道是否有错，以及出错的原因。在操作系统提供的调用中，返回错误码非常常见。比如打开文件的函数open()，成功时返回文件描述符（就是一个整数），出错时返回-1。用错误码来表示是否出错十分不便，因为函数本身应该返回的正常结果和错误码混在一起，造成调用者必须用大量的代码来判断是否出错：
【Python Qt 基本概念】深入探讨 PySide6 与 PyQt6：选择、共存与最佳实践泡沫o0 Qt应用开发 -探索Qt的魅力与实践 Python 基础教程 mfc c++qt 开发语言 python 嵌入式 linux
目录标题第一章:Python绑定的Qt库——PySide6与PyQt6的比较1.1PySide6与PyQt6的基本介绍1.1.1PySide6：Qt官方推荐的Python绑定1.1.2PyQt6：成熟的第三方Python绑定1.1.3主要差异：许可证1.2两者的相似性与差异性1.2.1功能和性能差异1.2.2API差异与兼容性1.3总结：选择的自由与责任第二章:在VSCode中使用PySide6与
《AI大模型趣味实战》第8集：多端适配个人新闻头条基于大模型和RSS聚合打造个人新闻电台(Flask WEB版) 2 带娃的IT创业者 AI大模型趣味实战人工智能 flask 前端
《AI大模型趣味实战》第8集：多端适配个人新闻头条基于大模型和RSS聚合打造个人新闻电台(FlaskWEB版)2摘要本文末尾介绍了如何实现新闻智能体的方法。在信息爆炸的时代，如何高效获取和筛选感兴趣的新闻内容成为一个现实问题。本文将带领读者通过Python和Flask框架，结合大模型的强大能力，构建一个个性化的新闻聚合平台，不仅能够自动收集整理各类RSS源的新闻，还能以语音播报的形式提供"新闻电台
LeetCode剑指offer题目记录3 t.y.Tang LeetCode记录学语言 c++leetcode 哈希算法
leetcode刷题开始啦,每天记录几道题.目录剑指offer05.替换空格题目描述思路pythonC++剑指offer06.从尾到头打印链表题目描述思路1python思路2pythonC++剑指offer05.替换空格题目描述让我们实现一个函数,把字符串s中的每个空格替换为%20.思路这个题目我只能想到遍历,在空间控制上应该有原地修改的办法会省一些.python如果用python,那直接用spl
Python 中的 Iterable、Iterator 与生成器 CavenWang python python 开发语言
Python中的Iterable、Iterator与生成器Iterable（可迭代对象）Iterator（迭代器）生成器（Generator）Iterable、Iterator与生成器的关系实际应用生成器的高级用法（send()）总结在Python中，Iterable、Iterator和生成器是三个密切相关的概念，它们都与迭代操作有关，但各自扮演不同的角色。本文将深入探讨它们的定义、区别以及实际应
Python Lambda 函数详解 2201_75491841 python 开发语言 lambda函数
一、引言在Python编程中，我们经常会遇到一些简单的函数，这些函数可能只在某个特定的地方使用一次，而且逻辑非常简单。如果为了这些简单的功能定义一个常规的函数，不仅会增加代码的冗余，还会使代码结构变得不够简洁。这时，lambda函数就派上用场了。lambda函数也被称为匿名函数，它为我们提供了一种简洁的方式来定义小型的、一次性使用的函数。在本文中，我们将深入探讨Python中的lambda函数，包
小白学AI量化：DeepSeek+Python构建强大的金融数据挖掘与多维分析机器人老余捞鱼 AI顾投高级策略 AI探讨与学习人工智能 python 金融 deepseek
作者：老余捞鱼原创不易，转载请标明出处及原作者。写在前面的话：在机构主导的量化交易时代，普通投资者如何用一杯奶茶的钱（15元/天）打造专业级智能量化产品？本文将为您揭秘一个革命性的解决方案——基于国产大模型DeepSeek和Python构建的智能数据挖掘分析机器人。它不仅适用于通用网页数据抓取，更能深度应用于金融领域，精准捕捉市场信号。本文“干货”很多，请务必耐心读完。一、颠覆认知的性价比革命1.
python processpoolexecutor_Python多进程解决方案multiprocessing ProcessPoolExecutor weixin_39599046 python
大多数编程语言都会有多线程和多进程的概念，至于线程和进程的概念，大家可以百度一下。作为一门胶水语言，Python毫不意外，也可以利用多线程和多进程处理并发问题，但是多线程由于GIL的存在，起作用范围大打折扣，仅限于在IO等场景可以发挥点作用。所以，今天要跟大家分享的是Python多进程方案，更好地利用系统多核，从而提升性能。基础方案一：利用Process新建一个子进程，在子进程执行任务。我们写一个
python processpoolexecutor_Python线程和进程池并行编程三千香蕉三千 python
Python3.2版本之后发布了concurrent.futures模块，用以支持和管理并发编程，内容涵盖了进程和线程池(ThreadandProcessPooling)、非确定性执行流(NondeterministicExecutionFlows)以及进程和线程同步。本文通过将带有可选参数的任务提交(Submit)给执行器(Executor)来实例化futures对象。执行器是线程或者进程执行池
python 底层原理processpoolexecutor_Python 并发编程：PoolExecutor 篇风投小虾 python
个人笔记，如有疏漏，还请指正。使用多线程(threading)和多进程(multiprocessing)完成常规的并发需求，在启动的时候start、join等步骤不能省，复杂的需要还要用1-2个队列。随着需求越来越复杂，如果没有良好的设计和抽象这部分的功能层次，代码量越多调试的难度就越大。对于需要并发执行、但是对实时性要求不高的任务，我们可以使用concurrent.futures包中的PoolE
机器学习实战第一章机器学习基础 LuoY、 Machine Learning 机器学习算法人工智能
第一章机器学习1.1何谓机器学习1.2关键术语1.3机器学习的主要任务1.4如何选择合适的算法1.5开发机器学习应用程序的步骤1.6Python语言的优势1.1何谓机器学习 1、简单地说，机器学习就是把无序的数据转换成有用的信息； 2、机器学习能让我们自数据集中受启发，我们会利用计算机来彰显数据背后的真实含义； 3、机器学习横跨计算机科学、工程技术和统计学等多个学科，需要多学科的
数据挖掘实战-基于机器学习的垃圾邮件检测模型艾派森数据挖掘实战合集数据挖掘机器学习人工智能 python
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
conda篇----在已有conda环境的基础上升级python包心惠天意 conda python jvm
conda篇----在已有conda环境的基础上升级python包原先的python版本第一步：condaupdate--all(py11)[xxx@aivrs01xxx]$condaupdate--allCollectingpackagemetadata(current_repodata.json):doneSolvingenvironment:done==>WARNING:Anewervers
conda：一个当下最流行的Python虚拟环境工具 Wang_AI
点击上方“AI派”，选择“设为星标”最新分享，第一时间送达！作者：LeonWang，现为中科院特别研究助理(博士后)，在AI、数据科学和科学计算等方面相关的工程实践上积累了丰富的经验。编辑：王老湿前面的文章中，为大家介绍过Python下的虚拟环境和包管理。在实际中，更为流行的是用Conda来管理Python环境。今天这篇文章就为大家介绍这方面的相关内容。Conda环境Conda简介Conda是目前
轻松上手：Matplotlib的基本用法全知道大数据方向陪跑私教 python
《轻松上手：Matplotlib的基本用法全知道》嗨，小伙伴们！之前咱们了解了好多厉害的Python包，今天咱们来好好讲讲Matplotlib这个在数据可视化方面超棒的包。**Matplotlib到底该怎么用呢？**这就像是探索一个新的游乐场，每个功能都是一样好玩的项目。一、安装Matplotlib在开始使用Matplotlib之前，得先把它安装好。如果你已经安装了Python的包管理工具pip，
Python 高手编程系列一千七百零八：在事件循环中使用 executors 杨琴1 python 开发语言
Executor.submit()方法返回的Future类实例在概念上非常接近异步编程中使用的协程。这就是为什么我们可以使用执行器在协同多任务和多进程或多线程之间进行混合。此解决方法的核心是事件循环类的BaseEventLoop.run_in_executor(executor,func,*args)方法。它会在进程池或线程池中调度执行由executor参数表示的func函数。这个方法最重要的是它
conda将python低版本环境升级到高版本 dkgee conda python 开发语言
conda将python低版本环境3.7.16升级到高版本3.81.激活你的Conda环境2.升级Python版本3.验证升级4.处理依赖问题5.测试环境注意事项可以将Conda环境中的Python版本从3.7.16升级到3.8。以下是具体步骤：1.激活你的Conda环境首先，你需要激活你想要升级Python版本的环境。假设你的环境名为myenv，你可以使用以下命令激活它：condaactivat
python 爬取某乎某选全部内容路笑笑
在发布了python爬取知乎盐选文章内容后，没想到居然这么快就要更新新的内容了。在下午思考第一篇python爬取知乎盐选文章内容的时候，其实就把自动爬取目录内的其他内容的方法想出来了，但是本来没想这么快更新的，哈哈。不过思来想去还是发出来吧，毕竟要不哪天就忘了。fromDecryptLoginimportloginfrombs4importBeautifulSoupimportreimportba
（含import）两行代码，将ppt的每一页幻灯片保存为图片。（如果你没装office，只装了WPS也可以，只不过更麻烦一些）几道之旅人工智能智能体及数字员工 powerpoint wps
文章目录第一步:安装包第二步：写代码，运行第三步：如果你是Office，现在已经搞定了。但我是WPS，会报错：第四步：直接去包里改代码第五步：保存对包中代码的修改，重新运行咱最开头的代码第六步：成功了第一步:安装包pipinstallpython-office第二步：写代码，运行#安装库：pipinstallpython-officeimportoffice#单页转图片office.ppt.ppt
Python知识分享第十四天闵少搞AI python 开发语言
“”"1.面向对象相关概述概述面向对象是一种编程思想强调的是以对象为基础完成的各种操作它是基于面向过程的扩展Python中是同时支持面向对象和面向过程这两种编程思想的思想特点更符合人们的思考习惯把复杂的问题简单化把人们(程序员)从执行者变成了指挥者2.面向对象三大特征介绍封装继承多态封装概述封装就是隐藏对象的属性和实现细节仅对外提供公共的访问方式举例:插板电脑手机好处提高代码的安全性弊端代码量增加
pythontype函数使用_Python astype(np.float)函数使用方法解析 weixin_39870238 pythontype函数使用
Pythonastype(np.float)函数使用方法解析我的数据库如图结构我取了其中的nameagenr，做成array，只要所取数据存在str型，那么取出的数据，全部转化为str型，也就是array阵列的元素全是str，不管数据库定义的是不是int型。那么问题来了，取出的数据代入公式进行计算的时候，就会类型不符，这是就用到astype(np.float)代码如下importpymysqlim
conda install 和 pip install 的区别不知江月待何人.. 深度学习
condainstall和pipinstall是两个常用的包安装命令，但它们在很多方面存在差异。1.所属管理系统不同1.1condainstallcondainstall是Anaconda和Miniconda发行版自带的包管理工具conda的安装命令。conda是一个跨平台的开源包管理系统和环境管理系统，它不仅可以管理Python包，还能管理其他语言（如R、C++等）的包。conda更侧重于数据科
蓝桥杯备赛计划 laitywgx 蓝桥杯职场和发展
1-2小时的蓝桥杯PythonB组冲刺日程表（持续1个月，聚焦高频考点）：第一周：核心算法突破Day1（周一）学习重点：动态规划（01背包问题）学习资源：AcWing《蓝桥杯辅导课》第8讲（背包问题模板）代码模板速记：#一维01背包模板n,V=map(int,input().split())dp=[0]*(V+1)for_inrange(n):w,v=map(int,input().split()
Conda常用命令汇总（持续更新中） X-future426 conda linux 运维
原文章：安装和使用Miniconda来管理Python环境-CSDN博客一、Miniconda的使用Miniconda没有GUI界面，只能通过conda命令对Python环境和软件包进行管理，所以这里主要介绍一下conda的常用命令。1.Conda相关(1)查询conda版本conda--version(2)更新conda版本condaupdateconda2.环境管理(1)查询已创建的虚拟环境c
Python 爬虫实战：从知乎盐选专栏，爬取优质内容付费数据西攻城狮北 python 爬虫开发语言实战案例知乎
目录一、前言二、准备篇2.1确定目标2.2工具与库2.3法律与道德声明三、实战篇3.1分析知乎盐选专栏页面3.2模拟登录3.3获取文章列表3.4爬取更多文章数据3.5数据存储四、分析篇4.1数据清洗4.2热门文章分析4.3收藏数分析4.4评论数分析五、总结与展望六、注意事项一、前言知乎盐选专栏作为知乎平台上的优质内容付费板块，汇聚了众多创作者的高质量文章。了解这些文章的付费数据，如点赞数、收藏数、
Python 常用函数全解析，轻松提升编码效率 jiajia651304 python 开发语言 windows
Python常用函数全解析，轻松提升编码效率Python常用函数全解析，轻松提升编码效率1.基础内置函数1.1`print()`与`input()`1.2`len()`、`type()`与`isinstance()`2.数学与数值处理函数2.1`abs()`、`round()`与`pow()`2.2`divmod()`与`max()/min()`3.序列与迭代相关函数3.1`range()`与`e
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
新手如何使用 Milvus 巴依老爷coder 数据库 milvus 向量数据库数据库
一文带你入门Milvus：详细指南新手如何使用Milvus：详细指南一、Milvus简介主要特点应用领域二、安装Milvus安装DockerCompose基于DockerCompose安装Milvus服务端安装attu-可视化界面工具三、快速入门安装PythonSDK连接数据库方式1方式2（方式1的封装）数据库操作核心概念集合操作数据操作插入数据精准查询数据-get条件查询数据-query查询数据
nginx-部署Python网站项目 skyQAQLinux python linux nginx 服务器
一、部署Python网站项目实验要求配置Nginx使其可以将动态访问转交给uWSGI安装Python工具及依赖1)拷贝软件到proxy主机[root@server1~]#scp-r/linux-soft/s2/wk/python/192.168.99.5:/root2)安装python依赖软件[root@proxy~]#yum-yinstallgccmakepython3python3-devel
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR