调参侠鱼尾

Python机器学习日记4：监督学习算法的一些样本数据集（持续更新）

Python机器学习日记4：监督学习算法的一些样本数据集

一、书目与章节
二、forge数据集（二分类）
三、blobs数据集（三/多分类）
四、moons数据集
五、wave数据集（回归）
六、威斯康星州乳腺癌数据集（二分类）
- 1. DESCR
- 2. feature_names
- 3. data
- 4. target_names
- 5. target
- 6. filename
- 7. frame
七、波士顿房价数据集（回归）
- 1. DESCR
- 2. feature_names
- 3. data
- 4. target
- 5. filename
- 6. 特征工程（小提一嘴）

一、书目与章节

拜读的是这本《Python机器学习基础教程》，本文选自第2章“监督学习”第3节“监督学习算法中的样本数据集介绍，其中包括：forge数据集、wave数据集、威斯康星州乳腺癌数据集、波士顿房价数据集。

本书电子版链接：https://pan.baidu.com/s/1MTPDFHeD6GVgMX4C_wOZPQ
提取码：ut34

本书全部代码：https://github.com/amueller/introduction_to_ml_with_python

二、forge数据集（二分类）

import mglearn
import matplotlib.pyplot as plt

forge数据集是经典的二分类，它有两个特征，调用forge数据集并查看X：

# generate dataset
>>> X, y = mglearn.datasets.make_forge()
>>> X
array([[ 9.96346605,  4.59676542],
       [11.0329545 , -0.16816717],
       [11.54155807,  5.21116083],
       [ 8.69289001,  1.54322016],
       [ 8.1062269 ,  4.28695977],
                   ...
       [ 9.50048972, -0.26430318],
       [ 8.34468785,  1.63824349],
       [ 9.50169345,  1.93824624],
       [ 9.15072323,  5.49832246],
       [11.563957  ,  1.3389402 ]])

X是26*2的数组（26个数据点，2个特征）：

>>> X.shape
(26, 2)

查看y，y将对应的X数据分类为0和1：

>>> y
array([1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0,0, 0, 1, 0])

绘制散点图，第一个特征为x轴，第二个特征为y轴。三角形表示1，圆形表示0：

mglearn.discrete_scatter(X[:, 0], X[:, 1], y) # 绘制散点图
plt.legend(["Class 0", "Class 1"], loc=4) # 图例设置在右下角（第4区域）
plt.xlabel("First feature")
plt.ylabel("Second feature")

三、blobs数据集（三/多分类）

import mglearn
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs

X, y = make_blobs(random_state = 42)

blobs数据集是经典的三分类，它是一个二维数据集，每个类别的数据都是从一个高斯分布中采样得出的，调用数据集并查看X：

>>> X
array([[-7.72642091, -8.39495682],
       [ 5.45339605,  0.74230537],
       [-2.97867201,  9.55684617],
                   ...
       [ 4.47859312,  2.37722054],
       [-5.79657595, -5.82630754],
       [-3.34841515,  8.70507375]])

X是100*2的数组（100个数据点，2个特征）：

>> X.shape
(100, 2)

查看y，y将对应的X数据分类为0、1和2：

>>> y
array([2, 1, 0, 1, 2, 1, 0, 1, 1, 0, 0, 2, 2, 0, 0, 2, 2, 0, 2, 2, 0, 2,
       2, 0, 0, 0, 1, 2, 2, 2, 2, 1, 1, 2, 0, 0, 0, 0, 1, 1, 2, 0, 1, 0,
       0, 1, 2, 2, 2, 1, 1, 1, 0, 2, 2, 2, 0, 0, 1, 0, 2, 1, 2, 1, 2, 2,
       1, 2, 1, 1, 1, 2, 2, 0, 1, 2, 1, 2, 1, 1, 0, 1, 0, 2, 0, 0, 0, 1,
       0, 1, 1, 1, 0, 1, 0, 0, 0, 1, 2, 0])

>>> y.shape
(100,)

绘制散点图，第一个特征为x轴，第二个特征为y轴。正三角形表示1，圆形表示0，倒三角形表示2：

mglearn.discrete_scatter(X[:, 0], X[:, 1], y)
plt.xlabel("Feature 0")
plt.ylabel("Feature 1")
plt.legend(["Class 0", "Class 1", "Class 2"])

四、moons数据集

https://blog.csdn.net/Amanda_python/article/details/111577887?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7Edefault-1.no_search_link&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7Edefault-1.no_search_link

五、wave数据集（回归）

调用wave数据集并查看X，此处取了40个数据点（不设置默认100点）：

>>> X, y = mglearn.datasets.make_wave(n_samples = 40)   # 设置40个数据点
>>> X
array([[-0.75275929],
       [ 2.70428584],
       [ 1.39196365],
       [ 0.59195091],
       [-2.06388816],
       ...
       [ 1.85038409],
       [-1.17231738],
       [-2.41396732],
       [ 1.10539816],
       [-0.35908504]])

X为40*1的数组：

>>> X.shape
(40, 1)

查看y的值：

>>> y
array([-0.44822073,  0.33122576,  0.77932073,  0.03497884, -1.38773632,
       -2.47196233, -1.52730805,  1.49417157,  1.00032374,  0.22956153,
       -1.05979555,  0.7789638 ,  0.75418806, -1.51369739, -1.67303415,
       -0.90496988,  0.08448544, -0.52734666, -0.54114599, -0.3409073 ,
        0.21778193, -1.12469096,  0.37299129,  0.09756349, -0.98618122,
        0.96695428, -1.13455014,  0.69798591,  0.43655826, -0.95652133,
        0.03527881, -2.08581717, -0.47411033,  1.53708251,  0.86893293,
        1.87664889,  0.0945257 , -1.41502356,  0.25438895,  0.09398858])

可视化结果如下：

plt.plot(X, y, 'o')
plt.ylim(-3, 3) # 设置y轴坐标为-3到3
plt.xlabel("Feature")
plt.ylabel("Target")

wave数据集只有一个输入特征和一个连续目标变量（响应）

六、威斯康星州乳腺癌数据集（二分类）

该数据集记录了乳腺癌肿瘤的临床测量数据，是一个二分类数据集。

import numpy as np
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()

包含在scikit-learn中的数据集通常被保存为Bunch对象，里面包含真实数据及一些数据集信息。关于Bunch对象，与字典十分相似，并且有一个额外的好处，即可以使用点操作符来访问对象的值（比如用bunch.key来代替bunch[‘key’]）

>>> cancer.keys() 
dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])

1. DESCR

DESCR介绍了数据集的基本情况:

>>> print(cancer['DESCR'][0:3040]+"\n...")
.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radius, field
        10 is Radius SE, field 20 is Worst Radius.

        - class:
                - WDBC-Malignant
                - WDBC-Benign

    :Summary Statistics:

    ===================================== ====== ======
                                           Min    Max
    ===================================== ====== ======
    radius (mean):                        6.981  28.11
    texture (mean):                       9.71   39.28
    perimeter (mean):                     43.79  188.5
    area (mean):                          143.5  2501.0
    smoothness (mean):                    0.053  0.163
    compactness (mean):                   0.019  0.345
    concavity (mean):                     0.0    0.427
    concave points (mean):                0.0    0.201
    symmetry (mean):                      0.106  0.304
    fractal dimension (mean):             0.05   0.097
    radius (standard error):              0.112  2.873
    texture (standard error):             0.36   4.885
    perimeter (standard error):           0.757  21.98
    area (standard error):                6.802  542.2
    smoothness (standard error):          0.002  0.031
    compactness (standard error):         0.002  0.135
    concavity (standard error):           0.0    0.396
    concave points (standard error):      0.0    0.053
    symmetry (standard error):            0.008  0.079
    fractal dimension (standard error):   0.001  0.03
    radius (worst):                       7.93   36.04
    texture (worst):                      12.02  49.54
    perimeter (worst):                    50.41  251.2
    area (worst):                         185.2  4254.0
    smoothness (worst):                   0.071  0.223
    compactness (worst):                  0.027  1.058
    concavity (worst):                    0.0    1.252
    concave points (worst):               0.0    0.291
    symmetry (worst):                     0.156  0.664
    fractal dimension (worst):            0.055  0.208
    ===================================== ====== =====
...

2. feature_names

查看具体特征：

>>> cancer.feature_names     
array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error',
       'fractal dimension error', 'worst radius', 'worst texture',
       'worst perimeter', 'worst area', 'worst smoothness',
       'worst compactness', 'worst concavity', 'worst concave points',
       'worst symmetry', 'worst fractal dimension'], dtype=')

3. data

查看具体数据：

>>> cancer.data
array([[1.799e+01, 1.038e+01, 1.228e+02, ..., 2.654e-01, 4.601e-01,
        1.189e-01],
       [2.057e+01, 1.777e+01, 1.329e+02, ..., 1.860e-01, 2.750e-01,
        8.902e-02],
       [1.969e+01, 2.125e+01, 1.300e+02, ..., 2.430e-01, 3.613e-01,
        8.758e-02],
       ...,
       [1.660e+01, 2.808e+01, 1.083e+02, ..., 1.418e-01, 2.218e-01,
        7.820e-02],
       [2.060e+01, 2.933e+01, 1.401e+02, ..., 2.650e-01, 4.087e-01,
        1.240e-01],
       [7.760e+00, 2.454e+01, 4.792e+01, ..., 0.000e+00, 2.871e-01,
        7.039e-02]])

查看数据大小，data为569*30的数组，30分别对应的就是上述特征值：

>>> cancer.data.shape   # 看看数据大小
(569, 30)

4. target_names

查看目标名，分别为malignant（恶性）与benign（良性）：

>>> cancer.target_names
array(['malignant', 'benign'], dtype=')

5. target

数据集将target目标分为两类，0与1即恶性与良性：

>>> cancer.target
array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
       ...
       1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1])

计算下各自的数量，恶性有212例，良性有357例：

>>> {n: v for n, v in zip(cancer.target_names, np.bincount(cancer.target))}   #良性与恶性的个数
{'malignant': 212, 'benign': 357}

转换为dataframe格式输出看看（画幅有限，部分看不到）：

import pandas as pd
X = cancer.data
y = cancer.target
df = pd.DataFrame(X, columns = cancer.feature_names, index = y)
df

6. filename

filename为文件在本地的路径：

>>> cancer.filename
'D:\\Anaconda\\lib\\site-packages\\sklearn\\datasets\\data\\breast_cancer.csv'

7. frame

>>> print(cancer.frame)
None

七、波士顿房价数据集（回归）

波士顿房价数据集通过一系列特征及特征值来预测20世纪70年代波士顿地区房屋价格的中位数

from sklearn.datasets import load_boston
boston = load_boston()

>>> boston.keys()
dict_keys(['data', 'target', 'feature_names', 'DESCR', 'filename'])

1. DESCR

DESCR介绍了数据集的基本情况:

>>> print(boston.DESCR[0:1230]+"\n...")
.. _boston_dataset:

Boston house prices dataset
---------------------------

**Data Set Characteristics:**  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive. Median Value (attribute 14) is usually the target.

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pupil-teacher ratio by town
        - B        1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town
        - LSTAT    % lower status of the population
        - MEDV     Median value of owner-occupied homes in $1000's
...

2. feature_names

查看特征，共有如下13个：

>>> boston.feature_names
array(['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD',
       'TAX', 'PTRATIO', 'B', 'LSTAT'], dtype=')

特征	解释
CRIM	城镇人口犯罪率
ZN	超过25000平方英尺的住宅用地所占比例
INDUS	城镇非零售业务地区的比例
CHAS	查尔斯河虚拟变量(如果土地在河边=1；否则是0)
NOX	一氧化氮浓度(每1000万份)
RM	平均每居民房数
AGE	在1940年之前建成的所有者占用单位的比例
DIS	与五个波士顿就业中心的加权距离
RAD	辐射状公路的可达性指数
TAX	每10,000美元的全额物业税率
RTRATIO	城镇师生比例
B	1000(Bk-0.63)^2其中Bk是城镇黑人的比例
LSTAT	人口中地位较低人群的百分数

3. data

查看数据：

>>> boston.data
array([[6.3200e-03, 1.8000e+01, 2.3100e+00, ..., 1.5300e+01, 3.9690e+02,
        4.9800e+00],
       [2.7310e-02, 0.0000e+00, 7.0700e+00, ..., 1.7800e+01, 3.9690e+02,
        9.1400e+00],
       [2.7290e-02, 0.0000e+00, 7.0700e+00, ..., 1.7800e+01, 3.9283e+02,
        4.0300e+00],
       ...,
       [6.0760e-02, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9690e+02,
        5.6400e+00],
       [1.0959e-01, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9345e+02,
        6.4800e+00],
       [4.7410e-02, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9690e+02,
        7.8800e+00]])

数据为506*13大小：

>>> boston.data.shape
(506, 13)

4. target

波士顿地区房价的中位数：

>>> boston.target
array([24. , 21.6, 34.7, 33.4, 36.2, 28.7, 22.9, 27.1, 16.5, 18.9, 15. ,
       18.9, 21.7, 20.4, 18.2, 19.9, 23.1, 17.5, 20.2, 18.2, 13.6, 19.6,
       15.2, 14.5, 15.6, 13.9, 16.6, 14.8, 18.4, 21. , 12.7, 14.5, 13.2,
       13.1, 13.5, 18.9, 20. , 21. , 24.7, 30.8, 34.9, 26.6, 25.3, 24.7,
       ...
       19.5, 20.2, 21.4, 19.9, 19. , 19.1, 19.1, 20.1, 19.9, 19.6, 23.2,
       29.8, 13.8, 13.3, 16.7, 12. , 14.6, 21.4, 23. , 23.7, 25. , 21.8,
       20.6, 21.2, 19.1, 20.6, 15.2,  7. ,  8.1, 13.6, 20.1, 21.8, 24.5,
       23.1, 19.7, 18.3, 21.2, 17.5, 16.8, 22.4, 20.6, 23.9, 22. , 11.9])

5. filename

filename为文件在本地的路径：

>>> boston.filename
'D:\\Anaconda\\lib\\site-packages\\sklearn\\datasets\\data\\boston_house_prices.csv'

6. 特征工程（小提一嘴）

扩展数据集，除了这13个还需要输入特征之间的乘积（交互项），这些特征两两组合（有放回）得到额外91个特征：

# 特征工程（feature engineering）
>>> X, y = mglearn.datasets.load_extended_boston()   
>>> X
array([[0.00000000e+00, 1.80000000e-01, 6.78152493e-02, ...,
        1.00000000e+00, 8.96799117e-02, 8.04248656e-03],
       [2.35922539e-04, 0.00000000e+00, 2.42302053e-01, ...,
        1.00000000e+00, 2.04470199e-01, 4.18080621e-02],
       [2.35697744e-04, 0.00000000e+00, 2.42302053e-01, ...,
        9.79579831e-01, 6.28144504e-02, 4.02790570e-03],
       ...,
       [6.11892474e-04, 0.00000000e+00, 4.20454545e-01, ...,
        1.00000000e+00, 1.07891832e-01, 1.16406475e-02],
       [1.16072990e-03, 0.00000000e+00, 4.20454545e-01, ...,
        9.82676920e-01, 1.29930407e-01, 1.71795127e-02],
       [4.61841693e-04, 0.00000000e+00, 4.20454545e-01, ...,
        1.00000000e+00, 1.69701987e-01, 2.87987643e-02]])

>>> X.shape
(506, 104)

To be continued…

《精雕细琢 Python 对象：深入理解 __slots__ 的性能魔法与实战应用》
《精雕细琢Python对象：深入理解slots的性能魔法与实战应用》引言：探索Python的对象管理机制在Python中，一切皆对象。然而，每一个对象背后都隐藏着复杂的运行机制。尤其在类设计中，我们往往忽略了对象属性的存储方式。今天，我们将深入剖析一个常被高级开发者使用的“利器”——__slots__，它能有效减少内存占用、提升性能，但也伴随着一些权衡和陷阱。本文旨在回答三个核心问题：__slot
算法工程师必看！个性化信息流推荐算法系统的架构设计与优化实战指南
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】推荐算法系统实战全系列精品课【陈敬雷】文章目录推荐算法系统系列二算法工程师必看！个性化信息流推荐算法系统的架构设计与优化实战指南更多技术内容总结推荐算法系统系列二算
c语言找出递增子数组的长度,C语言实现最长递增子序列问题的解决方法梁肖松 c语言找出递增子数组的长度
本文实例展示了C语言实现最长递增子序列问题的解决方法。分享给大家供大家参考。具体方法如下：问题描述：给定一个序列，找出其最长递增子序列长度。比如输入1375输出3算法解决思路：利用动态规划的思想，以序列的每个点最为最右端，找出每个点作为最右端时的子序列长度的最大值，即问题的求解。因此，在计算前面的每个点的时候，将其结果保存下来，后面的点与前面的点的数值进行比较，如果大，则在其长度基础上加1，并且找
基于探路者算法优化的正则化极限学习机(RELM)的分类问题求解
基于探路者算法优化的正则化极限学习机(RELM)的分类问题求解文章目录基于探路者算法优化的正则化极限学习机(RELM)的分类问题求解1.RELM原理2.分类问题求解3.基于探路者算法优化的RELM4.实验结果5.Matlab代码1.RELM原理极限学习机(ELM)具有训练速度快、泛化性能好的优点。极限学习机的结构是一种典型的单隐层前馈神经网络(SLFN)。极限学习机的结构见图RELM算法：若NNN
基于探路者算法优化的核极限学习机(KELM)分类算法智能算法研学社（Jack旭）智能优化算法应用机器学习 #核极限学习机（KELM）算法分类数据挖掘
基于探路者算法优化的核极限学习机(KELM)分类算法文章目录基于探路者算法优化的核极限学习机(KELM)分类算法1.KELM理论基础2.分类问题3.基于探路者算法优化的KELM4.测试结果5.Matlab代码摘要：本文利用探路者算法对核极限学习机(KELM)进行优化，并用于分类1.KELM理论基础核极限学习机（KernelBasedExtremeLearningMachine，KELM）是基于极限
LeetCode第337题_打家劫舍III @蓝莓果粒茶算法 leetcode 算法职场和发展 c#学习
LeetCode第337题：打家劫舍III文章摘要本文详细解析LeetCode第337题"打家劫舍III"，这是一道中等难度的二叉树动态规划问题。文章提供了基于深度优先搜索和动态规划的解法，包含C#、Python、C++三种语言实现，配有详细的算法分析和性能对比。适合想要提升二叉树和动态规划能力的程序员。核心知识点：二叉树、动态规划、深度优先搜索难度等级：中等推荐人群：具有基础数据结构知识，想要提
python：numpy分享（保姆级教程）苏苏susuus python numpy 开发语言
目录一、概念二、相关属性三、ndarray及其实例创建（一）ndarray介绍（二）zeros（）、ones（）、empty（）函数（三）**arange(),**类似python的range()，创建一个一维ndarray数组。（四）**matrix()**,是ndarray的子类，只能生成2维的矩阵（五）rand（）、randn（）、randint（）、uniform（）（都是numpy.ra
C++ | 基于PCL与CloudCompare的投影点密度法（DOPP）开发实战河工点云智绘WangG 点云深处 CloudCompare &PCL开发 c++开发语言
一、算法原理与详细步骤1.算法原理DOPP是一种用于点云地面滤波的算法，通过将三维点云投影到二维平面，并分析投影点密度的分布特征来区分地面点与非地面点（如植被、建筑物等）。其核心思想是：地面点在投影平面上通常呈现均匀且低密度的分布，而建筑物点等非地面点则密度高。DOPP本质是二维密度场分析，将三维分离问题转化为二维空间密度统计问题。2.算法详细步骤（1）点云投影（Projection）将三维点云沿
C++ | 玩转点云：CloudCompare & PCL原生开发核心指南与示例分享河工点云智绘WangG 点云深处 CloudCompare &PCL开发 c++开发语言
还在为点云处理的效率瓶颈和功能限制发愁吗？面对点云处理个性需求，是否让你感到束手束脚？调试困难、性能受限、定制化需求难以满足...本次分享将带你深入核心，走进点云深处，揭秘如何直接运用C++进行CloudCompare&PCL的原生集成开发。掌握核心步骤，规避常见陷阱，并附实用开发示例源码。助你：效率飙升：直达底层，性能最大化！灵活无限：自由定制算法流程，深度集成业务逻辑！掌控全局：彻底理解框架机
Java:对给定的字符串和给定的模式执行Boyer-Moore搜索算法（附带源码） Katie。 Java算法完整教程 java 开发语言
一、项目背景详细介绍在文本处理与信息检索中，需要在海量文本中高效地查找模式串（Pattern）。经典的朴素搜素在最坏情况下时间复杂度为O(N·M)，效率不够高。Boyer–Moore算法则采用“坏字符”与“好后缀”两种启发规则，从模式尾部匹配开始，通常能大幅跳过不可能匹配的位置，平均时间复杂度接近O(N/M)，在实际应用（如grep、数据库索引）中非常高效。本项目旨在用Java实现Boyer–Mo
Java:实现Ternary search三元搜索算法（附带源码） Katie。 Java算法完整教程算法
一、项目背景详细介绍在计算机科学与软件工程领域，查找算法是最基础也是最重要的模块之一。对于有序数组的查找，经典的二分（Binary）查找算法凭借O(log N)的时间复杂度在许多场景中被广泛应用。另一方面，三元（Ternary）查找作为对二分查找的扩展，将区间划分为三段，每次比对两个“探测点”而非一个，从理论上也能达到对数级时间复杂度。三元查找常用于以下几种场景：函数极值查找当我们要在一个unim
全平台兼容+3倍加载提速：GISBox将重新定义三维可视化标准 GISBox GISBox GISBox 纹理压缩数字孪生智慧城市 3DTiles 三维可视化 BIM
在智慧城市、数字孪生、BIM工程等领域的三维可视化浪潮中，模型加载卡顿、存储成本高、跨平台兼容差已成为行业痛点。无论是Web端的实时渲染，还是移动端的户外作业，高精度模型与低性能设备之间的矛盾，始终制约着项目的落地效率。而GISBox的纹理压缩功能，正是破解这一难题的“金钥匙”——它通过算法革新与硬件加速，让超大规模三维模型“瘦身”80%，加载速度提升3倍，真正实现“轻量化、高性能、全兼容”的三维
Gin框架路由 TZX_0710
介绍Gin是一个golang的微框架，封装比较优雅，API友好，源码注释比较明确，具有快速灵活，容错方便等特点对于golang而言，web框架的依赖要远比Python，Java之类的要小。自身的net/http足够简单，性能也非常不错借助框架开发，不仅可以省去很多常用的封装带来的时间，也有助于团队的编码风格和形成规范安装1.安装Gingoget-ugithub.com/gin-gonic/gin2
实现按字典顺序查找的 Booth 算法（Java） CyberXZ java 算法 python
实现按字典顺序查找的Booth算法（Java）Booth算法是一种用于按字典顺序查找的算法，它通过比较目标字符串与排序好的字符串数组中的元素来找到匹配的位置。在这篇文章中，我将介绍并给出一个Java实现的Booth算法，并附上相应的源代码。首先，让我们来了解Booth算法的基本思想。该算法的核心是利用了字符串的字典顺序特性。假设我们有一个已经排序好的字符串数组，我们需要查找的目标字符串。我们可以通
学习日志15 python im_AMBER 学习 python
1filter()函数filter(function,iterable)filter函数是python中的高阶函数,第一个参数是一个筛选函数,第二个参数是一个可迭代对象,返回的是一个生成器类型,可以通过next获取值。filter()函数是Python内置的高阶函数，其主要功能是对可迭代对象中的每个元素运用筛选函数进行判断，然后把符合条件的元素以生成器的形式返回。下面为你详细介绍它的用法和特性：基
Leetcode 06 java im_AMBER leetcode java
136.只出现一次的数字题目给你一个非空整数数组nums，除了某个元素只出现一次以外，其余每个元素均出现两次。找出那个只出现了一次的元素。你必须设计并实现线性时间复杂度的算法来解决此问题，且该算法只使用常量额外空间。示例1：输入：nums=[2,2,1]输出：1示例2：输入：nums=[4,1,2,1,2]输出：4示例3：输入：nums=[1]输出：1提示：1map=newHashMapentry
零基础搭建免费IP代理池：从原理到实战的保姆级指南傻啦嘿哟关于代理IP那些事儿 tcp/ip 网络协议网络
目录一、代理池的核心价值与底层原理二、环境搭建全流程详解2.1开发环境准备2.2核心组件安装三、核心配置深度解析3.1配置文件精要（setting.py）3.2自定义代理源开发四、核心模块实现原理4.1调度系统架构4.2代理验证算法五、运维实战技巧5.1性能优化策略5.2故障排查手册六、安全加固方案七、扩展升级路径八、典型问题解决方案九、性能基准测试十、合规使用指南一、代理池的核心价值与底层原理在
力扣算法学习(简单) 绿龙蛋算法 leetcode 学习
(每题第一个代码仅供参考,后面是官方题解)1.两数之和题目:给定一个整数数组nums和一个整数目标值target，请你在该数组中找出和为目标值target的那两个整数，并返回它们的数组下标。你可以假设每种输入只会对应一个答案，并且你不能使用两次相同的元素。你可以按任意顺序返回答案。示例1：输入：nums=[2,7,11,15],target=9输出：[0,1]解释：因为nums[0]+nums[1
Python爬虫热点项目之实现代理IP池（IP proxy pool）薛定谔的猫96 Python 爬虫
代理池概述代理池就是由多个稳定可用代理IP组成的池子。用来应对ip反爬，而网上的免费代理稳定可用的极少，更有甚者连收费的也不都是稳定可用。开发环境：windous，python3，sublimetext使用的主要模块：requests，lxml，pymongo，Flask完整源码请前往我的github仓库查看：https://github.com/R2h1/ProxyPool欢迎star哦！！！代
力扣题目算法分类【持续更新】 Gene_INNOCENT 比赛题解各类重要算法讲解力扣算法分类
基础算法二分704.二分查找-简单-整数二分34.在排序数组中查找元素的第一个和最后一个位置-中等69.x的平方根-简单-浮点二分287.寻找重复数-中等-二分答案410.分割数组的最大值-困难-二分答案4.寻找两个正序数组的中位数-困难
leetcode_121. 买卖股票的最佳时机 Ethan_. leetcode面试题150 算法 leetcode 算法
leetcode_121.买卖股票的最佳时机leetcode链接给定一个数组prices，它的第i个元素prices[i]表示一支给定股票第i天的价格。你只能选择某一天买入这只股票，并选择在未来的某一个不同的日子卖出该股票。设计一个算法来计算你所能获取的最大利润。返回你可以从这笔交易中获取的最大利润。如果你不能获取任何利润，返回0。示例1：输入：[7,1,5,3,6,4]输出：5解释：在第2天（股
python基础练习题：超市收银系统不爱说话的分院帽 python 开发语言
这个超市收银系统包含以下功能：商品管理：支持添加和显示商品信息（ID、名称、价格、库存）购物车功能：可以添加、移除商品，查看购物车和计算总价结算功能：生成收据、处理支付、计算找零并更新库存数据模型：使用面向对象设计，包含商品、购物车和超市类系统运行后会显示菜单，用户可以通过数字选择不同操作，整个流程不需要图形界面，通过命令行交互完成购物和结算过程。importdatetimeclassProduc
Python零基础入门：魔法方法详解
一、什么是魔法方法？魔法方法（MagicMethods）是Python中一种特殊的方法，它们以双下划线(__)开头和结尾（如__init__、__str__等）。魔法方法允许你定义类在特定情况下的行为，例如初始化、字符串表示、运算符重载等。二、常见的魔法方法分类1.构造和初始化__new__(cls,[...]):创建实例时调用的第一个方法__init__(self,[...]):实例初始化方法_
Python文件与流处理：高效读写数据的艺术不爱说话的分院帽 python快速入门 python 数据库开发语言
引言作为一名程序员，我们每天都需要与文件打交道——无论是读取配置文件、处理日志文件，还是存储程序生成的数据。Python提供了强大而灵活的文件处理能力，让这些操作变得简单高效。本文将深入探讨Python中的文件与流处理，帮助你掌握这一核心技能。、一、文件操作基础1.打开文件Python使用内置的open()函数来打开文件：#基本语法file=open('example.txt','r')#打开文件
算法分析--时间复杂度 _不会dp不改名_ 杂项算法
1.声明内容是我抄得别人的，自己拿来做笔记看一下。2.复杂度记号OOO:大O符号，也是最常用的，它表示的是小于等于，上界，也就是最差情况下的时间复杂度。Ω\OmegaΩ:大欧米伽，它表示的是大于等于，下界，也就是最好情况下的时间复杂度。Θ\ThetaΘ:大西塔，它表示的是确界，就是等于。ooo:小O符号，表示小于。ω\omegaω:小omega,表示大于。抄了三个数学定义第一个是渐进上界f(n)=
Dijkstra算法求最短路径问题
Dijkstra算法求最短路径问题——HM图论中最常见的问题就应是最短路径问题了，解决这一问题的几个基本算法有三个：Floyed、Dijkstra和SPFA了。现在我来浅谈一下Dijkstra的思想与实现。单纯的Dijkstra并不是很快，算一个点到其余各点的时间复杂度是O(n^2)级别，算每个点到其余各点的复杂度就是O(n^3)了，在提高组竞赛中不占优势，但其进行优化后便很强大了，如用堆优化Di
Python 计算月头月尾一本正经胡说八道的猫
一本正经胡说八道的猫#!/usr/bin/envpython#-*-coding:utf-8-*-importdatetimeimportcalendartime=datetime.date(2022,1,20)#年，月，日#求该月第一天first_day=datetime.date(time.year,time.month,1)print('该月第一天:%s'%(first_day))#求前一个
python学生成绩管理系统【完整版】，Python开发基础面试题
name=self.username.get()password=self.password.get()ifname==‘hacker707’andpassword==‘admin’:self.page.destroy()MenuPage(self.root)else:showinfo(title=‘错误’,message=‘账号或密码错误！’)db.pyimportjsonclassStuden
“力扣算法：题海战术”专栏的完整源代码更新啦达文汐力扣算法：题海战术算法 leetcode 职场和发展
关于专栏的源码感谢大家的阅读与支持！！“力扣算法：题海战术”专栏的文章，是给大家提出了LeetCode算法问题的解决思路及实现该算法的核心代码。大家如果想要进一步深入了解算法，想通过输入测试数据来了解其运算的过程。可点击文章底部的名片，关注后，可获得完整的可运行调试的Java代码。有疑问的，可在评论区留言哦！！完整代码已上传（会持续更新）部分算法代码参考（LeeetCode26）/*此道算法题详细
【深度强化学习】MIP-DQN 实现案例（完整Python代码）
目录MIP-DQN算法概述建模基础训练阶段（Training）部署阶段（OnlineExecution）DNN网络转化为MIP表达式性能指标完整Python代码实现主函数：random_generator_battery模型函数：MIP_DQN基础/专用库包安装模型运行（完整Python代码）参数设置函数：Parameters参考本博客根据论文《Optimalenergysystemschedul
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。

Python机器学习日记4：监督学习算法的一些样本数据集（持续更新）

Python机器学习日记4：监督学习算法的一些样本数据集

一、书目与章节

二、forge数据集（二分类）

三、blobs数据集（三/多分类）

四、moons数据集

五、wave数据集（回归）

六、威斯康星州乳腺癌数据集（二分类）

1. DESCR

2. feature_names

3. data

4. target_names

5. target

6. filename

7. frame

七、波士顿房价数据集（回归）

1. DESCR

2. feature_names

3. data

4. target

5. filename

6. 特征工程（小提一嘴）

你可能感兴趣的:(机器学习,Python,Python机器学习基础教程,python,算法,机器学习,监督学习)