Demon的黑与白

sklearn 源码分析系列：neighbors(1)

b y D e m o n S o n g g i t h u b 源 码 链 接 (h t t p s : / / g i t h u b . c o m / d e m o n S o n g / D M L)

《数学之美》by 吴军
“很多具体的搜索技术很快会从独门绝技到普及，再到落伍，追求术的人一辈子工作很辛苦。只有掌握了搜索的本质和精髓才能永远游刃有余。”

Nearest Centroid Classifier

本篇文章主要来实操官方文档中关于【Nearest Neighbors】的相关知识。详见文档。

这里分析采用了Ipython notebook.

加载数据

import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
from sklearn import neighbors, datasets
from sklearn.neighbors.nearest_centroid import NearestCentroid

n_neighbors = 15

# 加载数据
iris = datasets.load_iris()
print(iris)

这是sklearn所提供的数据集，后文会分析它们是如何被加载的。此处，我们得到了iris的数据。

iris数据集分析

{'target': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2]), 'feature_names': ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)'], 'data': array([[ 5.1,  3.5,  1.4,  0.2],
       [ 4.9,  3. ,  1.4,  0.2],
       [ 4.7,  3.2,  1.3,  0.2],
       [ 4.6,  3.1,  1.5,  0.2])
}

控制台输出的部分数据，很简单，输入空间x的特征有四个维度，输出标签分别为0，1，2。

二维可视化
由于目前输入样例是四维的特征向量，这里我们挑选两个维度进行可视化。

# 二维可视化
X = iris.data[:,:2]
y = iris.target

cmap_bold = ListedColormap(['#FF0000', '#00FF00', '#0000FF'])

plt.figure()

plt.scatter(X[:, 0], X[:, 1], c=y, cmap=cmap_bold)
plt.xlim(xx.min(), xx.max())
plt.ylim(yy.min(), yy.max())
plt.title("3-Class classification")

plt.show()

可视化分类器及数据

# 可视化分类器及数据
h = .02

cmap_light = ListedColormap(['#FFAAAA', '#AAFFAA', '#AAAAFF'])

clf = NearestCentroid()
clf.fit(X, y)

# 计算每个特征向量的最大值和最小值
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                     np.arange(y_min, y_max, h))
Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])

# 可视化分类器
Z = Z.reshape(xx.shape)
plt.figure()
plt.pcolormesh(xx, yy, Z, cmap=cmap_light)

# 可视化数据
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=cmap_bold)
plt.xlim(xx.min(), xx.max())
plt.ylim(yy.min(), yy.max())
plt.title("3-Class classification")

plt.show()

背景颜色即为NearestCentroid()分类器。从图中也可以看出，该分类器是把整个空间切分成了三个区域，达到分类的目的。

模型训练

# 模型训练
X = iris.data[:,:5]
y = iris.target

clf = NearestCentroid()
clf.fit(X,y)

score = clf.score(X,y)
print(score)

0.926666666667

该模型对iris数据集的准确率高达92.67，还是很不错的哟。详细代码可以参看github上的kaggle项目。

源码剖析

关于这部分内容，在阅读源码时，个人认为软件框架大于技术细节，请勿过早钻入代码细节，大量阅读容易伤身。

Nearest_Centroid 核心思想

该算法是我认为最简单的分类算法。简单来说，就是给定了训练数据后，根据标签样本进行分类，如上述iris给定了标签样本｛0，1，2｝后，按标签进行分组，计算每个标签组特征向量的均值，作为模型分类依据。在源码中用变量centroids_ = np.empty((n_classes,n_features),dtype = np.float64)表示。有了标签组的均值后，拿带预测的数据与每个标签的centroids_计算，与之距离最小的便是我们预测的分类标签。

sklearn目录结构

sklearn的目录结构还是相当清楚的，主目录结构有：

所有的机器学习算法都放在了sklearn文件夹下，examples文件则是官方提供的各种测试用例，可供初学者学习。而我们着重分析的是sklearn下的neighbors部分的源码。sklearn的目录结构参考如下：

好了，直接进入主题吧，为了能够极大的简化sklearn的分析难度，我自己按照它模仿了一个自己的机器学习lib库，项目名为DML，开源在Github上，有兴趣的可以fork下。链接请点这里。

DML目录结构：

在这篇文章中，我们重点关注sklearn下的datasets，metric，neighbors，preprocessing和utils包。

datasets

从名字就可以看出，该包的主要功能就是为了加载数据，在实战时，我们用到了iris = datasets.load_iris()，正是由该功能包来完成的。

数据集以.csv的格式，或者.txt的格式存放在datasets文件夹下的data文件内。在datasets包内有个base.py文件，完成数据加载工作，代码如下。

base.py

def load_iris(return_X_y=False):
    """Load and return the iris dataset (classification).

    The iris dataset is a classic and very easy multi-class classification
    dataset.

    =================   ==============
    Classes                          3
    Samples per class               50
    Samples total                  150
    Dimensionality                   4
    Features            real, positive
    =================   ==============

    Read more in the :ref:`User Guide `.

    Parameters
    ----------
    return_X_y : boolean, default=False.
        If True, returns ``(data, target)`` instead of a Bunch object.
        See below for more information about the `data` and `target` object.

        .. versionadded:: 0.18

    Returns
    -------
    data : Bunch
        Dictionary-like object, the interesting attributes are:
        'data', the data to learn, 'target', the classification labels,
        'target_names', the meaning of the labels, 'feature_names', the
        meaning of the features, and 'DESCR', the
        full description of the dataset.

    (data, target) : tuple if ``return_X_y`` is True

        .. versionadded:: 0.18

    Examples
    --------
    Let's say you are interested in the samples 10, 25, and 50, and want to
    know their class name.

    >>> from sklearn.datasets import load_iris
    >>> data = load_iris()
    >>> data.target[[10, 25, 50]]
    array([0, 0, 1])
    >>> list(data.target_names)
    ['setosa', 'versicolor', 'virginica']
    """
    module_path = dirname(__file__)
    data, target, target_names = load_data(module_path, 'iris.csv')

    with open(join(module_path, 'descr', 'iris.rst')) as rst_file:
        fdescr = rst_file.read()

    if return_X_y:
        return data, target

    return Bunch(data=data, target=target,
                 target_names=target_names,
                 DESCR=fdescr,
                 feature_names=['sepal length (cm)', 'sepal width (cm)',
                                'petal length (cm)', 'petal width (cm)'])

数据加载细节我们就不去研究了，此处它做了一个Bunch，把读来的data数据和target数据传给了Bunch类，而Bunch来继承了dict，所以在数据读取时，我们以字典的形式进行访问。

Base中的Bunch类

class Bunch(dict):
    """Container object for datasets

    Dictionary-like object that exposes its keys as attributes.

    >>> b = Bunch(a=1, b=2)
    >>> b['b']
    2
    >>> b.b
    2
    >>> b.a = 3
    >>> b['a']
    3
    >>> b.c = 6
    >>> b['c']
    6

    """

    def __init__(self, **kwargs):
        super(Bunch, self).__init__(kwargs)

    def __setattr__(self, key, value):
        self[key] = value

    def __dir__(self):
        return self.keys()

    def __getattr__(self, key):
        try:
            return self[key]
        except KeyError:
            raise AttributeError(key)

简而言之，言而简之，我们用一个框图来描述datasets的作用：

对于.csv文件的数据加载都可以由load_data来统一加载。那么它是怎么做到我想调用啥就调用啥的咧？在load_iris()方法中，有代码：
data,target,target_names = load_data(module_path,'iris.csv')
在load_wine()方法中，同样有：
data,target,target_names = load_data(module_path,'wine_data.csv')

喔，原来是通过传入一个特定的fileName就可以了啊。那就剩下两个问题了，load_data()中有什么，以及module_path是什么鬼东西。

我们进入到load_data()的世界来瞧一瞧，看一看。喔，你会发现有这样一句：
with open(join(module_path, 'data', data_file_name)) as csv_file:

这里做的是字符串的拼接，只要是.csv文件，就统一按照下面的代码来操作，具体地请参看源码，我们重点关注module_path，它是数据加载的关键。

在load_iris()中：module_path = dirname(__file__)，那就需要详细讨论下dirname(__file__)的作用了。

__file__是用来获得模块所在的路径的，不信可以测试下，那么dirname(__file__)取的就是模块的绝对路径了。这里我们调试输出：
module_path = C:\Users\Administrator\AppData\Local\Programs\Python\Python35\lib\site-packages\sklearn\datasets

可见直接定位到了该模块所在的目录下了，那么文件读取直接在该模块下的子文件中读取即可，由join方法实现。

neighbors && metrics

咱们再来看看学习模型nearest_centroid，该类只有两个成员方法fit和predict，以及构造函数__init__，构造函数传入两个参数metric,shrink_threshold，在几何空间两点间的距离默认为欧几里德距离。

def __init__(self, metric='euclidean', shrink_threshold=None):
        self.metric = metric
        self.shrink_threshold = shrink_threshold

fit方法

def fit(self, X, y):
    .....

    # 关键方法
    self.centroids_[cur_class] = X[center_mask].mean(axis = 0)
    ......
    return self

fit方法没有什么特别的地方，只是为了求每组标签样本的均值，把它放入到centroids_中。

predict方法

def predict(self, X):
        """Perform classification on an array of test vectors X.

        The predicted class C for each sample in X is returned.

        Parameters
        ----------
        X : array-like, shape = [n_samples, n_features]

        Returns
        -------
        C : array, shape = [n_samples]

        Notes
        -----
        If the metric constructor parameter is "precomputed", X is assumed to
        be the distance matrix between the data to be predicted and
        ``self.centroids_``.
        """
        check_is_fitted(self, 'centroids_')

        X = check_array(X, accept_sparse='csr')
        return self.classes_[pairwise_distances(
            X, self.centroids_, metric=self.metric).argmin(axis=1)]

很简洁的代码，原因在于计算几何距离并不由nearest_centroid来做，而是转交给了pairwise_distance()来完成。专业的事交给专业的模块，吼吼。那么它在哪呢？
from ..metrics.pairwise import pairwise_distances
是和它平行模块metrics.pairwise中完成的，所以我们再来看看，pairwise中做了什么吧。

def pairwise_distances(X, Y=None, metric="euclidean", n_jobs=1, **kwds):
    ......
    if metric == "precomputed":
        X, _ = check_pairwise_arrays(X, Y, precomputed=True)
        return X
    # 关键部分
    elif metric in PAIRWISE_DISTANCE_FUNCTIONS:
        func = PAIRWISE_DISTANCE_FUNCTIONS[metric]
    ......

    # 责任再转移
    return _parallel_pairwise(X, Y, func, n_jobs, **kwds)

这是选择计算“公式”的地方，我注释了一个关键部分，它用到了一个map和函数指针，从map中挑选指定的方法来计算距离，然后把方法当作参数在传入到了_parallel_pairwise()方法中。

可选的计算公式有：

# Helper functions - distance
PAIRWISE_DISTANCE_FUNCTIONS = {
    # If updating this dictionary, update the doc in both distance_metrics()
    # and also in pairwise_distances()!
    'cityblock': manhattan_distances,
    'cosine': cosine_distances,
    'euclidean': euclidean_distances,
    'l2': euclidean_distances,
    'l1': manhattan_distances,
    'manhattan': manhattan_distances,
    'precomputed': None,  # HACK: precomputed is always allowed, never called
}

所以当我们传入‘euclidean’时，选择的便是euclidean_distances方法来完成距离计算。而_parallel_pairwise()是为了能够让任务进行多线程处理，而扩展的计算方法。我们就不去探讨了，我们只需要知道，调用它后，进一步的就会调用euclidean_distances()方法。

def euclidean_distances(X, Y=None, Y_norm_squared=None, squared=False,
                        X_norm_squared=None):
X, Y = check_pairwise_arrays(X, Y)

    if X_norm_squared is not None:
        XX = check_array(X_norm_squared)
        if XX.shape == (1, X.shape[0]):
            XX = XX.T
        elif XX.shape != (X.shape[0], 1):
            raise ValueError(
                "Incompatible dimensions for X and X_norm_squared")
    else:
        XX = row_norms(X, squared=True)[:, np.newaxis]

    if X is Y:  # shortcut in the common case euclidean_distances(X, X)
        YY = XX.T
    elif Y_norm_squared is not None:
        YY = np.atleast_2d(Y_norm_squared)

        if YY.shape != (1, Y.shape[0]):
            raise ValueError(
                "Incompatible dimensions for Y and Y_norm_squared")
    else:
        YY = row_norms(Y, squared=True)[np.newaxis, :]

    distances = safe_sparse_dot(X, Y.T, dense_output=True)
    distances *= -2
    distances += XX
    distances += YY
    np.maximum(distances, 0, out=distances)

    if X is Y:
        # Ensure that distances between vectors and themselves are set to 0.0.
        # This may not be the case due to floating point rounding errors.
        distances.flat[::distances.shape[0] + 1] = 0.0

    return distances if squared else np.sqrt(distances, out=distances)

来测试下这个方法吧，它的计算公式为:
dist(x,y) = sqrt(dot(x,x) - 2 * dot(x,y) + dot(y,y))
令我好奇的是为什么不直接使用 dist(x,y)=(x−y)2 来计算，而是展开成了 x2−2xy+y2 。官方解释为：

This formulation has two advantages over other ways of computing distances.First, it is computationally efficient when dealing with sparse data.Second, if one argument varies but the other remains unchanged, then dot(x, x) and/or dot(y, y) can be pre-computed.

对于稀疏度很大的数据源来说，它计算的效率更高。
如果其中某个点没有发生变化时，dot(x,x)和dot(y,y)中的一个或两个已经被计算过了，不必再重复计算了。

我们简单测试下该方法，继续实战内容，我们取数据集中前5条数据拿来计算，代码如下：

# 测试euclidean距离
from sklearn.metrics.pairwise import euclidean_distances

test = X[:5,:]

euclidean_distances(test,clf.centroids_)

Out[116]:
test:
array([[ 5.1  3.5  1.4  0.2]
 [ 4.9  3.   1.4  0.2]
 [ 4.7  3.2  1.3  0.2]
 [ 4.6  3.1  1.5  0.2]
 [ 5.   3.6  1.4  0.2]])

clf.centroids_:
array([[ 5.006  3.418  1.464  0.244]
 [ 5.936  2.77   4.26   1.326]
 [ 6.588  2.974  5.552  2.026]])

distances:
array([[ 0.14694217,  3.26791554,  4.80252017],
       [ 0.43816892,  3.25171831,  4.83977272],
       [ 0.41230086,  3.42667069,  5.00293914],
       [ 0.51883716,  3.28318017,  4.87042093],
       [ 0.19796969,  3.31850448,  4.84633882]])

是不是很给力，刚好计算得出了五个点分别对应三个标签各自的距离。

还记得刚开始的score = clf.score(X,y)方法么，我们发现它并没有出现在NearestCentroid中，但别忘了，它还继承了两个父类BaseEstimator和ClassifierMixin，BaseEstimator我们暂时用不到不去分析，重点来看看ClassifierMixin，它位于sklearn包下的base.py文件中，类结构如下：

原来score()方法藏在了父类ClassifierMixin中啊，可为什么要这么做呢？来看看代码：

class ClassifierMixin(object):
    """Mixin class for all classifiers in scikit-learn."""
    _estimator_type = "classifier"

    def score(self, X, y, sample_weight=None):
        """Returns the mean accuracy on the given test data and labels.

        In multi-label classification, this is the subset accuracy
        which is a harsh metric since you require for each sample that
        each label set be correctly predicted.

        Parameters
        ----------
        X : array-like, shape = (n_samples, n_features)
            Test samples.

        y : array-like, shape = (n_samples) or (n_samples, n_outputs)
            True labels for X.

        sample_weight : array-like, shape = [n_samples], optional
            Sample weights.

        Returns
        -------
        score : float
            Mean accuracy of self.predict(X) wrt. y.

        """
        from .metrics import accuracy_score
        return accuracy_score(y, self.predict(X), sample_weight=sample_weight)

非常的简短，一样的道理，分数的计算完全交给了metrics包来完成，自己不做任何操作。这里有意思的是self.predict(X)，它自己调用了预测方法，这是典型的多态和模版方法的综合使用，在多数分类预测的子类中，fit()和predict()方法因具体的算法而改变，但对于评分这个方法来说，每个子类的执行框架是一样的，所以完全可以把它抽象到父类去完成，让父类构建一个模版框架，由子类来实现各种特定算法。

accuracy_score()方法又回到了mertics包，它在classification.py中，代码如下：

def accuracy_score(y_true, y_pred, normalize=True, sample_weight=None):
    y_type, y_true, y_pred = _check_targets(y_true, y_pred)
    if y_type.startswith('multilabel'):
        differing_labels = count_nonzero(y_true - y_pred, axis=1)
        score = differing_labels == 0
    else:
        score = y_true == y_pred

    return _weighted_sum(score, sample_weight, normalize)

遗留一个问题，权值sample_weight将派什么用场，后续再去讨论。继续看_weighted_sum()方法。

def _weighted_sum(sample_score, sample_weight, normalize=False):
    if normalize:
        return np.average(sample_score, weights=sample_weight)
    elif sample_weight is not None:
        return np.dot(sample_score, sample_weight)
    else:
        return sample_score.sum()

对所有预测正确的值，即y_true == y_pred求和，即为我们的结果了。

到此，关于nearest_centroid的源码已经分析完毕了，它没有太多东西，但多多少少让我扒开了掩盖在sklearn上的一层迷雾，对整个框架也有了一些基础的认识。

你可能感兴趣的:(sklearn源码)

tcc编译器教程6 进一步学习编译gmake源代码刘阿去学习 c语言
本文以编译gmake为例讲解如何使用tcc进行复杂一点的c代码的编译1简介前面主要讲解了如何编译lua解释器,lua解释器的编译很简单也很容易理解.当然大部分c语言程序编译没那么简单,下面对前面的gmake程序进行编译.2gmake源码结构首先打开之前tcc-busybox-for-win32\gmake文件夹,具体文件如下主要有3个文件夹和3个文件,分别为0.tcc-主要为编译所用的信息lib-
【C#实现手写Ollama服务交互，实现本地模型对话】吾与谁归in C#学习 WPF c#Ollama Deepseek 本地模型
前言C#手写Ollama服务交互，实现本地模型对话最近使用C#调用OllamaSharpe库实现Ollama本地对话，然后思考着能否自己实现这个功能。经过一番查找，和查看OllamaSharpe源码发现确实可以。其实就是开启Ollama服务后，发送HTTP请求，获取返回结果以及一些数据处理。基本流程1、启动Ollama服务进程。2、创建HttpClient对象。3、创建请求体（参数:模型名称、提示
RuoYi-Vue部署到Linux服务器(Jar+Nginx) pingcode 若依框架 JAVA全栈开发笔记（全）JAVA运维笔记 ruoyi
一、本地环境准备源码下载、本地Jdk及Node.js环境安装，参考以下文章。附：RuoYi-Vue下载与运行二、服务器环境准备1.安装Jdk附：JDK8下载安装与配置环境变量(linux)2.安装MySQL附：MySQL8免安装版下载安装与配置(linux)3.安装Redis附：Redis下载安装与配置(linux)4.安装Nginx附：
Android Glide 的显示与回调模块原理源码级深度剖析 &有梦想的咸鱼& Android Glide原理 Android开发大全 android glide
一、引言在当今的Android应用开发中，图片处理是一个至关重要的环节。从应用的图标展示到复杂的图片画廊，图片的加载和显示直接影响着用户体验。Glide作为一款功能强大且广泛使用的图片加载库，凭借其高效的性能、丰富的功能和简洁的API，成为了开发者的首选。其中，显示与回调模块更是Glide的核心部分，它负责将加载好的图片资源准确无误地显示在目标视图上，并在整个过程中提供各种回调机制，让开发者能够实
Android Glide 框架线程管理模块原理的源码级别深入分析 &有梦想的咸鱼& Android Glide原理 glide android
一、引言在现代的Android应用开发中，图片加载是一个常见且重要的功能。Glide作为一款广泛使用的图片加载框架，以其高效、灵活和易用的特点受到了开发者的青睐。其中，线程管理模块是Glide框架中至关重要的一部分，它负责协调不同线程之间的工作，确保图片的加载、解码、处理等操作能够高效、有序地进行。合理的线程管理可以提高应用的性能，避免主线程阻塞，从而为用户提供流畅的交互体验。本文将深入Glide
uniapp水印相机(水印照片，图片加水印) corekeys uniapp uni-app
在实际开发的项目中，我们有时候会遇到相机拍照上传照片的时候需要带有水印的功能。下面整理了我在自己的项目中做的水印相机(完整源码)功能实战分享给大家。水印中内容包含如下(实际包含的内容根据你的实际需求而定，这里只是以我的项目需求为例)：具体日期时间，如：2023-05-2512:00:00星期四地理位置，如：江苏省南京市雨花台区软件大道19号经纬度，如：纬度:32.08405200000000,经度
【PX4】Ubuntu20.04安装PX4教程 davidson1471 PX4 git 无人机 linux ubuntu
*建议早上安装*1.下载以往版本从github上clone源码gitclonehttps://github.com/PX4/PX4-Autopilot.git进入PX4-Autopilot文件夹cdPX4-Autopilot查看当前分支，位于origin/maingitstatus查看所有远程分支，带release的gitbranch-r|grep"release"切换到发行分支v1.12gitc
web前端期末大作业：婚纱网页主题网站设计——唯一旅拍婚纱公司网站HTML+CSS+JavaScript IT-司马青衫前端课程设计 html
‍静态网站的编写主要是用HTMLDⅣV+CSSJS等来完成页面的排版设计‍，一般的网页作业需要融入以下知识点：div布局、浮动定位、高级css、表格、表单及验证、js轮播图、音频视频Fash的应用、uli、下拉导航栏、鼠标划过效果等知识点，学生网页作业源码，制作水平和原创度都适合学习或交作业用，记得点赞。精彩专栏推荐【作者主页——获取更多优质源码】【web前端期末大作业——毕设项目精品实战案例(1
机器学习实战——音乐流派分类（主页有源码）喵了个AI 机器学习实战机器学习分类人工智能
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.简介音乐流派分类是音乐信息检索（MusicInformationRetrieval,MIR）中的一个重要任务，旨在通过分析音频信号的特征，将音乐自动分类到不同的流派（如古典、摇滚、爵士、流行等）。随着数字音乐平台的普及，音乐流派分类技术被广泛应用于音乐推荐、自动标签生成和音乐库管理
由 Mybatis 源码畅谈软件设计（五）：ResultMap 的循环引用方圆想当图灵由 Mybatis 源码畅谈软件设计 mybatis 代码规范
本节我们来了解Mybatis是如何处理ResultMap的循环引用，它的解决方案非常值得在软件设计中参考。另外作为引申，大家可以了解一下Spring是如何解决Bean的循环注入的。以单测org.apache.ibatis.submitted.permissions.PermissionsTest#checkNestedResultMapLoop为例，它对应表结构和表中的数据为：createtabl
ollama教程——使用Ollama与LangChain实现Function Calling(函数调用)的详细教程（二）【附完整源码】 walkskyer ollama入门教程 langchain ollama LLM
ollama入门系列教程简介与目录相关文章:Ollama教程——入门：开启本地大型语言模型开发之旅Ollama教程——模型：如何将模型高效导入到Ollama框架Ollama教程——兼容OpenAIAPI：高效利用兼容OpenAI的API进行AI项目开发Ollama教程——使用LangChain：Ollama与LangChain的强强联合Ollama教程——生成内容API：利用Ollama的原生AP
Garfish 源码解析 —— 一个微应用是如何被挂载的 moonrailgun 前端工程化 javascript 前端前端框架
背景Garfish是字节跳动webinfra团队推出的一款微前端框架包含构建微前端系统时所需要的基本能力，任意前端框架均可使用。接入简单，可轻松将多个前端应用组合成内聚的单个产品因为当前对Garfish的解读极少，而微前端又是现代前端领域相当重要的一环，因此写下本文，同时也是对学习源码的一个总结本文基于garfish#0d4cc0c82269bce8422b0e9105b7fe88c2efe42a
基于STM32+物联网设计的浇花神器（华为云IoT）鱼弦单片机系统合集 stm32 物联网华为云
鱼弦：公众号【红尘灯塔】，CSDN博客专家、内容合伙人、新星导师、全栈领域优质创作者、51CTO(Top红人+专家博主)、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）基于STM32+物联网设计的浇花神器（华为云IoT）介绍基于STM32+物联网的浇花神器利用传感器采集土壤湿度数据，通过华为云物联网平台将数据发送到云端，并根
历史文章汇总 Nuan_Feng java
仿照实现项目Nettygit地址VPNgit地址TCP、HTTP、WebSocket、SOCKS5、DNS协议实现git地址实现DNS协议java版java实现socks5Txlcn手写分布式id生成器git地址手写分布式id生成器手写可视化逆向工程git地址手写可视化逆向工程源码解析1.xxljob，阅读3.2w收藏318点赞数124xxljob源码解析2.netty源码解析netty源码解析一
基于Python+Vue开发的电影订票管理系统源码+运行步骤冷琴1996 Python系统设计 python vue.js 开发语言
项目简介该项目是基于Python+Vue开发的电影订票管理系统（前后端分离），这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Python编程技能，同时锻炼他们的项目设计与开发能力。通过学习基于Python的电影订票管理系统项目，大学生可以在实践中学习和提升自己的能力，为以后的职业发展打下坚实基础。技术学习之路主要功能影片管理：管理系统可以录入、修改和查询影片的基本信息，如
基于Java+Springboot+Vue开发的口腔牙科诊所预约系统源码+课程设计+代码说明西门吹雪1998 java毕业设计 java课程设计 java spring boot vue.js
项目简介该项目是基于Java+Springboot+Vue开发的口腔牙科诊所预约管理系统（前后端分离），这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Java编程技能，同时锻炼他们的项目设计与开发能力。通过学习基于Java的口腔预约管理系统项目，大学生可以在实践中学习和提升自己的能力，为以后的职业发展打下坚实基础。技术学习之路在线演示演示地址：https://teeth.
Ubuntu 下 nginx-1.24.0 源码分析 - ngx_modules 若云止水 ubuntu nginx linux
定义在objs\ngx_modules.c#include#includeexternngx_module_tngx_core_module;externngx_module_tngx_errlog_module;externngx_module_tngx_conf_module;externngx_module_tngx_openssl_module;externngx_module_tngx_
Ubuntu系统下交叉编译zlib linux运维
一、参考资料【开源库编译|zlib】zlib库最新版本(zlib-1.3.1)在Ubuntu(Linux)系统下的编译、交叉编译(移植)二、交叉编译zlib1.下载源码zlib的官网地址：https://zlib.net/zlib历史发布版本下载地址：https://zlib.net/fossils/zlib在GitHub的地址：https://github.com/madler/zlib/下载并
JVM——15.定位堆外内存 OOM 你想要怎样的未来 jvm jvm实战 java java jvm jvm.gc java虚拟机
文章目录1.ByteBuffer堆外内存介绍2.ByteBuffer堆外内存申请、释放（源码分析）2.1堆外内存申请2.2堆外内存释放3.什么情况会发生堆外内存OOM4.模拟堆外内存OOM4.1模拟14.2模拟24.3模拟35.堆外内存OOM的定位及解决1.ByteBuffer堆外内存介绍在介绍OOM那篇文章中，对堆外内存进行了介绍，就直接把它复制过来；ByteBuffer和DirectByteB
ClickHouse Keeper 源码解析阿里云云栖号云栖号技术分享 java 开发语言后端
简介：ClickHouse社区在21.8版本中引入了ClickHouseKeeper。ClickHouseKeeper是完全兼容Zookeeper协议的分布式协调服务。本文对开源版本ClickHousev21.8.10.19-lts源码进行了解析。作者简介：范振（花名辰繁），阿里云开源大数据-OLAP方向负责人。内容框架背景架构图核心流程图梳理内部代码流程梳理Nuraft关键配置排坑结论关于我们R
基于大数据架构的就业岗位推荐系统的设计与实现【java或python】—计算机毕业设计源码+LW文档 qq_375279829 大数据架构 python 课程设计算法
摘要随着互联网技术的迅猛发展和大数据时代的到来，就业市场日益复杂多变，求职者与招聘方之间的信息不对称问题愈发突出。为解决这一难题，本文设计并实现了一个基于大数据架构的就业岗位推荐系统。该系统通过收集、整合并分析大量求职者简历信息、企业招聘信息以及市场动态数据，运用先进的机器学习算法，为求职者提供个性化的岗位推荐服务，同时帮助企业快速定位到合适的候选人。本文将从系统设计的背景与意义、技术基础、需求分
Clickhouse负载均衡客户端BalancedClickhouseDataSource源码分析颍天 clickhouse clickhouse
文章目录BalancedClickhouseDataSource源码分析结论BalancedClickhouseDataSource源码分析BalancedClickhouseDataSource的完整路径是ru.yandex.clickhouse.BalancedClickhouseDataSource，源码主要包括三部分，构造方法、获取连接、以及生成可用的地址列表。BalancedClickh
FastExcel/EasyExcel简介以及源码解析舌尖上的五香 java
简介官网地址GitHub地址基于MIT协议发展历史由EasyExcel发展而来2018/02/07：发布1.0.02019/09/17：发布2.0.02021/10/21：发布3.0.12024/06/18：发布4.0.02024/11/06：进入维护模式2024/12/05：发布FastExcel1.0.0主要特性高性能读写简单易用流式操作读取执行行数技术原理内存优化：基于流式读取技术，不需要一
Android Retrofit 框架注解定义与解析模块深度剖析(一) &有梦想的咸鱼& Android Retrofit原理 android retrofit
一、引言在现代Android和Java开发中，网络请求是不可或缺的一部分。Retrofit作为Square公司开源的一款强大的类型安全的HTTP客户端，凭借其简洁易用的API和高效的性能，在开发者社区中广受欢迎。Retrofit的核心特性之一便是通过注解来定义HTTP请求，这种方式使得代码更加清晰、易读且易于维护。本文将深入Retrofit框架的源码，对其注解定义与解析模块进行全面且细致的分析，揭
DeepSeek源码解析（1）白鹭凡 deepseek ai
下载github的DeepSeek-V3-main源码，目录如下文章适合入门小白学习，因为我也是小白，本来作为一名前端开发，因为行业不好混所以跑来学ai的。初步看它的代码并不多，主要是inference目录，convert.py#1.导入标准库importos#os是Python的标准库之一，提供了与操作系统交互的功能，比如文件路径操作、环境变量管理等。importshutil#shutil也是P
DeepSeek源码解析（2）白鹭凡 deepseek ai
Tensor（张量）的介绍在计算机科学和机器学习领域，“张量”（Tensor）是一个数学概念，它被用来表示多维数组。在大模型（如深度学习模型）中，张量扮演着核心角色，具体来说：数据表示：张量用于表示输入数据、模型参数和中间计算结果。例如，在图像处理中，一张图片可以被表示为一个三维张量（高度、宽度、颜色通道数），而在自然语言处理中，一段文本可以被编码为一系列词向量组成的二维张量（句子长度、词向量维度
游戏代练新境界：uni-app赋能，一键解锁你的王者之路 phpandroid小程序
游戏代练新境界：uni-app赋能，一键解锁你的王者之路随着移动互联网的快速发展，越来越多的玩家希望通过代练系统在游戏中快速提升实力。uni-app作为一款跨平台开发框架，能够帮助开发者快速构建多端应用（如H5、小程序、App等），为游戏代练系统提供了全新的解决方案。本文将介绍如何用uni-app构建一个跨平台的代练系统，助你一键解锁王者之路！点击此处可获得完整源码和完整演示1.系统功能概述多端支
千里马Framework手机车机互联投屏实Hal+perfetto+SurfaceFlinger合集 2501_91082100 eclipse github
千里马Android手机大厂入职培训Framework系统高级开发课资料地址https://pan.baidu.com/s/1GIsMJ9BGgjgbJCrsVNDi6A?pwd=2q49千里马Android高级架构师系统源码Framework实战系列千里马Android手机大厂Framework系统-跨进程通信高级实战课千里马Android手机大厂Framework系统-Input系统专题实战课
Kotlin：Flow 全面详细指南，附带源码解析。 2401_84520377 程序员 kotlin 开发语言 android
Flow需要在协程里面使用，因为collect是挂起函数，另外基于冷流的特性，不调用collect构建器的代码压根不会走。所以只能是协程。那我取消协程不就行了吗？。好像之前有看到过有开发者提出过，是否要给flow单独加一个取消的函数，被Jetbrains无情的拒绝了，哈哈哈哈很搞笑。下面引用Kotlin官方的一段话。Flowadherestothegeneralcooperativecancell
Spring Boot 自动装配原理详解 sevevty-seven spring boot 后端 java
SpringBoot自动装配原理详解SpringBoot的自动装配（Auto-Configuration）是其核心特性之一，它极大地简化了开发者在搭建应用时的配置工作。通过引入特定的依赖（如spring-boot-starter-web），SpringBoot能够自动配置嵌入式服务器、数据库连接等功能，而无需手动编写繁琐的配置代码。本文将深入剖析SpringBoot自动装配的原理，结合源码和详细注
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S