Word2vec---经典的 Embedding 方法

文章目录

什么是 Word2vec？
Word2vec 的样本是怎么生成的？
Word2vec 模型的结构是什么样的？
怎样把词向量从 Word2vec 模型中提取出来？
Word2vec 对 Embedding 技术的奠基性意义
Item2Vec：Word2vec 方法的推广
Word2vec代码实现

提到 Embedding，就一定要深入讲解一下 Word2vec。它不仅让词向量在自然语言处理领域再度流行，更关键的是，自从 2013 年谷歌提出 Word2vec 以来，Embedding 技术从自然语言处理领域推广到广告、搜索、图像、推荐等几乎所有深度学习的领域，成了深度学习知识框架中不可或缺的技术点。Word2vec 作为经典的 Embedding 方法，熟悉它对于我们理解之后所有的 Embedding 相关技术和概念都是至关重要的。下面，我就给你详细讲一讲 Word2vec 的原理。

什么是 Word2vec？

Word2vec 是“word to vector”的简称，顾名思义，它是一个生成对“词”的向量表达的模型。想要训练 Word2vec 模型，我们需要准备由一组句子组成的语料库。假设其中一个长度为 T 的句子包含的词有 w1,w2……wt，并且我们假定每个词都跟其相邻词的关系最密切。

根据模型假设的不同，Word2vec 模型分为两种形式，CBOW 模型（图 3 左）和 Skip-gram 模型（图 3 右）。其中，CBOW 模型假设句子中每个词的选取都由相邻的词决定，因此我们就看到 CBOW 模型的输入是 wt周边的词，预测的输出是 wt。Skip-gram 模型则正好相反，它假设句子中的每个词都决定了相邻词的选取，所以你可以看到 Skip-gram 模型的输入是 wt，预测的输出是 wt周边的词。按照一般的经验，Skip-gram 模型的效果会更好一些，所以我接下来也会以 Skip-gram 作为框架，来给你讲讲 Word2vec 的模型细节

Word2vec 的样本是怎么生成的？

我们先来看看训练 Word2vec 的样本是怎么生成的。作为一个自然语言处理的模型，训练 Word2vec 的样本当然来自于语料库，比如我们想训练一个电商网站中关键词的 Embedding 模型，那么电商网站中所有物品的描述文字就是很好的语料库。

我们从语料库中抽取一个句子，选取一个长度为 2c+1（目标词前后各选 c 个词）的滑动窗口，将滑动窗口由左至右滑动，每移动一次，窗口中的词组就形成了一个训练样本。根据 Skip-gram 模型的理念，中心词决定了它的相邻词，我们就可以根据这个训练样本定义出 Word2vec 模型的输入和输出，输入是样本的中心词，输出是所有的相邻词。

为了方便你理解，我再举一个例子。这里我们选取了“Embedding 技术对深度学习推荐系统的重要性”作为句子样本。首先，我们对它进行分词、去除停用词的过程，生成词序列，再选取大小为 3 的滑动窗口从头到尾依次滑动生成训练样本，然后我们把中心词当输入，边缘词做输出，就得到了训练 Word2vec 模型可用的训练样本。

Word2vec 模型的结构是什么样的？

有了训练样本之后，我们最关心的当然是 Word2vec 这个模型的结构是什么样的。我相信，通过第 3 节课的学习，你已经掌握了神经网络的基础知识，那再理解 Word2vec 的结构就容易多了，它的结构本质上就是一个三层的神经网络（如图 5）。

它的输入层和输出层的维度都是 V，这个 V 其实就是语料库词典的大小。假设语料库一共使用了 10000 个词，那么 V 就等于 10000。根据图 4 生成的训练样本，这里的输入向量自然就是由输入词转换而来的 One-hot 编码向量，输出向量则是由多个输出词转换而来的 Multi-hot 编码向量，显然，基于 Skip-gram 框架的 Word2vec 模型解决的是一个多分类问题。

隐层的维度是 N，N 的选择就需要一定的调参能力了，我们需要对模型的效果和模型的复杂度进行权衡，来决定最后 N 的取值，并且最终每个词的 Embedding 向量维度也由 N 来决定。

最后是激活函数的问题，这里我们需要注意的是，隐层神经元是没有激活函数的，或者说采用了输入即输出的恒等函数作为激活函数，而输出层神经元采用了 softmax 作为激活函数。

你可能会问为什么要这样设置 Word2vec 的神经网络，以及我们为什么要这样选择激活函数呢？因为这个神经网络其实是为了表达从输入向量到输出向量的这样的一个条件概率关系，我们看下面的式子：

这个由输入词 WI 预测输出词 WO 的条件概率，其实就是 Word2vec 神经网络要表达的东西。我们通过极大似然的方法去最大化这个条件概率，就能够让相似的词的内积距离更接近，这就是我们希望 Word2vec 神经网络学到的。

当然，如果你对数学和机器学习的底层理论没那么感兴趣的话，也不用太深入了解这个公式的由来，因为现在大多数深度学习平台都把它们封装好了，你不需要去实现损失函数、梯度下降的细节，你只要大概清楚他们的概念就可以了

如果你是一个理论派，其实 Word2vec 还有很多值得挖掘的东西，比如，为了节约训练时间，Word2vec 经常会采用负采样（Negative Sampling）或者分层 softmax（Hierarchical Softmax）的训练方法。

怎样把词向量从 Word2vec 模型中提取出来？

在训练完 Word2vec 的神经网络之后，可能你还会有疑问，我们不是想得到每个词对应的 Embedding 向量嘛，这个 Embedding 在哪呢？其实，它就藏在输入层到隐层的权重矩阵 WVxN 中。我想看了下面的图你一下就明白了。

你可以看到，输入向量矩阵 WVxN 的每一个行向量对应的就是我们要找的“词向量”。比如我们要找词典里第 i 个词对应的 Embedding，因为输入向量是采用 One-hot 编码的，所以输入向量的第 i 维就应该是 1，那么输入向量矩阵 WVxN 中第 i 行的行向量自然就是该词的 Embedding

细心的你可能也发现了，输出向量矩阵 W′ 也遵循这个道理，确实是这样的，但一般来说，我们还是习惯于使用输入向量矩阵作为词向量矩阵。

在实际的使用过程中，我们往往会把输入向量矩阵转换成词向量查找表（Lookup table，如图 7 所示）。例如，输入向量是 10000 个词组成的 One-hot 向量，隐层维度是 300 维，那么输入层到隐层的权重矩阵为 10000x300 维。在转换为词向量 Lookup table 后，每行的权重即成了对应词的 Embedding 向量。如果我们把这个查找表存储到线上的数据库中，就可以轻松地在推荐物品的过程中使用 Embedding 去计算相似性等重要的特征了。

Word2vec 对 Embedding 技术的奠基性意义

Word2vec 是由谷歌于 2013 年正式提出的，其实它并不完全是原创性的，学术界对词向量的研究可以追溯到 2003 年，甚至更早的时期。但正是谷歌对 Word2vec 的成功应用，让词向量的技术得以在业界迅速推广，进而使 Embedding 这一研究话题成为热点。毫不夸张地说，Word2vec 对深度学习时代 Embedding 方向的研究具有奠基性的意义。

从另一个角度来看，Word2vec 的研究中提出的模型结构、目标函数、负采样方法、负采样中的目标函数在后续的研究中被重复使用并被屡次优化。掌握 Word2vec 中的每一个细节成了研究 Embedding 的基础。从这个意义上讲，熟练掌握本节课的内容是非常重要的。

Item2Vec：Word2vec 方法的推广

在 Word2vec 诞生之后，Embedding 的思想迅速从自然语言处理领域扩散到几乎所有机器学习领域，推荐系统也不例外。既然 Word2vec 可以对词“序列”中的词进行 Embedding，那么对于用户购买“序列”中的一个商品，用户观看“序列”中的一个电影，也应该存在相应的 Embedding 方法。

于是，微软于 2015 年提出了 Item2Vec 方法，它是对 Word2vec 方法的推广，使 Embedding 方法适用于几乎所有的序列数据。Item2Vec 模型的技术细节几乎和 Word2vec 完全一致，只要能够用序列数据的形式把我们要表达的对象表示出来，再把序列数据“喂”给 Word2vec 模型，我们就能够得到任意物品的 Embedding 了。

Item2vec 的提出对于推荐系统来说当然是至关重要的，因为它使得“万物皆 Embedding”成为了可能。对于推荐系统来说，Item2vec 可以利用物品的 Embedding 直接求得它们的相似性，或者作为重要的特征输入推荐模型进行训练，这些都有助于提升推荐系统的效果

Embedding 就是用一个数值向量“表示”一个对象的方法。通过 Embedding，我们又引出了 Word2vec，Word2vec 是生成对“词”的向量表达的模型。其中，Word2vec 的训练样本是通过滑动窗口一一截取词组生成的。在训练完成后，模型输入向量矩阵的行向量，就是我们要提取的词向量。最后，我们还学习了 Item2vec，它是 Word2vec 在任意序列数据上的推广

Word2vec代码实现

import itertools

import joblib
import numpy as np

from word2vec.utils import distance, unitvec


class WordVectors(object):
    def __init__(self, vocab, vectors, clusters=None):
        """
        Initialize a WordVectors class based on vocabulary and vectors

        This initializer precomputes the vectors of the vectors

        Parameters
        ----------
        vocab : np.array
            1d array with the vocabulary
        vectors : np.array
            2d array with the vectors calculated by word2vec
        clusters : word2vec.WordClusters (optional)
            1d array with the clusters calculated by word2vec
        """
        self.vocab = vocab
        self.vectors = vectors
        self.clusters = clusters

        # Used to make indexing faster
        self.vocab_hash = {
     }
        for i, word in enumerate(vocab):
            self.vocab_hash[word] = i

    def ix(self, word):
        """
        Returns the index on `self.vocab` and `self.vectors` for `word`
        """
        return self.vocab_hash[word]

    def word(self, ix):
        """Returns the word that corresponds to the index.

        Parameters
        -------
        ix : int
            The index of the word

        Returns
        -------
        str
            The word that corresponds to the index
        """
        return self.vocab[ix]

    def __getitem__(self, word):
        return self.get_vector(word)

    def __contains__(self, word):
        return word in self.vocab_hash

    def get_vector(self, word):
        """
        Returns the vector for a `word` in the vocabulary
        """
        return self.vectors[self.ix(word)]

    def distance(self, *args, **kwargs):
        """
        Compute the distance distance between two vectors or more (all combinations) of words

        Parameters
        ----------
        words : one or more words
        n : int (default 10)
            number of neighbors to return
        metric : string (default "cosine")
            What metric to use
        """
        metric = kwargs.get("metric", "cosine")  # Default is cosine

        combinations = list(itertools.combinations(args, r=2))

        ret = []
        for word1, word2 in combinations:
            dist = distance(self[word1], self[word2], metric=metric)
            ret.append((word1, word2, dist))
        return ret

    def closest(self, vector, n=10, metric="cosine"):
        """Returns the closest n words to a vector

        Parameters
        -------
        vector : numpy.array
        n : int (default 10)

        Returns
        -------
        Tuple of 2 numpy.array:
            1. position in self.vocab
            2. cosine similarity
        """
        distances = distance(self.vectors, vector, metric=metric)
        best = np.argsort(distances)[::-1][1 : n + 1]
        best_metrics = distances[best]
        return best, best_metrics

    def similar(self, word, n=10, metric="cosine"):
        """
        Return similar words based on a metric

        Parameters
        ----------
        word : string
        n : int (default 10)

        Returns
        -------
        Tuple of 2 numpy.array:
            1. position in self.vocab
            2. cosine similarity
        """
        return self.closest(self[word], n=n, metric=metric)

    def analogy(self, pos, neg, n=10, metric="cosine"):
        """
        Analogy similarity.

        Parameters
        ----------
        pos : list
        neg : list

        Returns
        -------
        Tuple of 2 numpy.array:
            1. position in self.vocab
            2. cosine similarity

        Example
        -------
            `king - man + woman = queen` will be: `pos=['king', 'woman'], neg=['man']`
        """
        exclude = pos + neg
        pos = [(word, 1.0) for word in pos]
        neg = [(word, -1.0) for word in neg]

        mean = []
        for word, direction in pos + neg:
            mean.append(direction * self[word])
        mean = np.array(mean).mean(axis=0)

        metrics = distance(self.vectors, mean, metric=metric)
        best = metrics.argsort()[::-1][: n + len(exclude)]

        exclude_idx = [
            np.where(best == self.ix(word)) for word in exclude if self.ix(word) in best
        ]
        new_best = np.delete(best, exclude_idx)
        best_metrics = metrics[new_best]
        return new_best[:n], best_metrics[:n]

    def generate_response(self, indexes, metrics, clusters=True):
        """
        Generates a pure python (no numpy) response based on numpy arrays
        returned by `self.cosine` and `self.analogy`
        """
        if self.clusters and clusters:
            return np.rec.fromarrays(
                (self.vocab[indexes], metrics, self.clusters.clusters[indexes]),
                names=("word", "metric", "cluster"),
            )
        else:
            return np.rec.fromarrays(
                (self.vocab[indexes], metrics), names=("word", "metric")
            )

    def to_mmap(self, fname):
        joblib.dump(self, fname)

    @classmethod
    def from_binary(
        cls,
        fname,
        vocab_unicode_size=78,
        desired_vocab=None,
        encoding="utf-8",
        new_lines=True,
    ):
        """
        Create a WordVectors class based on a word2vec binary file

        Parameters
        ----------
        fname : path to file
        vocabUnicodeSize: the maximum string length (78, by default)
        desired_vocab: if set any words that don't fall into this vocab will be droped

        Returns
        -------
        WordVectors instance
        """
        with open(fname, "rb") as fin:
            # The first line has the vocab_size and the vector_size as text
            header = fin.readline()
            vocab_size, vector_size = list(map(int, header.split()))

            vocab = np.empty(vocab_size, dtype=" % vocab_unicode_size)
            vectors = np.empty((vocab_size, vector_size), dtype=np.float)
            binary_len = np.dtype(np.float32).itemsize * vector_size
            for i in range(vocab_size):
                # read word
                word = b""
                while True:
                    ch = fin.read(1)
                    if ch == b" ":
                        break
                    word += ch
                include = desired_vocab is None or word in desired_vocab
                if include:
                    vocab[i] = word.decode(encoding)

                # read vector
                vector = np.fromstring(fin.read(binary_len), dtype=np.float32)
                if include:
                    vectors[i] = unitvec(vector)
                if new_lines:
                    fin.read(1)  # newline char

            if desired_vocab is not None:
                vectors = vectors[vocab != "", :]
                vocab = vocab[vocab != ""]
        return cls(vocab=vocab, vectors=vectors)

    @classmethod
    def from_text(
        cls, fname, vocabUnicodeSize=78, desired_vocab=None, encoding="utf-8"
    ):
        """
        Create a WordVectors class based on a word2vec text file

        Parameters
        ----------
        fname : path to file
        vocabUnicodeSize: the maximum string length (78, by default)
        desired_vocab: if set, this will ignore any word and vector that
                       doesn't fall inside desired_vocab.

        Returns
        -------
        WordVectors instance
        """
        with open(fname, "rb") as fin:
            header = fin.readline()
            vocab_size, vector_size = list(map(int, header.split()))

            vocab = np.empty(vocab_size, dtype=" % vocabUnicodeSize)
            vectors = np.empty((vocab_size, vector_size), dtype=np.float)
            for i, line in enumerate(fin):
                line = line.decode(encoding).rstrip()
                parts = line.split(" ")
                word = parts[0]
                include = desired_vocab is None or word in desired_vocab
                if include:
                    vector = np.array(parts[1:], dtype=np.float)
                    vocab[i] = word
                    vectors[i] = unitvec(vector)

            if desired_vocab is not None:
                vectors = vectors[vocab != "", :]
                vocab = vocab[vocab != ""]
        return cls(vocab=vocab, vectors=vectors)

    @classmethod
    def from_mmap(cls, fname):
        """
        Create a WordVectors class from a memory map

        Parameters
        ----------
        fname : path to file

        Returns
        -------
        WordVectors instance
        """
        memmaped = joblib.load(fname, mmap_mode="r+")
        return cls(vocab=memmaped.vocab, vectors=memmaped.vectors)

程序猿成长之路之数据挖掘篇——Kmeans聚类算法 zygswo 数据挖掘数据挖掘算法 kmeans
Kmeans是一种可以将一个数据集按照距离（相似度）划分成不同类别的算法，它无需借助外部标记，因此也是一种无监督学习算法。什么是聚类用官方的话说聚类就是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。用自己的话说聚类是根据不同样本数据间的相似度进行种类划分的算法。这种划分可以基于我们的业务需求或建模需求来完成，也可以单纯地帮助我们探索数据的自然结构和分布。什么是K-means聚类用官方的
基于yolov8的8种人脸表情检测系统python源码+onnx模型+评估指标曲线+精美GUI界面 FL1623863129 深度学习 YOLO python 开发语言
【算法介绍】基于YOLOv8的人脸表情检测系统是一个结合了先进目标检测算法（YOLOv8）与深度学习技术的项目，旨在实时或离线地识别并分类人脸表情（如快乐、悲伤、愤怒、惊讶、恐惧、厌恶、中立等）。以下是一个简短的介绍，概述了该系统Python源码的核心要点：该系统直接利用YOLOv8模型进行人脸表情识别。YOLOv8以其高效的速度和准确性著称，非常适合实时应用。Python源码实现通常包括以下几个
AI如何创造情绪价值学客汇商业研究商业观察大模型人工智能生成式AI 大模型应用 AI与情绪管理 AI应用
随着科技的飞速发展，人工智能（AI）已经渗透到我们生活的方方面面。从智能家居到自动驾驶，从医疗辅助到金融服务，AI技术的身影无处不在。而如今，AI更是涉足了一个全新的领域——创造情绪价值。AI已经能够处理和分析大量的文本、图像、音频和视频数据，从中提取和识别出人类的情感信息。AI技术通过模拟人类神经网络的工作方式，对复杂的数据进行深度学习和理解，逐渐具备了处理人类情感的能力。在客户服务领域，情绪识
深度学习：探索人工智能的无限可能木小梦(๑• . •๑) 人工智能深度学习
引言：在当今这个数字化时代，人工智能（AI）已经成为了一个热门话题。从自动驾驶汽车到智能助手，AI正在逐渐改变我们的生活方式。而在AI领域，深度学习是近年来发展最为迅速的一个分支。本文将深入探讨深度学习及其相关领域，包括计算机视觉、自然语言处理、神经网络和强化学习。1.深度学习深度学习是一种基于人工神经网络的机器学习方法，它试图模拟人脑的工作方式，通过训练大量数据来自动学习数据的内在规律和表示层次
深度学习100问7-向量降维的算法有那些不断持续学习ing 深度学习机器学习人工智能
一、主成分分析（PCA）PCA就像你整理一堆考试成绩单。假如成绩单上有好多科目成绩，这就像一个高维向量。但有些科目成绩关系很紧密，比如数学好的同学一般物理也不错，化学也还行。那PCA就会找这些成绩单里最主要的特点，把关系近的科目合成几个新的“大科目”。这样就把原来很多科目的高维向量变成几个“大科目”的低维向量啦。二、奇异值分解（SVD）SVD呢，就好比你有一本很厚的书。书的每一页上的字可以看成一个
小琳AI课堂：推荐系统小琳ai 小琳AI课堂人工智能
大家好，这里是小琳AI课堂！今天我们一起来探索一个让生活变得更加个性化的神奇技术——推荐系统！首先，让我们深入了解一下推荐系统的两大核心技术：协同过滤和内容基础过滤。协同过滤：这种方法通过分析用户之间的行为相似性或项目之间的相似性来进行推荐。用户基础协同过滤：找到和你相似的其他用户，然后推荐他们喜欢的东西给你。项目基础协同过滤：分析项目之间的相似度，推荐和你过去喜欢的项目相似的其他项目。内容基础过
基于yolov8的绝缘子缺陷检测系统python源码+onnx模型+评估指标曲线+精美GUI界面 FL1623863129 深度学习 YOLO
【算法介绍】基于YOLOv8的绝缘子缺陷检测系统是一种利用先进深度学习技术的高效解决方案，旨在提升电力行业中输电线路的维护和监控水平。YOLOv8作为YOLO系列算法的最新版本，具备更高的检测速度和精度，特别适用于实时物体检测任务。该系统通过深入分析并标注绝缘子数据集，训练YOLOv8模型以精确识别输电线上的绝缘子及其缺陷状态。利用多尺度检测、FPN结构以及CSPDarknet网络等技术，YOLO
机器学习和深度学习中常见损失函数，包括损失函数的数学公式、推导及其在不同场景中的应用早起星人机器学习深度学习人工智能
目录引言什么是损失函数？常见损失函数介绍3.1均方误差（MeanSquaredError,MSE）3.2交叉熵损失（Cross-EntropyLoss）3.3平滑L1损失（SmoothL1Loss）3.4HingeLoss（合页损失）3.5二进制交叉熵损失（BinaryCross-EntropyLoss）3.6KL散度（KLDivergence）3.7Huber损失（HuberLoss）3.8对比
JSP/JAVAWEB/SSM/J2EE高考志愿填报推荐系统的开发计算机程序设计开发 java mysql javaweb ssm 推荐系统
目录1、概述2、功能描述3、数据表4、目录结构5、实现过程5.1SRC目录5.2webroot前端文件6、最终效果6.1前台用户效果6.2后台管理员用户效果1、概述开发环境：jdk1.8、tomcat7.0、mysql5.2开发工具：idea2019.3.1、navicat15编程语言后端：java；框架和引用的包：JavaBeanServletMVC、log4j.jar编程语言前端：JSP、ht
Python在神经网络中优化激活函数选择使用详解 Rocky006 python 开发语言
概要在神经网络中，激活函数扮演着至关重要的角色。它的主要作用是引入非线性因素，使得神经网络能够处理复杂的非线性问题。如果没有激活函数，神经网络仅仅是线性模型的堆叠，无法胜任深度学习中的各种任务。本文将深入探讨几种常用的激活函数，包括Sigmoid、Tanh、ReLU及其变种，并通过具体的代码示例展示它们在Python中的实现和应用。激活函数的重要性激活函数将输入信号进行非线性转换，从而增强神经网络
2020-03-24 黑乎乎AI
Datawhale零基础入门数据挖掘-Task2数据分析【代码摘要】赛题：零基础入门数据挖掘-二手车交易价格预测地址：[https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm=5176.12281957.1004.1.38b02448ausjSX]EDA的价值主要在于熟悉数据集，了解数据集，对数据集进行验证来确
增强语音对车载语音质量测试的挑战众乐认证 itu
一、什么是增强语音语音助手是实现智慧车联的关键之一，通过助手，方可去掉按键。其中一个比较典型的功能就是目前比较流行的enhancedsiri。二、增强语音的难点1.语音合成技术语音合成技术在车内环境中的表现至关重要。语音合成采用了混合单元选择系统，结合了单元选择和参数合成的优势，并通过深度学习进一步提升了语音质量。这种技术的应用，使得语音助手能够在车内环境中提供流畅自然且易于理解的语音交互体验。2
TensorFlow和它的弟弟们活蹦乱跳酸菜鱼 tensorflow 人工智能 python
TensorFlow、TensorFlowLite、TensorFlowLiteMicro是Google在深度学习领域推出的三个不同产品，它们各自有着不同的设计目标和适用场景。以下是它们之间的主要区别：1.TensorFlow(PC\GPU)设计目标：TensorFlow是一个开源的机器学习框架，由GoogleBrain团队开发，旨在帮助开发者构建和训练深度学习模型。它支持多种编程语言（如Pyth
Datawhale AI夏令营-task03 ghost_him 人工智能
DatawhaleAI夏令营-task03笔记来源：DatawhaleAI夏令营数据增强基础数据增强是一种在机器学习和深度学习领域常用的技术，尤其是在处理图像和视频数据时。**数据增强的目的是通过人工方式增加训练数据的多样性，从而提高模型的泛化能力，使其能够在未见过的数据上表现得更好。**数据增强涉及对原始数据进行一系列的变换操作，生成新的训练样本。这些变换模拟了真实世界中的变化，对于图像而言，数
释放GPU潜能：PyTorch中torch.nn.DataParallel的数据并行实践 2401_85762266 pytorch 人工智能 python
释放GPU潜能：PyTorch中torch.nn.DataParallel的数据并行实践在深度学习模型的训练过程中，计算资源的需求往往随着模型复杂度的提升而增加。PyTorch，作为当前领先的深度学习框架之一，提供了torch.nn.DataParallel这一工具，使得开发者能够利用多个GPU进行数据并行处理，从而显著加速模型训练。本文将详细介绍如何在PyTorch中使用torch.nn.Dat
每天一个数据分析题（五百零五）- 提升方法跟着紫枫学姐学CDA 数据分析题库数据分析
提升方法（Boosting），是一种可以用来减小监督式学习中偏差的机器学习算法。基于Boosting的集成学习，其代表算法不包括？A.AdaboostB.GBDTC.XGBOOSTD.随机森林数据分析认证考试介绍：点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python，SQL，统计学，数据分析理论，深度学习，可视化，机器学习，Spark八个方向的专项练习题库，数据
每天一个数据分析题（五百零六）- 装袋方法跟着紫枫学姐学CDA 数据分析数据挖掘
装袋方法(bagging)也叫做bootstrapaggregating,是在原始数据集有放回地重采样S次后得到新数据集的一种技术，其代表算法有？A.AdaboostB.GBDTC.XGBOOSTD.随机森林数据分析认证考试介绍：点击进入题目来源于CDA模拟题库点击此处获取答案数据分析专项练习题库内容涵盖Python，SQL，统计学，数据分析理论，深度学习，可视化，机器学习，Spark八个方向的专
DeepArt——AI美术创作工具，能够帮助生成视觉内容爱研究的小牛 AIGC 人工智能深度学习
一、DeepArt的介绍DeepArt是一种基于深度学习的艺术风格迁移应用，能够将输入图像转换成具有特定艺术风格的输出图像。它的核心技术主要依赖于深度卷积神经网络（CNN）和风格迁移算法，能够将著名艺术作品的风格应用到用户的照片或图像上，从而创造出独具特色的艺术效果。二、DeepArt的使用选择内容图像和风格图像：用户首先需要上传一张内容图像，即他们希望转换成艺术风格的图像。接着，可以从提供的艺术
Wonder Dynamics——虚拟角色动画和实时互动生成爱研究的小牛实时互动
一、WonderDynamics介绍WonderDynamics的核心是通过AI驱动的自动化流程，简化和加速虚拟角色动画的制作。其主要功能包括：自动化角色动画：将预录制的动作捕捉数据自动应用到虚拟角色上。实时角色互动：实现虚拟角色与现实场景中的人物和物体实时互动。高精度捕捉和渲染：利用深度学习和计算机视觉技术，捕捉高精度的动作数据并生成高质量的动画。二、WonderDynamics实现技术详解Wo
AIGC深度学习教程：Transformer模型中的Position Embedding实现与应用玩AI的小胡子 embedding transformer AIGC 人工智能
在进入深度学习领域时，Transformer模型几乎是绕不开的话题，而其中的PositionEmbedding更是关键。对于刚入门的朋友，这篇教程将带你深入了解PositionEmbedding是什么、它如何在Transformer中运作，以及它在不同领域中的实际应用。什么是PositionEmbedding？PositionEmbedding是Transformer模型中一种关键机制，用于弥补模
并行处理的魔法：PyTorch中torch.multiprocessing的多进程训练指南 liuxin33445566 人工智能深度学习机器学习
并行处理的魔法：PyTorch中torch.multiprocessing的多进程训练指南在深度学习领域，模型训练往往需要大量的计算资源和时间。PyTorch，作为当前最流行的深度学习框架之一，提供了torch.multiprocessing模块，使得开发者能够利用多核CPU进行多进程训练，从而显著加速训练过程。本文将深入探讨如何在PyTorch中使用torch.multiprocessing进行
【大模型】FAISS向量数据库记录：从基础搭建到实战操作爱python的王三金自然语言处理 LLM RAG faiss 数据库 rag
文章目录文章简介Embedding模型BGE-M3模型亮点FAISS是什么FAISS实战安装faiss加载Embedding模型创建FAISS数据库搜索FAISS数据删除FAISS数据保存、加载FAISS索引总结本人数据分析领域的从业者，拥有专业背景和能力，可以为您的数据采集、数据挖掘和数据分析需求提供支持。期待着能够与您共同探索更多有意义的数据洞见，为您的项目和业务提供数据分析方面的帮助。文章简
向量数据库Faiss（Facebook AI Similarity Search） shiming8879 数据库 faiss 人工智能
向量数据库Faiss（FacebookAISimilaritySearch）是FacebookAIResearch开发的一款高效且可扩展的相似性搜索和聚类库，专门用于处理大规模向量数据的搜索和检索任务。Faiss以其出色的性能和灵活性，在图像检索、文本搜索、推荐系统等多个领域得到了广泛应用。以下将详细介绍Faiss的搭建与使用过程，包括安装、基本使用、索引类型选择、性能优化及应用场景等方面。一、F
GPU算力租用平台推荐 hong161688 gpu算力
在当前快速发展的AI和深度学习领域，GPU算力租用平台成为了研究者、开发者及企业不可或缺的工具。这些平台提供了灵活、高效、可扩展的GPU资源，帮助用户解决计算资源不足的问题，加速模型训练、推理及高性能计算等任务。以下是对几个主流GPU算力租用平台的详细推荐，旨在为用户提供全面的选择和参考。一、国内GPU算力租用平台1.阿里云（AlibabaCloud）平台概述：阿里云作为中国领先的云计算服务提供商
深度学习与OpenCV：解锁计算机视觉的无限可能程序员-李旭亮深度学习
在科技日新月异的今天，计算机视觉作为人工智能领域的一颗璀璨明珠，正以前所未有的速度改变着我们的生活与工作方式。而《深度学习》与OpenCV，作为这一领域的两大重要工具，更是为计算机视觉的入门与深入探索铺设了坚实的基石。本文将带您一窥这两者的魅力，探索它们如何携手开启计算机视觉的无限可能。深度学习：智能的催化剂深度学习，作为机器学习的一个分支，其核心在于通过构建深层次的神经网络模型，模拟人脑的学习过
2021勇气读书会——《学习的逻辑》打卡（第二百一十天）于杰雄
这是我参加勇气读书会打卡第二百一十天我阅读的书籍：《学习的逻辑》出发日期：2021.1.1期待的收获：立足现在，创造未来，让自己的教学能力更上一层楼。一句标语：千里之行，始于足下。小想法：相信明天会更好，我们会战胜困难，迈向更美好的未来。不要放弃每一天的学习，让自己充实起来，加油！勇气读书会，永不散场。深度学习的策略有很多种，思维导图与结构化思维只是其中一个小小的分支而已，而关于学习策略也有更多深
基于用户的协同过滤以及ALS的混合召回算法山水阳泉曲算法机器学习人工智能矩阵 python 推荐算法线性代数
文章目录需求基于用户的协同过滤基本步骤相似度计算代码示例(使用余弦相似度)基于用户的协同过滤的缺点实际推荐系统中的替代方案ALSuserBaseCF+ALS混合推荐设计代码说明需求要将基于用户的协同过滤（User-BasedCollaborativeFiltering,UBCF）与交替最小二乘（AlternatingLeastSquares,ALS）结合起来，设计一个混合推荐系统。这种系统可以利用
什么是计算机视觉？龙腾AI 计算机视觉人工智能自然语言处理深度学习 ai
计算机视觉概述计算机视觉（ComputerVision）又称机器视觉（MachineVision），是一门让机器学会如何去“看”的学科，是深度学习技术的一个重要应用领域，被广泛应用到安防、工业质检和自动驾驶等场景。具体的说，就是让机器去识别摄像机拍摄的图片或视频中的物体，检测出物体所在的位置，并对目标物体进行跟踪，从而理解并描述出图片或视频里的场景和故事，以此来模拟人脑视觉系统。因此，计算机视觉也
在STM32上实现嵌入式人工智能应用嵌入式详谈 stm32 人工智能嵌入式硬件
引言随着微控制器的计算能力不断增强，人工智能（AI）开始在嵌入式系统中扮演越来越重要的角色。STM32微控制器由于其高性能和低功耗的特性，非常适合部署轻量级AI模型。本文将探讨如何在STM32平台上实现深度学习应用，特别是利用STM32Cube.AI工具链将训练好的神经网络模型部署到STM32设备上。环境准备硬件选择：STM32F746GDiscoverykit，具备足够的计算资源和内存支持复杂模
理解PyTorch版YOLOv5模型构架 LabVIEW_Python
一个深度学习模型，可以拆解为：模型构架(ModelArchitecture):下面详述激活函数(ActivationFunction)：YOLOv5在隐藏层中使用了LeakyReLU激活函数，在最后的检测层中使用了Sigmoid激活函数，参考这里优化函数(OptimizationFunction)：YOLOv5的默认优化算法是：SGD；可以通过命令行参数更改为Adam损失函数(LossFuncti
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》