lynne233

ZEN-基于N-gram的中文Encoder(从论文到源码)

ZEN

N-Gram

N-gram的提取

N-gram的提取分为两步，第一步是根据现有语料基于频率生成N-gram词表Lexicon, 请注意这些N-gram可能是包含关系，例如里面同时存在的粤港澳和港澳。第二步是根据此表生成训练数据的N-gram matrix，如下图所示。

N-gram matrix是一个k_c*k_n的矩阵，其中k_c是句子中包含的字数，k_n是句子可以提取的N-gram的数量。m_ij表示第i个词是否属于第j个N-gram

这里N-Gram矩阵的生成非常朴素，代码位置examples.utils_sequence_level_tasks中, 在函数convert_examples_to_features中。这个函数主要是将输入的batch rokenize 之后转化成word id，以及label进行处理，同时对N-Gram进行编码。其他过程我们这里不再多说，主要看一下N-Gram矩阵这部分的逻辑。

# ----------- code for ngram BEGIN-----------
ngram_matches = []
#  Filter the word segment from 2 to 7 to check whether there is a word
for p in range(2, 8):
    for q in range(0, len(tokens) - p + 1):
        character_segment = tokens[q:q + p]
        # j is the starting position of the word
        # i is the length of the current word
        character_segment = tuple(character_segment)
        if character_segment in ngram_dict.ngram_to_id_dict:
            ngram_index = ngram_dict.ngram_to_id_dict[character_segment]
            ngram_matches.append([ngram_index, q, p, character_segment])

shuffle(ngram_matches)
# max_word_in_seq_proportion = max_word_in_seq
max_word_in_seq_proportion = math.ceil((len(tokens) / max_seq_length) * ngram_dict.max_ngram_in_seq)
if len(ngram_matches) > max_word_in_seq_proportion:
    ngram_matches = ngram_matches[:max_word_in_seq_proportion]
ngram_ids = [ngram[0] for ngram in ngram_matches]
ngram_positions = [ngram[1] for ngram in ngram_matches]
ngram_lengths = [ngram[2] for ngram in ngram_matches]
ngram_tuples = [ngram[3] for ngram in ngram_matches]
ngram_seg_ids = [0 if position < (len(tokens_a) + 2) else 1 for position in ngram_positions]

import numpy as np
ngram_mask_array = np.zeros(ngram_dict.max_ngram_in_seq, dtype=np.bool)
ngram_mask_array[:len(ngram_ids)] = 1

# record the masked positions
ngram_positions_matrix = np.zeros(shape=(max_seq_length, ngram_dict.max_ngram_in_seq), dtype=np.int32)
for i in range(len(ngram_ids)):
    ngram_positions_matrix[ngram_positions[i]:ngram_positions[i] + ngram_lengths[i], i] = 1.0

# Zero-pad up to the max word in seq length.
padding = [0] * (ngram_dict.max_ngram_in_seq - len(ngram_ids))
ngram_ids += padding
ngram_lengths += padding
ngram_seg_ids += padding
# ----------- code for ngram END-----------

需要注意的ngram_dict是提前生成的，每一句话我们先遍历每一种组合，生成所有可能的ngram，并记录他们的长度和起始位置。ngram_positions_matrix就是我们需要的N-Gram matrix，他是一个max_seq_length*max_ngram_in_seq的矩阵，其中max_seq_length是输入的词的长度，max_ngram_in_seq是一个句子中最多的N-Gram组合的数量，默认是128，然后遍历赋值。需要注意当一个word被mask掉他的N-gram也不再考虑。

N-gram编码

N-gram encoder的结构如下图所示，文章中采用多层transformer结构来对N-gram进行编码，因为N-gram的顺序不需要考虑所以position encoding。N-gram encoder对于模型效率的提升是有很大影响的，为什么嘞，因为N-gram encoder可以学习到一些句子中重要的词组，从而提升模型的效率。这里面输入的N-gram embedding可以理解为Word embedding,

代码里N-Gram Embedding的编码方式也和Word Embedding相差不多。如下分别是ZEN的Word Emebedding和N-Gram Emebedding的生成方式。

class BertEmbeddings(nn.Module):
    """Construct the embeddings from word, position and token_type embeddings.
    """

    def __init__(self, config):
        super(BertEmbeddings, self).__init__()
        self.word_embeddings = nn.Embedding(config.vocab_size, config.hidden_size, padding_idx=0)
        self.position_embeddings = nn.Embedding(config.max_position_embeddings, config.hidden_size)
        self.token_type_embeddings = nn.Embedding(config.type_vocab_size, config.hidden_size)

        # self.LayerNorm is not snake-cased to stick with TensorFlow model variable name and be able to load
        # any TensorFlow checkpoint file
        self.LayerNorm = BertLayerNorm(config.hidden_size, eps=config.layer_norm_eps)
        self.dropout = nn.Dropout(config.hidden_dropout_prob)

    def forward(self, input_ids, token_type_ids=None):
        seq_length = input_ids.size(1)
        position_ids = torch.arange(seq_length, dtype=torch.long, device=input_ids.device)
        position_ids = position_ids.unsqueeze(0).expand_as(input_ids)
        if token_type_ids is None:
            token_type_ids = torch.zeros_like(input_ids)

        words_embeddings = self.word_embeddings(input_ids)
        position_embeddings = self.position_embeddings(position_ids)
        token_type_embeddings = self.token_type_embeddings(token_type_ids)

        embeddings = words_embeddings + position_embeddings + token_type_embeddings
        embeddings = self.LayerNorm(embeddings)
        embeddings = self.dropout(embeddings)
        return embeddings
        
class BertWordEmbeddings(nn.Module):
    """Construct the embeddings from ngram, position and token_type embeddings.
    """

    def __init__(self, config):
        super(BertWordEmbeddings, self).__init__()
        self.word_embeddings = nn.Embedding(config.word_size, config.hidden_size, padding_idx=0)
        self.token_type_embeddings = nn.Embedding(config.type_vocab_size, config.hidden_size)

        # self.LayerNorm is not snake-cased to stick with TensorFlow model variable name and be able to load
        # any TensorFlow checkpoint file
        self.LayerNorm = BertLayerNorm(config.hidden_size, eps=config.layer_norm_eps)
        self.dropout = nn.Dropout(config.hidden_dropout_prob)

    def forward(self, input_ids, token_type_ids=None):
        if token_type_ids is None:
            token_type_ids = torch.zeros_like(input_ids)

        words_embeddings = self.word_embeddings(input_ids)
        token_type_embeddings = self.token_type_embeddings(token_type_ids)

        embeddings = words_embeddings + token_type_embeddings
        embeddings = self.LayerNorm(embeddings)
        embeddings = self.dropout(embeddings)
        return embeddings

N-gram进行预训练

模型结构如下所示。

ZEN模型将对字和其有关的N-gram进行编码，这个该如何结合呢，就是将矩阵相加。

v_li 是character_encoder第l层输出的第i个character的hidden output
u_lik 是第l层和第i个character有关的第k个N-gram。需要注意的是这里一个字可以被包含到多个N-gram中，例如 粤港澳大湾区和港澳
那么对于第l层encoder这种增强可以表示为
V_l是这一层的embedding matrix
U_l是character-N-gram相关矩阵
M是N-gram matrix
需要注意的是如果这个字被masked掉了，那么这个字的N-gram就不会被加进去了。

ZEN Encoder的代码如下，其中hidden_states加上了N-Gram经过attention的结果。

class ZenEncoder(nn.Module):
    def __init__(self, config, output_attentions=False, keep_multihead_output=False):
        super(ZenEncoder, self).__init__()
        self.output_attentions = output_attentions
        layer = BertLayer(config, output_attentions=output_attentions,
                          keep_multihead_output=keep_multihead_output)
        self.layer = nn.ModuleList([copy.deepcopy(layer) for _ in range(config.num_hidden_layers)])
        self.word_layers = nn.ModuleList([copy.deepcopy(layer) for _ in range(config.num_hidden_word_layers)])
        self.num_hidden_word_layers = config.num_hidden_word_layers

    def forward(self, hidden_states, ngram_hidden_states, ngram_position_matrix, attention_mask,
                ngram_attention_mask,
                output_all_encoded_layers=True, head_mask=None):
        # Need to check what is the attention masking doing here
        all_encoder_layers = []
        all_attentions = []
        num_hidden_ngram_layers = self.num_hidden_word_layers
        for i, layer_module in enumerate(self.layer):
            hidden_states = layer_module(hidden_states, attention_mask, head_mask[i])
            if i < num_hidden_ngram_layers:
                ngram_hidden_states = self.word_layers[i](ngram_hidden_states, ngram_attention_mask, head_mask[i])
                if self.output_attentions:
                    ngram_attentions, ngram_hidden_states = ngram_hidden_states
            if self.output_attentions:
                attentions, hidden_states = hidden_states
                all_attentions.append(attentions)
            hidden_states += torch.bmm(ngram_position_matrix.float(), ngram_hidden_states.float())
            if output_all_encoded_layers:
                all_encoder_layers.append(hidden_states)
        if not output_all_encoded_layers:
            all_encoder_layers.append(hidden_states)
        if self.output_attentions:
            return all_attentions, all_encoder_layers
        return all_encoder_layers

实验结果

实验设置

论文使用了中文wiki作为语料，并去除了标点符号，进行了简体转化，对英文字母统一转为小写的数据清洗。

N-gram词典是根据训练语料，对N-gram按照词频排序并设置阈值，频率低于阈值的N-gram将会被剔除。最终的N-gram包含17.9万~6.4万之间。N-gram embedding是随机初始化的，模型结构和Bert结构相同，采用12层12个muti-head attention结构，hidden size大小为768。预训练也和Bert相同采用MLM和NSP任务。

实验效果

模型的实验效果如下图所示，其实R表示模型参数随机加载，P表示模型参数根据谷歌的Bert模型初始化，B表示用的是Bert Base，L表示Bert Large。可以看出ZEN在多个模型上取得了当前比较好的效果。

相关分析

文中还进行了一些分析。

小规模语料上进行预训练

当前的预训练模型大都是在大型数据集上进行实验，对于部分领域大规模数据集很难收集，于是本文抽取了1/10大小的维基语料进行预训练，模型参数采取随机初始化。可以看出ZEN在小规模数据集上的效果要稍稍优于Bert。应该是因为N-gram对embedding进行了增强，这表示ZEN在小规模数据集的场景要优于Bert。

收敛速度

下图展示了ZEN在CWS(Chinese word segmentation)和SA(Sentiment analysis)任务上的不同训练epoch的表现。可以看出相同的epochZEN的效果比Bert的更好，同事ZEN比Bert收敛更快。

N-gram Threshold

文中对我们提取N-gram频率的阈值进行了分析，发现阈值在10~20时候效果最好。同时论文对使用最多的N-gram的数量也进行了分析，发现随着N-gram数量的增多模型效果有了部分提升。

热力图分析

论文对encoder的N-gram也进行了热力图分析，如下图所示，是两句话在1~7层中每个N-gram的weight。可以看出，“有意义”的N-gram所占的权重比“无意义”的N-gram权重要高，例如“提高”和“波士顿”比“会提高”和“士顿”的权重要高。这表ZEN会在N-gram中注重语义，选择比较合适的词组。同时我们发现较长的词组在比较高的层中获得权重比较大，这也表示这些比较长的词组对模型理解语句有比较重要的影响。

相关资料

ZEN论文
ZEN实现

[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
数据结构 1 五花肉村长数据结构算法开发语言 c语言 visualstudio
1.什么是数据结构数据结构（DataStructure）是计算机存储和组织数据的方式，是指相互之间存在的一种或多种特定关系的数据元的集合。2.什么是算法算法（Algorithm）就是定义良好的计算过程，他取一个或一组的值为输入，并产生出一个或一组值作为输出。简单来说算法就是一系列的计算步骤，用来将输入数据转化成输出结果。3.数据结构和算法的书籍资料学习完数据结构知识，可以去看《剑指offer》和《
【数据结构和算法实践-树-LeetCode113-路径总和Ⅱ】 NeVeRMoRE_2024 数据结构与算法实践数据结构算法 leetcode b树
数据结构和算法实践-树-LeetCode113-路径总和Ⅱ题目MyThought代码示例JAVA-8题目给你二叉树的根节点root和一个整数目标和targetSum，找出所有从根节点到叶子节点路径总和等于给定目标和的路径。叶子节点是指没有子节点的节点输入：root=[5,4,8,11,null,13,4,7,2,null,null,5,1],targetSum=22输出：[[5,4,11,2],[
互联网 Java 工程师面试题（Java 面试题四）苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
下面列出这份Java面试问题列表包含的主题多线程，并发及线程基础数据类型转换的基本原则垃圾回收（GC）Java集合框架数组字符串GOF设计模式SOLID抽象类与接口Java基础，如equals和hashcode泛型与枚举JavaIO与NIO常用网络协议Java中的数据结构和算法正则表达式JVM底层Java最佳实JDBCDate,Time与CalendarJava处理XMLJUnit编程现在是时候给
【数据结构和算法实践-树-LeetCode110-平衡二叉树】 NeVeRMoRE_2024 数据结构与算法实践算法数据结构 leetcode b树
数据结构和算法实践-树-LeetCode110-平衡二叉树题目MyThought代码示例JAVA-8题目给定一个二叉树，判断它是否是平衡二叉树输入：root=[3,9,20,null,null,15,7]输出：trueMyThought判断平衡二叉树的条件是树的左右高度相差为1一、利用递归去遍历1、边界为节点为null，树高为0；2、树高的递增规则为，根的左节点和右节点比较值+1二、为了方便信息传
海量数据查找最大K个值：数据结构与算法的选择星辰@Sea 数据结构 Java 数据结构
在处理大数据集时，经常需要找到数据集中最大的K个元素，这样的需求在很多领域都有广泛应用，例如推荐系统中寻找评分最高的K个商品、数据分析中找出最重要的K个特征、搜索引擎中找到排名前K的结果等等。面对海量数据，传统的排序方法可能不再适用，因为它们通常具有较高的时间复杂度。因此，选择合适的数据结构和算法对于提高效率至关重要。本文将详细介绍如何在海量数据集中查找最大的K个值，探讨不同的数据结构与算法选择，
从0开始的算法（数据结构和算法）基础（九） Solidao 算法数据结构 java
二分查找二分查找是一个常规的搜索算法，根据数据的有序性来的。二分查找步骤0.排序，一定要排序，不然这个算法实现不了，可以去看上一篇的排序。初始化边界：首先确定数组的左边界和右边界。左边界一般初始化为0，右边界初始化为数组的长度减1（数组是从0开始的，不要告诉我开始学数据结构的你不知道，array.length-1）。进入循环查找：在左边界小于等于右边界的条件下，继续执行查找操作。计算中间点：每次循
Java 学习路线：适合小白的超细学习路线及实例代码 Dreams°123 后端 java eclipse jvm spring tomcat ide intellij-idea
Java学习路线：适合小白的超细学习路线及实例代码一、入门基础1.1、Java基础语法1.2、面向对象编程(OOP)二、核心Java编程2.1、数据结构和算法基础2.2、输入输出(I/O)三、进阶Java编程3.1、多线程编程3.2、网络编程四、高级应用4.1、数据库编程4.2、Web开发4.3、框架与库五、实践项目与进阶学习（留作业啦）5.1、实践项目5.2、持续学习一、入门基础1.1、Java
【数据结构和算法实践-树-LeetCode107-二叉树的层序遍历Ⅱ】 NeVeRMoRE_2024 数据结构与算法实践数据结构算法 leetcode
数据结构和算法实践-树-LeetCode107-二叉树的层序遍历Ⅱ题目MyThought代码示例JAVA-8题目给你二叉树的根节点root，返回其节点值自底向上的层序遍历。（即按从叶子节点所在层到根节点所在的层，逐层从左向右遍历）。输入：root=[3,9,20,null,null,15,7]输出：[[15,7],[9,20],[3]]MyThought题目给定的是通过二叉树的层序去遍历，结合示例
探索图形算法的奇妙世界：goraph 孔岱怀
探索图形算法的奇妙世界：goraphgoraphPackagegoraphimplementsgraphdatastructureandalgorithms.项目地址:https://gitcode.com/gh_mirrors/go/goraph在编程领域，数据结构和算法是构建高效应用的基础。今天，我们要向您推荐一款名为【goraph】的开源项目，它是一个用Go语言实现的图形数据结构及其算法库。
【Lidar】基于Python的点云数据下采样+体素显示 RS迷途小书童激光雷达点云数据 python 开发语言激光点云数据点云数据处理
1Open3D库介绍Open3D是一个开源的3D数据处理库，发布于2015年，目前已经更新到0.17.0版本。它基于MIT协议开源许可，使用C++11实现，并经过高度优化，还通过PythonPybinding提供了前端PythonAPI。Open3D为开发者提供了一组精心选择的数据结构和算法，内部实现高度优化并设置为并行化。它处理3D数据的各种应用，包括点云、网格、体积计算、可视化、深度学习、测量
图解数据结构python读书笔记_python cookbook3读书笔记第一章数据结构和算法 eternal?
pythonheapq模块查询一组序列中最大和最小的数据importheapqnums=[1,8,2,23,7,-4,18,23,42,37,]#获取序列中3个最大值#print(heapq.nlargest(3,nums))#获取序列中3个最小值#print(heapq.nsmallest(3,nums))#把数据压入堆中在堆中最小的那个数值永远排在最前面时间想取出最小的3个数值只需执行3次he
从0开始的算法（数据结构和算法）基础（八） Solidao 算法数据结构排序算法
说了这么久的数据结构，理论性比较强，下面我们来进入算法部分，运用之前学的数据结构来实现算法。今天的主体部分是排序，难度不大。排序排序的算法是比较简单实用的算法，也是很多的算法的基础。也分很多种，可以根据时间空间难度不同的，有序数据能够被更高效地查找、分析和处理。选择排序选择算法是一个时间复杂度O(n2)，空间复杂度是O(1),运行时间比较长。其主要思想是每次从未排序的部分中选择最小（或最大）的元素
计算机学习程序员牛马家 java
不要只盯着计算机语言学习，你现在已经学习了C语言和Java，暑假又规划学习Python，最后你掌握的就是计算机语言包而已。2.建议你找一门想要深挖的语言，沿着这个方向继续往后学习知识就行。计算机语言是学不完的，而未来就业找工作要从事技术岗位，需要不仅仅是计算机语言的，还得学习数据结构和算法、操作系统、计算机网络、数据库、还得做实战项目等等。java不敢用ChatGPT水论文了！OpenAI反作弊工
Java 技术栈：Java 中的 HashSet、LinkedHashSet 和 TreeSet（Set 集合）特点与实现解析阳爱铭 java技术栈 java python 开发语言后端数据库架构数据结构个人开发
Java集合框架（JavaCollectionsFramework）是Java编程语言中处理集合的基础设施，提供了强大的数据结构和算法支持。本文将深入探讨Java中的三种主要Set集合：HashSet、LinkedHashSet和TreeSet，分析它们的特点、实现原理及实际应用场景。1.Set接口概述Set接口是Java集合框架中的一个重要接口，定义了一组不允许重复元素的集合。与List接口不同
在Go中理解栈和先进先出原则 jzpfbpx golang 算法开发语言
Go是一种功能强大的编程语言，提供了丰富的数据结构和算法。堆栈是计算机科学中的基本数据结构之一。在本博文中，我们将探讨如何在Go中实现和使用堆栈，以及堆栈如何遵循先进先出(FIFO)原则。首先，让我们来看看堆栈是什么以及它是如何工作的。栈是一种线性数据结构，用于存储元素集合。堆栈的主要特点是遵循后进先出（LIFO）原则：最后一个添加到堆栈的元素是第一个被移除的元素。下面是一个如何在Go中实现简单堆
数据结构——单向链表（C语言版） GG Bond.ฺ 数据结构链表 c语言
在数据结构和算法中，链表是一种常见的数据结构，它由一系列节点组成，每个节点包含数据和指向下一个节点的指针。在C语言中，我们可以使用指针来实现单向链表。下面将详细介绍如何用C语言实现单向链表。目录1.定义节点结构体2.初始化链表3.插入节点4.删除节点5.遍历链表6.主函数1.定义节点结构体首先，我们需要定义表示链表节点的结构体。每个节点包含一个数据域和一个指向下一个节点的指针域。typedefst
数据结构与算法-希尔排序时光不老c 数据结构与算法算法 java 数据结构
引言在计算机科学中，数据结构和算法是构建高效软件系统的基石。而排序算法作为算法领域的重要组成部分，一直在各种应用场景中发挥着关键作用。今天我们将聚焦于一种基于插入排序的改进版本——希尔排序（ShellSort），深入了解其原理、实现步骤以及优缺点。一、希尔排序简介希尔排序(ShellSort)是由DonaldShell在1959年提出的，它是对插入排序的一种改进，通过定义一个增量序列来对原始数据进
在Go中理解栈和先进先出原则 ldxxxxll golang 算法开发语言
Go是一种功能强大的编程语言，提供了丰富的数据结构和算法。堆栈是计算机科学中的基本数据结构之一。在本博文中，我们将探讨如何在Go中实现和使用堆栈，以及堆栈如何遵循先进先出(FIFO)原则。首先，让我们来看看堆栈是什么以及它是如何工作的。栈是一种线性数据结构，用于存储元素集合。堆栈的主要特点是遵循后进先出（LIFO）原则：最后一个添加到堆栈的元素是第一个被移除的元素。下面是一个如何在Go中实现简单堆
为什么要学习数据结构和算法？ Programmer Liu 数据结构与算法数据结构算法
你是不是觉得数据结构和算法，跟操作系统、计算机网络一样，是脱离实际工作的知识？可能除了面试，这辈子也用不着？尽管计算机相关专业的同学在大学都学过这门课程，甚至很多培训机构也会培训这方面的知识，但是据我了解，很多程序员对数据结构和算法依旧一窍不通。还有一些人也只听说过数组、链表、快排这些最最基本的数据结构和算法，稍微复杂一点的就完全没概念。当然，也有很多人说，自己实际工作中根本用不到数据结构和算法。
学习数据结构和算法的第8天 blxx 数据结构学习算法
顺序表的实现进行头插eg:在数组12345的开头插入-1变成-112345#includetypedefstructSeqList{SLDataTypea[100];//假设顺序表最大容量为100intsize;//当前顺序表的大小}SL;voidSeqListPushFront(SL*ps,SLDataTypex){intend=ps->size-1;while(end>=0){ps->a[en
1～10 luckyhubo
p1课程内容介绍学习数据结构的重要性线性结构：数组栈队列链表哈希表：树结构：图结构：排序&搜索p2邂逅数据结构和算法p3什么是数据结构数据结构就是在计算机中，存储和组织数据的方式。p4什么是算法
11递归---解析案例汉诺塔问题和斐波那契数列程序媛小菜鸡成长中数据结构与算法算法 java 递归算法
前言数据结构和算法的最终目标都是降低时间复杂度。数据结构是从数据组织形式的角度达成这个目标；算法则是从数据处理的角度达成这个目标。1、什么递归通俗解释就是某个函数自己调用自己。递归的两层含义：（1）递归问题必须可以分解为若干个规模较小，与原问题形式相同的子问题，并且这些子问题可以用完全相同的解题思路来解决。（2）递归问题的演化过程是一个对原问题从大到小进行拆解的过程，并且会有一个明确的终点（临界点
WebSocket | 基于TCP的全双工通信网络协议逐梦苍穹 JavaEE 网络协议 websocket tcp/ip
文章目录1、介绍2、示例2.1、分析2.2、代码开发2.3、功能测试作者介绍：双非本科大三网络工程专业在读，阿里云专家博主，专注于Java领域学习，擅长web应用开发、数据结构和算法，初步涉猎Python人工智能开发和前端开发。主页：@逐梦苍穹所属专栏：JavaEE✈您的一键三连，是我创作的最大动力1、介绍WebSocket是基于TCP的一种新的网络协议。它实现了浏览器与服务器全双工通信——浏览器
手把手教您刷力扣，击破数据结构和算法--笔记 print('冰心') 力扣入门笔记算法数据结构 leetcode
强推学习视频：手把手带你刷Leetcode力扣｜各个击破数据结构和算法｜大厂面试必备技能【已完结】_哔哩哔哩_bilibili「力扣」8.5折优惠链接：https://leetcode-cn.com/premium/?promoChannel=siyangyuan其他相关合集：手把手带你刷力扣+数据结构+算法合集：BV1sy4y1q79MLeetcode力扣1-300题视频讲解合集：BV1xa41
手把手教您刷力扣，击破数据结构和算法--笔记（链表） print('冰心') 力扣入门笔记算法数据结构 leetcode
强推学习视频：手把手带你刷Leetcode力扣｜各个击破数据结构和算法｜大厂面试必备技能【已完结】_哔哩哔哩_bilibili「力扣」8.5折优惠链接：https://leetcode-cn.com/premium/?promoChannel=siyangyuan其他相关合集：手把手带你刷力扣+数据结构+算法合集：BV1sy4y1q79MLeetcode力扣1-300题视频讲解合集：BV1xa41
力扣算法Algorithm竞赛模板库（codeforces-go）：含了算法竞赛中常用的数据结构和算法实现，助力开发者更高效地解决问题汀、人工智能 #习题_算法算法 leetcode 数据结构动态规划图论力扣算法资料
1.算法Algorithm竞赛模板库（codeforces-go）算法竞赛模板库，为算法竞赛爱好者提供了一系列精心设计的算法模板。这个库包含了算法竞赛中常用的数据结构和算法实现，助力开发者更高效地解决问题一个算法模板应当涵盖以下几点：对该算法的基本介绍（核心思想、复杂度等）参考链接或书籍章节（讲的比较好的资料）模板代码（可以包含一些注释、使用说明）模板补充内容（常见题型中的额外代码、建模技巧等）相
JS的高级用法一只理智恩 js javascript 前端 ajax node.js vue.js react.js es6
关于JS高级用法在学习JavaScript的过程中，我们必须了解一些基础知识，如变量、函数、类、循环等。这些基础知识是我们使用JavaScript的基础。但是，在日常的业务开发中，我们需要一些更高级的技巧来更好地解决问题。通过阅读本文，你将了解到JS的高级知识点以及实际应用技巧，如高级数据结构和算法、函数式编程、异步编程和面向对象编程。我们会利用代码实例来让大家更好地理解这些知识点。同时，我们也会
百度地图接口 | 实现校验收货地址是否超出配送范围逐梦苍穹 java 百度
目录1.环境准备2.代码开发2.1application.yml2.2OrderServiceImpl作者介绍：双非本科大三网络工程专业在读，阿里云专家博主，专注于Java领域学习，擅长web应用开发、数据结构和算法，初步涉猎Python人工智能开发和前端开发。主页：@逐梦苍穹您的一键三连，是我创作的最大动力1.环境准备百度地图接口一般来说在外卖项目中的功能是，校验收货地址是否超出配送范围注册账号
[毕设项目-苍穹外卖]详细拆解分析项目的具体内容及心得体会逐梦苍穹项目 java 苍穹外卖毕业设计 redis mysql swagger
目录1、项目介绍2、功能介绍3、技术选型4、项目环境5、项目拆解⭐5.1、技术要点5.2、微信支付5.3、内网穿透5.4、部署上云6、心得体会作者介绍：双非本科大三网络工程专业在读，阿里云专家博主，专注于Java领域学习，擅长web应用开发、数据结构和算法，初步涉猎Python人工智能开发和前端开发。主页：@逐梦苍穹所属专栏：项目⭐Gitee地址：Java服务端完整代码(个人手敲)您的一键三连，是
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin