UQI-LIUWJ

t2vec 辅助笔记：data_utils

1 argsort

'''
目的是对一个列表 seq 中的子列表或数组按其长度进行排序，并返回排序后的索引。
具体来说，它会按长度的降序排列，这意味着最长的子列表/数组的索引会在前面。
'''
def argsort(seq):
    """
    sort by length in reverse order
    ---
    seq (list[array[int32]])
    """
    return [x for x,y in sorted(enumerate(seq),
                                key = lambda x: len(x[1]),
                                reverse=True)]

`enumerate(seq)` 返回一个枚举对象，其中包含 `seq` 中每个项的索引和值。
`key = lambda x: len(x[1])` 是排序的关键。它告诉 `sorted` 函数按照长度 (`len(x[1])`) 进行排序。这里的 `x[1]` 表示 `enumerate` 枚举对象的值，即 `seq` 中的子列表/数组。
`reverse=True` 指定排序应按降序进行。
最后，列表解析 `[x for x,y in ...]` 提取了排序后的索引值，这些索引值随后返回。

1.1 举例

seq = [[1, 2], [1, 2, 3, 4], [1], [1, 2, 3]]
result = argsort(seq)
print(result)
#[1, 3, 0, 2]

2 pad_array相关

2.1 pad_array

'''
对给定的数组 a 进行填充，使其长度达到指定的 max_length。填充的值是 PAD
'''

def pad_array(a, max_length, PAD=constants.PAD):
    """
    a (array[int32])
    """
    return np.concatenate((a, [PAD]*(max_length - len(a))))

`[PAD]*(max_length - len(a))`：这部分代码会创建一个新的列表，其长度为 `(max_length - len(a))`，并且所有的元素都是 `PAD`
`np.concatenate((a, ...))`：这将原始数组 `a` 和新生成的 `PAD` 值列表连接起来，从而产生一个新的、长度为 `max_length` 的数组。

2.2 pad_arrays

'''
接受一个数组的列表（或序列的序列）a，并确保所有这些数组都填充到与列表中最长的数组相同的长度
'''
def pad_arrays(a):
    max_length = max(map(len, a)) 
    #确定 a 中的所有数组中的最大长度
    a = [pad_array(a[i], max_length) for i in range(len(a))]
    #遍历 a 中的每个数组，然后使用先前定义的 pad_array 函数将每个数组填充到 max_length
    a = np.stack(a).astype(np.int)
    #将填充后的数组堆叠成一个二维数组，确保所有的值都是整数类型
    return torch.LongTensor(a)

2.3 pad_arrays_pair

处理源-目标（src-trg）序列对，使源/目标序列分别填充到相同的长度

def pad_arrays_pair(src, trg, keep_invp=False):
    """
    输入：

        src (list[array[int32]])：一个包含源序列的列表。
        trg (list[array[int32]])：一个包含目标序列的列表。
        keep_invp：一个布尔值，用来决定是否保留反向排列的信息。

    输出：

        src (seq_len1, batch)：填充后的源序列的张量，形状为 (序列长度, 批量大小)。
        trg (seq_len2, batch)：填充后的目标序列的张量，形状为 (序列长度, 批量大小)。
        lengths (1, batch)：一个张量，包含源序列的原始长度。
        invp (batch,)：一个张量，包含反向排列的信息，只有在 keep_invp 为 True 时才返回。
    """
    TD = namedtuple('TD', ['src', 'lengths', 'trg', 'invp'])

    assert len(src) == len(trg), "source and target should have the same length"
    #确保源序列和目标序列的长度是相同的。

    idx = argsort(src)
    src = list(np.array(src)[idx])
    trg = list(np.array(trg)[idx])
    '''
    使用 `argsort` 函数来获取按长度降序排序后的序列的索引。
    然后，使用这些索引来对 `src` 和 `trg` 进行重新排序。
    '''

    lengths = list(map(len, src))
    lengths = torch.LongTensor(lengths)
    #计算每个源序列的长度并将其转换为一个 PyTorch 张量。

    src = pad_arrays(src)
    trg = pad_arrays(trg)
    #使用之前定义的 `pad_arrays` 函数来对 `src` 和 `trg` 中的每个序列进行填充。
    #(batch,seq_len1) (batch,seq_len2)

    if keep_invp == True:
        invp = torch.LongTensor(invpermute(idx))

        # (batch, seq_len) => (seq_len, batch)
        return TD(src=src.t().contiguous(), 
                    lengths=lengths.view(1, -1), 
                    trg=trg.t().contiguous(), 
                    invp=invp)
    else:
        # (batch, seq_len) => (seq_len, batch)
        return TD(src=src.t().contiguous(), 
                lengths=lengths.view(1, -1), 
                trg=trg.t().contiguous(), 
                invp=[])

2.4 pad_arrays_keep_invp

'''
对输入的序列src进行填充，以便它们在批处理中具有相同的长度。
同时，它还保存并返回一个逆排列，这样你可以使用这个逆排列来恢复原始的顺序
'''
def pad_arrays_keep_invp(src):
    """
    Input:
    src (list[array[int32]])
    ---
    Output:
    src (seq_len, batch)
    lengths (1, batch)
    invp (batch,): inverse permutation, src.t()[invp] gets original order
    """

    idx = argsort(src)
    #对src中的序列按长度进行排序,返回一个排列索引
    src = list(np.array(src)[idx])
    #通过索引idx从src中提取排序后的序列

    lengths = list(map(len, src))
    lengths = torch.LongTensor(lengths)
    #获取每个序列的长度

    src = pad_arrays(src)
    #序列进行填充，使所有序列具有相同的长度

    invp = torch.LongTensor(invpermute(idx))
    #获得idx的逆排列，之后可以使用这个逆排列来恢复原始的顺序

    return src.t().contiguous(), lengths.view(1, -1), invp

3 invpermute

'''
计算一个排列的逆排列

给定一个排列 p，它的逆排列是一个排列 invp，满足 invp[p[i]] = i 和 p[invp[i]] = i 对所有 i 成立
'''
def invpermute(p):
    """
    inverse permutation
    """
    p = np.asarray(p)
    invp = np.empty_like(p)
    for i in range(p.size):
        invp[p[i]] = i
    #对于每个 i，设置 invp 在 p[i] 的位置上的值为 i
    return invp

3.1 举例

p = [2, 0, 1]
invp = invpermute(p)
invp
#[1, 2, 0]

invp的第p[0]个位置（第2个位置）值为0
invp的第p[1]个位置（第0个位置）值为1
invp的第p[2]个位置（第1个位置）值为2

4 random_subseq

'''
根据给定的 rate 从输入的数组 a 中随机丢弃一些元素，但始终保留首尾两个元素
'''
def random_subseq(a, rate):

    idx = np.random.rand(len(a)) < rate
    #生成一个与 a 同长度的随机数组，其值在 [0, 1) 之间。
    #然后，该随机数组中小于 rate 的值被标记为 True，其他的被标记为 False

    idx[0], idx[-1] = True, True
    '''
    无论先前的随机操作的结果如何，这行代码确保数组 idx 的首元素和尾元素始终为 True
    这意味着在最终结果中，a 的首尾元素永远不会被丢弃
    '''
    return a[idx]

5 DataLoader

5.1 init

class DataLoader():
    """
    srcfile: source file name
    trgfile: target file name
    batch: batch size
    validate: if validate = True return batch orderly otherwise return
        batch randomly
    """
    def __init__(self, srcfile, trgfile, mtafile, batch, bucketsize, validate=False):
        self.srcfile = srcfile
        self.trgfile = trgfile
        self.mtafile = mtafile
        $源、目标、元文件文件名

        self.batch = batch
        self.validate = validate
        #如果为True，则按照顺序返回batch，否则随即返回
        #self.bucketsize = [(30, 30), (30, 50), (50, 50), (50, 70), (70, 70)]
        self.bucketsize = bucketsize

5.1.1 桶策略

桶是一种策略，用于在序列长度可变的情况下处理数据。
例如，假设我们有不同长度的句子，我们可能不希望为每个句子单独创建一个批处理，因为这会非常低效。
桶策略是将句子放入一个接近它们长度的桶中，以尽量减少填充。

5.2 insert

'''
将一个源序列（s）、一个目标序列（t）和一个元数据序列（m）插入到适当的桶中
'''
def insert(self, s, t, m):
        for i in range(len(self.bucketsize)):
            #遍历每个桶的大小
            if len(s) <= self.bucketsize[i][0] and len(t) <= self.bucketsize[i][1]:
                #检查序列 s 和 t 的长度是否匹配当前桶的大小
                self.srcdata[i].append(np.array(s, dtype=np.int32))
                self.trgdata[i].append(np.array(t, dtype=np.int32))
                self.mtadata[i].append(np.array(m, dtype=np.float32))
                return 1
        return 0
#如果循环结束后，数据没有被插入到任何桶中，则返回 0，表示数据没有被插入

5.3 load

'''
从指定的源文件、目标文件和元数据文件中加载数据，并按照之前定义的桶大小进行组织
'''
def load(self, max_num_line=0):
        self.srcdata = [[] for _ in range(len(self.bucketsize))]
        self.trgdata = [[] for _ in range(len(self.bucketsize))]
        self.mtadata = [[] for _ in range(len(self.bucketsize))]
        #根据桶的数量为 self.srcdata, self.trgdata 和 self.mtadata 初始化空列表。

        srcstream, trgstream, mtastream = open(self.srcfile, 'r'), open(self.trgfile, 'r'), open(self.mtafile, 'r')
        #从源、目标和元数据文件中读取数据

        num_line = 0
        for (s, t, m) in zip(srcstream, trgstream, mtastream):
            #每次读取srcstream, trgstream, mtastream的各一行

            s = [int(x) for x in s.split()]
            #源数据直接转为整数列表
            t = [constants.BOS] + [int(x) for x in t.split()] + [constants.EOS]
            #目标数据前后添加起始（BOS）和结束（EOS）标记
            m = [float(x) for x in m.split()]

            num_line += self.insert(s, t, m)
            #使用 insert 方法将数据插入到适当的桶中
            #如果插入成功，那么num_line加一

            if num_line >= max_num_line and max_num_line > 0: break
            #如果达到最大行数 max_num_line（如果设置了的话），则停止读取

            if num_line % 500000 == 0:
                print("Read line {}".format(num_line))
            #每读取 500,000 行，打印一条消息表示进度

        ## 如果处于验证模式，合并所有桶:
        if self.validate == True:
            self.srcdata = np.array(merge(*self.srcdata))
            self.trgdata = np.array(merge(*self.trgdata))
            self.mtadata = np.array(merge(*self.mtadata))

            self.start = 0
            self.size = len(self.srcdata)
        else:
            #否则，将数据转为 NumPy 数组，并计算桶的分配比例:
            self.srcdata = list(map(np.array, self.srcdata))
            self.trgdata = list(map(np.array, self.trgdata))
            self.mtadata = list(map(np.array, self.mtadata))

            self.allocation = list(map(len, self.srcdata))
            #计算每个桶中的数据量，并存储在 self.allocation 中。
            self.p = np.array(self.allocation) / sum(self.allocation)
            #计算每个桶的相对大小，并存储在 self.p 中。
        srcstream.close(), trgstream.close(), mtastream.close()
        #关闭源、目标和元数据文件的文件流。

5.4 getbatch_one

'''
获取一个批次的数据
'''
def getbatch_one(self):
        if self.validate == True:
            #验证模式
            src = self.srcdata[self.start:self.start+self.batch]
            trg = self.trgdata[self.start:self.start+self.batch]
            mta = self.mtadata[self.start:self.start+self.batch]
            #从当前的start位置开始，连续选取batch大小的数据

            self.start += self.batch
            #更新start以便下一次获取批次时从新的位置开始。
            if self.start >= self.size:
                self.start = 0
            #如果start加上batch的大小超过了数据的大小，那么start将被重置为0
            #这意味着验证数据是循环的
            return list(src), list(trg), list(mta)
            #返回这个批次的源数据、目标数据和元数据
        else:
            ## 非验证模式
            sample = np.random.multinomial(1, self.p)
            #使用多项分布从self.p中抽取一个样本，表示抽取哪一个桶。
            #这里的self.p是一个数组，表示每个"bucket"被选中的概率
            '''
            如果self.p = [0.2, 0.5, 0.3]，那么返回的数组可能是[0, 1, 0]，表示第二个"bucket"被选中
            '''

            bucket = np.nonzero(sample)[0][0]
            '''
            np.nonzero(sample) 返回一个元组，其中包含了sample中所有非零元素的索引
            因为sample中只有一个元素是1（即被选中的"bucket"），所以这个函数会返回一个只有一个元素的数组
            [0][0] 提取这个数组的第一个元素，即被选中的"bucket"的索引
            '''
       
            idx = np.random.choice(len(self.srcdata[bucket]), self.batch)
            #从所选"bucket"中随机选择batch大小的数据。

            src = self.srcdata[bucket][idx]
            trg = self.trgdata[bucket][idx]
            mta = self.mtadata[bucket][idx]
            return list(src), list(trg), list(mta)
            #返回这个批次的源数据、目标数据和元数据。

5.4.1 选择桶的两行举例

import numpy as np
sample=np.random.multinomial(1, np.array([0.2,0.3,0.5]))
sample
#array([1, 0, 0])

bucket = np.nonzero(sample)
bucket
#(array([0]),)

bucket[0][0]
#0

5.5 getbatch_generative

'''
从数据加载器中获取一个批次的数据
'''
def getbatch_generative(self):
        src, trg, _ = self.getbatch_one()
        #调用getbatch_one函数，该函数返回一批数据。它返回三个值：源数据、目标数据和元数据
        
        return pad_arrays_pair(src, trg, keep_invp=False)
        '''
        填充src和trg，使得他们分别是相同长度
        返回值一个名为TD的namedtuple，其中包含填充和排序后的src和trg，以及源数据的长度
        '''

5.6 getbatch_discriminative_cross

'''
获取三个batch的数据，a、p和n[锚点（anchor）、正例（positive）和负例（negative）]
'''
def getbatch_discriminative_cross(self):
        def distance(x, y):
            return np.linalg.norm(x - y)
        #定义了一个简单的欧几里得距离函数来计算两个向量之间的距离。

        a_src, a_trg, a_mta = self.getbatch_one()
        p_src, p_trg, p_mta = self.getbatch_one()
        n_src, n_trg, n_mta = self.getbatch_one()
        '''
        连续三次调用getbatch_one方法，获取三个不同的批次数据：a、p和n
        代表了锚点（anchor）、正例（positive）和负例（negative）。
        '''

        for i in range(len(a_src)):
            if distance(a_mta[i], p_mta[i]) > distance(a_mta[i], n_mta[i]):
                p_src[i], n_src[i] = n_src[i], p_src[i]
                p_trg[i], n_trg[i] = n_trg[i], p_trg[i]
                p_mta[i], n_mta[i] = n_mta[i], p_mta[i]
        '''
        如果a和p之间的距离大于a和n之间的距离，我们交换p和n。
        这是为了确保p是与a更接近的点，而n是更远离的点
        '''

        a = pad_arrays_pair(a_src, a_trg, keep_invp=True)
        p = pad_arrays_pair(p_src, p_trg, keep_invp=True)
        n = pad_arrays_pair(n_src, n_trg, keep_invp=True)
        '''
        对于每个数据批次，调用pad_arrays_pair进行填充和排序。
        这里保持了逆排列信息，因为在后续的处理中需要它
        '''
        return a, p, n

5.7 getbatch_discriminative_inner

'''
从给定的输入数据中生成a(锚点)、p(正例)、和n(负例)的批次，类似于上一个函数。

但在这里，所有这些批次数据都是从同一个初始数据的不同部分产生的。
'''
def getbatch_discriminative_inner(self):
        a_src, a_trg = [], []
        p_src, p_trg = [], []
        n_src, n_trg = [], []

        _, trgs, _ = self.getbatch_one()
        #从getbatch_one方法中仅获取一个batch的目标数据trgs
        #回忆：getbatch_one返回的东西还没有pad

        for i in range(len(trgs)):
            trg = trgs[i][1:-1]
            #目标轨迹掐头去尾（BOS、EOS）

            if len(trg) < 10: continue
            #如果目标轨迹长度小于10，那么不考虑这条轨迹

            a1, a3, a5 = 0, len(trg)//2, len(trg)
            a2, a4 = (a1 + a3)//2, (a3 + a5)//2
            #将trg数据(不考虑开头和结尾)分为三部分：a1到a5

            '''
            根据一个随机的rate，使用random_subseq函数来从这三部分中随机选取子序列
            '''
            rate = np.random.choice([0.5, 0.6, 0.8])
            if np.random.rand() > 0.5:
                a_src.append(random_subseq(trg[a1:a4], rate))
                a_trg.append(np.r_[constants.BOS, trg[a1:a4], constants.EOS])
                p_src.append(random_subseq(trg[a2:a5], rate))
                p_trg.append(np.r_[constants.BOS, trg[a2:a5], constants.EOS])
                n_src.append(random_subseq(trg[a3:a5], rate))
                n_trg.append(np.r_[constants.BOS, trg[a3:a5], constants.EOS])
                '''
                如果np.random.rand() > 0.5，那么：
                取a1到a4为锚点、a2到a5为正例、a3到a5为负例
                '''
            else:
                a_src.append(random_subseq(trg[a2:a5], rate))
                a_trg.append(np.r_[constants.BOS, trg[a2:a5], constants.EOS])
                p_src.append(random_subseq(trg[a1:a4], rate))
                p_trg.append(np.r_[constants.BOS, trg[a1:a4], constants.EOS])
                n_src.append(random_subseq(trg[a1:a3], rate))
                n_trg.append(np.r_[constants.BOS, trg[a1:a3], constants.EOS])

        a = pad_arrays_pair(a_src, a_trg, keep_invp=True)
        p = pad_arrays_pair(p_src, p_trg, keep_invp=True)
        n = pad_arrays_pair(n_src, n_trg, keep_invp=True)
        '''
        使用pad_arrays_pair函数，我们将a_src, a_trg, p_src, p_trg, n_src, 和n_trg填充并排序
        '''
        return a, p, n

6 DataOrderScaner

'''
从一个源文件中扫描和加载数据，并以批量方式返回这些数据
'''
class DataOrderScaner():
    def __init__(self, srcfile, batch):
        self.srcfile = srcfile
        self.batch = batch
        self.srcdata = []
        self.start = 0
        # 初始化函数，设置源文件、批处理大小，并初始化存放数据的列表

    '''
    从指定的源文件self.srcfile中加载数据，并将其存储到self.srcdata列表中
    '''
    def load(self, max_num_line=0):
        num_line = 0
        with open(self.srcfile, 'r') as srcstream:
            for s in srcstream:
                s = [int(x) for x in s.split()]
                self.srcdata.append(np.array(s, dtype=np.int32))
                #从指定的源文件self.srcfile中加载数据，并将其存储到self.srcdata列表中

                num_line += 1
                if max_num_line > 0 and num_line >= max_num_line:
                    break
        self.size = len(self.srcdata)
        self.start = 0

    '''
    从加载的数据中按批次获取数据，并进行适当的格式化处理
    '''
    def getbatch(self):
        """
        Output:
        src (seq_len, batch)
        lengths (1, batch)
        invp (batch,): inverse permutation, src.t()[invp] gets original order
        """

        if self.start >= self.size:
            return None, None, None
        '''
        首先，检查self.start（当前批次的开始位置）是否已经超过或等于self.size（总的数据大小）。
        如果是这样，表示所有数据都已经被提取过了，所以直接返回None
        '''

        src = self.srcdata[self.start:self.start+self.batch]
        #从self.srcdata中提取当前批次的数据
=
        self.start += self.batch
        return pad_arrays_keep_invp(src)
        #对当前批次的数据进行处理，以获得适当的格式和反向排列

js map函数的使用 itwlz javascript 前端开发语言
1.概念map()方法定义在JavaScript的Array中，它返回一个新的数组。数组中的元素为原始数组调用函数处理后的值。注意：1.map()不会对空数组进行检测2.map()不会改变原始数组2.语法array.map(function(currentValue,index,arr),thisIndex)3.实例3.1把数组l里的每一项转为Number或String或Booleanletlis
华为OD机试E卷 --字符串分割--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 java 华为od javascript python js c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码题目描述给定一个非空字符串S，其被N个-分隔成N+1的子串，给定正整数K，要求除第一个子串外，其余的子串每K个字符组成新的子串，并用-'分隔。对于新组成的每一个子串，如果它含有的小写字母比大写字母多，则将这个子串的所有大写字母转换为小写字母;反之，如果它含有的大写字母比小写字母多，则将这个子串的所
springboot毕设基于java的在线学习交流平台程序+论文明思计算机毕设 spring boot 课程设计后端
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容研究背景随着互联网技术的飞速发展和全球教育资源的日益丰富，在线学习已成为人们获取知识、提升技能的重要途径。特别是在近年来，受各种因素影响，线上教育需求激增，促使在线学习交流平台不断涌现。这些平台旨在打破传统教育的时空限制，为学习者提供更加灵活、个性化的学习体验。然而，当前市场上的在线学
参数校验 Spring Validation框架唯手熟 java spring boot
后端参数校验解决：校验前端传入的参数是否符合预期1、引入依赖使用SpringValidation框架 org.springframework.boot spring-boot-starter-validation 3.1.4 2、校验类型直接属性校验对象属性校验2.1直接属性校验在参数接收时，直接使用正则表达式对属性进行限制。控制层添加注解@Va
mermaid Bananices markdown markdown javascript 流程图
使用Mermaid在博客中添加流程图什么是Mermaid？Mermaid是一个基于Javascript的图表绘制工具，通过解析类Markdown的文本语法来实现图表的创建和动态修改。Mermaid诞生的主要目的是让文档的更新能够及时跟上开发进度。流程图在mermaid中可以使用graph和flowchart来绘制流程图,但使用flowchart绘制流程图时候性能更高,详情FlowchartsSyn
高级java每日一道面试题-2025年01月16日-框架篇[Mybatis篇]-说说Mybatis的缓存机制? java我跟你拼了 java每日一道面试题 java mybatis 缓存一级缓存二级缓存工作原理全局配置
如果有遗漏,评论区告诉我进行补充面试官:说说Mybatis的缓存机制?我回答:在Java高级面试中，MyBatis的缓存机制是一个重要的话题。MyBatis是一个流行的Java持久化框架，它提供了强大的数据库访问能力和灵活的SQL映射配置。为了提高查询性能并减少数据库访问次数，MyBatis引入了缓存机制。下面将对MyBatis的缓存机制进行详细解释：MyBatis缓存机制概述MyBatis的缓存
Java实现简易的学生管理系统杰仔正在努力 Java java idea
Java实现简易的学生管理系统文章目录Java实现简易的学生管理系统前言一、如何实现二、实现的方法（示意图）三、开始实现3.1定义类3.2定义主界面3.3实现添加功能3.4实现查询功能3.5实现删除功能3.6实现修改功能四、完整代码五、总结前言该项目主要是作为新手快速上手实操，围绕面向对象所学知识实现学生管理系统的增删改查功能，所使用的知识点主要是面向对象的三大特征使用的方法、判断语句、构造方法等
我的秋招总结今天不coding 秋招秋招总结大厂秋招建议秋招准备
我的秋招总结个人背景双非本，985硕，科班准备情况以求职为目的学习Java的时间大概一年。八股，一开始主要是看B站黑马的八股文课程，背JavaGuide和小林coding还有面试鸭。算法，250+，刷了3遍左右项目，API开放平台+OJ在线判题系统+实习项目（检索+大模型）实习，华为线上算法实习4个月，小厂Java实习5个月，滴滴后端实习9个月offer京东零售-供应链sp美团到家-履约sp快手-
2024华为OD机试E卷-构成正方形的数量-（C++/Java/Python） 2024剑指offer python 华为od c++java
2024华为OD机试最新E卷题库-(C卷+D卷+E卷)-(JAVA、Python、C++)目录题目描述输入描述输出描述用例1用例2考点题目解析代码pythonc++题目描述输入N个互不相同的二维整数坐标，求这N个坐标可以构成的正方形数量。（内积为零的的两个向量垂直）输入描述第一行输入为N，N代表坐标数量，N为正整数N≤100之后的N行输入为坐标xy以空格分隔，x，y为整数-10≤x,y≤10<
华为OD机试E卷 - 构成正方形的数量（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为od java python javascript c语言 c++华为OD机试E卷
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述输入N个互不相同的二维整数坐标，求这N个坐标可以构成的正方形数量。[内积为零的的两个向量垂直]输入描述第一行输入为N，N代表坐标数量，N为正整数。N<=100之后的K行输入为坐标xy以空格分隔，x，y为整数，-10<=x,y<=10输出描述输出可以构成的正方形数量。示例1输入3132431输出0说明（3个点不足以构成正
华为OD机试E卷 - 关联子串（Java & Python& JS & C++ & C ）算法大师最新华为OD机试 java 华为od python javascript c++C语言华为OD机试E卷
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述给定两个字符串str1和str2，如果字符串str1中的字符，经过排列组合后的字符串中，只要有一个字符串是str2的子串，则认为str1是str2的关联子串。若str1是str2的关联子串，请返回子串在str2的起始位置；若不是关联子串，则返回-1。输入描述输入两个字符串，分别为题目中描述的str1、str2。备注输入
信息系统项目管理师笔记 Ling912 信息系统项目管理师信息系统项目管理师
高项考点总结第一章：信息化和信息系统信息的属性：精确性、完整性、可靠性、及时性、经济型、可验证性、安全性。信息的传输技术是信息技术的核心信息化的5个层次：产品信息化，企业信息化，产业信息化，国民经济信息化，社会生活信息化。信息化的主体是全体社会成员两网是政务内网和政务外网，一站是政府门户网站。信息化六要素：信息资源是关键、信息网络是基础设施、信息技术应应用、信息技术产业是物质基础、信息化人才是成功
python+playwright自动化测试(一)：安装及简单使用，截图录屏觅远 python 自动化测试 python 开发语言自动化
目录基本使用浏览器调用启用浏览器创建窗口对象访问URL页面的刷新、返回、前进关闭截图、录屏、保存pdf截图录屏保存为pdf设置窗口大小调试模式手机模式及new_context的更多参数手机模式new_context的其他参数设置语言和时区设置和修改位置用户代理设置离线模式禁用或启用java_script_enabledplaywright是一个非常强大的自动化框架，支持Linux、Mac以及Win
java代码中使用linux cp带*通配符导致的空文件问题 DamonREN java linux 服务器
1、背景：在定时任务中，执行完生成文件后需要IFT任务传输至其他系统，结果发现传输的文件都为空文件。排查发现在代码中使用了以下代码：Stringcmd="cp"+sourcePath+(prefixFileName+"*_"+preDate+".txt")+""+destPath;Runtime.getRuntime().exec(cmd);2、排查分析：将日志中打印的cmd字符串，单独在服务器上
简化云上操作，阿里云客户端——您的云端全能助手运维云计算客户端
背景当您创建了云服务器或容器实例之后，以下操作往往是非常常见的：连接并登陆到服务器，大展身手一番，比如配置基础开发环境、部署应用服务、查看各种性能指标等等；可见连接并登陆到服务器是多么高频而基础的操作。而在使用业界通用的登陆工具时，这样的场景是否熟悉。场景一登陆密码忘了，试了几个常用的密码都是错的，奔溃啊。还好我吃一堑，长一智，把每台实例的密码经过加密算法加密后，记在了宝贝笔记本上，并放在了神秘加
一篇文章让你学会Java之数组的定义和初始化凭君语未可 Java java 开发语言
数组的定义和初始化一、数组的定义方式一：数组类型+方括号+数组变量名方式二：数组类型+数组变量名+方括号方式三：定义数组并初始化大小二、数组的初始化1.静态初始化1.1无需指定数组大小1.2指定数组大小但初始化元素2.动态初始化2.1定义数组并初始化大小2.2数组大小和元素值的关系三、二维数组的定义和初始化1.定义二维数组2.动态初始化二维数组3.静态初始化二维数组总结一、数组的定义在Java中，
计算机网络部分笔记白茶三许计算机网络笔记网络
计算机网络OSI/RM七层模型七层模型是计算机网络的一个奠基石。计算机网络整个的基础都是构建于七层模型之上的。七层模型是由国际标准化组织制定出来的。在七层模型当中最底层是物理层。物理层负责传输二进制的数据，主要涉及的设备是中继器和集线器。中继器可以延长传输距离，因为传输距离过远，会导致信号的衰减，衰减到一定程度就传输不过去了，而通过在中间加一个中继器，中继器一端接收传输过来的数据，另一端将数据原封
《CPython Internals》阅读笔记：p1-p19 python
《CPythonInternals》学习第1天，p1-p19总结，总计19页。一、技术总结无。二、英语总结(生词：2)1.humblevshumbled(1)humble:humus(“earth”)adj.字面意思是“ontheground”,后面引申为“lowlyinkind,state,condition(卑微)”,"notproudthatyouareimportant(谦卑)"。(2)h
mermaid大全（语法、流程图、时序图、甘特图、饼图、用户旅行图、类图） Le0v1n 奇奇怪怪的知识软件推荐面试题（Interview Questions）流程图甘特图
⚠️有些网站的mermaid可能不完整，因此下面教程中可能有些语法是无效的。亲测Typora软件均可以显示。1.介绍Mermaid是一个基于JavaScript的图表绘制工具，它使用类似Markdown的语法来创建和修改各种类型的图表。以下是关于Mermaid的详细介绍：1.核心功能文本驱动的图表生成：Mermaid允许用户通过简单的文本语法来创建流程图、序列图、甘特图、类图、状态图、实体关系图等
华为OD机试E卷 --关联子串--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 java 华为od javascript python c语言 c++
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述给定两个字符串str1和str2，如果字符串str1中的字符，经过排列组合后的字符串中，只要有一个字符串是str2的子串，则认为str1是str2的关联子串。若str1是str2的关联子串，请返回子串在str2的起始位置；若不是关联子串，则返回-1。输入描述输入两个字符串，分
Java 设计模式妖怪兮诺‍ java java 设计模式开发语言
设计模式的六大原则开闭原则：对拓展开放，对修改关闭里氏替换原则（LSP）（开闭原则的补充）：任何基类可以出现的地方，子类一定可以出现。继承复用的基石依赖倒置原则：针对接口编程，依赖于抽线而不依赖于具体接口隔离原则：使用多个隔离的接口，比使用单个接口要好。低耦合、高内聚迪米特法则（最少知道原则）：一个实体应当尽可能的与其他实体之间发生相互作用，使得系统功能模块相对独立合成复用原则：尽量使用合成/聚合
java JVM运行时数据区妖怪兮诺‍ java java jvm 开发语言
javaJVM运行时数据区程序计数器内存空间小，线程私有。字节码解释器工作就是通过改变这个计数器的值来选取下一条需要执行指令的字节码指令，分支、循环、跳转、异常处理、线程恢复等基础功能都需要依赖计数器完成如果线程正在执行一个Java方法，这个计数器记录的是正在执行的虚拟字节码指令的地址；如果正在执行的是native方法，这个计数器的值为undefined。此内存区域是唯一一个在Java虚拟机规范中
python中print()的作用是什么_python中print()函数的“，”与java中System.out.print()函数中的“+”功能详解... 春容
python中:输出结果为：hello,world!java中:输出结果为:hello,world!我们可以看到，这两个函数的用法是一样的print()函数还有这种用法:输出结果为：1+1=2同样的，Java中也有：输出结果为：1+1=2我们发现，在使用print()函数的时候，我们用了一个“,”将“1+1=”和1+1的结果连接起来了，这个“，”起着连接的作用。同时，在使用System.out.p
小白学习Java第七天 qq_57406169 学习 java 数据库
一、单表PRIMARYKEY主键，不能重复，唯一确定一条记录(unique+notnull)表中的任何列都可以作为主键，只要它满足一下条件:1、任意两行都不具有相同的主键值2、每一行都必须具有一个主键值(主键列不允许空置NULL)3、主键列中的值不允许修改或更新主键值不能重用(如果某行从表中删除，它的主键不能赋给以后的新行)AUTOINCREMENT自动增长varchar(10)char(10)区
视觉SLAM学习打卡【8-1】-视觉里程计·直接法肝帝永垂不朽 #SLAM 计算机视觉 opencv c++
本节直接法与上节特征点法，为视觉里程计估计位姿的两大主流方法。而在引出直接法前，先介绍光流法（二者均对灰度值I做文章）。至此，前端VO总算结束了。学下来一个感受就是前几章的数学基础很重要，尤其是构建最小二乘的非线性优化（BA），几乎每种方法都有其一席之地。视觉SLAM学习打卡【8-1】-视觉里程计·直接法一、光流法（1）前提（实际中较难满足）（2）理论推导（3）附：超定方程求解二、直接法（1）理论
海康威视H5player问题汇总大全前端小码仔海康视频海康H5player 前端
由于除了要支持Windows平台，还要支持国产系统的平台，这时就用到了H5player，但是这个在使用调试的时候会遇到各种各样的问题，便在此分享一下，供大家分享！！！问题一：Unexpectedtoken‘<‘inputover1、检查html页面的引入2、确认szBasePath地址是否正确（注意：微前端乾坤下的路径别忘带子应用的前缀）3、如果以上配置都正确，且后端返回的路径没问题，请重新下载更
如何监控和优化缓存性能?思维导图代码示例（java 架构) 用心去追梦缓存 java 架构
为了监控和优化缓存性能，需要采取一系列策略和技术手段来确保缓存系统的高效运行。以下是一个思维导图结构，以及一个简化的Java架构代码示例，展示了如何通过设计和技术手段来实现这一目标。思维导图结构监控和优化缓存性能性能指标命中率缓存命中次数缓存未命中次数响应时间平均响应时间响应时间分布（如P95,P99）吞吐量每秒请求数每秒处理的数据量资源使用内存占用CPU使用率监控工具Prometheus+Gra
使用分库分表技术，解决了亿级订单数据存储问题?思维导图代码示例（java 架构) 用心去追梦 java 架构开发语言
分库分表技术是解决大规模数据存储问题的一种常见策略，特别是在处理亿级订单数据时。通过将数据分散到多个数据库和表中，可以有效地提高系统的可扩展性和性能。以下是一个思维导图结构，以及一个简化的Java架构代码示例，展示了如何使用分库分表技术来管理亿级订单数据。思维导图结构分库分表解决方案设计原则数据分布算法哈希取模（HashModulo）范围划分（RangePartitioning）列表划分（List
多级缓存一致性如何保证?思维导图代码示例（java 架构) 用心去追梦缓存 java 架构
保证多级缓存的一致性是一个复杂的问题，它涉及到如何在多个不同级别的缓存之间同步数据，确保所有层级的数据都是一致且最新的。以下是关于多级缓存一致性保障的思维导图结构和一个简化的Java架构代码示例。思维导图结构多级缓存一致性设计原则最小化更新频率数据分片策略缓存粒度优化一致性模型强一致性同步更新两阶段提交最终一致性异步更新时间窗口弱一致性读修复版本控制缓存更新策略写直达（WriteThrough）写
如何确保热点产品查询延迟控制在10ms以内?思维导图代码示例（java 架构) 用心去追梦 java 架构开发语言
为了确保热点产品查询的延迟控制在10ms以内，可以采取一系列优化措施和技术手段。以下是一个思维导图的结构和一个简化的Java架构代码示例，用于展示如何实现这一目标。思维导图结构低延迟查询数据预加载热点数据预测提前加载到内存缓存使用高性能缓存内存级缓存（如Caffeine）分布式缓存（如Redis）缓存一致性管理弱一致性模型缓存更新策略（写后失效、读时更新等）并发处理多线程/异步编程线程池管理数据库
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后

t2vec 辅助笔记：data_utils

1 argsort

1.1 举例

2 pad_array相关

2.1 pad_array

2.2 pad_arrays

2.3 pad_arrays_pair

2.4 pad_arrays_keep_invp

3 invpermute

3.1 举例

4 random_subseq

5 DataLoader

5.1 init

5.1.1 桶策略

5.2 insert

5.3 load

5.4 getbatch_one

5.4.1 选择桶的两行举例

5.5 getbatch_generative

5.6 getbatch_discriminative_cross

5.7 getbatch_discriminative_inner

6 DataOrderScaner

你可能感兴趣的:(论文笔记,笔记,java,前端)