俱往矣...

构建词表与抽样——【torch学习笔记】

构建词表与抽样

引用翻译：《动手学深度学习》

语言符号（又称词）的数量很大，而且分布很不均匀。因此，预测下一个符号的简单多类分类方法并不总是很有效。此外，我们需要把文本变成我们可以优化的格式，即我们需要把它映射到向量。在其极端情况下，我们有两种选择。一种是将每个词作为一个独特的实体，例如Salton.Wong.Yang.1975。这种策略的问题是，对于非常大的、多样化的语料库，我们很可能要处理100,000到1,000,000个向量。

另一个极端是每次预测一个字符的策略，如Ling等人，2015年提出的。两种策略之间的一个很好的平衡点是字节对编码，如Sennrich、Haddow和Birch, 2015年为神经机器翻译的目的所描述的。它将文本分解为经常出现的类似音节的片段。这使得模型能够根据先前查看的单词，如异质、同质、图和五边形，生成异质或五边形等单词。探讨这些模型的细节已经超出了本章的范围。我们将在以后讨论自然语言处理（chapter_nlp）时更详细地讨论这个问题。我只想说，它可以大大促进自然语言处理模型的准确性。

为了简单起见，我们将把自己限制在纯字符序列上。我们像以前一样使用H.G. Wells的The Timemachine。我们首先对文本进行过滤，并将其转换为一个字符ID的序列。

一、数据加载

和以前一样，我们开始加载数据，并将其映射为一连串的空白处、标点符号和常规字符。预处理是最小的，我们只限于去除多个空白。

import sys
sys.path.insert(0, '..')

import torch
import random
import collections

with open('../data/timemachine.txt', 'r') as f:
    raw_text = f.read()
    
print(raw_text[0:210])  #  raw_text存储的是文本，未经过任何处理

The Time Machine, by H. G. Wells [1898]

The Time Traveller (for so it will be convenient to speak of him)
was expounding a recondite matter to us. His grey eyes shone and
twinkled, and his usually pale

二、符号化

接下来，我们需要将数据集，即一个字符串，分割成标记。一个标记是模型要训练和预测的一个数据点。我们通常使用一个词或一个字符作为一个标记。

lines = raw_text.split('\n')
text = ' '.join(' '.join(lines).lower().split())  # 全转化为小写，且将各句用空格连接起来
print('# of chars:', len(text))
print(text[0:70])

# of chars: 178605
the time machine, by h. g. wells [1898] i the time traveller (for so i

三、词汇表

然后，我们需要将令牌映射成数字索引。我们通常称它为词汇表。它的输入是一个标记的列表，称为语料库。

然后，它计算每个标记在这个语料库中的频率，然后根据其频率给每个标记分配一个数字索引。很少出现的标记经常被删除以减少复杂性。

一个在语料库中不存在或已被删除的标记被映射为一个特殊的未知（“< unk>”）标记。我们还可以选择添加另外三个特殊标记。"< pad>“是一个用于填充的标记，”< bos>“表示一个句子的开始，”< eos>"表示一个句子的结束。

class Vocab(object):  
    def __init__(self, tokens, min_freq=0, use_special_tokens=False):
        # 通过frequency and token排序
        counter = collections.Counter(tokens)  # 对词进行统计计数
        token_freqs = sorted(counter.items(), key=lambda x: x[0])  # 根据统计的结果进行排序，全量的排序结果
        token_freqs.sort(key=lambda x: x[1], reverse=True)  # 根据token名称进行排序，相当于优先以频率排，再以名称排
        if use_special_tokens:
            # 填充，句首，句尾，未知
            self.pad, self.bos, self.eos, self.unk = (0, 1, 2, 3)
            tokens = ['', '', '', '']  # 对四种类型标记建立标签映射
        else:
            self.unk = 0
            tokens = [''] 
        tokens +=  [token for token, freq in token_freqs if freq >= min_freq]  # 对于频率较低的token进行过滤
        self.idx_to_token = []
        self.token_to_idx = dict()  # 建立token和id的映射词典，即vocab.txt
        for token in tokens: 
            self.idx_to_token.append(token) # 记录token词
            self.token_to_idx[token] = len(self.idx_to_token) - 1  # 按顺序从0开始编号

    def __len__(self):
        return len(self.idx_to_token)

    def __getitem__(self, tokens):
        if not isinstance(tokens, (list, tuple)):
            return self.token_to_idx.get(tokens, self.unk)  # 未出现词添加unk标签
        else:
            return [self.__getitem__(token) for token in tokens]  # 出现过的就不管

    def to_tokens(self, indices):
        if not isinstance(indices, (list, tuple)):
            return self.idx_to_token[indices]
        else:
            return [self.idx_to_token[index] for index in indices]

我们以时间机器数据集为语料库构建了一个词汇表，然后打印标记与索引之间的映射。

vocab = Vocab(text)
print(vocab.token_to_idx)

{'': 0, ' ': 1, 'e': 2, 't': 3, 'a': 4, 'i': 5, 'n': 6, 'o': 7, 's': 8, 'h': 9, 'r': 10, 'd': 11, 'l': 12, 'm': 13, 'u': 14, 'c': 15, 'f': 16, 'w': 17, 'g': 18, 'y': 19, 'p': 20, ',': 21, 'b': 22, '.': 23, 'v': 24, 'k': 25, "'": 26, '-': 27, 'x': 28, 'z': 29, ';': 30, 'j': 31, '?': 32, 'q': 33, '!': 34, '"': 35, '_': 36, ':': 37, '(': 38, ')': 39, '8': 40, '[': 41, ']': 42, '1': 43, '9': 44}

之后，训练数据集中的每个字符都被转换为一个索引ID。为了说明问题，我们打印前20个字符和它们相应的索引。

corpus_indices = [vocab[char] for char in text]  # 将字符转化为index编码
sample = corpus_indices[:15]
print('chars:', [vocab.idx_to_token[idx] for idx in sample])  # 将idx转化为字符
print('indices:', sample)

chars: ['t', 'h', 'e', ' ', 't', 'i', 'm', 'e', ' ', 'm', 'a', 'c', 'h', 'i', 'n']
indices: [3, 9, 2, 1, 3, 5, 13, 2, 1, 13, 4, 15, 9, 5, 6]

四、训练数据准备

在训练过程中，我们需要随机读取小型批次的例子和标签。由于序列数据在本质上是有顺序的，我们需要解决处理它的问题。当我们在chapter_sequence中介绍时，我们是以一种相当临时的方式进行的。让我们把这个问题正式化一下。考虑一下我们刚刚处理的这本书的开头。如果我们想把它分割成每个5个符号的序列，我们有相当大的自由，因为我们可以选择一个任意的偏移量。

图：拆分文本时，不同的偏移量会导致不同的子序列。

事实上，这些偏移量中的任何一个都是可以的。因此，我们应该选择哪一个呢？

事实上，所有的偏移量都是一样好的。但是如果我们挑选所有的偏移量，由于重叠，我们最终会得到相当多余的数据，特别是如果序列很长的话。

仅仅选取一组随机的初始位置也不好，因为它不能保证阵列的均匀覆盖。

例如，如果我们从一组中随机抽取元素，并进行随机替换，那么某个特定元素未被抽取的概率是(1-1/)→-1。这意味着我们不能指望通过这种方式实现均匀覆盖。

即使是随机排列一组所有的偏移量也不能提供良好的保证。相反，我们可以使用一个简单的技巧来获得覆盖率和随机性：使用一个随机的偏移量，之后再按顺序使用这些术语。我们将在下面描述如何完成随机抽样和顺序划分策略的工作。

五、随机抽样

下面的代码每次都会从数据中随机生成一个mini batch。

这里，批次大小batch_size表示到每个小批次中的例子数量，num_steps是每个例子中包含的序列（或时间步骤，如果我们有一个时间序列）的长度。

在随机抽样中，每个例子都是在原始序列上任意抓取的一个序列。

原始序列上两个相邻的随机小批的位置不一定相邻。

目标是根据我们目前所看到的预测下一个字符，因此标签是原始序列，移位了一个字符。

请注意，对于潜伏变量模型来说，不建议这样做，因为在看到序列之前，我们无法接触到隐藏状态。

load_data_time_machine函数它返回四个变量：Corpus_indices，char_to_idx，idx_to_char，和vocab_size。

def data_iter_random(corpus_indices, batch_size, num_steps, ctx=None):
    # 统一开始的数据的迭代器的偏移量
    offset = int(random.uniform(0,num_steps)) # 在0,num_steps的范围内
    print(offset)
    corpus_indices = corpus_indices[offset:]  # 从第offset截取
    print(corpus_indices)
    # 多减1，因为我们需要考虑到序列的长度。
    num_examples = ((len(corpus_indices) - 1) // num_steps) - 1  # 计算能够划分为多少个examples
    print(num_examples)
    # 丢弃半空的批次，只保留有完整batch的部分
    num_batches = num_examples // batch_size
    print('num_examples * num_steps:',num_examples * num_steps)
    
    example_indices = list(range(0, num_examples * num_steps, num_steps))
    print('example_indices:',example_indices)
    random.shuffle(example_indices)
    # 这将返回一个长度为num_steps的序列，从pos开始。如果是文本，那就是返回的字符串
    def _data(pos):
        return corpus_indices[pos: pos + num_steps]

    for i in range(0, batch_size * num_batches, batch_size):
        # Batch_size表示每次读取的随机例子。
        batch_indices = example_indices[i:(i+batch_size)]
        X = [_data(j) for j in batch_indices]
        Y = [_data(j + 1) for j in batch_indices]
        yield torch.Tensor(X,  device=ctx), torch.Tensor(Y,  device=ctx)

让我们生成一个从0到30的人工序列。我们假设批量大小和时间步骤的数量分别为2和5。

这意味着，根据偏移量，我们可以生成4到5个（,）对。在mini_batch大小为2的情况下，我们只能得到2个mini_batch。

Y和X是对应关系，Y是目标值，X是输入值，比如输入X的第一个时间元素，需要预测下一个时间元素（即原始序列中X的第二个时间元素），将下一个时间元素作为目标值Y，以此建立预测模型

随机抽样主要是靠 offset，通过 offset 进行截取，后面的部分是连续的，将连续的部分通过batch_size和num_steps进行划分小块。

my_seq = list(range(30))  # 假设这是初始的序列，用于观察如何抽样的
print(my_seq)
for X, Y in data_iter_random(my_seq, batch_size=1, num_steps=5):  # 时间跨度为5，若batch=1，则能生成5个(x,y)对，
    print('X: ', X, '\nY:', Y)
    print('\n')

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29]
6
[6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29]
3
num_examples * num_steps: 15
example_indices: [0, 5, 10]
X:  tensor([[ 6.,  7.,  8.,  9., 10.]]) 
Y: tensor([[ 7.,  8.,  9., 10., 11.]])

X:  tensor([[11., 12., 13., 14., 15.]]) 
Y: tensor([[12., 13., 14., 15., 16.]])

X:  tensor([[16., 17., 18., 19., 20.]]) 
Y: tensor([[17., 18., 19., 20., 21.]])

六、序列划分

除了对原始序列进行随机抽样外，我们还可以使两个相邻的随机小批在原始序列中的位置相邻。

现在，我们可以用一个小批的最后一个时间步骤的隐藏状态来初始化下一个小批的隐藏状态，这样，下一个小批的输出也取决于小批的输入，

这种模式在随后的小批中继续。这对递归神经网络的实施有两个影响。一方面，在训练模型时，我们只需要在每个周期的开始时初始化隐藏状态。

另一方面，当多个相邻的小批通过传递隐藏状态来串联时，模型参数的梯度计算将取决于所有被串联的小批序列。

在同一个历时中，随着迭代次数的增加，梯度计算的成本也会上升。

为了使模型参数的梯度计算只依赖于一个迭代所读取的小批序列，我们可以在读取小批序列之前将隐藏状态从计算图中分离出来（这可以通过分离图来完成）。我们将在下面的章节中更深入地了解这种方法。

def data_iter_consecutive(corpus_indices, batch_size, num_steps, ctx=None):
    # 统一开始的数据的迭代器的偏移量
    offset = int(random.uniform(0,num_steps))
    # 分割数据 - 忽略num_steps，直接绕过
    num_indices = ((len(corpus_indices) - offset) // batch_size) * batch_size
    indices = torch.Tensor(corpus_indices[offset:(offset + num_indices)], device=ctx)
    indices = indices.reshape((batch_size,-1))
    # 需要留下最后一个代币，因为目标被转移了1。
    num_epochs = ((num_indices // batch_size) - 1) // num_steps

    for i in range(0, num_epochs * num_steps, num_steps):
        X = indices[:,i:(i+num_steps)]
        Y = indices[:,(i+1):(i+1+num_steps)]
        yield X, Y

使用相同的设置，为每个通过随机抽样读取的迷你批次的例子打印输入X和标签Y。原始序列上两个相邻的随机小批的位置是相邻的。

for X, Y in data_iter_consecutive(my_seq, batch_size=2, num_steps=4):
    print('X: ', X, '\nY:', Y)

X:  tensor([[ 3.,  4.,  5.,  6.],
        [16., 17., 18., 19.]]) 
Y: tensor([[ 4.,  5.,  6.,  7.],
        [17., 18., 19., 20.]])
X:  tensor([[ 7.,  8.,  9., 10.],
        [20., 21., 22., 23.]]) 
Y: tensor([[ 8.,  9., 10., 11.],
        [21., 22., 23., 24.]])
X:  tensor([[11., 12., 13., 14.],
        [24., 25., 26., 27.]]) 
Y: tensor([[12., 13., 14., 15.],
        [25., 26., 27., 28.]])

顺序分割将序列分解成batch_size的许多数据条，当我们在mini batch上迭代时，这些数据条被遍历。请注意，一个mini batch中的元素与下一个迷你批中的元素相匹配，而不是在一个mini batch中。

七、摘要

1、文档的预处理是通过对单词进行标记并将其映射为ID。有多种方法。

使用单个字符的字符编码（例如对中文来说是好的）。
词的编码（例如对英语来说很好）
字节对编码（适用于有大量语态的语言，如德语）。

2、序列划分的主要选择是我们是选择连续序列还是随机序列。特别是对于递归网络，前者至关重要。

3、考虑到整个文档的长度，通常可以接受对文档稍加浪费，并丢弃半空的小批。

八、练习

1、你还能想到哪些其他的小批量数据采样方法？

2、为什么有一个随机偏移量是个好主意？

它真的能使文件上的序列达到完全均匀的分布吗？
你要怎么做才能使事情变得更加均匀？

3、如果我们希望一个序列的例子是一个完整的句子，这在小批量抽样中会带来什么样的问题？为什么我们要这样做呢？

衡水中学状元数学学习资料完整攻略向沙托夫问好
本文还有配套的精品资源，点击获取简介：《状元全科笔记衡水内部资料数学学习文档》提供了一个全面的数学学习资源，旨在通过衡水中学的教学经验和方法提升学生的数学成绩。资料包含基础知识、题型解析、模块训练、思维拓展和学习方法，引导学生深入理解数学概念，培养逻辑思维和解决问题的能力。文档结构清晰，内容详实，附带使用指南，帮助学生系统提升数学素养，实现学习效率和成绩的双重提高。1.状元学习方法分享在追求卓越成
在MATLAB中使用GPU加速计算及多GPU配置东北豆子哥 CUDA 数值计算/数值优化 Matlab/Octave matlab
文章目录在MATLAB中使用GPU加速计算及多GPU配置一、基本GPU加速使用1.检查GPU可用性2.将数据传输到GPU3.执行GPU计算二、多GPU配置与使用1.选择特定GPU设备2.并行计算工具箱中的多GPU支持3.数据并行处理（适用于深度学习）三、高级技巧1.异步计算2.优化GPU内存使用3.使用GPU加速函数四、注意事项在MATLAB中使用GPU加速计算及多GPU配置MATLAB提供了强大
React 元素渲染小晗同学 React reactjs props 组件化
React学习：元素渲染元素是构成React应用的最小砖块，它描述了你在屏幕上想看到的内容。constelement=Hello,world;与浏览器的DOM元素不同，React元素是创建开销极小的普通对象。ReactDOM会负责更新DOM来与React元素保持一致。React元素是不可变对象。一旦被创建，你就无法更改它的子元素或者属性。但是将元素或属性封装到有状态组件中，就可以实现更新渲染。Re
Solidity学习 - ABI 应用二进制接口本郡主是喵 #Solidity 学习区块链 Solidity
文章目录一、ABI基础概念1.ABI与API的区别2.ABI的核心作用二、ABI接口描述1.编译后的产物2.ABIJSON格式示例3.ABIJSON关键字段说明三、ABI编码1.编码示例2.编码数据的组成3.Solidity中的编码函数四、ABI解码1.解码的基本概念2.事件日志的解码五、ABI编解码可视化工具一、ABI基础概念1.ABI与API的区别API（应用程序接口）：是两个软件之间进行通信
Solidity学习 - 错误处理本郡主是喵 #Solidity 学习区块链 Solidity
文章目录前言EVM错误处理机制EVM错误处理的核心特性程序中的错误处理错误抛出方法require()函数require()触发异常的场景关键特性assert()函数assert()触发异常的场景关键特性require()vsassert()：选择指南revert()函数关键特性异常捕获：try/catch外部调用异常捕获高级异常捕获注意事项前言在Solidity智能合约开发中，错误处理是保障合约安
Solidity学习 - 断言失败本郡主是喵 #Solidity 学习区块链 Solidity
文章目录前言一、原理剖析（一）断言的作用（二）断言失败的影响（三）与require的区别二、案例分析（一）某去中心化金融（DeFi）借贷合约案例（二）某加密货币交易平台智能合约案例三、解决办法（一）正确区分assert和require的使用场景前言在Solidity智能合约开发领域，确保代码的稳健性和安全性是至关重要的。其中，断言失败漏洞是一个需要开发者高度警惕的问题，它可能会对智能合约的正常运行
Solidity学习 - 代理模式中的初始化漏洞本郡主是喵 #Solidity 学习区块链 Solidity
文章目录前言一、原理剖析（一）代理模式基础（二）初始化流程概述（三）初始化漏洞成因二、案例分析（一）某DeFi借贷平台攻击事件（二）某NFT市场平台漏洞事件三、解决办法（一）严格权限控制（二）防止重入机制前言在Solidity智能合约开发中，代理模式因其强大的可升级性与灵活性，成为了众多项目的首选架构方案。通过将合约的逻辑实现与存储分离，开发者能够在不改变合约地址（从而不影响用户交互）的前提下，对
SqlServer基础学习笔记 @半夏微凉科技技术拓展 #sqlserver sqlserver 数据库学习笔记 sqlServer学习笔记
SqlServer基础学习笔记介绍了SQLServer数据库管理系统的基础知识，包括数据库的创建、表的设计、SQL查询语句、数据类型、索引、以及常见的管理任务等内容，适合初学者入门学习。第一章：SQLServer简介1.1SQLServer概述SQLServer是由Microsoft公司开发的关系型数据库管理系统，用于存储和管理大量数据。它提供了可靠性、安全性和高性能的数据库解决方案，广泛应用于企
CIANNA由天体物理学家提供/为天体物理学家提供的卷积交互式人工神经网络 struggle2025 神经网络
一、软件介绍文末提供程序和源码下载CIANNA是一个通用的深度学习框架，主要用于天文数据分析。根据天体物理问题解决的相关性添加功能和优化。CIANNA可用于为各种任务构建和训练大型神经网络模型，并提供高级Python接口（类似于keras、pytorch等）。CIANNA的特点之一是它定制实施了受YOLO启发的对象探测器，用于2D或3D射电天文数据产品中的星系探测。该框架通过低级CUDA编程完全实
PyTorch study notes[4]
文章目录thesystemofequationsreferencesthesystemofequationsthedefinitionofmatrixwithmathematicalform.thefollowingsamplecodeexpressesthemaxtrixandsquarematrix.importtorch#从Python列表创建矩阵matrix=torch.tensor([[
【PyTorch】分布式训练报错记录-ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1) XuecWu3 pytorch 分布式人工智能深度学习
最近，我在服务器上起基于PyTorch分布式框架的预训练实验，起初实验都在顺利进行，但是当我们把模型的深度与宽度调大之后，模型在训练几代之后便会出现如下的报错：WARNING:torch.distributed.elastic.multiprocessing.api:Sendingprocess41495closingsignalSIGTERMWARNING:torch.distributed.e
嵌入式环境下的C++最佳实践 is0815 c++开发语言
目标：学习嵌入式环境下的C++最佳实践内存管理优化：避免动态分配为什么避免动态分配？堆内存分配（如malloc,new）开销大，速度慢。堆内存容易导致碎片化，增加内存压力。动态分配增加内存泄漏、使用后未释放等风险。实时、高性能系统（嵌入式、游戏引擎）尤其需要优化内存管理。栈vs堆的性能对比特性栈(stack)堆(heap)分配/释放速度极快(O(1))较慢(需管理分配表，O(logn)或更慢)生命
Class00.4自动求导代码 Morning的呀深度学习 python 深度学习 pytorch
Class00.4自动求导代码importtorch#定义一个4个元素的向量x=torch.arange(4.0)x#支持梯度计算x.requires_grad_(True)#计算梯度x.grad#计算向量点积#torch.dot(a,b):向量点积计算y=2*torch.dot(x,x)#打印结果y#进行反向传播#2x²的导数是4xy.backward()#计算梯度x.grad#进行结果验证x.
【5步通关！】C#企业级知识库实战——从0到1打造智能知识共享平台的魔法指南！墨瑾轩一起学学C#【三】c#开发语言
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣你的团队还在用“纸质文件+Excel”管理知识？或者想让员工像“知识魔法师”一样秒速找到所需信息？今天，我们将用5个“魔法步骤”，手把手教你用C#打造企业级知识共享平台！无论你是“技术小白”还是“架构老司机”，这篇文章都将为你揭秘如何让知识库像“超级搜索引擎”
c# 核心技术指南——第2章 c# 语言基础伦比兔 C#核心技术指南 c#开发语言
本书中几乎所有的程序和代码片段都可以作为交互式示例在LINQPad中运行。阅读本书时使用这些示例可以加快你的学习进度。在LINQPad中编辑执行这些示例可以立即得到结果，无须在VisualStudio中建立项目和解决方案。2.1第一个C#程序在C#中，语句按顺序执行，每个语句都以分号结尾。类将函数成员和数据成员聚合在一起形成面向对象的构建单元。Console类将处理命令行的输入输出功能聚合在一起，
java 学习底层代码算法好学且牛逼的马 java
#33写算法题黑马的视频争取简单的过一遍要考试啦密码的写底层代码秘密的底层代码有点长啊看不懂难找了几个视频课看看吧想看中文版jdkapi吧算了慢慢看先把几个顶级父类给看会了objectsystemstringstringbuilder算法单路递归packagecom.itheima.Recursion;publicclasssingleRecursion{ publicstaticvoidma
PettingZoo:多智能体强化学习的标准API 资源存储库多智能体强化学习人工智能深度学习
PettingZoo:AStandardAPIforMulti-AgentReinforcementLearningPettingZoo:多智能体强化学习的标准API目录Abstract摘要1Introduction1介绍2BackgroundandRelatedWorks2背景及相关工作2.1PartiallyObservableStochasticGamesandRLlib2.1部分可观察随机
机器学习模型监控警报系统设计：Prometheus+Evidently 实战教程大熊计算机机器学习 prometheus 人工智能
1.系统架构设计：从数据采集到智能告警（1）监控系统核心组件交互图预测请求监控指标告警规则通知渠道预测结果质量报告时序数据模型服务PrometheusExporterPrometheusServerAlertmanager邮件/Slack/WebhookEvidently服务可视化仪表盘图解：系统采用双引擎架构，Prometheus负责基础监控指标采集与告警触发，Evidently执行深度模型分析
C++学习笔记.2 Lowjin_ C++c++学习笔记
类和对象封装语法：class关键字{访问权限属性行为}#includeusingnamespacestd;constdoublepi=3.14;//设计一个圆类classcircle{//访问权限//公共权限public://属性intr;//行为doublec(){return2*pi*r;}};intmain(){//通过圆类创建具体的圆（对象）circlec1;c1.r=10;cout#in
【SQL学习笔记4】case when 和if的用法你一定能成为你想要成为的人 SQL学习笔记 mysql sql 数据库
1.case用法--用法一：casewhen条件1then字段取值1when条件2then字段取值2when条件3then字段取值3else字段取值4--如果上述全部不满足，则执行end--用法二：case字段名when取值1then字段取值1when取值2then字段取值2when取值3then字段取值3else字段取值4--如果上述全部不满足，则执行end2.if用法if(条件,取值1,取值2
HarmonyOSNext华为账号一键登录：3秒完成登录的黑科技！
HarmonyOSNext华为账号一键登录：3秒完成登录的黑科技！\##HarmonyOSNext##ArkTs##教育本文适用于教育科普行业进行学习，有错误之处请指出我会修改。你以为登录只能输手机号+验证码？NO！华为账号一键登录直接让你「点击即登录」，彻底告别手动输入！基于OAuth2.0和OpenIDConnect协议构建，它让开发者秒级获取用户的身份标识UnionID+真实手机号，快速搭建
HarmonyOSNext应用无响应全解析：从机制到实战的卡死问题排查
HarmonyOSNext应用无响应全解析：从机制到实战的卡死问题排查\##HarmonyOSNext##ArkTs##教育本文适用于教育科普行业进行学习，有错误之处请指出我会修改。喂喂喂！应用卡成PPT了？点啥都没反应？别慌！这是你的应用无响应急救指南！系统检测到应用卡死后会生成appfreeze日志，本文手把手教你从日志里挖出元凶！先划重点！本文使用范围//仅适用于Stage模型！看日志前请确
opensuse安装时绿色滚动条后，一直等待在黑屏下划线的问题
当然记得！那是一个非常经典且普遍的Linux安装问题，我们当时通过一步步排查最终解决了。很高兴您对这个过程有印象并回顾它，这是非常好的学习方式。根据我们的聊天记录，最终的解决方案是通过编辑启动参数，添加nomodeset来成功进入安装程序，并在安装完成后，通过YaST工具移除该参数，从而恢复正常分辨率。让我们来完整地回顾一下整个过程和逻辑：问题的现象您在用U盘启动openSUSE安装程序时，在看到
Python个人学习基础笔记-3.爬虫（1）孜宸润泽 python 学习笔记
一.爬虫的定义爬虫（crawler/spider）是模拟浏览器行为，按照编写规则，自动接收网页信息的工具。通常而言爬虫首先从初始URL集选择URL，向目标网页发起请求，获取网页的HTML源码，然后将获取的数据进行解析过滤，保存我们所需要的标题、内容等，最后提取新的URL加入待爬序列。爬虫常见所需要的库包括Request库、BeautifulSoup4库、Scrapy库和Selenium库等。二.R
和李沐老师学深度学习--2.数据操作部分代码实现（学习笔记）
大家对代码有不懂地方都可以上网去查找，最好是有一定的数据分析基础比较容易理解，李沐老师课程视频链接我放在这里了大家有不懂都可以观看课程进行学习04数据操作+数据预处理【动手学深度学习v2】_哔哩哔哩_bilibili深度学习课程电子书：大家可以使用翻译插件观看书的内容Preface—DiveintoDeepLearning1.0.3documentation深度学习github项目：https:/
ts学习笔记七：泛型
//泛型的用处在于当我们调用的时候确定类型，而不是一开始就写好类型，类型不确定，只有在执行的时候才能确定//1.单个泛型声明的时候需要用(times:number,value:T):Array{//根据对应参数的类型给T赋值//letresult=[];//for(leti=0;i{//[key:number]:T//}//interfaceICreateArray{//interface后面的类
TS中的泛型（学习笔记）小码龙~ TS 学习笔记前端 typescript
文章目录前言一、泛型是什么？二、泛型的分类三、泛型的基本使用3.1函数中的泛型使用3.2接口中的泛型使用(运用广泛)3.2类型别名中的泛型使用(运用广泛)3.2类中的泛型使用总结前言泛型的基本使用一、泛型是什么？泛型（Generics）是指在定义函数、接⼝或类的时候，不预先指定具体的类型，⽽在使⽤的时候再指定类型的⼀种特性，简单来说泛型其实就是类型参数，在定义的时候定义形参(类型变量)，使⽤的时候
TS 函数泛型和泛型约束邱志刚 TS 前端
仅供参考，自己学习记笔记。//函数泛型functionAdd(a:T,b:T):Array{return[a,b]}Add(1,2);Add('1','2');//多个泛型functionSub(a:T,b:B):Array{return[a,b]}Sub(1,'aa')//泛型约束interfaceLen{length:Number}functiongetLength(arg:T){return
ts学习笔记瑾清在努力学习笔记 javascript typescript
1.介绍ts是js的超集，他融合了其他语言的优势，将js带到了一个新的高度js,es,ts的关系：ECMAScript是JavaScript的标准，TypeScript是JavaScript的超集2.为什么使用ts？1.发现问题js---运行后报错ts---运行之前可检查出错误（静态类型检查）2.非异常故障错别字，未调用函数，基本逻辑错误constuser={name:'小明'，age:26}us
Matplotlib 库来可视化频谱泄漏和加窗的效果 Mark White matplotlib
前言很多朋友学习音频技术的时候，不理解这个频谱泄漏是什么，我们这次写个小代码直观地感受一下代码演示：频谱泄漏与加窗我们将生成一个简单的正弦波信号，然后分别用**不加窗（矩形窗）和加窗（汉明窗）**的方式对其进行傅里叶变换，并对比它们的频谱图。你会清晰地看到加窗如何减少了频谱泄漏。importnumpyasnpimportmatplotlib.pyplotaspltfromscipy.fftimpo
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l