磐创 AI

NLP中的标识化

作者|ARAVIND PAI 编译|VK 来源|Analytics Vidhya

概述

标识化是处理文本数据的一个关键
我们将讨论标识化的各种细微差别，包括如何处理词汇表外单词（OOV）

介绍

从零开始掌握一门新的语言令人望而生畏。如果你曾经学过一种不是你母语的语言，你就会理解！有太多的层次需要考虑，例如语法需要考虑。这是一个相当大的挑战。

为了让我们的计算机理解任何文本，我们需要用机器能够理解的方式把这个词分解。这就是自然语言处理（NLP）中标识化的概念。

简单地说，标识化(Tokenization)对于处理文本数据十分重要。

下面是关于标识化的有趣的事情，它不仅仅是分解文本。标识化在处理文本数据中起着重要的作用。因此，在本文中，我们将探讨自然语言处理中的标识化，以及如何在Python中实现它。

目录

标识化
标识化背后的真正原因
我们应该使用哪种（单词、字符或子单词）？
在Python中实现Byte Pair编码

标识化

标识化(Tokenization)是自然语言处理（NLP）中的一项常见任务。这是传统NLP方法（如Count Vectorizer）和高级的基于深度学习的体系结构（如Transformers）的基本步骤。

单词是自然语言的组成部分。

标识化是一种将文本分割成称为标识的较小单元的方法。在这里，标识可以是单词、字符或子单词。因此，标识化可以大致分为三种类型：单词、字符和子单词（n-gram字符）标识化。

例如，想想这句话：“Never give up”。

最常见的词的形成方式是基于空间。假设空格作为分隔符，句子的标识化会产生3个词，Never-give-up。由于每个标识都是一个单词，因此它成为单词标识化的一个示例。

类似地，标识(token)可以是字符或子单词。例如，让我们考虑smarter”：

字符标识：s-m-a-r-t-e-r
子单词(subword)标识：smart-er

但这有必要吗？我们真的需要标识化来完成这一切吗？

标识化背后的真正原因

由于词语是自然语言的构建块，所以处理原始文本的最常见方式发生在单词级别。

例如，基于Transformer的模型（NLP中的最新（SOTA）深度学习架构）在单词级别处理原始文本。类似地，对于NLP最流行的深度学习架构，如RNN、GRU和LSTM，也在单词级别处理原始文本。

如图所示，RNN在特定的时间步接收和处理每个单词。

因此，标识化是文本数据建模的首要步骤。对语料库执行标识化以获取单词。然后使用以下单词准备词汇表。词汇是指语料库中出现过的单词。请记住，词汇表可以通过考虑语料库中每个唯一的单词或考虑前K个频繁出现的单词来构建。

创建词汇表是标识化的最终目标。

提高NLP模型性能的一个最简单的技巧是使用top K的单词创建一个词汇表。

现在，让我们了解一下词汇在传统的和高级的基于深度学习的NLP方法中的用法。

传统的NLP方法如单词频率计数和TF-IDF使用词汇作为特征。词汇表中的每个单词都被视为一个独特的特征：
在基于深度学习的高级NLP体系结构中，词汇表用于创建输入语句。最后，这些单词作为输入传递给模型

我们应该使用哪种（单词、字符或子单词）？

如前所述，标识化可以在单词、字符或子单词级别执行。这是一个常见的问题-在解决NLP任务时应该使用哪种标识化？让我们在这里讨论这个问题。

单词级标识化

词标识化是最常用的标识化算法。它根据特定的分隔符将一段文本(英文)拆分为单个单词。根据分隔符的不同，将形成不同的字级标识。预训练的单词嵌入，如Word2Vec和GloVe属于单词标识化。

这种只有少量缺点。

单词级标识化的缺点

单词标识的主要问题之一是处理词汇表外（OOV）单词。OOV词是指在测试中遇到的新词。这些生词在词汇表中不存在。因此，这些方法无法处理OOV单词。

但是，等等，不要妄下结论！

一个小技巧可以将单词标识化器从OOV单词中解救出来。诀窍是用前K个频繁词组成词汇表，并用未知标识（UNK）替换训练数据中的稀有词。这有助于模型使用UNK学习OOV单词的表示
因此，在测试期间，词汇表中不存在的任何单词都将映射到UNK标识。这就是我们如何解决标识化器中的OOV问题。
这种方法的问题是，当我们将OOV映射到UNK单词时，单词的整个信息都会丢失。单词的结构可能有助于准确地表示单词。另一个问题是每个OOV单词都有相同的表示

单词标识的另一个问题与词汇表的大小有关。一般来说，预训练的模型是在大量的文本语料库上训练的。所以，想象一下在这么大的一个语料库中用所有单词构建词汇表。这会大大增加词汇量！

这打开了字符级标识化的大门。

字符级标识化

字符标识化将每个文本分割成一组字符。它克服了我们在上面看到的关于单词标识化的缺点。

字符标识化器通过保存单词的信息来连贯地处理OOV单词。它将OOV单词分解成字符，并用这些字符表示单词
它也限制了词汇量的大小。想猜猜词汇量吗？答案是26个。

字符标识化的缺点

字符标识解决了OOV问题，但是当我们将一个句子表示为一个字符序列时，输入和输出句子的长度会迅速增加。因此，学习单词之间的关系以形成有意义的词就变得很有挑战性。

这将我们带到另一个称为子单词标识化(Subword)的标识化，它介于字和字符标识化之间。

子单词标识化

子单词标识化将文本分割成子单词（或n个字符）。例如，lower这样的词可以被分割为low-er，smartest和smart-est，等等。

基于转换的模型（NLP中的SOTA）依赖于子单词标识化算法来准备词汇表。现在，我将讨论一种最流行的子单词标识化算法，称为Byte Pair Encoding 字节对编码（BPE）。

使用BPE

Byte Pair 编码，BPE是基于转换器的模型中广泛使用的一种标识化方法。BPE解决了单词和字符标识化器的问题：

BPE有效地解决了OOV问题。它将OOV分割为子单词，并用这些子单词表示单词
与字符标识化相比，BPE后输入和输出语句的长度更短

BPE是一种标识化算法，它迭代合并最频繁出现的字符或字符序列。下面是一个逐步学习BPE的教程。

学习BPE的步骤

附加结尾符号
用语料库中的唯一字符初始化词汇
计算语料库中pair或字符序列的频率
合并语料库中最频繁的pair
把最好的pair保留到词汇表中
对一定数量的迭代重复步骤3到5

我们将通过一个例子来理解这些步骤。

考虑语料库

1a）在语料库中的每个单词后面附加单词的结尾符号（比如说）：

1b）将语料库中的单词分为字符：

2.初始化词汇表：

迭代1：

3.计算频率：

4.合并最常见的pair：

5.保存最佳pair：

从现在开始对每个迭代重复步骤3-5。让我再演示一次迭代。

迭代2：

3.计算频率：

4.合并最常见的pair：

5.保存最佳pair：

经过10次迭代后，BPE合并操作如下所示：

很直截了当，对吧？

BPE在OOV词中的应用

但是，我们如何在测试时使用BPE来表示OOV单词呢？有什么想法吗？我们现在来回答这个问题。

在测试时，OOV单词被分割成字符序列。然后应用所学的操作将字符合并成更大的已知符号。

下面是表示OOV单词的表示过程：

追加后将OOV单词拆分为字符
计算一个单词中的pair或字符序列
选择学习过的存在的pair
合并最常见的pair
重复步骤2和3，直到可以合并

接下来让我们来看看这一切！

在Python中实现Byte Pair编码

我们现在知道BPE是如何学习和应用OOV词汇的。所以，是时候用Python实现了。

BPE的Python代码已经在原来的论文发布的代码中可用。

读取语料库

我们将考虑一个简单的语料库来说明BPE的思想。然而，同样的想法也适用于另一个语料库：

#导入库
import pandas as pd

#正在读取.txt文件
text = pd.read_csv("sample.txt",header=None)

#将数据帧转换为单个列表
corpus=[]
for row in text.values:
    tokens = row[0].split(" ")
    for token in tokens:
        corpus.append(token)

文本预处理

将单词分割为语料库中的字符，并在每个单词的末尾附加：

#初始化词汇
vocab = list(set(" ".join(corpus)))
vocab.remove(' ')

#把这个词分成字符
corpus = [" ".join(token) for token in corpus]

#追加
corpus=[token+' ' for token in corpus]

学习BPE

计算语料库中每个单词的频率：

import collections

#返回每个单词的频率
corpus = collections.Counter(corpus)

#将计数器对象转换为字典
corpus = dict(corpus)
print("Corpus:",corpus)

输出：

让我们定义一个函数来计算pair或字符序列的频率。它接受语料库并返回频率：

#pair或字符序列的频率
#参数是语料并且返回每个pair的频率
def get_stats(corpus):
    pairs = collections.defaultdict(int)
    for word, freq in corpus.items():
        symbols = word.split()
        for i in range(len(symbols)-1):
            pairs[symbols[i],symbols[i+1]] += freq
    return pairs

现在，下一个任务是合并语料库中最频繁的pair。我们将定义一个函数来接受语料库、最佳pair，并返回修改后的语料库：

#合并语料库中最常见的pair
#接受语料库和最佳pair
import re
def merge_vocab(pair, corpus_in):
    corpus_out = {}
    bigram = re.escape(' '.join(pair))
    p = re.compile(r'(?

 
  接下来，是学习BPE操作的时候了。由于BPE是一个迭代过程，我们将执行并理解一次迭代的步骤。让我们计算bi-gram的频率： 
  #bi-gram的频率
pairs = get_stats(corpus)
print(pairs) 
  输出： 
   
  找到最常见的： 
  #计算最佳pair
best = max(pairs, key=pairs.get)
print("Most Frequent pair:",best) 
  输出：(‘e’, ‘s’) 
  最后，合并最佳pair并保存到词汇表中： 
  #语料库中频繁pair的合并
corpus = merge_vocab(best, corpus)
print("After Merging:", corpus)

#将元组转换为字符串
best = "".join(list(best))

#合并到merges和vocab
merges = []
merges.append(best)
vocab.append(best) 
  输出： 
   
  我们将遵循类似的步骤： 
  num_merges = 10
for i in range(num_merges):

    #计算bi-gram的频率
    pairs = get_stats(corpus)

    #计算最佳pair
    best = max(pairs, key=pairs.get)

    #合并语料库中的频繁pair
    corpus = merge_vocab(best, corpus)

    #合并到merges和vocab
    merges.append(best)
    vocab.append(best)

#将元组转换为字符串
merges_in_string = ["".join(list(i)) for i in merges]
print("BPE Merge Operations:",merges_in_string) 
  输出： 
   
  最有趣的部分还在后面呢！将BPE应用于OOV词汇。 
  BPE在OOV词汇中的应用 
  现在，我们将看到如何应用BPE在OOV单词上。例如OOV单词是“lowest”： 
  #BPE在OOV词汇中的应用
oov ='lowest'

#将OOV分割为字符
oov = " ".join(list(oov))

#添加  
oov = oov + ' '

#创建字典
oov = { oov : 1} 
  将BPE应用于OOV单词也是一个迭代过程。我们将执行本文前面讨论的步骤： 
  i=0
while(True):

    #计算频率
    pairs = get_stats(oov)

    #提取keys
    pairs = pairs.keys()

    #找出之前学习中可用的pair
    ind=[merges.index(i) for i in pairs if i in merges]

    if(len(ind)==0):
        print("\nBPE Completed...")
        break

    #选择最常学习的操作
    best = merges[min(ind)]

    #合并最佳pair
    oov = merge_vocab(best, oov)

    print("Iteration ",i+1, list(oov.keys())[0])
    i=i+1 
  输出： 
   
  如你所见，OOV单词“low est”被分割为low-est。 
  结尾 
  标识化是处理文本数据的一种强大方法。我们在本文中看到了这一点，并使用Python实现了标识化。 
  继续在任何基于文本的数据集上尝试这个方法。练习得越多，就越能理解标识化是如何工作的（以及为什么它是一个如此关键的NLP概念）。 
  原文链接：https://www.analyticsvidhya.com/blog/2020/05/what-is-tokenization-nlp/ 
  欢迎关注磐创AI博客站： http://panchuang.net/ 
  sklearn机器学习中文官方文档： http://sklearn123.com/ 
  欢迎关注磐创博客资源汇总站： http://docs.panchuang.net/


    
        你可能感兴趣的:(NLP中的标识化)
        
            
                
                    至亲人-离去
                        红玫瑰与蚊子血

                        今天得知昨日下午姑父的去世，眼泪还是会留下来。尽管姑父这位亲人似乎是算不得什么至亲，但是在得知姑父去世的消息还是落泪了。毕竟曾经一起度过那么多岁月的大年，在一起吃年夜饭，谈论生活。记得在我刚考上村官的时候，姑父称赞我，刚毕业就可以自食其力找到一份还不错的工作。在我记忆中的姑父，非常潮流，思想特别的开放民主，和一些家长还是很有区别的。姑父是因为肺癌➕脑瘤扩散走的，自查出病情以来，在姑姑的悉心照料下，
                    
                    那些年，李敖说过的话
                        小考拉俱乐部

                        李敖已经去世好几天了，一直想着写点什么的，却迟迟没有动笔。看网上铺天盖地的悼文，才发现，对他的了解好少。高中的时候，看过李敖文集。印象最深的是他的一首诗《只爱一点点》：不爱那么多，只爱一点点，别人的爱情像海深，我的爱情浅。去年年初，李敖被确诊脑瘤。六月，他向媒体公开亲笔信，写道：我很痛苦，好像地狱离我并不远了。我这一生当中，骂过很多人，伤过很多人，仇敌无数，朋友不多。在这最后的时间里，除了把《李敖
                    
                    如何清除 npm 缓存
                        BIBI2049
前端开发Windowsnpm缓存前端node.js
                        清除npm缓存：利弊分析与操作指南在使用Node.js和npm进行项目开发时，我们经常会与npminstall命令打交道。这个过程中，npm会在本地建立一个缓存机制，用以存储已下载的包，从而显著提升后续安装的速度。然而，有时这个缓存也可能成为问题的根源。本文将探讨清除npm缓存的利弊，并提供清晰的操作指引。清除npm缓存的好处清除npm缓存主要能带来以下几点好处：解决依赖安装失败问题：当缓存中的包
                    
                    AI驱动的电路仿真革命：从物理模型到智能学习的范式转移
                        

                        AI驱动的电路仿真革命：从物理模型到智能学习的范式转移人工智能正颠覆传统电路仿真方法，本文将深入解析AI在电路建模、优化与故障诊断中的前沿应用，揭示智能仿真如何提升10倍效率并突破物理限制。一、AI电路仿真的数学基础1.1图神经网络建模电路拓扑电路可抽象为图结构G=(V,E)G=(V,E)G=(V,E)：VVV：节点（电子元件）EEE：边（连接关系）图卷积网络(GCN)更新公式：H(l+1)=σ(
                    
                    积极关注
                        美好生活从写作开始

                        大荔心理协会:郭家秀《焦点解决短期心理治疗》(SFBT)坚持分享第13天健身打卡第13天积极关注积极关注是指在心理咨询过程中对求助者的言语和行为的积极面予以关注，从而使求助者拥有正向价值观。积极关注涉及到对人的基本认识和基本情感。凡是心理咨询工作，首先必须抱有一种信念：受助者是可以改变的。概念心理咨询师应以积极的态度看待来访者，注意强调他们的长处，有选择地突出来访者及行为中的积极方面，利用其自身的
                    
                    甘超波：NLP中EMBA状态管理
                        甘超波

                        哈喽，大家好我是甘超波，一名NLP爱好者，每天一篇文章，分享我的NLP实战经验和案例，希望给你些启发和帮助，这是第23篇原创文章什么是EMBAEMBA：是总裁班吗？在NLP中EMBA指的一种状态管理，我们NLP所有技巧都是在EMBA中展开的，像催眠，潜意识沟通......等都是在基于EMBA。如果把NLP比作一个楼房，EMBA就是楼房的地基如果把NLP比作一个汽车，EMBA就是汽车的发动机。其中E
                    
                    赋能智慧档案管理：藏语识别技术在某省档案馆的创新实践
                        中科逸识
ocr人工智能全文检索
                        引言：在数字化浪潮席卷全球的今天，档案馆作为文化遗产保存的重要载体，正面临从传统管理向智慧化转型的挑战。尤其对于多民族地区，如何高效处理少数民族语言档案，成为亟待突破的难题。近期，某省档案馆率先引入领先的藏语智能识别技术，为海量藏文档案的数字化整理、检索与利用插上了科技的翅膀，开创了民族语言档案管理的新范式。一、破解百年藏文档案的“沉睡”难题该档案馆珍藏了跨越数百年的藏文历史文献、公文、手稿等珍贵
                    
                    携程优惠券兑换码2024？携程飞机票优惠券100元？携程优惠券领取入口
                        爱生活爱氧券

                        携程优惠券兑换码2024？携程飞机票优惠券100元？携程优惠券领取入口随着旅游市场的不断繁荣，消费者对于旅游服务的个性化、高品质需求也日益增长。作为国内领先的一站式旅游服务平台，携程一直致力于为广大用户提供优质、便捷的旅游服务。为了满足消费者在旅游消费方面的优惠需求，携程推出了优惠券兑换码2024活动，让您轻松获取100元飞机票优惠券！如何获取携程优惠券兑换码2024？步骤1：登录携程APP或官网
                    
                    深化学思践悟，激发奋进动能 扎实开展主题教育活动，着力提升干部干事 创业真本领
                        62ab9e7a8a7b

                        在全党开展学习贯彻习近平新时代中国特色社会主义思想主题教育，是推动贯彻党的二十大战略部署的有力举措，是深入推进新时代党的建设新的伟大工程的重大部署。领导干部要牢牢把握“学思想、强党性、重实践、建新功”总要求，聚焦凝心铸魂筑牢根本、锤炼品格强化忠诚、实干担当促进发展、践行宗旨为民造福、廉洁奉公树立新风的目标，以学铸魂、以学增智、以学正风、以学促干，着力为全面建设中国式现代化隆德凝聚力量。习近平总书记
                    
                    月夜桂香浓（11）心湖荡漾（二）
                        如沐当歌

                        网图侵删佳惠悬在半空的手，被一只大手握住，思绪被牵了回来，眼前的人与幻境中的人重叠，最后变得清晰。她眼里盈满泪光，喉咙哽咽的挤出了一个“啊”字。“于小姐，你怎么了？”程鼎焱看到了佳惠眼中的泪光，心里一紧。“没、没什么！”佳惠这才意识到自己竟然想起了欧阳峻，赶忙抽回自己的手，抹去脸上的泪水。程鼎焱看着面前的女子，心里有一丝动容，刚才的一幕让他想到了之前在酒吧里，女孩缠着自己时，泪眼婆娑，嘴里却不断的
                    
                    《晨读记》（135）: 还作江南会
                        大观学园

                        ——读戴叔伦《江乡故人偶集客舍》天秋月又满，城阙夜千重江南住着白居易白胡子老头爱看日出看日出点燃两岸江花江南住着余光中的表妹们表妹们生活在多湖的江南两岸的母亲都在喊他2018.4.5原诗:江乡故人偶集客舍唐·戴叔伦天秋月又满，城阙夜千重。还作江南会，翻疑梦里逢。风枝惊暗鹊，露草覆寒蛩。羁旅长堪醉，相留畏晓钟。
                    
                    2020年52/49周总结，逆鳞
                        大熊律师

                        本周真是焦虑的一周。一、职业发展一周5个工作日，检察院和法院各上班一天，然后开庭3件，一件艰难的谈判一场，还有一个顾问单位专场汇报会，奔波和辗转安排下周的各项工作，已经对接上周的焦虑的下行工作，有时候忙碌的连中午也没能休息，一鼓作气写材料。沟通是很复杂的系统，结构化沟通真的很不容易，所以我一直在调整自己让自己变得更好更强大面对很多问题。认真梳理自己的问题，和管委会成员开会讨论今年计划和明年方案，认
                    
                    基于 Python 对于Nacos 服务订阅流程的深度剖析
                        chilavert318
熬之滴水穿石python开发语言nacos
                        记得去年在外省给某事业单位给科技处的领导作关于国产化微服务项目的汇报，该处长要我详细讲解一下Nacos的来龙去脉。我问他为什么要单独了解这块，他说现在国产化已经是趋势了，他其实也想深度的了解一下，这款产品是如何演化而来，希望通过了解该产品的来龙去脉深度思索一下，他所辖范围之内系统国产化的一些思路。记得当时我也是做足了工作，然后选择一个时间给他单独汇报，会后领导反响还不错，领导总结道：Nacos适应
                    
                    非传统致富：被主流忽视的赚钱机会
                        氧惠购物达人

                        在商业世界中，人们往往只看到那些炙手可热的行业和机会，而有些生意看似有利可图，但实际上却没人干或是很少有人干，然而这些生意由于竞争少、市场需求稳定，往往能够获得不错的利润。以下是一些可能被认为是能够挣钱却没人干或是很少有人干的生意，但实际上这些生意机会和潜力仍然很大。一、农业农业是一个古老而传统的行业，但在现代社会中，随着城市化进程的加速和劳动力成本的上升，农业的利润空间逐渐缩小。然而，农业作为人
                    
                    《惊！从病娇学长身边逃跑失败了》(向暖、叶寒)最新章节_《惊！从病娇学长身边逃跑失败了》全文阅读_《惊！从病娇学长身边逃跑失败了》全文阅读
                        霸道推书2

                        书名：《惊！从病娇学长身边逃跑失败了》主角配角：向暖、叶寒小说简介：她，一介新生，原本只想过着平凡安逸的校园生活，然而却因为一个微笑，意外卷入了一场情感的漩涡。当发现自己竟然成为那位学长心中的宠儿时，她将如何抉择？然而更让人困惑的是，她接下来的一举一动都难逃他的牵制，学长对她的情感似乎有着一丝难以言喻的病态……推荐指数：✩✩✩✩✩———阅读全文小说内容请翻阅最底部———叶寒顾不上胸口钻心的疼痛，拔
                    
                    2023-11-04
                        低代码云MES

                        近年来，全球新材料行业快速发展，我国新材料产业处于第二梯队，年均复合增速超过20%，但目前上游关键材料、设备发展仍存在诸多“卡脖子”环节，国产替代需求迫切、市场巨大、进程加速。未来一段时间内，国产替代将成为行业成长主旋律。因此，企业对数字化工厂的建设提出了更高的要求，新材料制造业工厂目前在生产管理和信息化方面存在如下不足：数据采集不及时：车间现场报表（包括流转、报工、废品数据、呆滞信息）录入不实时
                    
                    读书札记 | 古典小说中的“类关羽”人物
                        江吴童

                        对于关羽的崇拜古来有之。不少古典小说中都出现了外貌特征类似关羽的人物，在此做一简单罗列。（欢迎大家留言补充）《三国演义》在《三国演义》中，关羽初登场时，作者借刘备的视角介绍了关羽的外貌：身长九尺，髯长二尺；面如重枣，唇若涂脂；丹凤眼，卧蚕眉，相貌堂堂，威风凛凛。——《第一回·宴桃园豪杰三结义斩黄巾英雄首立功》关羽第八十三回，又借潘璋的视角描绘了显圣的关羽：忽门外一人，面如重枣，丹凤眼，卧蚕眉，飘三
                    
                    活在回忆中的人‖第一章 “别人家的孩子”啊胜
                        啊胜lwj

                        第一章“别人家的孩子”啊胜都说孩子是父母的骄傲，听话懂事的孩子总会成为别人夸赞的对象，也总会成为别的父母教育他们孩子的榜样，所以孩子经常会听到这样一句话:“你看看别人家的谁谁谁，人家学习好，会干活，又懂事，有礼貌，再看看你……”，但是榜样其实也很难做，最可怕的就是父母也认可自己孩子是榜样了这个标准，那孩子就不能犯一点点的错误，俗话说，老天为你关了一扇门，就会为你打开一扇窗，这大概就是有得必有失吧，
                    
                    python class是什么,python中的class是什么
                        

                        1、概念用来描述具有相同的属性和方法的对象的集合。它定义了该集合中每个对象所共有的属性和方法。2、类定义的语法classClassName:...3、实例为了代码的编写方便简洁，引入了类的定义；一般，使用class语句来创建一个新类，class之后为类的名称(通常首字母大写)并以冒号结尾，例如:、classTicket():def__init__(self,checi,fstation,tstat
                    
                    屬於0917的色彩:淺蔥鼠色
                        ivyWang靖蕙

                        属于0917的色彩:浅葱鼠色今天来到一个音乐教室上课,舒缓的地毯,充满乐器的教室,让本来是冰冷冷的教室和课程内容,多了一些软性的柔和,在这样的教室裡上课,心情都跟著放鬆了,连老师讲的内容,都变好吸收了。果然环境会影响人,同时也会使人心放鬆,在今天的教室裡,亲身体验到如此的奇妙。除了是佈置和触感之外,发现另一个很重要的元素,也是色彩,整间都是浅色原木色,令人感受置身在小树屋中的自然芬香裡。如同今天看
                    
                    AWS Certified Cloud Practitioner 认证考试总结
                        DEMI0815
AWSaws云计算
                        AWSCloudTrailLogs对您的AWS账户进行监管、合规性、操作审计和风险审计。AWSCloudTrail可用于记录您的AWS账户的AWSAPI调用和其他活动，并将记录的信息保存到您选择的AmazonSimpleStorageService（AmazonS3）存储桶中的日志文件中。默认情况下，CloudTrail传输到S3存储桶的日志文件使用具有AmazonS3托管密钥的服务器端加密（SS
                    
                    我的第一届之高三未完成
                        布丁孙娟

                        4班的孩子们高中毕业N年后同学会，把老师们也请了过去，我是其中的一位。大家玩了一个最尴尬的游戏——猜猜我是谁，让我说出他们的名字。我觉得这个游戏太尬了，猜对了情理之中，猜不对两败俱伤。唉，硬着头皮玩下去，可是我竟几乎说对了所有人的名字。这是怎么一回事？！因为……我和他们高中的缘分在高三那年未画上圆满的句号。未完成，在我这里就永远没有结束。那是第一次带高三，领导怕我压力大，把我的4班交给一个经验丰富
                    
                    Python中的模块和作用域
                        全新的饭

                        模块的定义模块是写有python源代码的文件（其中定义了一组函数和其他对象）或c、c++编译的对象文件模块名称就是文件名模块存在的意义（使用模块的好处）可通过使用模块避免名称冲突（两个模块中可定义相同名称的函数）模块使python代码更易于管理（标准python函数位于特殊模块而非语言核心中，因此用户可根据需要加载目标模块）添加自己的模块将自己的模块添加到sys中使之可以通过使用import导入（
                    
                    3、 AWS基础设施入门：托管、部署与全球布局
                        jie sherry
云计算入门：从零开始掌握AWSAWS云计算IT基础设施
                        AWS基础设施入门：托管、部署与全球布局1.在AWS上托管IT基础设施将IT基础设施迁移到AWS云平台是现代企业数字化转型的重要一步。在AWS云平台上托管IT基础设施需要学习一些新概念和术语，以确保迁移过程顺利进行。AWS云平台提供的虚拟化和资源管理工具，使得企业能够灵活地构建和管理IT基础设施，同时节省时间和成本。1.1新概念和术语在AWS上托管IT基础设施涉及以下新概念和术语：虚拟化：通过软件
                    
                    短剧小程序的「技术革命」：从「粗放生长」到「精准运营」
                        weixin_lynhgworld
小程序
                        随着短剧行业进入「存量竞争」阶段，技术能力正成为小程序的核心竞争力。从内容推荐到用户留存，从广告变现到IP开发，每一环节都需要数据驱动和算法优化。一、智能推荐：让「用户找到剧」变成「剧找到用户」传统短剧平台依赖标签匹配，而小程序通过多维度数据实现精准推荐：「情绪图谱」分析：记录用户观看时的快进、暂停、重复播放等行为，构建情绪波动曲线；「场景化推荐」：根据时间（如深夜）、地点（如地铁）、设备（如手机
                    
                    小表妹的前半生
                        走心的小姐姐

                        小表妹毕业以后没多久就恋爱了，男票是一位没啥固定工作的人。当时家里的人极力反对，亲戚朋友多方劝阻，但是没用，小表妹毅然决然的要选择她心目中的所谓爱情。小表妹出生也是农村家庭，家庭并不富裕，但是有一对勤劳且疼爱她的父母，还有一起长大的弟弟，从小到大也算是长在蜜罐里不识愁滋味的一位姑娘啦。读书成绩也还可以，一路飙升到中专毕业踏入社会之中。父母：你工作赚钱，自己够花就可以！小表妹：那我就找一份自己喜欢的
                    
                    GENERALIST REWARD MODELS: FOUND INSIDE LARGELANGUAGE MODELS
                        樱花的浪漫
大模型与智能体对抗生成网络与动作识别强化学习语言模型人工智能自然语言处理深度学习机器学习计算机视觉
                        GeneralistRewardModels:FoundInsideLargeLanguageModelshttps://arxiv.org/pdf/2506.232351.概述将大型语言模型（LLMs）与复杂的人类价值观（如乐于助人和诚实）对齐，仍然是人工智能发展中的一个核心挑战。这项任务的主要范式是来自人类反馈的强化学习（RLHF）[Christianoetal.,2017;Baietal.,
                    
                    深入理解Mysql索引底层数据结构与算法
                        桑翔

                        一.索引的本质索引是帮助MySQL高效获取数据的排好序的数据结构二.索引数据结构1.二叉树2.红黑树3.Hash表4.B-Tree1.叶节点具有相同的深度,叶节点的指针为空2.所有索引元素不重复3.节点中的数据索引从左到右递增排序B-Tree5.B+Tree1.非叶子节点不存储data,可以放更多的索引2.叶子节点包含所有索引字段3.叶子节点用指针连接,提高区间访问的性能(体现在做范围查询的时候)
                    
                    apex 0x800001错误
                        行云浪迹
游戏程序
                        apex0x800001错误在最近的apex更新后，后面会出现如下的错误，该错误是说游戏文件损坏或缺失可能导致此错误，于是就在Steam中的游戏的属性里进行了完整性的检验，以及重新下载游戏，但还是无法解决该问题。解决办法我是通过更新显卡驱动才得以解决。大家根据电脑不同的显卡配置去官网更新，以下是各个显卡。NVIDIA：通过GeForceExperience更新。AMD:使用AMDRadeonSof
                    
                    Python正则表达式
                        

                        正则表达式是文本处理的强大工具，本文将系统全面地介绍正则表达式的所有知识点，结合Python的re模块，帮助读者从零开始掌握正则表达式的使用。1.正则表达式基础概念1.1什么是正则表达式？正则表达式（RegularExpression，简称regex或RE）是一种用于描述字符串匹配规则的表达式，它并不是Python特有的，而是计算机科学中的一个通用概念。核心功能：验证：检查字符串是否符合特定格式（
                    
                                多线程编程之join()方法
                                    周凡杨
javaJOIN多线程编程线程
                                    现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3， 因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？   
Java实现过程如下： 
public class T1 implements Runnabl
                                
                                java中switch的使用
                                    bingyingao
javaenumbreakcontinue
                                    java中的switch仅支持case条件仅支持int、enum两种类型。 
用enum的时候，不能直接写下列形式。 
 
 
switch (timeType) {
            case ProdtransTimeTypeEnum.DAILY:

                break;

            default:
                br
                                
                                hive having count 不能去重
                                    daizj
hive去重having count计数
                                    hive在使用having count()是，不支持去重计数 
  
hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10;  
FAILED: SemanticExcep
                                
                                WebSphere对JSP的缓存
                                    周凡杨
WAS JSP 缓存
                                          对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。 
       现服务
                                
                                设计模式总结
                                    朱辉辉33
java设计模式
                                    1.工厂模式 
  1.1 工厂方法模式 (由一个工厂类管理构造方法) 
     1.1.1普通工厂模式(一个工厂类中只有一个方法) 
     1.1.2多工厂模式(一个工厂类中有多个方法) 
     1.1.3静态工厂模式(将工厂类中的方法变成静态方法) 
&n
                                
                                实例：供应商管理报表需求调研报告
                                    老A不折腾
finereport报表系统报表软件信息化选型
                                    引言 
随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。 业务目标 
1、通过报表为采购决策提供数据分析与支撑 
2、对供应商进行综合评估以及管理，合理管理和
                                
                                mysql
                                    林鹤霄

                                    转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html 
mysql -uroot -p 
ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) 
  
[root@centos var]# service mysql
                                
                                Linux下多线程堆栈查看工具(pstree、ps、pstack)
                                    aigo
linux
                                    原文：http://blog.csdn.net/yfkiss/article/details/6729364 
  
1. pstree 
pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552)  &n
                                
                                html input与textarea 值改变事件
                                    alxw4616
JavaScript
                                    // 文本输入框(input) 文本域(textarea)值改变事件 
// onpropertychange(IE) oninput(w3c) 
$('input,textarea').on('propertychange input', function(event) { 
     console.log($(this).val()) 
}); 
  
                                
                                String类的基本用法
                                    百合不是茶
String
                                      
字符串的用法; 
    // 根据字节数组创建字符串 
byte[] by = { 'a', 'b', 'c', 'd' };
String newByteString = new String(by); 
  
  
    1,length()  获取字符串的长度 
  
  &nbs
                                
                                JDK1.5 Semaphore实例
                                    bijian1013
javathreadjava多线程Semaphore
                                    Semaphore类 
       一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 
S
                                
                                使用GZip来压缩传输量
                                    bijian1013
javaGZip
                                            启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 
        PJL Compressi
                                
                                【Java范型三】Java范型详解之范型类型通配符
                                    bit1129
java
                                      
  
定义如下一个简单的范型类， 
  
package com.tom.lang.generics;

public class Generics<T> {
    private T value;
    public Generics(T  value) {
        this.value = value;
    }
} 
                                
                                【Hadoop十二】HDFS常用命令
                                    bit1129
hadoop
                                    1. 修改日志文件查看器 
  
hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml
cat edits.xml 
  
修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 
  2. fsimage查看HDFS中的块信息等 
&nb
                                
                                怎样区别nginx中rewrite时break和last
                                    ronin47

                                    在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。  
 
 location /    
 {     
     proxy_pass http://test; 
                                
                                java-21.中兴面试题 输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m
                                    bylijinnan
java
                                    
import java.util.ArrayList;
import java.util.List;
import java.util.Stack;

public class CombinationToSum {

	/*
第21 题
2010 年中兴面试题
编程求解：
输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 ,
使其和等
                                
                                eclipse svn 帐号密码修改问题
                                    开窍的石头
eclipseSVNsvn帐号密码修改
                                    问题描述： 
     Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。 
解决思路： 
     删除subclipse记录的帐号、密码信息，重新输入
                                
                                [电子商务]传统商务活动与互联网的结合
                                    comsci
电子商务
                                     
 
      某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。 
 
       如何避免销售量和利润率增加的
                                
                                java 解析 properties-使用 Properties-可以指定配置文件路径
                                    cuityang
javaproperties
                                    #mq 
xdr.mq.url=tcp://192.168.100.15:61618; 
 
import java.io.IOException; 
import java.util.Properties; 
 
 
public class Test { 
 
 String conf = "log4j.properties"; 
 private static final
                                
                                Java核心问题集锦
                                    darrenzhu
java基础核心难点
                                    注意，这里的参考文章基本来自Effective Java和jdk源码 
 
 
1)ConcurrentModificationException 
当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 
1)用listIterator, 它支持在遍历的过程中修改元素， 
2)不用listIterator, new一个
                                
                                1分钟学会Markdown语法
                                    dcj3sjt126com
markdown
                                    markdown 简明语法 基本符号 
 
 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号  
 空白行表示另起一个段落 
 `是表示inline代码，tab是用来标记 代码段，分别对应html的code，pre标签 
 换行 
 
 单一段落( <p>) 用一个空白行 
 连续两个空格 会变成一个 <br> 
 连续3个符号，然后是空行
                                
                                Gson使用二（GsonBuilder）
                                    eksliang
jsongsonGsonBuilder
                                    转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 
    GsonBuilder用来定制java跟json之间的转换格式 
  二.基本使用 
实体测试类： 
温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
                                
                                报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList
                                    gundumw100
android
                                    有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： 
 
 java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
                                
                                JavaWeb之JSP指令
                                    ihuning
javaweb
                                      
要点 
  
JSP指令简介  
page指令  
include指令  
  
JSP指令简介  
  
JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 
JSP指令的基本语法格式： 
<%@ 指令 属性名="
                                
                                mac上编译FFmpeg跑ios
                                    啸笑天
ffmpeg
                                    1、下载文件：https://github.com/libav/gas-preprocessor， 复制gas-preprocessor.pl到/usr/local/bin/下， 修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 
2、安装yasm-1.2.0 
curl http://www.tortall.net/projects/yasm
                                
                                sql mysql oracle中字符串连接
                                    macroli
oraclesqlmysqlSQL Server
                                    有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： 
 
 MySQL: CONCAT() 
 Oracle: CONCAT(), || 
 SQL Server: + 
 
CONCAT() 的语法如下： 
Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。 
请注意，Oracle的CON
                                
                                Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate
                                    qiaolevip
学习永无止境每天进步一点点git纵观千象
                                    // 报错如下： 
$ git pull origin master 
fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce 
rtificate 
  
// 原因： 
由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
                                
                                windows命令行设置wifi
                                    surfingll
windowswifi笔记本wifi
                                    还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么 
教你命令行设置 笔记本电脑wifi： 
 
1、开启wifi命令 
 

netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456
netsh wlan start hostednetwork
pause
 
 其中pause是等待输入，可以去掉 
 
2、
                                
                                Linux（Ubuntu）下安装sysv-rc-conf
                                    wmlJava
linuxubuntusysv-rc-conf
                                    安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 
操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。 
  
  
背景知识 
sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
                                
                                svn切换环境，重发布应用多了javaee标签前缀
                                    zengshaotao
javaee
                                    更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。 
  
然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。 
  
检出
                                
                
            
        
    


    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    


    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.