人工智能遇见磐创

NLP中的标识化

作者|ARAVIND PAI
编译|VK
来源|Analytics Vidhya

概述

标识化是处理文本数据的一个关键
我们将讨论标识化的各种细微差别，包括如何处理词汇表外单词（OOV）

介绍

从零开始掌握一门新的语言令人望而生畏。如果你曾经学过一种不是你母语的语言，你就会理解！有太多的层次需要考虑，例如语法需要考虑。这是一个相当大的挑战。

为了让我们的计算机理解任何文本，我们需要用机器能够理解的方式把这个词分解。这就是自然语言处理（NLP）中标识化的概念。

简单地说，标识化(Tokenization)对于处理文本数据十分重要。

下面是关于标识化的有趣的事情，它不仅仅是分解文本。标识化在处理文本数据中起着重要的作用。因此，在本文中，我们将探讨自然语言处理中的标识化，以及如何在Python中实现它。

目录

标识化
标识化背后的真正原因
我们应该使用哪种（单词、字符或子单词）？
在Python中实现Byte Pair编码

标识化

标识化(Tokenization)是自然语言处理（NLP）中的一项常见任务。这是传统NLP方法（如Count Vectorizer）和高级的基于深度学习的体系结构（如Transformers）的基本步骤。

单词是自然语言的组成部分。

标识化是一种将文本分割成称为标识的较小单元的方法。在这里，标识可以是单词、字符或子单词。因此，标识化可以大致分为三种类型：单词、字符和子单词（n-gram字符）标识化。

例如，想想这句话：“Never give up”。

最常见的词的形成方式是基于空间。假设空格作为分隔符，句子的标识化会产生3个词，Never-give-up。由于每个标识都是一个单词，因此它成为单词标识化的一个示例。

类似地，标识(token)可以是字符或子单词。例如，让我们考虑smarter”：

字符标识：s-m-a-r-t-e-r
子单词(subword)标识：smart-er

但这有必要吗？我们真的需要标识化来完成这一切吗？

标识化背后的真正原因

由于词语是自然语言的构建块，所以处理原始文本的最常见方式发生在单词级别。

例如，基于Transformer的模型（NLP中的最新（SOTA）深度学习架构）在单词级别处理原始文本。类似地，对于NLP最流行的深度学习架构，如RNN、GRU和LSTM，也在单词级别处理原始文本。

如图所示，RNN在特定的时间步接收和处理每个单词。

因此，标识化是文本数据建模的首要步骤。对语料库执行标识化以获取单词。然后使用以下单词准备词汇表。词汇是指语料库中出现过的单词。请记住，词汇表可以通过考虑语料库中每个唯一的单词或考虑前K个频繁出现的单词来构建。

创建词汇表是标识化的最终目标。

提高NLP模型性能的一个最简单的技巧是使用top K的单词创建一个词汇表。

现在，让我们了解一下词汇在传统的和高级的基于深度学习的NLP方法中的用法。

传统的NLP方法如单词频率计数和TF-IDF使用词汇作为特征。词汇表中的每个单词都被视为一个独特的特征：
在基于深度学习的高级NLP体系结构中，词汇表用于创建输入语句。最后，这些单词作为输入传递给模型

我们应该使用哪种（单词、字符或子单词）？

如前所述，标识化可以在单词、字符或子单词级别执行。这是一个常见的问题-在解决NLP任务时应该使用哪种标识化？让我们在这里讨论这个问题。

单词级标识化

词标识化是最常用的标识化算法。它根据特定的分隔符将一段文本(英文)拆分为单个单词。根据分隔符的不同，将形成不同的字级标识。预训练的单词嵌入，如Word2Vec和GloVe属于单词标识化。

这种只有少量缺点。

单词级标识化的缺点

单词标识的主要问题之一是处理词汇表外（OOV）单词。OOV词是指在测试中遇到的新词。这些生词在词汇表中不存在。因此，这些方法无法处理OOV单词。

但是，等等，不要妄下结论！

一个小技巧可以将单词标识化器从OOV单词中解救出来。诀窍是用前K个频繁词组成词汇表，并用未知标识（UNK）替换训练数据中的稀有词。这有助于模型使用UNK学习OOV单词的表示
因此，在测试期间，词汇表中不存在的任何单词都将映射到UNK标识。这就是我们如何解决标识化器中的OOV问题。
这种方法的问题是，当我们将OOV映射到UNK单词时，单词的整个信息都会丢失。单词的结构可能有助于准确地表示单词。另一个问题是每个OOV单词都有相同的表示

单词标识的另一个问题与词汇表的大小有关。一般来说，预训练的模型是在大量的文本语料库上训练的。所以，想象一下在这么大的一个语料库中用所有单词构建词汇表。这会大大增加词汇量！

这打开了字符级标识化的大门。

字符级标识化

字符标识化将每个文本分割成一组字符。它克服了我们在上面看到的关于单词标识化的缺点。

字符标识化器通过保存单词的信息来连贯地处理OOV单词。它将OOV单词分解成字符，并用这些字符表示单词
它也限制了词汇量的大小。想猜猜词汇量吗？答案是26个。

字符标识化的缺点

字符标识解决了OOV问题，但是当我们将一个句子表示为一个字符序列时，输入和输出句子的长度会迅速增加。因此，学习单词之间的关系以形成有意义的词就变得很有挑战性。

这将我们带到另一个称为子单词标识化(Subword)的标识化，它介于字和字符标识化之间。

子单词标识化

子单词标识化将文本分割成子单词（或n个字符）。例如，lower这样的词可以被分割为low-er，smartest和smart-est，等等。

基于转换的模型（NLP中的SOTA）依赖于子单词标识化算法来准备词汇表。现在，我将讨论一种最流行的子单词标识化算法，称为Byte Pair Encoding 字节对编码（BPE）。

使用BPE

Byte Pair 编码，BPE是基于转换器的模型中广泛使用的一种标识化方法。BPE解决了单词和字符标识化器的问题：

BPE有效地解决了OOV问题。它将OOV分割为子单词，并用这些子单词表示单词
与字符标识化相比，BPE后输入和输出语句的长度更短

BPE是一种标识化算法，它迭代合并最频繁出现的字符或字符序列。下面是一个逐步学习BPE的教程。

学习BPE的步骤

附加结尾符号
用语料库中的唯一字符初始化词汇
计算语料库中pair或字符序列的频率
合并语料库中最频繁的pair
把最好的pair保留到词汇表中
对一定数量的迭代重复步骤3到5

我们将通过一个例子来理解这些步骤。

考虑语料库

1a）在语料库中的每个单词后面附加单词的结尾符号（比如说）：

1b）将语料库中的单词分为字符：

2.初始化词汇表：

迭代1：

3.计算频率：

4.合并最常见的pair：

5.保存最佳pair：

从现在开始对每个迭代重复步骤3-5。让我再演示一次迭代。

迭代2：

3.计算频率：

4.合并最常见的pair：

5.保存最佳pair：

经过10次迭代后，BPE合并操作如下所示：

很直截了当，对吧？

BPE在OOV词中的应用

但是，我们如何在测试时使用BPE来表示OOV单词呢？有什么想法吗？我们现在来回答这个问题。

在测试时，OOV单词被分割成字符序列。然后应用所学的操作将字符合并成更大的已知符号。

下面是表示OOV单词的表示过程：

追加后将OOV单词拆分为字符
计算一个单词中的pair或字符序列
选择学习过的存在的pair
合并最常见的pair
重复步骤2和3，直到可以合并

接下来让我们来看看这一切！

在Python中实现Byte Pair编码

我们现在知道BPE是如何学习和应用OOV词汇的。所以，是时候用Python实现了。

BPE的Python代码已经在原来的论文发布的代码中可用。

读取语料库

我们将考虑一个简单的语料库来说明BPE的思想。然而，同样的想法也适用于另一个语料库：

#导入库
import pandas as pd

#正在读取.txt文件
text = pd.read_csv("sample.txt",header=None)

#将数据帧转换为单个列表
corpus=[]
for row in text.values:
    tokens = row[0].split(" ")
    for token in tokens:
        corpus.append(token)

文本预处理

将单词分割为语料库中的字符，并在每个单词的末尾附加：

#初始化词汇
vocab = list(set(" ".join(corpus)))
vocab.remove(' ')

#把这个词分成字符
corpus = [" ".join(token) for token in corpus]

#追加
corpus=[token+' ' for token in corpus]

学习BPE

计算语料库中每个单词的频率：

import collections

#返回每个单词的频率
corpus = collections.Counter(corpus)

#将计数器对象转换为字典
corpus = dict(corpus)
print("Corpus:",corpus)

输出：

让我们定义一个函数来计算pair或字符序列的频率。它接受语料库并返回频率：

#pair或字符序列的频率
#参数是语料并且返回每个pair的频率
def get_stats(corpus):
    pairs = collections.defaultdict(int)
    for word, freq in corpus.items():
        symbols = word.split()
        for i in range(len(symbols)-1):
            pairs[symbols[i],symbols[i+1]] += freq
    return pairs

现在，下一个任务是合并语料库中最频繁的pair。我们将定义一个函数来接受语料库、最佳pair，并返回修改后的语料库：

#合并语料库中最常见的pair
#接受语料库和最佳pair
import re
def merge_vocab(pair, corpus_in):
    corpus_out = {}
    bigram = re.escape(' '.join(pair))
    p = re.compile(r'(?

 
 接下来，是学习BPE操作的时候了。由于BPE是一个迭代过程，我们将执行并理解一次迭代的步骤。让我们计算bi-gram的频率： 
 #bi-gram的频率
pairs = get_stats(corpus)
print(pairs)
 
 输出： 
  
 找到最常见的： 
 #计算最佳pair
best = max(pairs, key=pairs.get)
print("Most Frequent pair:",best)
 
 输出：(‘e’, ‘s’) 
 最后，合并最佳pair并保存到词汇表中： 
 #语料库中频繁pair的合并
corpus = merge_vocab(best, corpus)
print("After Merging:", corpus)

#将元组转换为字符串
best = "".join(list(best))

#合并到merges和vocab
merges = []
merges.append(best)
vocab.append(best)
 
 输出： 
  
 我们将遵循类似的步骤： 
 num_merges = 10
for i in range(num_merges):
    
    #计算bi-gram的频率
    pairs = get_stats(corpus)
    
    #计算最佳pair
    best = max(pairs, key=pairs.get)
    
    #合并语料库中的频繁pair
    corpus = merge_vocab(best, corpus)
    
    #合并到merges和vocab
    merges.append(best)
    vocab.append(best)

#将元组转换为字符串
merges_in_string = ["".join(list(i)) for i in merges]
print("BPE Merge Operations:",merges_in_string)
 
 输出： 
  
 最有趣的部分还在后面呢！将BPE应用于OOV词汇。 
 BPE在OOV词汇中的应用 
 现在，我们将看到如何应用BPE在OOV单词上。例如OOV单词是“lowest”： 
 #BPE在OOV词汇中的应用
oov ='lowest'

#将OOV分割为字符
oov = " ".join(list(oov))

#添加  
oov = oov + ' '

#创建字典
oov = { oov : 1}
 
 将BPE应用于OOV单词也是一个迭代过程。我们将执行本文前面讨论的步骤： 
 i=0
while(True):

    #计算频率
    pairs = get_stats(oov)

    #提取keys
    pairs = pairs.keys()
    
    #找出之前学习中可用的pair
    ind=[merges.index(i) for i in pairs if i in merges]

    if(len(ind)==0):
        print("\nBPE Completed...")
        break
    
    #选择最常学习的操作
    best = merges[min(ind)]
    
    #合并最佳pair
    oov = merge_vocab(best, oov)
    
    print("Iteration ",i+1, list(oov.keys())[0])
    i=i+1
 
 输出： 
  
 如你所见，OOV单词“low est”被分割为low-est。 
 结尾 
 标识化是处理文本数据的一种强大方法。我们在本文中看到了这一点，并使用Python实现了标识化。 
 继续在任何基于文本的数据集上尝试这个方法。练习得越多，就越能理解标识化是如何工作的（以及为什么它是一个如此关键的NLP概念）。 
 原文链接：https://www.analyticsvidhya.com/blog/2020/05/what-is-tokenization-nlp/ 
 欢迎关注磐创AI博客站：
 http://panchuang.net/ 
 sklearn机器学习中文官方文档：
 http://sklearn123.com/ 
 欢迎关注磐创博客资源汇总站：
 http://docs.panchuang.net/


    
        你可能感兴趣的:(NLP中的标识化)
        
            
                
                    《开创新品类》第七章第9节:差异化战略方案构成与优势
                        a57051ee1ea8

                        战略方案的制定其实有四个方面构成：1、战略，方向及布局；步骤：规划→制定→实施；方式：多元化战略→企业战略→品牌战略→差异化战略→技术战略→人才战略→竞争战略→职能战略→融资战略→资源战略；2、策略，组织成员进行战斗；方式：不战而胜→先发制人→集中攻击→力量而行→避实就虚→借鸡生蛋→狡兔三窟→暗渡陈仓→围魏救赵→背水一战→釜底抽薪；3、战术，指对指导进行战斗的方法；步骤：部署→协同→指挥→行动→保
                    
                    服务化架构、SOA 与微服务：关系、演进与实战落地全解析
                        要阿尔卑斯吗.
架构微服务云原生
                        在分布式系统架构面试中，面试官常常会问到一个核心问题：“你能说说服务化架构、SOA和微服务之间到底是什么关系吗？有什么区别？”这并不是一个单纯的理论问题，而是对开发者系统认知和实践经验的综合考察。今天，我们将系统梳理这个话题，结合架构演进历史、核心设计理念、技术实现路径及落地经验，帮助大家理清服务化架构的发展脉络，走好系统设计之路。一、什么是服务化架构？它与SOA、微服务是什么关系？首先需要明确一
                    
                    MySQL 大数据量分页查询优化实战：从 90秒到 965毫秒的性能飞跃
                        要阿尔卑斯吗.
mysql数据库分布式架构java
                        在日常开发中，我们经常需要对数据库中的数据进行分页展示。特别是当表数据量达到几十万甚至上百万级时，传统的LIMIT分页方式会面临严重的性能瓶颈。今天，我将分享一个真实的性能优化案例，通过模拟大页码查询的现场，从90秒缩短到965毫秒，显著提升了查询效率。本篇文章将从问题出现的原因、索引原理、优化思路和最终实战效果等方面，为你全面讲解如何高效处理MySQL大数据分页查询问题。一、问题背景：大页码分页
                    
                    LLM OCR vs 传统 OCR：解锁文档处理的未来
                        

                        光学字符识别（OCR）技术早已是数字化文档的得力助手，但你有没有想过，传统OCR和新兴的LLMOCR究竟有何不同？传统OCR就像一台老式打印机，虽然能干活，但在复杂场景下常常“卡壳”。而LLMOCR则像一个聪明的助手，不仅能识别文字，还能读懂文档的“灵魂”。今天，我们就来聊聊这两者的区别，并看看LLMOCR如何为文档处理带来新可能。传统OCR：可靠但有限的老将传统OCR就像一位勤劳的抄写员，擅长把
                    
                    AI赋能，让办公更智能
                        enter回车键
人工智能
                        AI赋能：解锁办公智能化新图景当智能化办公成为企业创造新价值的核心引擎，AI技术正以其强大的学习能力与数据处理能力，成为这场办公变革的“隐形推手”。从流程自动化到决策智能化，从单向执行到双向协作，AI正全方位渗透办公场景的每一个环节，让办公更高效、更精准、更具创造力。AI为办公流程注入“自动化基因”，将人类从机械劳动中彻底解放。传统办公中，员工需花费30%以上的时间处理重复性任务：财务人员逐张核对
                    
                    至亲人-离去
                        红玫瑰与蚊子血

                        今天得知昨日下午姑父的去世，眼泪还是会留下来。尽管姑父这位亲人似乎是算不得什么至亲，但是在得知姑父去世的消息还是落泪了。毕竟曾经一起度过那么多岁月的大年，在一起吃年夜饭，谈论生活。记得在我刚考上村官的时候，姑父称赞我，刚毕业就可以自食其力找到一份还不错的工作。在我记忆中的姑父，非常潮流，思想特别的开放民主，和一些家长还是很有区别的。姑父是因为肺癌➕脑瘤扩散走的，自查出病情以来，在姑姑的悉心照料下，
                    
                    那些年，李敖说过的话
                        小考拉俱乐部

                        李敖已经去世好几天了，一直想着写点什么的，却迟迟没有动笔。看网上铺天盖地的悼文，才发现，对他的了解好少。高中的时候，看过李敖文集。印象最深的是他的一首诗《只爱一点点》：不爱那么多，只爱一点点，别人的爱情像海深，我的爱情浅。去年年初，李敖被确诊脑瘤。六月，他向媒体公开亲笔信，写道：我很痛苦，好像地狱离我并不远了。我这一生当中，骂过很多人，伤过很多人，仇敌无数，朋友不多。在这最后的时间里，除了把《李敖
                    
                    如何清除 npm 缓存
                        BIBI2049
前端开发Windowsnpm缓存前端node.js
                        清除npm缓存：利弊分析与操作指南在使用Node.js和npm进行项目开发时，我们经常会与npminstall命令打交道。这个过程中，npm会在本地建立一个缓存机制，用以存储已下载的包，从而显著提升后续安装的速度。然而，有时这个缓存也可能成为问题的根源。本文将探讨清除npm缓存的利弊，并提供清晰的操作指引。清除npm缓存的好处清除npm缓存主要能带来以下几点好处：解决依赖安装失败问题：当缓存中的包
                    
                    AI驱动的电路仿真革命：从物理模型到智能学习的范式转移
                        

                        AI驱动的电路仿真革命：从物理模型到智能学习的范式转移人工智能正颠覆传统电路仿真方法，本文将深入解析AI在电路建模、优化与故障诊断中的前沿应用，揭示智能仿真如何提升10倍效率并突破物理限制。一、AI电路仿真的数学基础1.1图神经网络建模电路拓扑电路可抽象为图结构G=(V,E)G=(V,E)G=(V,E)：VVV：节点（电子元件）EEE：边（连接关系）图卷积网络(GCN)更新公式：H(l+1)=σ(
                    
                    积极关注
                        美好生活从写作开始

                        大荔心理协会:郭家秀《焦点解决短期心理治疗》(SFBT)坚持分享第13天健身打卡第13天积极关注积极关注是指在心理咨询过程中对求助者的言语和行为的积极面予以关注，从而使求助者拥有正向价值观。积极关注涉及到对人的基本认识和基本情感。凡是心理咨询工作，首先必须抱有一种信念：受助者是可以改变的。概念心理咨询师应以积极的态度看待来访者，注意强调他们的长处，有选择地突出来访者及行为中的积极方面，利用其自身的
                    
                    甘超波：NLP中EMBA状态管理
                        甘超波

                        哈喽，大家好我是甘超波，一名NLP爱好者，每天一篇文章，分享我的NLP实战经验和案例，希望给你些启发和帮助，这是第23篇原创文章什么是EMBAEMBA：是总裁班吗？在NLP中EMBA指的一种状态管理，我们NLP所有技巧都是在EMBA中展开的，像催眠，潜意识沟通......等都是在基于EMBA。如果把NLP比作一个楼房，EMBA就是楼房的地基如果把NLP比作一个汽车，EMBA就是汽车的发动机。其中E
                    
                    赋能智慧档案管理：藏语识别技术在某省档案馆的创新实践
                        中科逸识
ocr人工智能全文检索
                        引言：在数字化浪潮席卷全球的今天，档案馆作为文化遗产保存的重要载体，正面临从传统管理向智慧化转型的挑战。尤其对于多民族地区，如何高效处理少数民族语言档案，成为亟待突破的难题。近期，某省档案馆率先引入领先的藏语智能识别技术，为海量藏文档案的数字化整理、检索与利用插上了科技的翅膀，开创了民族语言档案管理的新范式。一、破解百年藏文档案的“沉睡”难题该档案馆珍藏了跨越数百年的藏文历史文献、公文、手稿等珍贵
                    
                    携程优惠券兑换码2024？携程飞机票优惠券100元？携程优惠券领取入口
                        爱生活爱氧券

                        携程优惠券兑换码2024？携程飞机票优惠券100元？携程优惠券领取入口随着旅游市场的不断繁荣，消费者对于旅游服务的个性化、高品质需求也日益增长。作为国内领先的一站式旅游服务平台，携程一直致力于为广大用户提供优质、便捷的旅游服务。为了满足消费者在旅游消费方面的优惠需求，携程推出了优惠券兑换码2024活动，让您轻松获取100元飞机票优惠券！如何获取携程优惠券兑换码2024？步骤1：登录携程APP或官网
                    
                    深化学思践悟，激发奋进动能 扎实开展主题教育活动，着力提升干部干事 创业真本领
                        62ab9e7a8a7b

                        在全党开展学习贯彻习近平新时代中国特色社会主义思想主题教育，是推动贯彻党的二十大战略部署的有力举措，是深入推进新时代党的建设新的伟大工程的重大部署。领导干部要牢牢把握“学思想、强党性、重实践、建新功”总要求，聚焦凝心铸魂筑牢根本、锤炼品格强化忠诚、实干担当促进发展、践行宗旨为民造福、廉洁奉公树立新风的目标，以学铸魂、以学增智、以学正风、以学促干，着力为全面建设中国式现代化隆德凝聚力量。习近平总书记
                    
                    月夜桂香浓（11）心湖荡漾（二）
                        如沐当歌

                        网图侵删佳惠悬在半空的手，被一只大手握住，思绪被牵了回来，眼前的人与幻境中的人重叠，最后变得清晰。她眼里盈满泪光，喉咙哽咽的挤出了一个“啊”字。“于小姐，你怎么了？”程鼎焱看到了佳惠眼中的泪光，心里一紧。“没、没什么！”佳惠这才意识到自己竟然想起了欧阳峻，赶忙抽回自己的手，抹去脸上的泪水。程鼎焱看着面前的女子，心里有一丝动容，刚才的一幕让他想到了之前在酒吧里，女孩缠着自己时，泪眼婆娑，嘴里却不断的
                    
                    《晨读记》（135）: 还作江南会
                        大观学园

                        ——读戴叔伦《江乡故人偶集客舍》天秋月又满，城阙夜千重江南住着白居易白胡子老头爱看日出看日出点燃两岸江花江南住着余光中的表妹们表妹们生活在多湖的江南两岸的母亲都在喊他2018.4.5原诗:江乡故人偶集客舍唐·戴叔伦天秋月又满，城阙夜千重。还作江南会，翻疑梦里逢。风枝惊暗鹊，露草覆寒蛩。羁旅长堪醉，相留畏晓钟。
                    
                    2020年52/49周总结，逆鳞
                        大熊律师

                        本周真是焦虑的一周。一、职业发展一周5个工作日，检察院和法院各上班一天，然后开庭3件，一件艰难的谈判一场，还有一个顾问单位专场汇报会，奔波和辗转安排下周的各项工作，已经对接上周的焦虑的下行工作，有时候忙碌的连中午也没能休息，一鼓作气写材料。沟通是很复杂的系统，结构化沟通真的很不容易，所以我一直在调整自己让自己变得更好更强大面对很多问题。认真梳理自己的问题，和管委会成员开会讨论今年计划和明年方案，认
                    
                    基于 Python 对于Nacos 服务订阅流程的深度剖析
                        chilavert318
熬之滴水穿石python开发语言nacos
                        记得去年在外省给某事业单位给科技处的领导作关于国产化微服务项目的汇报，该处长要我详细讲解一下Nacos的来龙去脉。我问他为什么要单独了解这块，他说现在国产化已经是趋势了，他其实也想深度的了解一下，这款产品是如何演化而来，希望通过了解该产品的来龙去脉深度思索一下，他所辖范围之内系统国产化的一些思路。记得当时我也是做足了工作，然后选择一个时间给他单独汇报，会后领导反响还不错，领导总结道：Nacos适应
                    
                    非传统致富：被主流忽视的赚钱机会
                        氧惠购物达人

                        在商业世界中，人们往往只看到那些炙手可热的行业和机会，而有些生意看似有利可图，但实际上却没人干或是很少有人干，然而这些生意由于竞争少、市场需求稳定，往往能够获得不错的利润。以下是一些可能被认为是能够挣钱却没人干或是很少有人干的生意，但实际上这些生意机会和潜力仍然很大。一、农业农业是一个古老而传统的行业，但在现代社会中，随着城市化进程的加速和劳动力成本的上升，农业的利润空间逐渐缩小。然而，农业作为人
                    
                    《惊！从病娇学长身边逃跑失败了》(向暖、叶寒)最新章节_《惊！从病娇学长身边逃跑失败了》全文阅读_《惊！从病娇学长身边逃跑失败了》全文阅读
                        霸道推书2

                        书名：《惊！从病娇学长身边逃跑失败了》主角配角：向暖、叶寒小说简介：她，一介新生，原本只想过着平凡安逸的校园生活，然而却因为一个微笑，意外卷入了一场情感的漩涡。当发现自己竟然成为那位学长心中的宠儿时，她将如何抉择？然而更让人困惑的是，她接下来的一举一动都难逃他的牵制，学长对她的情感似乎有着一丝难以言喻的病态……推荐指数：✩✩✩✩✩———阅读全文小说内容请翻阅最底部———叶寒顾不上胸口钻心的疼痛，拔
                    
                    2023-11-04
                        低代码云MES

                        近年来，全球新材料行业快速发展，我国新材料产业处于第二梯队，年均复合增速超过20%，但目前上游关键材料、设备发展仍存在诸多“卡脖子”环节，国产替代需求迫切、市场巨大、进程加速。未来一段时间内，国产替代将成为行业成长主旋律。因此，企业对数字化工厂的建设提出了更高的要求，新材料制造业工厂目前在生产管理和信息化方面存在如下不足：数据采集不及时：车间现场报表（包括流转、报工、废品数据、呆滞信息）录入不实时
                    
                    读书札记 | 古典小说中的“类关羽”人物
                        江吴童

                        对于关羽的崇拜古来有之。不少古典小说中都出现了外貌特征类似关羽的人物，在此做一简单罗列。（欢迎大家留言补充）《三国演义》在《三国演义》中，关羽初登场时，作者借刘备的视角介绍了关羽的外貌：身长九尺，髯长二尺；面如重枣，唇若涂脂；丹凤眼，卧蚕眉，相貌堂堂，威风凛凛。——《第一回·宴桃园豪杰三结义斩黄巾英雄首立功》关羽第八十三回，又借潘璋的视角描绘了显圣的关羽：忽门外一人，面如重枣，丹凤眼，卧蚕眉，飘三
                    
                    活在回忆中的人‖第一章 “别人家的孩子”啊胜
                        啊胜lwj

                        第一章“别人家的孩子”啊胜都说孩子是父母的骄傲，听话懂事的孩子总会成为别人夸赞的对象，也总会成为别的父母教育他们孩子的榜样，所以孩子经常会听到这样一句话:“你看看别人家的谁谁谁，人家学习好，会干活，又懂事，有礼貌，再看看你……”，但是榜样其实也很难做，最可怕的就是父母也认可自己孩子是榜样了这个标准，那孩子就不能犯一点点的错误，俗话说，老天为你关了一扇门，就会为你打开一扇窗，这大概就是有得必有失吧，
                    
                    python class是什么,python中的class是什么
                        

                        1、概念用来描述具有相同的属性和方法的对象的集合。它定义了该集合中每个对象所共有的属性和方法。2、类定义的语法classClassName:...3、实例为了代码的编写方便简洁，引入了类的定义；一般，使用class语句来创建一个新类，class之后为类的名称(通常首字母大写)并以冒号结尾，例如:、classTicket():def__init__(self,checi,fstation,tstat
                    
                    屬於0917的色彩:淺蔥鼠色
                        ivyWang靖蕙

                        属于0917的色彩:浅葱鼠色今天来到一个音乐教室上课,舒缓的地毯,充满乐器的教室,让本来是冰冷冷的教室和课程内容,多了一些软性的柔和,在这样的教室裡上课,心情都跟著放鬆了,连老师讲的内容,都变好吸收了。果然环境会影响人,同时也会使人心放鬆,在今天的教室裡,亲身体验到如此的奇妙。除了是佈置和触感之外,发现另一个很重要的元素,也是色彩,整间都是浅色原木色,令人感受置身在小树屋中的自然芬香裡。如同今天看
                    
                    AWS Certified Cloud Practitioner 认证考试总结
                        DEMI0815
AWSaws云计算
                        AWSCloudTrailLogs对您的AWS账户进行监管、合规性、操作审计和风险审计。AWSCloudTrail可用于记录您的AWS账户的AWSAPI调用和其他活动，并将记录的信息保存到您选择的AmazonSimpleStorageService（AmazonS3）存储桶中的日志文件中。默认情况下，CloudTrail传输到S3存储桶的日志文件使用具有AmazonS3托管密钥的服务器端加密（SS
                    
                    我的第一届之高三未完成
                        布丁孙娟

                        4班的孩子们高中毕业N年后同学会，把老师们也请了过去，我是其中的一位。大家玩了一个最尴尬的游戏——猜猜我是谁，让我说出他们的名字。我觉得这个游戏太尬了，猜对了情理之中，猜不对两败俱伤。唉，硬着头皮玩下去，可是我竟几乎说对了所有人的名字。这是怎么一回事？！因为……我和他们高中的缘分在高三那年未画上圆满的句号。未完成，在我这里就永远没有结束。那是第一次带高三，领导怕我压力大，把我的4班交给一个经验丰富
                    
                    Python中的模块和作用域
                        全新的饭

                        模块的定义模块是写有python源代码的文件（其中定义了一组函数和其他对象）或c、c++编译的对象文件模块名称就是文件名模块存在的意义（使用模块的好处）可通过使用模块避免名称冲突（两个模块中可定义相同名称的函数）模块使python代码更易于管理（标准python函数位于特殊模块而非语言核心中，因此用户可根据需要加载目标模块）添加自己的模块将自己的模块添加到sys中使之可以通过使用import导入（
                    
                    3、 AWS基础设施入门：托管、部署与全球布局
                        jie sherry
云计算入门：从零开始掌握AWSAWS云计算IT基础设施
                        AWS基础设施入门：托管、部署与全球布局1.在AWS上托管IT基础设施将IT基础设施迁移到AWS云平台是现代企业数字化转型的重要一步。在AWS云平台上托管IT基础设施需要学习一些新概念和术语，以确保迁移过程顺利进行。AWS云平台提供的虚拟化和资源管理工具，使得企业能够灵活地构建和管理IT基础设施，同时节省时间和成本。1.1新概念和术语在AWS上托管IT基础设施涉及以下新概念和术语：虚拟化：通过软件
                    
                    短剧小程序的「技术革命」：从「粗放生长」到「精准运营」
                        weixin_lynhgworld
小程序
                        随着短剧行业进入「存量竞争」阶段，技术能力正成为小程序的核心竞争力。从内容推荐到用户留存，从广告变现到IP开发，每一环节都需要数据驱动和算法优化。一、智能推荐：让「用户找到剧」变成「剧找到用户」传统短剧平台依赖标签匹配，而小程序通过多维度数据实现精准推荐：「情绪图谱」分析：记录用户观看时的快进、暂停、重复播放等行为，构建情绪波动曲线；「场景化推荐」：根据时间（如深夜）、地点（如地铁）、设备（如手机
                    
                                安装数据库首次应用
                                    Array_06
javaoraclesql
                                    可是为什么再一次失败之后就变成直接跳过那个要求 
enter full pathname of java.exe的界面 
 
 
这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！ 
注意第一次，使用SQL D
                                
                                Weblogic Server Console密码修改和遗忘解决方法
                                    bijian1013
Welogic
                                            在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。 
一.修改Console密码 
        打开weblogic控制台，安全领域 --> myrealm -->&n
                                
                                IllegalStateException: Cannot forward a response that is already committed
                                    Cwind
javaServlets
                                    对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。   示例代码：   
protected void doPost() {
    if (someCondition) {
        sendRedirect();
    }
    forward(); // Thi
                                
                                基于流的装饰设计模式
                                    木zi_鸣
设计模式
                                    当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。 
自定义的类成为装饰类 
 
模仿BufferedReader，对Reader进行包装，体现装饰设计模式 
 
装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。 
装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系 
 
装饰类因为增强已有对象，具备的功能该
                                
                                Linux中的uniq命令
                                    被触发
linux
                                    Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情 况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如 果输入文件用“- ”表示，则从标准输入读取。 
AD： 
uniq [选项] 文件 
说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
                                
                                正则表达式Pattern
                                    肆无忌惮_
Pattern
                                    正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。 
  
例如，我们需要对QQ号码格式进行检验 
规则是长度6~12位  不能0开头  只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} 
&nbs
                                
                                Oracle高级查询之OVER (PARTITION BY ..)
                                    知了ing
oraclesql
                                    一、rank()/dense_rank() over(partition by ...order by ...) 
 
现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： 
 
 select e.ename, e.job, e.sal, e.deptno  
  from scott.emp e,  
       (se
                                
                                Python调试
                                    矮蛋蛋
pythonpdb
                                    原文地址： 
http://blog.csdn.net/xuyuefei1988/article/details/19399137 
1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： 
 
IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： 
 
http://www.ibm.com/d
                                
                                webservice传递自定义对象时函数为空，以及boolean不对应的问题
                                    alleni123
webservice
                                    今天在客户端调用方法 
NodeStatus status=iservice.getNodeStatus(). 
 
结果NodeStatus的属性都是null。 
 
进行debug之后，发现服务器端返回的确实是有值的对象。 
 
后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。 
本来是因为逻辑上不需要在客户端使用setter， 结果改了之后竟然不能获取带属性值的
                                
                                java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针
                                    百合不是茶

                                    C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作： 
  
定义一个指针p来指向a的地址（&是地址符号）： 
        
                                
                                Eclipse打不开，提示“An error has occurred.See the log file ***/.log”
                                    bijian1013
eclipse
                                    打开eclipse工作目录的\.metadata\.log文件，发现如下错误： 
 
!ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 
!MESSAGE Application error 
!STACK 1 
java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
                                
                                spring aop实例annotation方法实现
                                    bijian1013
javaspringAOPannotation
                                            在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut 
AdviceMethods.jav
                                
                                [Velocity一]Velocity语法基础入门
                                    bit1129
velocity
                                    用户和开发人员参考文档 
http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 
  注释 
1.行级注释## 
2.多行注释#*  *# 
  变量定义 
使用$开头的字符串是变量定义，例如$var1, $var2, 
  赋值 
使用#set为变量赋值，例
                                
                                【Kafka十一】关于Kafka的副本管理
                                    bit1129
kafka
                                    1. 关于request.required.acks 
  
request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 
0表示即不进行确认即返回。 
1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 
-1表示根据指定的最少Partition确认后才返回，这个在 
  
Th
                                
                                lua统计nginx内部变量数据
                                    ronin47
lua nginx　 统计
                                    server {
    listen 80;
    server_name photo.domain.com;
    location /{set $str $uri;
        content_by_lua '
            local url = ngx.var.uri
            local res = ngx.location.capture(
                                
                                java-11.二叉树中节点的最大距离
                                    bylijinnan
java
                                    
import java.util.ArrayList;
import java.util.List;


public class MaxLenInBinTree {

	/*
	 a.			1
	 		   /  \
	 		  2    3
	 		 / \  / \
	 		4   5 6  7
	 	max=4	pass "root"
	 
                                
                                Netty源码学习-ReadTimeoutHandler
                                    bylijinnan
javanetty
                                     
ReadTimeoutHandler的实现思路： 
开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 
这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 
 
 

private final ChannelHandler timeoutHandler =
	new ReadTim
                                
                                jquery验证上传文件样式及大小(好用)
                                    cngolon
文件上传jquery验证
                                    <!DOCTYPE html>
<html>
<head>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
    <script src="jquery1.8/jquery-1.8.0.
                                
                                浏览器兼容【转】
                                    cuishikuan
css浏览器IE
                                    浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同 
 
问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。 
 
碰到频率:100% 
 
解决方案：CSS里    *{margin:0;padding:0;} 
 
备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
                                
                                Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数
                                    daizj
shell$#$?特殊变量
                                    前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码：   
 
  $echo $$  
   
运行结果 
29949 
   特殊变量列表   变量 含义   $0 当前脚本的文件名   $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
                                
                                程序设计KISS 原则-------KEEP IT SIMPLE, STUPID!
                                    dcj3sjt126com
unix
                                    翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 
 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真 正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
                                
                                android Activity间List传值
                                    dcj3sjt126com
Activity
                                    第一个Activity： 
import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
                                
                                tomcat 设置java虚拟机内存
                                    eksliang
tomcat 内存设置
                                    转载请出自出处：http://eksliang.iteye.com/blog/2117772 
http://eksliang.iteye.com/ 
常见的内存溢出有以下两种: 
java.lang.OutOfMemoryError: PermGen space  
java.lang.OutOfMemoryError: Java heap space 
  
------------
                                
                                Android 数据库事务处理
                                    gqdy365
android
                                    使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
                                
                                Java 打开浏览器
                                    hw1287789687
打开网址open浏览器open browser打开url打开浏览器
                                    使用java 语言如何打开浏览器呢? 
我们先研究下在cmd窗口中,如何打开网址 
使用IE 打开 
D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 
使用火狐打开 
D:\software\bin>cmd /c start firefox http://hw1287789
                                
                                ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件
                                    justjavac
chromeGooglegoogle apichrome插件
                                    Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 
 
 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。 同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
                                
                                进程VS.线程
                                    m635674608
线程
                                    资料来源： 
http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点 优点： 
多进程模式最大
                                
                                Linux下安装MemCached
                                    字符串
memcached
                                    前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
                                
                                java设计模式之--jdk动态代理（实现aop编程）
                                    Supanccy2013
javaDAO设计模式AOP
                                        与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 
&
                                
                                Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持
                                    wiselyman
spring 4
                                    2.1 默认方法(default method) 
 
 java8引入了一个default medthod; 
 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展 
 使用default关键字 
 Spring 4.2支持加载在默认方法里声明的bean 
  
2.2 
 
 将要被声明成bean的类 
  
public class DemoService {
    
                                
                
            
        
    


    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    


    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.