艾派森

基于LSTM和N-gram序列的英文文本生成

‍♂️ 个人主页：@艾派森的个人主页

✍作者简介：Python学习者
希望大家多多支持，我们一起进步！
如果文章对你有帮助的话，
欢迎评论点赞收藏加关注+

1.项目背景

2.数据集介绍

3.技术工具

4.实验过程

4.1数据探索

4.2数据预处理

4.3标记文本

4.4创建N-gram序列

4.5填充序列

4.6词嵌入

4.7模型设计

4.8回调

4.8编译并训练模型

4.9文本生成

4.9.1贪婪搜索文本生成

4.9.2束搜索文本生成

4.9.3随机抽样文本生成

4.9.4带温度的随机采样文本生成

4.9.5Top-k采样文本生成

4.9.6核(Top-p)文本生成采样

5.总结

文末推荐与福利

1.项目背景

英文文本生成是自然语言处理领域中的一个重要问题，其目标是通过计算机模型生成与人类书写风格相似的连贯文本。这一问题的研究具有广泛的应用，包括机器翻译、智能对话系统、自动摘要、文本创作等领域。随着深度学习技术的不断发展，基于神经网络的文本生成模型取得了显著的进展。

在文本生成任务中，长短时记忆网络（LSTM）是一种特别适用的神经网络结构。LSTM能够捕捉文本中的长距离依赖关系，有助于生成更加连贯和语义丰富的文本。然而，单独使用LSTM模型可能会面临词汇多样性不足、生成文本过于平滑等问题。

为了解决这些问题，研究者们常常结合传统的N-gram模型与LSTM等深度学习模型，以期在生成文本的同时兼顾语法规律和语义关联。N-gram模型能够考虑局部的词汇顺序信息，对于捕捉短期依赖关系和提高词汇多样性有一定的帮助。将N-gram与LSTM相结合，可以在长距离依赖关系和短期依赖关系之间找到平衡，提高文本生成的质量。

此外，通过深入研究N-gram和LSTM在文本生成任务中的协同作用，我们可以更好地理解它们之间的关系，为设计更高效、更精准的文本生成模型提供理论指导。因此，本实验旨在探索基于LSTM和N-gram序列的英文文本生成方法，提高生成文本的流畅性、多样性和语义准确性，为自然语言处理领域的相关研究和应用提供有益的参考。

2.数据集介绍

此数据集提供有关莎士比亚戏剧的结构化信息，包括有关行为、场景和人物对话的详细信息。数据集中的每一行都对应于剧中角色所说的特定台词。原始数据共有111396条，6个变量，各变量含义如下:

Dataline:数据集中每一行的唯一标识符。

Play:剧名。

PlayerLinenumber:在某些情况下，它表示与玩家讲话相关的行号，有助于维持对话的顺序。

ActSceneLine:这一栏结合了动作、场景和台词信息，提供了剧中每条台词的位置的结构化参考。

Player:传递台词的角色，例如本数据集中的“亨利四世”。

PlayerLine:角色所说的实际对话或台词，提供他们的演讲文本。

此数据集可用于各种目的，例如文本分析、角色研究或戏剧“亨利四世”的场景提取。对戏剧内容和结构感兴趣的研究人员和爱好者可以利用这些数据来深入了解戏剧的对话、角色和整体流程。

3.技术工具

Python版本:3.9

代码编辑器：jupyter notebook

4.实验过程

4.1数据探索

首先需要导入本次实验用到的第三方库并加载数据集，

import re
import csv
import string
import pickle
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
from wordcloud import WordCloud

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.layers import Embedding, LSTM, Dense, Dropout, Bidirectional
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.models import Sequential
from tensorflow.keras.optimizers import Adam
from tensorflow.keras import regularizers
from tensorflow.keras.callbacks import ModelCheckpoint, ReduceLROnPlateau
import tensorflow.keras.utils 

df = pd.read_csv('Shakespeare_data.csv')
df.head()

print("Number of PlayerLines:", len(df['PlayerLine']))
print("First Few PlayerLines:")
print(df['PlayerLine'].head())

print("\nText Length Statistics:")
print(df['PlayerLine'].apply(len).describe())

plt.figure(figsize=(10, 6))
plt.hist(df['PlayerLine'].apply(len), bins=10, color='skyblue')
plt.title('PlayerLine Text Length Distribution')
plt.xlabel('Text Length')
plt.ylabel('Frequency')

plt.tight_layout()
plt.show()

text = ' '.join(df['PlayerLine'])
wordcloud = WordCloud(width=800, height=400, background_color='black').generate(text)
plt.figure(figsize=(10, 6))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.title('Word Cloud for PlayerLine Column')
plt.tight_layout()
plt.show()

构建语料库

corpus = []
with open('Shakespeare_data.csv') as f:
    reader = csv.reader(f, delimiter=',')
    next(reader)        
    for row in reader:
        corpus.append(row[5])
        
print(len(corpus))
print(corpus[:3])

4.2数据预处理

数据清理是为自然语言处理(NLP)任务准备文本数据的重要步骤。它涉及到几个过程，以确保文本数据是一致的、标准化的、便于分析和建模的更易于管理的形式。以下是对数据清理过程的解释:文本数据中经常出现额外的空格和换行符，特别是当它来自不同的来源时。这些多余的空格可以被删除，以确保文本更简洁和统一。

文本数据可能包含与分析无关的特殊字符、符号或非字母数字字符。删除这些字符有助于简化文本，并将重点放在重要内容上。标点符号，如句号、逗号、感叹号和问号，通常会从文本数据中删除。如果分析的重点是单词级别的模式，这一步尤其重要，因为标点符号可能会干扰单词标记化。将所有文本转换为小写可确保文本不区分大小写。这一步有助于标准化数据和简化模式识别，因为“word”和“Word”被视为同一个单词。

在某些情况下，文本数据可能包含非ascii字符或编码问题。将文本编码为特定格式(例如，UTF-8)，然后将其解码回ASCII，同时忽略有问题的字符有助于处理与编码相关的挑战。通过执行这些清理操作，文本数据变得更适合各种NLP任务，例如文本分类、情感分析、文本生成等等。干净的数据噪音更少，与NLP模型更兼容，确保模型可以专注于文本中的潜在模式和含义，而不是无关的噪音或不一致。此外，干净的数据简化了文本处理管道，使其更易于使用和分析。

def text_cleaner(text):
    text = re.sub(r'\s+\n+', ' ', text)
    text = re.sub(r'[^a-zA-Z0-9\.]', ' ', text)
    text = "".join(car for car in text if car not in string.punctuation).lower()
    text = text.encode("utf8").decode("ascii",'ignore')
    return text

corpus = [text_cleaner(line) for line in corpus]

4.3标记文本

在下一步中，我们将设置一个标记器，并使用它来处理清理后的文本数据。标记器的作用是将每个单词映射到一个数值。由于许多机器学习操作基本上都是矩阵操作，因此我们需要将文本数据转换为与这些操作兼容的数字格式。

corpus = corpus[:5000]
tokenizer = Tokenizer()
tokenizer.fit_on_texts(corpus)
word_index = tokenizer.word_index
total_words = len(word_index) + 1
total_words

4.4创建N-gram序列

在为文本生成准备文本数据的过程中，我们将首先根据前面建立的单词到数字的映射将句子转换为数字序列。随后，我们将深入研究N-gram处理，这是文本生成的关键步骤。

在机器学习领域，我们的目标是根据可用数据做出预测。在这个特殊的任务中，我们的目标是在给定初始单词的情况下预测句子中的下一个单词。因此，我们必须相应地构建我们的数据。

下面是我们要做的:我们将把每个句子转换成N-gram格式。这包括将文本分割成序列，最后一个单词作为目标。

例如，考虑源数据“I love Artificial Intelligence”:

I love

I love Artificial

I love Artificial Intelligence

本质上，我们从一个句子的第一个单词作为初始特征，后面的单词成为目标(标签)。我们对句子中的每个单词重复这个过程。因此，我们的模型提供了一个数据集，该数据集指示下一个单词应该给出一个特定的序列。在后面的文本生成过程中，我们将引入填充以确保每个特征标签对具有相同的大小，这是训练机器学习模型的必要步骤。

input_sequences =[]

for sentence in corpus:
    token_list = tokenizer.texts_to_sequences([sentence])[0]
    for i in range(1, len(token_list)):
        n_gram_sequence = token_list[:i+1]
        input_sequences.append(n_gram_sequence)
len(input_sequences)

句子排序后是什么样子?

在提供的输出中，序列，如[159,3]，[159,3,312]，[159,3,312,1]，[159,3,312,1,812]等，表示从输入数据生成的n-gram短语。这些序列中的每个整数对应于文本中存在的完整词汇表中特定单词的索引。

例如，短语“And breathe short-winded accent of new broils”被转换成以下n-gram序列:

“i stand”表示为[30,507]。这意味着在词汇表中，单词“i”与索引30相关联，而“stand”与索引507相关联。

“i stand with”表示为[30,507,11]。在词汇表中，“i”的索引为30，“stand”的索引为507，“with”的索引为11。

“i stand with the”表示为[30,507,11,1]。这里，“i”在索引30处，“stand”在507处，“with”在11处，“the”在索引1处。

“i stand with the shedevils”表示为[30,507,11,1,975]。在词汇表中，“i”对应索引30，“stand”对应索引507，“with”对应索引11，“the”对应索引1，“shedevils”对应索引975。

这些序列有助于以机器学习模型可以理解的格式表示文本。整数作为指向词汇表中特定单词的索引，允许模型学习文本数据中的模式和关系。

max_sequence_len = max([len(x) for x in input_sequences])
print(max_sequence_len)

4.5填充序列

我们生成的n元序列的一个挑战是它们的长度是不同的。在涉及矩阵操作的任务中，具有一致的大小和形状对于有效处理至关重要。为了确保一致性，我们将通过向每个序列添加“零”值来合并填充，使它们的长度相同。这就是我们的最大序列长度参数变得有价值的地方。

input_sequences = np.array(pad_sequences(input_sequences, 
                                         maxlen=max_sequence_len, 
                                         padding='pre'))
before = input_sequences[1]
after = input_sequences[1]

为了说明填充对序列的影响，让我们比较填充操作前后的序列。

print(f'Before: {before}')
print(f'After: {after}')

正如你所看到的，零被添加到原始序列的开头(例如，[159,3])。这种填充确保数据集中的每个条目都具有相同的长度。当使用机器学习模型时，统一的序列长度对于一致和有效的处理非常重要。

生成特征标签对

有了清理和准备好的文本语料库，现在是时候创建特征标签对的核心数据集了。该数据集将作为训练文本生成模型的基础。你可能还记得为什么我们在原始序列的开头添加填充的问题。这一步很重要，因为它使我们能够有效地构建训练数据集。该方法包括将序列的最后一个值设置为标签，前面的值成为特征。从本质上讲，我们训练模型来学习遵循文本中特定模式的典型单词。一旦模型完成训练，它将拥有根据前一个单词提供的上下文预测序列中的下一个单词来生成文本的能力。

predictors, label = input_sequences[:,:-1],input_sequences[:,-1]
label = tensorflow.keras.utils.to_categorical(label, num_classes=total_words)
print(label[0])
print(label[0].shape)

4.6词嵌入

词嵌入，如Word2Vec、GloVe和FastText，是自然语言处理(NLP)和文本生成的基本工具。它们将单词或符号表示为连续向量空间中的多维向量。每个单词被映射到这个空间中的一个点，单词在向量空间中的位置捕获它们之间的语义关系和上下文信息。

在文本生成中，嵌入层通常是神经网络模型的第一层。它将输入文本(单词或标记)转换为相应的嵌入，从而允许模型在连续向量空间中操作。这种连续表示使文本生成模型能够生成连贯、上下文相关且语义准确的类似人类的文本。嵌入是文本生成的基本组成部分，因为它们弥合了单词与其语义之间的差距，从而能够生成自然的和上下文感知的文本。

glove_path = "glove.twitter.27B.200d.txt"
embeddings_index = dict()
with open(glove_path,
          encoding="utf8") as glove:
    for line in glove:
        values = line.split()
        word = values[0]
        coefs = np.asarray(values[1:], dtype='float32')
        embeddings_index[word] = coefs
    glove.close()

embedding_matrix = np.zeros((total_words, 200))
for word, index in tokenizer.word_index.items():
    if index > total_words - 1:
        break
    else:
        embedding_vector = embeddings_index.get(word)
        if embedding_vector is not None:
            embedding_matrix[index] = embedding_vector

4.7模型设计

模型设计在文本生成过程中起着至关重要的作用。该体系结构旨在获得有效生成文本的能力。它将单词序列转换为向量嵌入，利用双向lstm处理序列，并使用softmax输出层来预测下一个单词。从本质上讲，它是一个用于理解上下文并生成连贯且与上下文相关的文本的健壮框架。

model = Sequential()
model.add(Embedding(total_words, 200, 
                     weights = [embedding_matrix],
                     input_length=max_sequence_len-1))
model.add(Bidirectional(LSTM(512)))
model.add(Dropout(0.3))
model.add(Dense(total_words, 
                activation='softmax'))
print(model.summary())

tensorflow.keras.utils.plot_model(model,show_shapes=True)

4.8回调

在深度学习中，回调是在模型训练过程中的特定点调用的函数或对象。它们有各种用途，可以定制以添加功能或在培训期间执行操作。以下是回调常用用例的概述:

自定义回调，如“MyCallback”允许您在训练的特定点实现您的逻辑和操作。这可以包括自定义评估、日志记录或您认为必要的任何其他操作。

“earlystopped”回调监视指定的度量(例如，验证丢失)，并在度量停止改进时停止训练。它有助于防止过度拟合，并在不太可能进一步改善的情况下提前结束训练，从而节省时间。

“ModelCheckpoint”回调在训练期间保存模型检查点，通常基于所选指标的最佳性能。这确保了您可以访问最佳的模型权重以供以后使用。

“TensorBoard”回调记录了TensorBoard的各种指标和可视化，TensorBoard是一个用于监控和可视化训练过程的强大工具。它有助于跟踪模型性能和调试。

“learningratesscheduler”回调在训练期间调整学习率。学习率计划可以通过调整特定时期或条件下的学习率来帮助优化训练过程。

“LambdaCallback”允许您在培训过程中的特定点定义自定义操作。这是一个通用的回调，您可以将其用于自定义打印语句或基于训练进度的操作等任务。

回调增强了机器学习模型的灵活性和功能性。它们使您能够控制和定制训练过程的各个方面，从而使在训练期间更容易监视、优化和与模型交互。

class MyCallback(tf.keras.callbacks.Callback):
    
    def __init__(self,x,y):
        self.x=x
        self.y=y

    def on_epoch_end(self,batch, logs=None):    
        print("\nEpochs Ending Custom Callbacks:Intiation Predicting on test set:::")
        logs['from custom callback']=self.model.evaluate(self.x,self.y)[0]
def scheduler(epoch, lr):

    if epoch %2 == 0 :
        print("Epoch:",epoch,"Learning Rate:",lr)
        return lr
    else:
        print("Epoch:",epoch,"Learning Rate:", lr * tf.math.exp(-0.1))
        lr_updated= lr * tf.math.exp(-0.1)
        return  lr_updated

filename = "log_callbackscsvlogger.csv"
monitor_metric = "loss"
file_path = 'model.{epoch:02d}-{loss:.2f}.h5'

my_callbacks = [
    MyCallback(predictors, label),
    tf.keras.callbacks.EarlyStopping(monitor=monitor_metric, min_delta=0, patience=5, verbose=0, mode="min", baseline=None, restore_best_weights=True),
    tf.keras.callbacks.ModelCheckpoint(filepath=file_path, monitor=monitor_metric, save_best_only=True),
    tf.keras.callbacks.TensorBoard(log_dir="./tensorboardlogs"),
    tf.keras.callbacks.LearningRateScheduler(scheduler, verbose=0),
    tf.keras.callbacks.LambdaCallback(on_epoch_begin=lambda epoch, logs: print("Lambdacallback in epoch begin:: Epoch count", epoch))
]

4.8编译并训练模型

model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

history = model.fit(predictors, 
                    label,
                    epochs=100,
                    batch_size=64,
                    verbose=1,
                    callbacks=my_callbacks)

model.save('shakespeare_model.h5')

训练结果可视化

plt.figure(figsize=(10,7))
plt.plot(history.history['loss'],label='Training Loss')
plt.title("Training Loss")
plt.show()

plt.figure(figsize=(10,7))
plt.plot(history.history['accuracy'],label='Training Accuracy')
plt.title("Training Accuracy")
plt.show()

4.9文本生成

4.9.1贪婪搜索文本生成

贪婪搜索是一种简单直接的算法，可用于各种优化和决策问题。在自然语言处理和机器学习的背景下，它通常用于生成序列，例如文本生成或解码任务。贪婪搜索背后的基本思想是在每一步都做出局部最优选择，而不考虑该选择对未来决策的影响。

例如，在文本生成中，当选择序列中的下一个单词时，贪婪算法根据语言模型选择下一个出现概率最高的单词，而不考虑该选择如何影响生成文本的整体一致性和质量。贪婪搜索虽然简单且计算效率高，但可能并不总是产生最佳的整体解决方案，而且可能导致次优结果，特别是在复杂和微妙的任务中。

def greedy_search_generator(seed_text, num):
    if len(seed_text) == 0:
        print("Error: No word found")
        return

    for _ in range(num):
        token_list = tokenizer.texts_to_sequences([seed_text])[0]
        token_list = pad_sequences([token_list], maxlen=max_sequence_len-1, padding="pre")
        predicted = model.predict(token_list, verbose=0)

        predicted_word_index = np.argmax(predicted)
        predicted_word = tokenizer.index_word[predicted_word_index]

        seed_text += " " + predicted_word

    print(seed_text)

greedy_search_generator("my gentle cousin Westmoreland", 10)

4.9.2束搜索文本生成

束搜索是一种文本生成技术，通常用于自然语言处理和机器学习，特别是在机器翻译和文本生成等任务中。这是对贪婪搜索的改进，贪婪搜索倾向于产生局部最优解，但可能不会产生最佳的整体序列。波束搜索旨在通过在每一步考虑多个候选序列并保留固定数量的最可能的候选序列(称为“波束宽度”)来找到一个更全局的最优解。

束搜索是一种广泛使用的技术，因为与贪婪搜索相比，它通常产生更连贯和上下文相关的文本。生成文本的质量可以通过改变波束宽度来调整，较大的波束宽度考虑到更广泛的可能性，但需要更多的计算。然而，即使使用光束搜索，也必须记住，它可能并不总是找到绝对最佳的解决方案，并且在某些情况下仍然可能生成缺乏全局一致性的文本。

def beam_search_generator(seed_text, num_words, beam_width=3):
    if len(seed_text) == 0:
        print("Error: No word found")
        return

    input_sequence = tokenizer.texts_to_sequences([seed_text])[0]
    input_sequence = pad_sequences([input_sequence], maxlen=max_sequence_len - 1, padding="pre")

    sequences = [{'text': seed_text, 'sequence': input_sequence, 'score': 1.0}]

    for _ in range(num_words):
        next_candidates = []
        for candidate in sequences:
            input_sequence = candidate['sequence']
            predicted_probabilities = model.predict(input_sequence, verbose=0)
            top_words = np.argsort(predicted_probabilities[0])[-beam_width:]

            for word in top_words:
                if word != 0:
                    new_sequence = input_sequence.copy()
                    new_sequence[0][-1] = word
                    generated_word = tokenizer.index_word[word]
                    new_text = candidate['text'] + " " + generated_word
                    new_score = candidate['score'] * predicted_probabilities[0][word]
                    next_candidates.append({'text': new_text, 'sequence': new_sequence, 'score': new_score})

        next_candidates.sort(key=lambda x: -x['score'])
        sequences = next_candidates[:beam_width]

    for candidate in sequences:
        print(candidate['text'])

beam_search_generator("my gentle cousin Westmoreland", num_words=10, beam_width=3)

4.9.3随机抽样文本生成

在文本生成上下文中，随机抽样是一种技术，涉及根据词汇表的概率分布在序列中选择下一个单词或标记。随机抽样不像贪婪搜索那样总是选择最可能的单词，也不像束搜索那样总是考虑固定数量的候选词，而是在文本生成过程中引入了随机性元素。它通过随机选择单词来允许生成文本的多样性，并根据其可能性为每个单词提供被选择的概率。虽然随机抽样可以产生更多样化和更有创意的输出，但它也可能导致文本缺乏连贯性或质量控制，因为它没有优先考虑最有可能的选择。这种技术通常用于创造性文本生成任务，如诗歌或艺术语言生成，其中多样性和不可预测性是期望的结果。

def random_sampling_generator(seed_text, num_words):
    generated_text = seed_text
    for _ in range(num_words):
        token_list = tokenizer.texts_to_sequences([seed_text])[0]
        token_list = pad_sequences([token_list], maxlen=max_sequence_len-1, padding="pre")
        predicted = model.predict(token_list, verbose=0)

        predicted_word_index = np.random.choice(len(predicted[0]), p=predicted[0])
        predicted_word = tokenizer.index_word[predicted_word_index]

        seed_text += " " + predicted_word
        generated_text += " " + predicted_word

    return generated_text

generated_text_random = random_sampling_generator("my gentle cousin Westmoreland", num_words=10)
print(generated_text_random)

4.9.4带温度的随机采样文本生成

在文本生成中，“temperature”参数充当调节旋钮，控制输出中的随机性水平。较高的温度会引入更多的随机性和多样性，从而导致更少的可预测性和更具创造性的文本。相反，较低的温度使生成过程更具确定性，重点放在最可能的单词上，从而产生更可控和可预测的输出。温度的选择是使用概率语言模型(如GPT)的一个关键方面，允许用户微调一致性和创造性之间的权衡，以适应他们的特定应用和要求。

def generate_text_random(seed_text, num_words, temperature):
    generated_text = seed_text
    for _ in range(num_words):
        token_list = tokenizer.texts_to_sequences([seed_text])[0]
        token_list = pad_sequences([token_list], maxlen=max_sequence_len-1, padding="pre")
        predicted = model.predict(token_list, verbose=0)

        predicted = np.log(predicted) / temperature
        predicted = np.exp(predicted) / np.sum(np.exp(predicted))

        predicted_word_index = np.random.choice(len(predicted[0]), p=predicted[0])
        predicted_word = tokenizer.index_word[predicted_word_index]

        seed_text += " " + predicted_word
        generated_text += " " + predicted_word

    return generated_text

generated_text_random = generate_text_random("my gentle cousin Westmoreland", num_words=10, temperature=0.7)
print(generated_text_random)

4.9.5Top-k采样文本生成

Top-k采样是一种文本生成方法，可以提高生成文本的可预测性和质量。它包括从k个最有可能的候选词的精简集中选择下一个词，而不是考虑整个词汇表。通过将选择范围缩小到预测概率最高的前k个单词，前k个采样在确定性和随机性之间取得了平衡。较小的k值导致文本生成更具确定性和重点，而较大的k值则引入多样性和创造力。该技术广泛应用于各种自然语言处理应用，以生成连贯的、与上下文相关的文本，并控制变化水平。

def top_k_sampling(logits, k=10):
    values, indices = tf.math.top_k(logits, k)
    values /= tf.reduce_sum(values)
    chosen_index = tf.random.categorical(tf.math.log(values), 1)[0, 0]
    return indices[0, chosen_index].numpy()

def generate_text_top_k(seed_text, num_words, k=10):
    generated_text = seed_text
    for _ in range(num_words):
        token_list = tokenizer.texts_to_sequences([seed_text])[0]
        token_list = pad_sequences([token_list], maxlen=max_sequence_len-1, padding="pre")
        predicted = model.predict(token_list, verbose=0)

        predicted_word_index = top_k_sampling(predicted, k)
        predicted_word = tokenizer.index_word[predicted_word_index]

        seed_text += " " + predicted_word
        generated_text += " " + predicted_word

    return generated_text

generated_text_top_k = generate_text_top_k("my gentle cousin Westmoreland", num_words=10, k=10)
print(generated_text_top_k)

4.9.6核(Top-p)文本生成采样

核采样，也称为top-p采样，是一种文本生成技术，用于提高生成文本的质量和控制。它涉及到从单词子集中选择下一个单词，这些单词共同构成一个预定义的累积概率，表示为“p”。核抽样不是考虑整个词汇表或固定数量的候选词，而是关注一组动态的词，这些词占累积概率质量的大部分。这种技术允许更可控和连贯的文本生成，因为选择的单词更有可能与上下文相关，同时仍然引入多样性和适应性。核采样在语言建模等任务中很有价值，在这些任务中，精确和灵活地生成文本是必不可少的。调整“p”的值允许用户在生成的文本中微调确定性和随机性之间的权衡。

def nucleus_sampling(logits, p=0.9):
    sorted_logits, sorted_indices = tf.math.top_k(logits, len(logits))
    cumulative_probs = tf.cumsum(tf.math.softmax(sorted_logits, axis=-1))
    sorted_indices_to_remove = cumulative_probs > p

    indices_to_remove = tf.range(0, len(logits)) > tf.reduce_sum(tf.cast(sorted_indices_to_remove, tf.int32))

    filtered_logits = logits - tf.reduce_max(logits)
    filtered_logits = tf.where(indices_to_remove, -np.inf, filtered_logits)
    sampled_word_index = tf.argmax(filtered_logits)
    return sampled_word_index

reverse_word_index = {value: key for key, value in tokenizer.word_index.items()}

def generate_text_nucleus(seed_text, num_words, p=0.9):
    generated_text = seed_text
    for _ in range(num_words):
        token_list = tokenizer.texts_to_sequences([seed_text])[0]
        token_list = pad_sequences([token_list], maxlen=max_sequence_len-1, padding="pre")
        predicted = model.predict(token_list, verbose=0)

        predicted_word_index = int(nucleus_sampling(predicted[0], p))
        predicted_word = reverse_word_index[predicted_word_index]

        seed_text += " " + predicted_word
        generated_text += " " + predicted_word

    return generated_text

generated_text_nucleus = generate_text_nucleus("They lost", num_words=20, p=0.9)
print(generated_text_nucleus)

with open('tokenizer.pkl', 'wb') as tokenizer_file:
    pickle.dump(tokenizer, tokenizer_file)

5.总结

文本生成技术，如贪婪搜索、束搜索、随机抽样、温度随机抽样、Top-k抽样和核(Top-p)抽样，在增强LSTM模型在各种应用中的能力方面发挥着至关重要的作用。

贪婪搜索简单有效，但可能缺乏多样性，使其适合于翻译和摘要等任务。Beam Search提供了更加平衡的方法，提高了翻译和摘要的质量。随机抽样引入了创造力，但可能缺乏控制，而带有温度的随机抽样平衡了多样性和连贯性，在创意写作中特别有用。Top-k Sampling增强了确定性和随机性之间的平衡，使其适用于各种任务。核抽样或Top-p抽样结合了可预测性和多样性，有利于语言建模。多样波束搜索有助于释义和图像字幕，而约束波束搜索则用于释义、文案和SEO优化。Topk、TopP、TopKP的组合在创意写作方面表现出色。这些技术使LSTM模型能够在一系列应用程序中生成适合特定需求的文本，从准确性和一致性到创造性和多样性。

文末推荐与福利

《AI时代Python量化交易实战》免费包邮送出3本！

内容简介：

        《AI时代Python量化交易实战：ChatGPT让量化交易插上翅膀》是一本旨在帮助架构师在人工智能时代展翅高飞的实用指南。全书以ChatGPT为核心工具，揭示了人工智能技术对架构师的角色和职责进行颠覆和重塑的关键点。《AI时代Python量化交易实战：ChatGPT让量化交易插上翅膀》通过共计 13 章的系统内容，深入探讨AI技术在架构设计中的应用，以及AI对传统架构师工作方式的影响。通过学习，读者将了解如何利用ChatGPT这一强大的智能辅助工具，提升架构师的工作效率和创造力。
        《AI时代Python量化交易实战：ChatGPT让量化交易插上翅膀》的读者主要是架构师及相关从业人员。无论你是初入职场的新手架构师还是经验丰富的专业人士，《AI时代Python量化交易实战：ChatGPT让量化交易插上翅膀》都将成为你的指南，帮助你在人工智能时代展现卓越的架构设计能力。通过《AI时代Python量化交易实战：ChatGPT让量化交易插上翅膀》的指导，你将学习如何运用ChatGPT等工具和技术，以创新的方式构建高效、可靠、可扩展的软件架构。
        同时，《AI时代Python量化交易实战：ChatGPT让量化交易插上翅膀》也适用于对架构设计感兴趣的其他技术类从业人员，如软件工程师、系统分析师、技术顾问等。通过学习《AI时代Python量化交易实战：ChatGPT让量化交易插上翅膀》的内容，你可以深入了解人工智能对架构设计的影响和带来的挑战，拓展自己的技术视野，提升对软件系统整体架构的理解和把握能力。

编辑推荐：

1.量化交易新模式：让量化交易更高效、更快捷、更完美。

2.全流程解析：涵盖量化交易的不同应用场景，介绍从发量化交易Python语言基础、工具库、可视化库、数据采集与分析，再到量化交易、套利策略等关键环节。

3.实战检验：ChatGPT结合多种量化交易工具及案例实操讲解，理解更加透彻。

4.100%提高量化交易效率：揭秘ChatGPT与量化交易高效融合的核心方法论和实践经验。

5.赠送资源：赠送教学视频及配套工具，供读者下载学习。

抽奖方式：评论区随机抽取3位小伙伴免费送出！

参与方式：关注博主、点赞、收藏、评论区评论“人生苦短，拒绝内卷！”（切记要点赞+收藏，否则抽奖无效，每个人最多评论三次！）

活动截止时间：2023-12-10 20:00:00

当当购买链接：http://product.dangdang.com/29658180.html
京东购买链接：https://item.jd.com/14297538.html

名单公布时间：2023-12-10 21:00:00

资料获取，更多粉丝福利，关注下方公众号获取

你可能感兴趣的:(文本分析,深度学习,lstm,数据挖掘,深度学习,神经网络,人工智能)

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
使用NVIDIA NeRF将2D图像转换为逼真的3D模型（Python） ByteWhiz 3d python 计算机视觉 Python
使用NVIDIANeRF将2D图像转换为逼真的3D模型（Python）NeuralRadianceFields（NeRF）是一种强大的方法，可以将2D图像转换为逼真的3D模型。它使用神经网络来建模场景的辐射场，并通过渲染多个视角的图像来重建3D模型。在本文中，我们将使用Python和NVIDIANeRF库来实现这一过程。首先，我们需要安装所需的库。我们可以通过以下命令使用pip安装NVIDIANe
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
图神经网络：挖掘关系数据中的宝藏
图神经网络：挖掘关系数据中的宝藏在浩瀚的数据海洋中，蕴藏着一类特殊而强大的资源——关系数据。它们不是孤立的点，而是相互连接、彼此影响的复杂网络：社交平台上朋友的朋友、电商系统中商品与用户的互动、蛋白质分子内原子的结合、城市交通网中的道路连接……这些数据天然以图的形式存在，节点代表实体，边则承载着实体间千丝万缕的关系。传统的数据挖掘工具面对这些盘根错节的结构往往力不从心，而图神经网络（GNN）的崛起
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
Python桌面应用开发的未来——智能化工具与大模型赋能 IronwoodStag78
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！标题：Python桌面应用开发的未来——智能化工具与大模型赋能随着人工智能技术的飞速发展，传统软件开发模式正在被重新定义。Python作为一门功能强大且灵活的语言，在桌面应用开发领域一直占据重要地位。然而，面对日益复杂的用户需求和快速变化的技术环境，如何提升开发效率、降低开发门槛，成为开发者亟需解决的问题
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &