BIT_mk

NLP夏令营任务二—Baseline代码精读

任务一：文献领域分类

Baseline中我们选择使用BOW将文本转换为向量表示，选择逻辑回归模型来完成训练和评估代码演示如下：

# 导入pandas用于读取表格数据
import pandas as pd

# 导入BOW（词袋模型），可以选择将CountVectorizer替换为TfidfVectorizer（TF-IDF（词频-逆文档频率）），注意上下文要同时修改，亲测后者效果更佳
from sklearn.feature_extraction.text import CountVectorizer

# 导入LogisticRegression回归模型
from sklearn.linear_model import LogisticRegression

# 过滤警告消息
from warnings import simplefilter
from sklearn.exceptions import ConvergenceWarning
simplefilter("ignore", category=ConvergenceWarning)


# 读取数据集
train = pd.read_csv('./基于论文摘要的文本分类与关键词抽取挑战赛公开数据/train.csv')
train['title'] = train['title'].fillna('')
train['abstract'] = train['abstract'].fillna('')

test = pd.read_csv('./基于论文摘要的文本分类与关键词抽取挑战赛公开数据/test.csv')
test['title'] = test['title'].fillna('')
test['abstract'] = test['abstract'].fillna('')


# 提取文本特征，生成训练集与测试集
train['text'] = train['title'].fillna('') + ' ' +  train['author'].fillna('') + ' ' + train['abstract'].fillna('')+ ' ' + train['Keywords'].fillna('')
test['text'] = test['title'].fillna('') + ' ' +  test['author'].fillna('') + ' ' + test['abstract'].fillna('')+ ' ' + train['Keywords'].fillna('')

vector = CountVectorizer().fit(train['text'])
train_vector = vector.transform(train['text'])
test_vector = vector.transform(test['text'])


# 引入模型
model = LogisticRegression()

# 开始训练，这里可以考虑修改默认的batch_size与epoch来取得更好的效果
model.fit(train_vector, train['label'])

# 利用模型对测试集label标签进行预测
test['label'] = model.predict(test_vector)

# 生成任务一推测结果
test[['uuid', 'Keywords', 'label']].to_csv('submit_task1.csv', index=None)

BOW模型

BOW（Bag-of-Words）模型是一种常用的文本表示方法，用于将文本数据转换为数值向量形式，以便用于机器学习算法的输入。BOW模型将文本数据视为一个"袋子"，忽略了文本中的词语顺序，只关注每个词语在文本中出现的频次或者出现与否。BOW模型的基本思想如下：

创建词汇表：首先，收集文本数据集中所有的词语，形成一个词汇表。词汇表中的每个词语都将被视为一个特征。
统计词频：对于每个文本样本，统计词汇表中的每个词语在文本中出现的频次。得到一个向量，向量的每个元素表示对应词语在文本中的出现次数或频率。
构建特征向量：将每个文本样本转换为一个特征向量，向量的长度等于词汇表的大小。每个元素表示对应词语在文本中的频次或频率。

BOW模型的主要特点是它是一种无序的、稀疏的向量表示方法。由于考虑了词语的频次或出现与否，而忽略了词语的顺序，所以BOW模型可以简化文本处理过程，并且在一些情况下表现得非常有效。然而，BOW模型忽略了词语的顺序信息，因此在某些任务中可能丢失了一些重要的语义和上下文信息。

在BOW模型的基础上，还可以使用TF-IDF（Term Frequency-Inverse Document Frequency）来进一步加权，以更好地表示词语的重要性。

TF-IDF模型

TF-IDF（Term Frequency-Inverse Document Frequency）是一种常用的文本特征提取方法，用于将文本数据转换为数值向量形式，以便用于机器学习算法的输入。TF-IDF综合考虑了词频（TF）和逆文档频率（IDF）两个因素，用于衡量一个词语在文本中的重要性。

TF（词频）是指在一个文本中某个词语出现的频次，它可以用下面的公式表示：

TF(w, d) = (词语w在文本d中出现的次数) / (文本d中所有词语的总数)

IDF（逆文档频率）是指在整个文本数据集中，某个词语在不同文本中的出现程度，它可以用下面的公式表示：

IDF(w) = log((文本数据集中的文本总数) / (包含词语w的文本数 + 1))

其中，分母中的“+1”是为了避免分母为0的情况。

TF-IDF的计算方式是将词频（TF）和逆文档频率（IDF）相乘，得到一个词语在文本中的TF-IDF值。它可以用下面的公式表示：

TF-IDF(w, d) = TF(w, d) * IDF(w)

TF-IDF模型的特点是它能够突出某个词语在当前文本中的重要性，并降低那些在整个文本数据集中普遍出现的词语的权重。这样，TF-IDF模型可以更好地捕捉词语的特征，有助于提高文本特征的区分性，同时减少对文本长度的依赖。

LogisticRegression回归模型

Logistic Regression（逻辑回归）是一种用于解决二分类问题的统计学习算法。尽管名字中包含"回归"，但实际上它是一种分类算法，用于预测两个离散的类别（例如，正类和负类、是与否等）。Logistic Regression可以用于二分类问题，也可以通过一对多（One-vs-Rest）方式扩展到多分类问题。

逻辑回归的基本原理如下：

假设有一个特征向量 x，逻辑回归将其与权重向量 w 相乘，并加上偏置 b（也称为截距）得到线性输出 z： z = w^T * x + b

然后，将线性输出 z 应用于逻辑函数（也称为sigmoid函数），将其映射到概率值 p，用于预测样本属于某个类别的概率： p = sigmoid(z) = 1 / (1 + exp(-z))

sigmoid函数将z映射到(0, 1)之间，使得我们可以将其解释为概率值。对于二分类问题，通常规定当 p ≥ 0.5 时，样本属于正类，否则属于负类。

逻辑回归的目标是通过训练数据集，找到最佳的权重向量 w 和偏置 b，使得预测结果尽可能接近真实标签。通常使用最大似然估计（Maximum Likelihood Estimation，MLE）或梯度下降等优化方法来优化模型参数。

逻辑回归的优点包括计算效率高、易于实现和理解，特别适用于线性可分的二分类问题。然而，它在处理复杂的非线性问题时性能可能较差，对于多分类问题，需要扩展到一对多的方式。

from warnings import simplefilter
from sklearn.exceptions import ConvergenceWarning
simplefilter("ignore", category=ConvergenceWarning)

这段代码是用于在Python中使用Scikit-learn库进行机器学习任务时，抑制特定警告的代码片段。

在这段代码中，使用from warnings import simplefilter导入simplefilter函数，以及from sklearn.exceptions import ConvergenceWarning导入ConvergenceWarning类。

simplefilter函数是Python中用于设置警告过滤器的函数，它可以让我们控制是否忽略或显示某些类型的警告。在这里，使用simplefilter函数设置过滤器，以忽略来自Scikit-learn库中的ConvergenceWarning类型的警告。

ConvergenceWarning是一种警告类型，在使用Scikit-learn中的某些机器学习算法进行训练时可能会遇到。它表示算法可能在训练过程中没有收敛到最优解，或者需要更多的迭代次数才能达到收敛。尽管这是一个警告而不是错误，但有时可能会出现在迭代次数较少或收敛条件不严格时。

通过将simplefilter函数的第一个参数设置为"ignore"，并将第二个参数设置为ConvergenceWarning，就可以忽略这类警告。这意味着当代码执行时，如果遇到ConvergenceWarning类型的警告，将不会显示在屏幕上，从而避免干扰输出和执行结果。

train['title'] = train['title'].fillna('')

在这行代码中，train['title']表示选取DataFrame train 中的'title'列，然后调用fillna('')，将其中的缺失值用空字符串''进行填充。

vector = CountVectorizer().fit(train['text'])

CountVectorizer是Scikit-learn（sklearn）中的一个文本特征提取器，它用于将文本数据转换为文本频率矩阵（Term Frequency Matrix），也称为词频矩阵。在这个矩阵中，每个文档（样本）的每个单词（特征）在文档中出现的次数将被记录下来。

下面逐步解释这行代码：

CountVectorizer()：这是创建CountVectorizer对象的构造函数调用。通过不传入任何参数，表示使用默认的参数配置来初始化CountVectorizer对象。
fit(train['text'])：这是对CountVectorizer对象进行拟合（fit）的过程。train['text']表示输入的文本数据，通常是一个包含多个文本文档的列表或Series

拟合的过程

构建词汇表：根据输入的文本数据，统计所有文档中出现的单词，并建立一个词汇表，用于映射每个单词到一个唯一的整数索引。
统计词频：计算每个文档中每个单词的出现次数，形成文本频率矩阵。

train_vector = vector.transform(train['text'])

在这行代码中，vector是一个已经拟合（fit）过的CountVectorizer对象，而train['text']是训练数据集中的文本数据。

vector.transform(train['text'])的作用是将训练数据集中的文本数据转换为文本频率矩阵（Term Frequency Matrix）。文本频率矩阵是一个稀疏矩阵，其中每行代表一个文档（样本），每列表示一个在词汇表中的单词（特征），而矩阵中的元素表示对应文档中对应单词出现的次数。

拟合和转换的区别

在机器学习和文本处理中，"拟合"和"转换"是两个关键的步骤，它们通常在特征提取和数据预处理过程中使用。

拟合（Fit）：拟合指的是使用训练数据来学习特征提取器（例如CountVectorizer、TfidfVectorizer等）的内部参数或统计信息。在拟合过程中，特征提取器会分析训练数据，并根据数据的特性建立相应的模型或统计量。对于文本特征提取器（如CountVectorizer），拟合过程将建立词汇表并统计每个文档中每个单词的出现次数。
转换（Transform）：转换指的是使用已经拟合过的特征提取器（例如CountVectorizer、TfidfVectorizer等）来将新的数据（训练数据或测试数据）转换为特征向量或特征矩阵。在转换过程中，特征提取器将根据之前学习的模型或统计信息，对新的数据进行处理并提取相应的特征。对于文本特征提取器，转换过程将根据之前建立的词汇表和词频信息，将文本数据转换为文本频率矩阵（或TF-IDF矩阵）。

在文本处理中，通常的做法是先对训练数据进行拟合，然后再使用已经拟合过的特征提取器对训练数据和测试数据进行转换。拟合和转换是两个独立的过程，拟合只需要在训练数据上进行一次，而转换可以在训练数据和测试数据上多次进行。

任务二：关键词提取

# 引入分词器
from nltk import word_tokenize, ngrams

# 定义停用词，去掉出现较多，但对文章不关键的词语
stops = [
    'will', 'can', "couldn't", 'same', 'own', "needn't", 'between', "shan't", 'very',
     'so', 'over', 'in', 'have', 'the', 's', 'didn', 'few', 'should', 'of', 'that', 
     'don', 'weren', 'into', "mustn't", 'other', 'from', "she's", 'hasn', "you're",
     'ain', 'ours', 'them', 'he', 'hers', 'up', 'below', 'won', 'out', 'through',
     'than', 'this', 'who', "you've", 'on', 'how', 'more', 'being', 'any', 'no',
     'mightn', 'for', 'again', 'nor', 'there', 'him', 'was', 'y', 'too', 'now',
     'whom', 'an', 've', 'or', 'itself', 'is', 'all', "hasn't", 'been', 'themselves',
     'wouldn', 'its', 'had', "should've", 'it', "you'll", 'are', 'be', 'when', "hadn't",
     "that'll", 'what', 'while', 'above', 'such', 'we', 't', 'my', 'd', 'i', 'me',
     'at', 'after', 'am', 'against', 'further', 'just', 'isn', 'haven', 'down',
     "isn't", "wouldn't", 'some', "didn't", 'ourselves', 'their', 'theirs', 'both',
     're', 'her', 'ma', 'before', "don't", 'having', 'where', 'shouldn', 'under',
     'if', 'as', 'myself', 'needn', 'these', 'you', 'with', 'yourself', 'those',
     'each', 'herself', 'off', 'to', 'not', 'm', "it's", 'does', "weren't", "aren't",
     'were', 'aren', 'by', 'doesn', 'himself', 'wasn', "you'd", 'once', 'because', 'yours',
     'has', "mightn't", 'they', 'll', "haven't", 'but', 'couldn', 'a', 'do', 'hadn',
     "doesn't", 'your', 'she', 'yourselves', 'o', 'our', 'here', 'and', 'his', 'most',
     'about', 'shan', "wasn't", 'then', 'only', 'mustn', 'doing', 'during', 'why',
     "won't", 'until', 'did', "shouldn't", 'which'
]

# 定义方法按照词频筛选关键词

def extract_keywords_by_freq(title, abstract):
    ngrams_count = list(ngrams(word_tokenize(title.lower()), 2)) + list(ngrams(word_tokenize(abstract.lower()), 2))
    ngrams_count = pd.DataFrame(ngrams_count)
    ngrams_count = ngrams_count[~ngrams_count[0].isin(stops)]
    ngrams_count = ngrams_count[~ngrams_count[1].isin(stops)]
    ngrams_count = ngrams_count[ngrams_count[0].apply(len) > 3]
    ngrams_count = ngrams_count[ngrams_count[1].apply(len) > 3]
    ngrams_count['phrase'] = ngrams_count[0] + ' ' + ngrams_count[1]
    ngrams_count = ngrams_count['phrase'].value_counts()
    ngrams_count = ngrams_count[ngrams_count > 1]
    return list(ngrams_count.index)[:5]

## 对测试集提取关键词   

test_words = []
for row in test.iterrows():
    # 读取第每一行数据的标题与摘要并提取关键词
    prediction_keywords = extract_keywords_by_freq(row[1].title, row[1].abstract)
    # 利用文章标题进一步提取关键词
    prediction_keywords = [x.title() for x in prediction_keywords]
    # 如果未能提取到关键词
    if len(prediction_keywords) == 0:
        prediction_keywords = ['A', 'B']
    test_words.append('; '.join(prediction_keywords))
    
test['Keywords'] = test_words
test[['uuid', 'Keywords', 'label']].to_csv('submit_task2.csv', index=None)

nltk库

NLTK（Natural Language Toolkit）是一个在Python中广泛使用的自然语言处理（NLP）库。它提供了各种用于处理文本数据的功能和工具，涵盖了词汇处理、文本分类、分词、词性标注、命名实体识别、情感分析等各种NLP任务。

ngrams_count = list(ngrams(word_tokenize(title.lower()), 2)) + list(ngrams(word_tokenize(abstract.lower()), 2))

这行代码是使用NLTK库中的ngrams函数来生成文本中的二元词组（bigrams）列表。代码的目的是将标题（title）和摘要（abstract）中的单词组合成二元词组，并将这些二元词组存储在ngrams_count列表中。

以下是对代码的解释：

word_tokenize(title.lower())和word_tokenize(abstract.lower())： word_tokenize函数用于将文本转换成单词（tokens）列表，它会将输入的文本拆分成单个的单词，并返回一个包含这些单词的列表。title.lower()和abstract.lower()是将标题和摘要中的文本转换为小写字母，以便在计算二元词组时不区分大小写。
ngrams(word_tokenize(title.lower()), 2)和ngrams(word_tokenize(abstract.lower()), 2)： ngrams函数用于生成指定大小的n元词组，其中第一个参数是单词列表，第二个参数是n，表示生成的n元词组的大小。在这里，我们传入单词列表和n=2，表示生成二元词组（bigrams）。
list(ngrams(word_tokenize(title.lower()), 2))和list(ngrams(word_tokenize(abstract.lower()), 2))：由于ngrams函数返回的是一个生成器（generator），为了方便使用和操作，我们将其转换为列表类型，并分别存储为ngrams_count列表中。
ngrams_count = list(ngrams(word_tokenize(title.lower()), 2)) + list(ngrams(word_tokenize(abstract.lower()), 2))：将标题和摘要的二元词组列表合并为一个单独的ngrams_count列表。这样，ngrams_count列表中存储了标题和摘要中所有的二元词组。

ngrams_count = pd.DataFrame(ngrams_count)

这行代码将ngrams_count列表转换为Pandas的DataFrame（数据帧）对象，以便进行后续的数据处理和分析。Pandas是一个流行的Python库，用于处理和分析结构化数据。

以下是对代码的解释：

pd.DataFrame(ngrams_count)：这里使用pd.DataFrame()函数将ngrams_count列表转换为Pandas的DataFrame对象。
DataFrame对象： DataFrame是Pandas库中的主要数据结构之一，它类似于电子表格或SQL中的数据库表，是一个二维数据结构，可以包含多个行和列。在DataFrame中，每列可以是不同的数据类型，并且每一列都有自己的列名。
数据转换：在这个代码中，ngrams_count列表是一个存储了二元词组的Python列表，转换为DataFrame后，每个二元词组会被放入DataFrame的一个单独的列中。
数据索引： DataFrame对象还会自动为每行分配一个索引，用于唯一标识每一行的数据。索引在默认情况下是从0开始的整数序列。
列名： DataFrame的每一列都会有一个列名，但在这个代码中，由于二元词组只有一个列，因此这个列名不会被指定，通常在数据处理时可以为DataFrame的列分配有意义的列名。

ngrams_count = ngrams_count[~ngrams_count[0].isin(stops)]

这行代码是用来过滤掉DataFrame中包含在停用词列表（stops）中的二元词组（bigrams）。

以下是对代码的解释：

ngrams_count[0]：这里ngrams_count[0]表示DataFrame中的第一列，也就是二元词组的第一个词。
ngrams_count[0].isin(stops)：这个表达式是用来判断DataFrame中的每个二元词组是否包含在停用词列表（stops）中，返回一个布尔类型的Series，其中元素为True表示该二元词组在停用词列表中，False表示不在。
~ngrams_count[0].isin(stops)： ~符号用来对上述表达式的结果取反，即对应位置的True变为False，False变为True。所以，这个表达式返回的是一个布尔类型的Series，其中元素为True表示该二元词组不在停用词列表中，False表示在。
ngrams_count[~ngrams_count[0].isin(stops)]：最后，利用上述布尔类型的Series，我们可以对DataFrame进行过滤操作，保留不在停用词列表中的二元词组。这样，该行代码返回一个新的DataFrame，其中仅包含不在停用词列表中的二元词组。

ngrams_count = ngrams_count[~ngrams_count[1].isin(stops)]

对于二元词组的第二个词进行同上操作。

ngrams_count = ngrams_count[ngrams_count[0].apply(len) > 3]

这行代码是用来过滤掉DataFrame中第一列（包含二元词组）中长度小于等于3的二元词组。

以下是对代码的解释：

ngrams_count[0]：这里ngrams_count[0]表示DataFrame中的第一列，也就是包含二元词组的列。
ngrams_count[0].apply(len)：这个表达式使用apply()函数对DataFrame中的每个二元词组进行操作，len函数用于计算每个二元词组的长度（由包含的单词数量决定），返回一个Series，其中元素是每个二元词组的长度。
ngrams_count[0].apply(len) > 3：这个表达式对上述Series进行逻辑比较，判断每个二元词组的长度是否大于3，返回一个布尔类型的Series，其中元素为True表示该二元词组的长度大于3，False表示长度小于等于3。
ngrams_count[ngrams_count[0].apply(len) > 3]：最后，利用上述布尔类型的Series，我们可以对DataFrame进行过滤操作，保留长度大于3的二元词组。这样，该行代码返回一个新的DataFrame，其中只包含长度大于3的二元词组。

该行代码用来过滤掉DataFrame中包含长度小于等于3的二元词组，从而得到一个新的DataFrame，其中只包含长度大于3的二元词组。这个操作是为了去除过短或无意义的二元词组，以便在后续的文本分析和处理中更专注于重要的词汇。

ngrams_count['phrase'] = ngrams_count[0] + ' ' + ngrams_count[1]

这行代码用于在DataFrame中创建一个新的列phrase，将DataFrame中的两列合并成一个包含完整二元词组的新列。

以下是对代码的解释：

ngrams_count[0]和ngrams_count[1]：这两部分分别代表DataFrame中的第一列和第二列。在这个代码中，第一列包含了二元词组的第一个词，第二列包含了二元词组的第二个词。
ngrams_count[0] + ' ' + ngrams_count[1]：这个表达式用于将DataFrame中的第一列和第二列进行合并。+符号用于连接两列的元素，而中间的空格用于分隔二元词组的两个单词。
ngrams_count['phrase']：这部分表示创建一个新的列名为phrase。
ngrams_count['phrase'] = ngrams_count[0] + ' ' + ngrams_count[1]：将合并后的二元词组存储在新创建的phrase列中。

 ngrams_count = ngrams_count['phrase'].value_counts()

这行代码用于统计DataFrame中phrase列中不同二元词组出现的频次，并将结果按照频次降序排序。

以下是对代码的解释：

ngrams_count['phrase']：这部分表示选择DataFrame中的phrase列。
ngrams_count['phrase'].value_counts()：这个表达式是Pandas的value_counts()函数，它用于统计phrase列中每个不同的二元词组出现的频次，并返回一个新的Series，其中索引为不同的二元词组，值为对应的频次。
ngrams_count = ngrams_count['phrase'].value_counts()：将统计得到的频次Series重新赋值给ngrams_count，此时ngrams_count变为一个按频次降序排列的Series。

return list(ngrams_count.index)[:5]

这行代码是将前五个二元词组的词组内容从ngrams_count Series 中提取出来并以列表的形式返回。

以下是对代码的解释：

ngrams_count.index： ngrams_count是一个Series对象，其中索引为不同的二元词组，而值为对应的频次。ngrams_count.index表示提取ngrams_count Series 的索引，即不同的二元词组。
list(ngrams_count.index)：这个部分将ngrams_count.index转换成Python列表，其中包含了所有不同的二元词组。
[:5]：这个切片操作是将列表中的前五个二元词组提取出来。
return list(ngrams_count.index)[:5]：最终，return语句将前五个二元词组作为一个列表返回。这样，函数extract_keywords_by_freq会返回频率最高的前五个二元词组，作为提取出来的关键词列表。

你可能感兴趣的:(NLP夏令营,nlp)

大规模语言模型从理论到实践分布式训练的集群架构 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践分布式训练的集群架构作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，大规模语言模型（LargeLanguageModels,LLMs）在自然语言处理（NaturalLanguageProcessing,NLP）领域取得了突破性进展。LLMs，如BERT、GPT-3等，通
实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法）大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
引言近年来，深度强化学习（DRL）已经成为解决复杂决策问题的一个强有力工具，尤其是在自然语言处理（NLP）领域的广泛应用。通过不断优化决策策略，DRL能在大量数据中学习最佳行为，尤其是大型语言模型（LLM）在任务中展现出的巨大潜力。然而，随着模型规模的扩大和任务复杂性的增加，传统的强化学习算法开始暴露出训练效率低、收敛速度慢等问题。为了解决这些挑战，DeepSeek公司提出了一个新的强化学习算法—
混合整数非线性规划的松弛与分解方法 Waiyuet Fung 混合整数非线性规划松弛方法分解技术启发式算法全局优化
背景简介混合整数非线性规划（MINLPs）作为运筹学中的一个重要领域，涉及到优化问题的连续和离散变量混合，在工程设计、生产调度、资源分配等多个领域发挥着关键作用。本书由I.Nowak撰写，旨在深入探讨这一复杂的优化问题及其解决方案。MINLPs基础概念在本书的第一部分，Nowak介绍了MINLPs的基本概念。MINLPs的目标是寻找一组连续和整数变量的最优组合，以最小化或最大化某个非线性目标函数。
文本纠错（Text Correction） dundunmm 人工智能数据挖掘文本纠错人工智能数据挖掘文本纠错深度学习
文本纠错（TextCorrection）是自然语言处理（NLP）中的一个重要任务，旨在自动检测并修正文本中的错误，包括拼写、语法、语义等层面的错误。其核心目标是通过算法模型将错误文本转换为符合语言规范的表达。该任务在自动写作辅助、搜索引擎优化、智能客服、教育等多个领域具有广泛应用。输入：包含错误的原始文本（如“我明天要去北京，希望天汽好。”）输出：修正后的规范文本（如“我明天要去北京，希望天气好。
使用CharacterTextSplitter实现文本按字符拆分 bavDHAUO python
在文本处理任务中，按字符进行拆分是一种简单且有效的方法。本篇文章将介绍如何使用CharacterTextSplitter类对文本进行按字符拆分，并生成适用于下游任务的LangChainDocument对象。技术背景介绍文本拆分是自然语言处理（NLP）中的一个基础步骤，尤其在大文本分块处理、文本摘要等任务中。CharacterTextSplitter是langchain-text-splitters
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
人工智能（AI）系统化学习路线 xiaoyu❅ python 人工智能学习
一、为什么需要系统化学习AI？人工智能技术正在重塑各行各业，但许多初学者容易陷入误区：❌盲目跟风：直接学习TensorFlow/PyTorch，忽视数学与算法基础。❌纸上谈兵：只看理论不写代码，无法解决实际问题。❌方向模糊：对CV/NLP/RL等细分领域缺乏认知，难以针对性提升。正确的学习姿势：“金字塔式”分层学习（理论→算法→框架→应用→工程化），逐步构建完整的AI知识体系。二、人工智能学习路线
NLP高频面试题（三）——普通RNN的梯度消失和梯度爆炸问题 Chaos_Wang_ NLP常见面试题自然语言处理 rnn 人工智能
普通RNN（循环神经网络）的梯度消失和梯度爆炸问题是指在训练深层或长序列的RNN模型时出现的两种典型问题：一、梯度消失（VanishingGradient）梯度消失是指在反向传播过程中，梯度逐层传播时变得越来越小，最终趋于接近0，导致模型前层的参数难以更新。原因：在反向传播时，每一层的梯度是通过链式法则计算得到的。因为链式求导中不断乘以一个较小的数值（小于1），随着层数或时间步的增加，梯度将指数级
使用LangChain实现大规模语言模型自发现推理结构 VYSAHF langchain 语言模型人工智能 python
使用LangChain实现大规模语言模型自发现推理结构在现代自然语言处理(NLP)的研究中，大规模语言模型（LLMs）已经展示了强大的能力。然而，在应对复杂的推理问题时，传统的提示方法常常力不从心。这篇文章将带您了解SELF-DISCOVER，一种新兴的框架，如何通过LangChain来实现自动化、动态化的推理结构构建，以提高LLMs的性能。技术背景介绍大规模语言模型（如GPT-4和PaLM2）已
【论文精读】PatchTST-基于分块及通道独立机制的Transformer模型打酱油的葫芦娃时序预测算法时序预测 PatchTST Transformer 预训练微调表征学习
《ATIMESERIESISWORTH64WORDS:LONG-TERMFORECASTINGWITHTRANSFORMERS》的作者团队来自PrincetonUniversity和IBMResearch，发表在ICLR2023会议上。动机Transformer模型因其自注意力机制在处理序列数据方面的优势，在自然语言处理（NLP）、计算机视觉（CV）、语音等多个领域取得了巨大成功。这种机制使得模型
Dify知识库构建流程及示例 cqbelt ai 笔记 AI应用
总体流程1.数据预处理清洗：去除噪声、特殊字符、标准化格式。分词/标记化：拆分文本为单词或子词单元（如使用Tokenizer）。元数据关联：附加来源、时间戳等信息，支持多维度检索。2.文本分块固定长度分块：按字符或Token数切分，简单高效。语义分块：基于句子边界或主题分割（如NLP模型识别段落主旨）。重叠策略：相邻块间部分重叠，避免上下文断裂。3.向量化（Embedding）嵌入模型：调用预训练
NLP高频面试题（四）——BN和LN的区别与联系，为什么attention要用LN Chaos_Wang_ NLP常见面试题自然语言处理人工智能
在深度学习模型中，Normalization是一种极为重要的技巧，BatchNormalization（BN）和LayerNormalization（LN）是其中最为常用的两种方法。然而，二者在实际应用中有着明显的区别与联系，尤其在Transformer的Attention机制中，LN有着独特的优势。一、BN与LN的核心区别与联系1.BatchNormalization(BN)BN的思想源于一个叫
RAG 在多模态数据处理中的应用探索：结合图像与文本生成 hy098543 AIGC
目录引言多模态数据处理的挑战与需求数据异质性与融合难题多样化应用场景的需求RAG在图像与文本生成中的应用架构图像检索与文本生成协同跨模态特征融合与生成关键技术与实现细节图像特征提取与表示文本检索与语义理解跨模态生成模型训练应用案例分析智能设计辅助医疗影像报告生成结论引言随着信息技术的飞速发展，数据呈现出多模态的特性，即包含文本、图像、音频、视频等多种形式。在自然语言处理（NLP）和计算机视觉（CV
AI在项目中的应用酒江人工智能
AI大模型（如GPT-4、BERT、T5等）在各类项目中有广泛的应用，可以极大地提高项目效率、优化流程，并解决许多传统方法难以应对的问题。以下是AI大模型在不同类型项目中的一些具体应用：1.自然语言处理（NLP）文本生成和摘要：AI大模型可以生成高质量的文本内容，自动撰写文章、新闻报道、博客或技术文档，甚至可以进行文献摘要，帮助内容创作者提高效率。情感分析：在客户服务、社交媒体监控或市场研究项目中
AI API：快速集成智能化功能的开发利器桂花饼 AIGC AI API 人工智能 AIGC 语言模型 AI作画
AIAPI（ArtificialIntelligenceApplicationProgrammingInterface，人工智能应用程序接口）是应用程序接口的一种，专门用于提供人工智能相关功能的开发接口。它允许开发者利用现有的AI模型、工具或服务，将这些功能集成到自己的应用程序中，并为用户带来智能化的体验。AIAPI的核心功能主要与AI技术相关，比如自然语言处理（NLP）、计算机视觉、语音处理、机
大模型与自然语言理解（NLU）：差异与联系技术流 Gavin AIoT python 语言模型 ai
近年来，人工智能领域取得了显著进展，尤其是在自然语言处理（NLP）方面。大模型和自然语言理解（NLU）作为NLP的两个重要分支，常常被提及，但它们之间存在着本质区别。1.定义与目标大模型:通常指拥有庞大参数规模（数十亿甚至数千亿）的深度学习模型，例如GPT-3、LaMDA等。它们通过海量文本数据进行训练，旨在学习语言的统计规律，并能够生成流畅、连贯的文本。NLU:是NLP的一个子领域，专注于让机器
基于树莓派的轻量级AI数字人开发全流程指南 ——从硬件选型到语音视觉交互实战 zhz5214 AI ai 人工智能 AI写作 AI编程智能体
1.背景与目标AI数字人，像是虚拟助手、交互式角色，在当下数字化浪潮中扮演着越来越重要的角色。其核心在于整合语音识别、视觉感知、自然语言处理（NLP）和动态反馈四大关键功能。本文将以树莓派5开发板为核心，搭配AI加速硬件，结合开源框架，为大家详细阐述如何实现本地化轻量级数字人开发。这一方案特别适用于教育领域，帮助学生更直观地理解AI技术；在智能家居场景中，也能为用户带来更智能、便捷的交互体验。2.
RAG数据嵌入和重排序：如何选择合适的模型从零开始学习人工智能深度学习
RAG数据嵌入和重排序：如何选择合适的模型在自然语言处理（NLP）领域，Retrieval-AugmentedGeneration（RAG）模型已经成为一种强大的工具，用于结合检索和生成能力来处理复杂的语言任务。RAG模型的核心在于两个关键步骤：数据嵌入（Embedding）和重排序（Re-ranking）。这两个步骤的选择和优化对于模型的性能至关重要。本文将探讨如何选择合适的模型来实现高效的数据
自然语言处理领域CCF推荐的A类期刊冰蓝蓝自然语言处理人工智能
在自然语言处理（NLP）这一蓬勃发展的领域，研究人员和学者们致力于探索语言的深层含义和应用。中国计算机学会（CCF）推荐的A类期刊和会议是该领域内公认的高质量研究发表平台。这是我在学习时整理的一些顶刊并附上官网地址直达。1.ACL(AnnualMeetingoftheAssociationforComputationalLinguistics)ACL是自然语言处理领域的顶级会议之一，由Associ
机器学习中输入输出Tokens的概念详解爱吃土豆的程序员机器学习基础机器学习人工智能 Tokens
随着深度学习技术的快速发展，大语言模型（LargeLanguageModels,LLMs）已经成为自然语言处理（NLP）领域的一个热点研究方向。这些模型不仅能够生成高质量的文本，还能在多种任务中展现出卓越的表现，比如机器翻译、问答系统、文本摘要等。在大语言模型的工作流程中，Tokens的概念扮演着至关重要的角色。本文将详细介绍大语言模型如何使用Tokens，以及如何计算Tokens的数量。什么是T
输入：0.5元/百万tokens（缓存命中）或2元（未命中）输出：8元/百万tokens 杏花春雨江南缓存
这句话描述了一种定价模型，通常用于云计算、API服务或数据处理服务中，根据资源使用情况（如缓存命中与否）来收费。以下是对这句话的详细解释：1.关键术语解释Tokens：在自然语言处理（NLP）或数据处理领域，Token通常指文本的最小单位（如一个单词或一个字符）。在这里，Tokens是计费的单位。缓存命中（CacheHit）：当请求的数据已经在缓存中时，称为缓存命中。缓存命中通常意味着更快的响应速
Ollama 基本概念 Mr_One_Zhang 学习Ollama ai
Ollama是一个本地化的、支持多种自然语言处理（NLP）任务的机器学习框架，专注于模型加载、推理和生成任务。通过Ollama，用户能够方便地与本地部署的大型预训练模型进行交互。1.模型（Model）在Ollama中，模型是核心组成部分。它们是经过预训练的机器学习模型，能够执行不同的任务，例如文本生成、文本摘要、情感分析、对话生成等。Ollama支持多种流行的预训练模型，常见的模型有：deepse
CSDN社区，到底该不该用DeepSeek AI生成文章？ Small踢倒coffee_氕氘氚 python 经验分享
##引言在当今数字化时代，人工智能（AI）技术正以惊人的速度发展，逐渐渗透到各个行业和领域。作为AI技术的一个重要分支，自然语言处理（NLP）在内容创作、文本生成等方面展现出了巨大的潜力。DeepSeekAI作为一款先进的AI写作工具，能够自动生成高质量的文章，极大地提高了内容创作的效率。然而，随着AI生成内容的普及，CSDN社区中的开发者、技术爱好者和内容创作者们开始思考一个问题：我们到底该不该
AI大模型学习路线：从入门到精通的完整指南【2025最新】 AI大模型-大飞人工智能学习大模型 LLM AI 程序员大模型学习
引言近年来，以GPT、BERT、LLaMA等为代表的AI大模型彻底改变了人工智能领域的技术格局。它们不仅在自然语言处理（NLP）任务中表现卓越，还在计算机视觉、多模态交互等领域展现出巨大潜力。本文旨在为开发者、研究者和技术爱好者提供一条清晰的学习路径，帮助读者逐步掌握大模型的核心技术并实现实际应用。一、基础阶段：构建知识体系数学与理论基础线性代数：矩阵运算、特征值与奇异值分解是大模型参数优化的基础
深入解析两大AI模型的架构与功能草莓屁屁我不吃人工智能 chatgpt
在人工智能（AI）领域，自然语言处理（NLP）一直是研究的热点之一。随着技术的不断进步，我们见证了从简单的聊天机器人到复杂语言模型的演变。其中，Google的Gemini和OpenAI的ChatGPT作为两大代表性模型，各自在技术和应用上展现出了卓越的性能。本文将详细解析Gemini和ChatGPT的系统架构、功能特性及其背后的技术原理。Gemini模型详解技术背景与架构Gemini，顾名思义，意
linux系统安全 IT小饕餮 linux基础 linux 系统安全运维
管理终端登录[root@localhost~]#grep"/sbin/nologin$"/etc/passwd表示禁止终端登录，应确保不被人改动输出结果：bin：x:1:1:bin:/bin:/sbin/nologindaemon：x:2:2:daemon:/sbin:/sbin/nologinadm：x:3:4:adm:/var/adm:/sbin/nologinlp：x:4:7:lp:/var
【NLP】 3. Distributional Similarity in NLP（分布式相似性） pen-ai NLP 机器学习自然语言处理分布式人工智能
DistributionalSimilarityinNLP（分布式相似性）分布式相似性（DistributionalSimilarity）是自然语言处理（NLP）中的核心概念，基于“相似的单词出现在相似的上下文中”这一假设。它用于衡量单词之间的相似性，广泛应用于词向量、信息检索、文本分类等任务。1.分布式假设（DistributionalHypothesis）分布式相似性基于以下假设：“Yoush
【NLP】 9. 处理创造性词汇 & 词组特征（Creative Words & Features Model），词袋模型处理未知词，模型得分 pen-ai NLP 机器学习自然语言处理人工智能深度学习
这里写目录标题处理创造性词汇&词组特征（CreativeWords&FeaturesModel）1.处理否定（NegationHandling）2.词组特征（Bigrams&N-grams）3.结合否定传播与n-grams进行优化词袋模型（Bag-of-Words,BoW）1.BoW示例2.处理未知词3.为什么忽略未知词？4.处理未知词的方法计算模型得分（ScoreCalculation）处理创造
【NLP】 5. Word Analogy Task（词类比任务）与 Intrinsic Metric（内在度量） pen-ai NLP 机器学习自然语言处理 word 人工智能
WordAnalogyTask（词类比任务）定义：WordAnalogyTask是用于评估词向量质量的内在指标（IntrinsicMetric）。该任务基于这样的假设：如果词向量能够捕捉单词之间的语义关系，那么这些关系应该能够在向量空间中保持一定的结构。示例：在一个理想的词向量空间中，单词之间的关系应该满足如下等式：king−man+woman≈queenking−man+woman≈queenk
大规模语言模型从理论到实践开源指令数据集 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践开源指令数据集1.背景介绍大规模语言模型（LargeLanguageModels,LLMs）近年来在自然语言处理（NLP）领域取得了显著的进展。诸如GPT-3、BERT等模型在各种任务中表现出色，从文本生成到翻译，再到问答系统，几乎无所不能。这些模型的成功离不开庞大的训练数据集和复杂的算法架构。然而，如何有效地构建和利用开源指令数据集，仍然是一个值得深入探讨的话题。2.核
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring