zfnice

“达观杯”文本智能处理挑战赛练习

记录一下项目练习过程

task1

比赛提供的数据

数据包含2个csv文件：

train_set.csv：此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：
第一列是文章的索引(id)，第二列是文章正文在“字”级别上的表示，即字符相隔正文(article)；第三列是在“词”级别上的表示，即词语相隔正文(word_seg)；第四列是这篇文章的标注(class)。
注：每一个数字对应一个“字”，或“词”，或“标点符号”。“字”的编号与“词”的编号是独立的！
test_set.csv：此数据用于测试。数据格式同train_set.csv，但不包含class。
注：test_set与train_test中文章id的编号是独立的。

读取数据

import pandas as pd
df_train = pd.read_csv('train_set.csv')
df_train.head()

train_set前五行数据

df_test = pd.read_csv('test_set.csv')
df_test.head()

test_set前五行数据

各列文件类型数量有无缺失。

df_train.info()
df_test.info()

各个类别数据是否分布不均：

df_train['class'].describe()
df_train['class'].value_counts()

文本分类共19类，各类别数据均在2000条以上。没有严重的类别不均。

数据拆分
参考 GreatXiang888 .

数据说明中显示：
'article’是字级别上的，'word_seg’是词级别上的。
也就是说，比赛举办方已经把单词给我们切好了，不需要自己手动分词（如用“结巴分词”等工具），而且他已经把单词数字化（脱敏），这其实也省了我们一些工作。
一般的比赛我们是要自己分词，而且分词的效果对模型和结果影响较大。而这分好词了，那么就直接使用’word_seg’即可。
当然这只是一个比较简略的版本，如果要进行后续工作的话，我觉得可以把’article’也用上，至少可以用来做模型融合，投票选最优等工作。

因此数据划分中X以df_train[[‘word_seg’]进行即可。

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df_train[['word_seg']], df_train[['class']], test_size=0.3, random_state=2019)
print(X_train.shape)
print(X_test.shape)

(71593, 1)
(30684, 1)

task2

TF-IDF理论

词袋模型
把每篇文章看成一个词袋，忽略单词顺序，每篇文章表示一个长向量，每一维就是一个单词，权重表示这个单词在文章中的重要程度。TF-IDF用来表示权重。
TF-IDF(t,d)=TF(t,d)xIDF(t)
TF(t,d) 表示单词t在文档d中出现的频率，
IDF(t) 表示逆文档频率，衡量单词t对表达语义的重要性程度。
$IDF(t)=log\frac{文章总数}{包含单词t的文章总数+1}\$
如果t在多篇文章中均有出现，那么他对于区分文章语义贡献较小，因此权重需要做一定的惩罚。
N-gram模型
将连续出现的n个单词组成的词组（N-gram）作为一个单独的特征放到向量表示中的模型。

词嵌入

词嵌入是一类将词向量化的模型的统称，核心思想是把每个词都映射到低维空间上的一个稠密向量。K维空间的每一维可以看作一个隐含的主题。
词嵌入将每个词映射成一个K维向量，一篇文章N个词，可以用NxK维的矩阵表示这篇文章。
Word2Vec
Word2Vec&Doc2Vec总结 - Magician的博客 .
Word2Vec是一种浅层的神经网络模型，有两种网络结构。分别是CBOW和Skip-gram。
CBOW的目标是根据上下文出现的词语预测当前词出现的概率。Skip-gram是根据当前词预测上下文中各词的生成概率。

sklearn.feature_extraction.text.TfidfVectorizer函数

sklearn.feature_extraction.text.TfidfVectorizer(input=’content’, encoding=’utf-8’, decode_error=’strict’, strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, analyzer=’word’, stop_words=None, token_pattern=’(?u)\b\w\w+\b’, ngram_range=(1, 1), max_df=1.0, min_df=1, max_features=None, vocabulary=None, binary=False, dtype=, norm=’l2’, use_idf=True, smooth_idf=True, sublinear_tf=False)

各参数含义：
input : string {‘filename’, ‘file’, ‘content’}
文件名，文件路径，直接分析的文本内容。

decode_error : {‘strict’, ‘ignore’, ‘replace’} (default=’strict’)
解码错误设置。当出现分析字节序列是包含的字符而不是给定编码的字符该怎么做。

strip_accents : {‘ascii’, ‘unicode’, None} (default=None)
在预处理步骤中删除重音符号并执行其他字符规格化。“ascii”是一种快速方法，只适用于具有直接ascii映射的字符。“unicode”是一种速度稍慢的方法，适用于任何字符。

lowercase : boolean (default=True)
标记化之前将所有字符转化为小写。

preprocessor : callable or None (default=None)
重写预处理（字符串转换）阶段，保留标记化和n-gram生成步骤。

tokenizer : callable or None (default=None)
在保留预处理和N-grams生成步骤的同时重写字符串标记化技术步骤。仅适用于Analyzer==“Word”。

analyzer : string, {‘word’, ‘char’, ‘char_wb’} or callable
无论该功能是由单词还是字符n-grams组成。选项“char_wb”只从单词边界内的文本创建字符n-grams；单词边缘的n-gram都用空格填充。

stop_words : string {‘english’}, list, or None (default=None)
停止词。

token_pattern : string
表示什么构成了“标记”的正则表达式，只使用difAnalyzer==“word”。默认regexp选择2个或更多字母数字字符的标记（标点符号完全被忽略，并始终被视为标记分隔符）。

ngram_range : tuple (min_n, max_n) (default=(1, 1))
n值范围的上下限。n的所有值，以便使用min_n<=n<=max_。

max_df : float in range [0.0, 1.0] or int (default=1.0)
构建词汇表时，忽略文档频率严格高于给定阈值（corpus-specificstop-words）的词汇。如果为float，则参数表示文档的比例，积分绝对数。如果词汇表不是none，则忽略此参数。

min_df : float in range [0.0, 1.0] or int (default=1)
构建词汇表时，忽略文档频率严格低于给定阈值的术语。此值在文献中也被定义为截止值。如果为float，则参数表示文档的一部分，整数卷计数。如果词汇表不是none，则忽略此参数。

max_features : int or None (default=None)
如果不是“无”，那么构建一个词汇表，该词汇表只考虑按词条频率在整个语料库中排序的最大特性。

dtype : type, optional (default=float64)
fit_transform（）或transform（）返回的矩阵类型。

norm : ‘l1’, ‘l2’ or None, optional (default=’l2’)
每个输出行都有单位范数，要么是：‘l2’：向量元素的平方和为1。当应用l2范数时，两个矢量之间的余弦关系是它们的点积。“l1”：矢量元素的绝对值之和为1。

use_idf : boolean (default=True)
启用反向文档频率重新加权。

smooth_idf : boolean (default=True)
通过在文档频率中添加一个来平滑IDF权重，就好像看到一个extra文档包含了集合中的每个术语一次。防止零刻度。

sublinear_tf : boolean (default=False)
应用 sublinear tf 缩放，用 1 + log(tf)替换tf。

Methods

gensim.models.word2vec.Word2Vec函数

gensim.models.word2vec.Word2Vec(sentences=None, corpus_file=None, size=100, alpha=0.025, window=5, min_count=5, max_vocab_size=None, sample=0.001, seed=1, workers=3, min_alpha=0.0001, sg=0, hs=0, negative=5, ns_exponent=0.75, cbow_mean=1, hashfxn=, iter=5, null_word=0, trim_rule=None, sorted_vocab=1, batch_words=10000, compute_loss=False, callbacks=(), max_final_vocab=None)

各参数含义

sentences (iterable of iterables, optional)
训练的句子。
corpus_file (str, optional)
以linesentence格式指向语料库文件的路径
size (int, optional)
词向量维度
window (int, optional)
句子中当前单词和预测单词之间的最大距离。
min_count (int, optional)
忽略出现频率低于min_count的词
workers (int, optional)
使用多核机器进行更快的训练。
sg ({0, 1}, optional)
训练算法：1表示跳格，否则为cbow。
hs ({0, 1}, optional)
如果是1，则将使用分层SoftMax进行模型培训。如果0，负为非零，则采用负采样。
negative (int, optional)
如果大于0，将使用负采样，int表示负指定应绘制多少“噪声词”（通常在5-20之间）。如果设置为0，则不使用负采样。
ns_exponent (float, optional)
用于形成负采样分布的指数。一个值为1.0的样本与频率成正比例，0.0的样本对所有单词都是一样的，而一个负值样本对低频单词的样本多于高频单词的样本。最常用的默认值0.75是由原来的word2vec文件选择的。
cbow_mean ({0, 1}, optional)
如果为0，则使用上下文词向量的和。如果1，使用平均值，仅在使用cbow时适用。
alpha (float, optional)
初始学习率
min_alpha (float, optional)
随着培训的进行，学习率将线性下降至_min alpha。
max_vocab_size (int, optional)
词汇构建期间限制RAM；如果有比这更多的唯一单词，则删减不经常出现的单词。每1000万字类型需要大约1GB的RAM。设置为无表示无限制。
max_final_vocab (int, optional)
通过自动选择匹配的min_计数，将vocab限制为目标vocab大小。如果指定的最小计数大于计算的最小计数，则将使用指定的最小计数。如果不需要，设置为无。
sample (float, optional)
配置哪些高频字随机降采样的阈值，有用范围是（0，1e-5。
hashfxn (function, optional)
用于随机初始化权重的哈希函数，以提高训练的再现性。
iter (int, optional)
语料库上的迭代次数（epoch）。
sorted_vocab ({0, 1}, optional)
如果是1，请在分配单词索引之前按降序频率对词汇进行排序。请参见Sort_vocab（）。
batch_words (int, optional)
传递给工作线程（因此是cython例程）的一批示例的目标大小（以字为单位）。（如果单个文本超过10000个字，将传递更大的批处理，但标准cython代码截断到最大值。）
compute_loss (bool, optional)
如果为真，则计算并存储损失值，可使用gget_latest_training_loss（）检索该值。

TfidfVectorizer函数应用

“达观杯”文本分类–baseline - 温良Miner - 博客园 .

vectorizer = TfidfVectorizer(ngram_range=(1, 2), min_df=3, max_df=0.9)
vectorizer.fit(df_train['word_seg'])  # 构造tfidf矩阵
X_train = vectorizer.transform(df_train['word_seg'])  # 构造训练集的tfidf矩阵
X_test = vectorizer.transform(df_test['word_seg'])  # 构造测试的tfidf矩阵
X_train = df_train['class'] #训练集的类别标签

将词转化为向量表示。

word2vec函数应用

构造训练所用的语料库。

def sentence2list(sentence):
    return sentence.strip().split()
#组成语料库
sentences_train = list(df_train['word_seg'].apply(sentence2list))
sentences_test = list(df_test['word_seg'].apply(sentence2list))
sentences = sentences_train + sentences_test

将构造好的语料库进行训练，转为word2vec模型。

model = gensim.models.Word2Vec(sentences=sentences, size=vector_size, window=5, min_count=5, workers=8, sg=0, iter=5)

可以后续对模型进行进一步的分析应用。

task3

LR模型

逻辑回归处理的是分类问题，因变量取值是一个二元分布，学习得到的是给定自变量和超参数以后因变量的期望。基于期望来处理预测分类问题。
具体参考细品 - 逻辑回归（LR）* - ML小菜鸟 - 博客园.
后面发现全部数据所需的时间太久，因此便采取20000条数据进行联系学习。
导入所需包后进行lr训练。

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=2019)
lr=LogisticRegression(C=1.0, penalty='l1', tol=1e-6)
lr.fit(X_train,y_train)
print('准确率：',lr.score(X_test, y_test))

准确率： 0.6746666666666666

进行交叉验证：

start_time=time.time()
scores = cross_val_score(lr,X,y, cv=5)  #cv为迭代次数。
end_time=time.time()
print("耗时：{}s ".format(end_time - start_time))
print(scores)  # 打印输出每次迭代的度量值（准确度）
print("Accuracy: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2))  # 获取置信区间。（也就是均值和方差）

耗时：1084.5898168087006s
[0.68445997 0.67274544 0.69275 0.68618619 0.69539078]
Accuracy: 0.69 (+/- 0.02)

使用lsa特征得到的结果要比使用原始的tfidf特征准确率稍高一些。

start_time=time.time()
scores = cross_val_score(lr,x_train_lsa,y, cv=3)  #cv为迭代次数。
end_time=time.time()
print("耗时：{}s ".format(end_time - start_time))
print(scores)  # 打印输出每次迭代的度量值（准确度）
print("Accuracy: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2))  # 获取置信区间。（也就是均值和方差）

耗时：76.02445268630981s
[0.69893601 0.69761512 0.69804805]
Accuracy: 0.70 (+/- 0.00)

svm模型

读了一些博客觉得写的比较好的关于svm理解的博客。
对SVM的个人理解—浅显易懂 - 止战 - 博客园
用svm进行评估发现使用tfidf特征速度慢且一直不出结果。就将tfidf特征lsa降维，使用降维后的特征进行训练。

start_time=time.time()
clf = svm.SVC(kernel='linear', C=1)
scores = cross_val_score(clf,x_train_lsa,y, cv=3)  #cv为迭代次数。
end_time=time.time()
print("耗时：{}s ".format(end_time - start_time))
print(scores)  # 打印输出每次迭代的度量值（准确度）
print("Accuracy: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2))  # 获取置信区间。（也就是均值和方差）

耗时：316.12110233306885s
[0.67016334 0.67136643 0.67672673]
Accuracy: 0.67 (+/- 0.01)
对于提取出来的20000条数据进行分析，使用降维后的lsa特征的lr模型准确率更高一些。电脑跑起来有点慢，后续的程序总是没有完整跑完，代码附上。

学习曲线

def plot_learning_curve(estimator, title, X, y, ylim=None, cv=None,
                        n_jobs=1, train_sizes=np.linspace(.1, 1.0, 5)):
    
    plt.figure()
    plt.title(title)
    if ylim is not None:
        plt.ylim(*ylim)
    plt.xlabel("Training examples")
    plt.ylabel("Score")
    train_sizes, train_scores, test_scores = learning_curve(
        estimator, X, y, cv=cv, n_jobs=n_jobs, train_sizes=train_sizes)
    train_scores_mean = np.mean(train_scores, axis=1)
    train_scores_std = np.std(train_scores, axis=1)
    test_scores_mean = np.mean(test_scores, axis=1)
    test_scores_std = np.std(test_scores, axis=1)
    plt.grid()

    plt.fill_between(train_sizes, train_scores_mean - train_scores_std,
                     train_scores_mean + train_scores_std, alpha=0.1,
                     color="r")
    plt.fill_between(train_sizes, test_scores_mean - test_scores_std,
                     test_scores_mean + test_scores_std, alpha=0.1, color="g")
    plt.plot(train_sizes, train_scores_mean, 'o-', color="r",
             label="Training score")
    plt.plot(train_sizes, test_scores_mean, 'o-', color="g",
             label="Cross-validation score")

    plt.legend(loc="best")
    return plt


title = "Learning Curves (Random Forest, n_estimators = 100)"
cv = ShuffleSplit(n_splits=10,test_size=0.2, random_state=0)
estimator = svm.SVC()
plot_learning_curve(estimator, title, X, y, (0.0, 1.01), cv=cv, n_jobs=4)

plt.show()

grid search寻参

from sklearn.pipeline import Pipeline
from operator import itemgetter
import collections 
from sklearn.metrics import classification_report
def report(grid_scores, n_top=3):
    top_scores = sorted(grid_scores, key=itemgetter(1), reverse=True)[:n_top]
    for i, score in enumerate(top_scores):
        print("Model with rank: {0}".format(i + 1))
        print("Mean validation score: {0:.3f} (std: {1:.3f})".format(
              score.mean_validation_score,
              np.std(score.cv_validation_scores)))
        print("Parameters: {0}".format(score.parameters))
        print("")

X_train, X_test, Y_train, Y_test = train_test_split(x_train_lsa,y, test_size=0.2,random_state=0)
#初始化分类器
clf=RandomForestClassifier(n_estimators=500, criterion='entropy', max_depth=5, min_samples_split=2,
  min_samples_leaf=1, max_features='auto',    bootstrap=False, oob_score=False, n_jobs=1, random_state=0,
  verbose=0)

###grid search找到最好的参数
param_grid = dict( )
##创建分类pipeline
pipeline=Pipeline([ ('clf',clf) ])
grid_search = GridSearchCV(pipeline, param_grid=param_grid, verbose=3,scoring='accuracy',\
cv=StratifiedShuffleSplit(n_splits=10,test_size=0.2, random_state=0)).fit(X_train, Y_train)
# 对结果打分
print(("Best score: %0.3f" % grid_search.best_score_))
print((grid_search.best_estimator_))
#report(grid_search.best_score_)
 
print('-----grid search end------------')
print ('on all train set')
scores = cross_val_score(grid_search.best_estimator_, X_train, y_train,cv=3,scoring='accuracy')
print(scores.mean(),scores)
print ('on test set')
scores = cross_val_score(grid_search.best_estimator_, X_test, Y_test,cv=3,scoring='accuracy')
print(scores.mean(),scores)

# 对结果打分

print((classification_report(Y_train, grid_search.best_estimator_.predict(X_train) )))
print('test data')
print((classification_report(Y_test, grid_search.best_estimator_.predict(X_test) )))

得到最好的模型后，训练预测保存需要提交的数据。

clf.fit(X,y)
y_pred =clf.predict(test_df)
pd.DataFrame({"id": id_data, "class": y_pred}).to_csv('submission.csv',index=False)

lsa降维以及一些特征处理主要参考下面博客。
文本分类任务的基础实现（一）——机器学习部分_特征工程_代码分解 -

task4

关于lightgbm的介绍以及原理参考：开源|LightGBM基本原理，以及调用形式_慕课手记
lightGBM从参数调优到背景理论 - 简书
使用过程。

首先用lgb包的DataSet类包装一下需要测试的数据；
将lightgbm的参数构成一个dict字典格式的变量
将参数字典，训练样本，测试样本，评价指标一股脑的塞进lgb.train()方法的参数中去
上一步的方法会自觉地得到最佳参数和最佳的模型，保存模型
使用模型进行测试集的预测

在文件保存过程中发现pickle对于保存大型数据有时候不能够使用，因此使用joblib来进行数据的保存和模型的固化。

f2 = open('feature_file/data_tfidf_lsa.pkl', 'rb')
x_train_lsa, train_Y,x_test_lsa=joblib.load(f2)
X=train_X
y=train_Y
X_train, X_vali, y_train, y_vali = train_test_split(X, y, test_size=0.3, random_state=2019)

导入降维后的lsa特征作为训练数据。
数据一定要转换为要求的数据类型。

lgb_train = lgb.Dataset(data=X_train, label=y_train)
lgb_vali = lgb.Dataset(data=X_vali, label=y_vali)

定义评价标准F1指标

def f1_score_vali(preds, data_vali):
    
    labels = data_vali.get_label()
    preds = np.argmax(preds.reshape(20, -1), axis=0)//将输出的概率模型转为要求的整数数据
    score_vali = f1_score(y_true=labels, y_pred=preds, average='macro')
    return 'f1_score', score_vali, True

设置参数进行训练，训练过程设置了两百次迭代已经耗时2个多小时。

### 开始训练
start_time=time.time()
print('设置参数')
params = {
        'boosting': 'gbdt',
        'application': 'multiclassova',
        'num_class': 20,
        'learning_rate': 0.1,
        'num_leaves':31,
        'max_depth':-1,
        'lambda_l1': 0,
        'lambda_l2': 0.5,
        'bagging_fraction' :1.0,
        'feature_fraction': 1.0
        }
print("开始训练")


gbm = lgb.train(params,                     # 参数字典
                lgb_train,                  # 训练集
                num_boost_round=200,       # 迭代次数
                valid_sets=lgb_vali,        # 验证集
                feval=f1_score_vali,
                early_stopping_rounds=None,   # 早停系数
                verbose_eval=True)
                
end_time=time.time()

print("耗时：{}s ".format(end_time - start_time))

迭代过程中可以看到模型的F1指标是在逐渐变好的。由于电脑原因就没有继续迭代下去。就利用了本次的模型进行预测。

### 保存模型

joblib.dump(gbm,'gbm.pkl')

### 预测
y_preds =  np.argmax(gbm.predict(x_test_lsa, num_iteration=gbm.best_iteration), axis=1) + 1  # 输出概率
pd.DataFrame({"id":id_data,"class":y_preds}).to_csv('submission.csv',index=False)

关于调参：`
首先设置初始参数–不含交叉验证参数

### 设置初始参数--不含交叉验证参数
print('设置参数')
params = {
          'boosting_type': 'gbdt',
          'objective': 'binary',
          'metric': 'binary_logloss',
          }

### 交叉验证(调参)
print('交叉验证')
min_merror = float('Inf')
best_params = {}

准确率

print("调参1：提高准确率")
for num_leaves in range(20,200,5):
    for max_depth in range(3,8,1):
        params['num_leaves'] = num_leaves
        params['max_depth'] = max_depth

        cv_results = lgb.cv(
                            params,
                            lgb_train,
                            seed=2018,
                            nfold=3,
                            metrics=['binary_error'],
                            early_stopping_rounds=10,
                            verbose_eval=True
                            )
            
        mean_merror = pd.Series(cv_results['binary_error-mean']).min()
        boost_rounds = pd.Series(cv_results['binary_error-mean']).argmin()
            
        if mean_merror < min_merror:
            min_merror = mean_merror
            best_params['num_leaves'] = num_leaves
            best_params['max_depth'] = max_depth
            
params['num_leaves'] = best_params['num_leaves']
params['max_depth'] = best_params['max_depth']

降低过拟合

print("调参2：降低过拟合")
for max_bin in range(1,255,5):
    for min_data_in_leaf in range(10,200,5):
            params['max_bin'] = max_bin
            params['min_data_in_leaf'] = min_data_in_leaf
            
            cv_results = lgb.cv(
                                params,
                                lgb_train,
                                seed=42,
                                nfold=3,
                                metrics=['binary_error'],
                                early_stopping_rounds=3,
                                verbose_eval=True
                                )
                    
            mean_merror = pd.Series(cv_results['binary_error-mean']).min()
            boost_rounds = pd.Series(cv_results['binary_error-mean']).argmin()

            if mean_merror < min_merror:
                min_merror = mean_merror
                best_params['max_bin']= max_bin
                best_params['min_data_in_leaf'] = min_data_in_leaf

params['min_data_in_leaf'] = best_params['min_data_in_leaf']
params['max_bin'] = best_params['max_bin']

保存test的预测结果提交

102277行test数据得到102277个预测数据。保存为csv文件提交，结果总是失败。

不知道怎么回事，暂时未提交成功。

Task5

CoLaboratory确实很好用但是存在一些问题，总是会自动断开。
Keras模型保存和加载的两种方式 - 葡萄家 - CSDN博客
RCNN 简介 - This is bill的专属博客 - CSDN博客
TextCnn原理及实践 - JohnSon - CSDN博客
kears模型的保存和重载。

保存

model.save('modelname.h5')

载入

from keras.models import load_model  
model = load_model('modelname.h5')

RCNN代买来自 Heitao5200/DGB
自身电脑配置较差，使用谷歌提供的CoLaboratory，确实很好用但是存在一些问题，总是会自动断开。
使用CoLaboratory训练好模型并保存，进行预测的一步骤时连接出现问题。于是把
保存kears训练好的模型再重新载入出现这样的问题，暂时没找到解决办法。‘name ‘backend’ is not defined’。无奈只能重新再一次训练模型。

## 先把原始的文本处理成2000维的向量，太长的截断，不够的补0
## 生成300维的嵌入
## CNN，3个256的卷积，池化以后，flatten，输入给softmax
## 输出分类的one hot编码

读入部分训练集和全部test集。出于时间考虑用部分训练的模型做全部的预测，结果不够理想是可以预见的。

df_train = pd.read_csv('train_set1.csv',engine='python',encoding='gbk')
df_test = pd.read_csv( 'test_set.csv',engine='python',encoding='gbk')
print (df_train.shape)
#df_train=df_train[0:500]
df_train.drop(df_train.columns[0],axis=1,inplace=True)
#df_train["word_seg"] = df_train["article"].map(str) +' '+ df_train["word_seg"].map(str)
#df_test["word_seg"] = df_test["article"].map(str) +' ' + df_test["word_seg"].map(str)
word_seg = df_train['word_seg']
label = df_train['class'] - 1
X_train, X_test, y_train, y_test = train_test_split(word_seg, label, test_size=0.1, random_state=42)

数据的处理阶段

X_train_word_ids = tokenizer.texts_to_sequences(X_train)
X_test_word_ids = tokenizer.texts_to_sequences(X_test)

X_train_padded_seqs = pad_sequences(X_train_word_ids, maxlen=doc_len)
X_test_padded_seqs = pad_sequences(X_test_word_ids, maxlen=doc_len)

left_train_word_ids = [[len(vocab)] + x[:-1] for x in X_train_word_ids]
left_test_word_ids = [[len(vocab)] + x[:-1] for x in X_test_word_ids]
right_train_word_ids = [x[1:] + [len(vocab)] for x in X_train_word_ids]
right_test_word_ids = [x[1:] + [len(vocab)] for x in X_test_word_ids]

# 分别对左边和右边的词进行编码
left_train_padded_seqs = pad_sequences(left_train_word_ids, maxlen=doc_len)
left_test_padded_seqs = pad_sequences(left_test_word_ids, maxlen=doc_len)
right_train_padded_seqs = pad_sequences(right_train_word_ids, maxlen=doc_len)
right_test_padded_seqs = pad_sequences(right_test_word_ids, maxlen=doc_len)

# 模型共有三个输入，分别是左词，右词和中心词
document = Input(shape = (doc_len, ), dtype = "int32")
left_context = Input(shape = (doc_len, ), dtype = "int32")
right_context = Input(shape = (doc_len, ), dtype = "int32")

# 构建词向量
embedder = Embedding(len(vocab) + 1, embedding_dim, input_length = doc_len)
doc_embedding = embedder(document)
l_embedding = embedder(left_context)
r_embedding = embedder(right_context)

模型的构建

forward = LSTM(256, return_sequences = True)(l_embedding) # 等式(1)
# 等式(2)
backward = LSTM(256, return_sequences = True, go_backwards = True)(r_embedding)
together = concatenate([forward, doc_embedding, backward], axis = 2) # 等式(3)

semantic = TimeDistributed(Dense(128, activation = "tanh"))(together) # 等式(4)
# 等式(5)
pool_rnn = Lambda(lambda x: backend.max(x, axis = 1), output_shape = (128, ))(semantic)
output = Dense(19, activation = "softmax")(pool_rnn) # 等式(6)和(7)
model = Model(inputs = [document, left_context, right_context], outputs = output)

模型训练和保存

model.compile(loss='categorical_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

model.fit([X_train_padded_seqs, left_train_padded_seqs, right_train_padded_seqs],y_train,
           batch_size=32,
           epochs=1,
           validation_data=([X_test_padded_seqs, left_test_padded_seqs, right_test_padded_seqs], y_test))

model.save(model_path + 'rcnn.h5')

如果将全部数据进行训练则会花费较大时间，因此只用了一部分代码进行训练。

因为使用数据集较少，最后的精度不是很高只有0.48.如果用全部数据集训练相信精度可以提高。

# 评价
score = model.evaluate(X_test_padded_seqs, y_test, verbose=0)
print('Test loss:', score[0])
print('Test accuracy:', score[1])

## 特征转换
xx_test_word_ids = tokenizer.texts_to_sequences(df_test['word_seg'])
xx_test_padded_seqs = pad_sequences(xx_test_word_ids, maxlen=doc_len)

## 预测
pred_prob = model.predict(xx_test_padded_seqs)
pred = pred_prob.argmax(axis=1)


## 结果保存
df_test['class'] = pred.tolist()
df_test['class'] = df_test['class'] + 1
df_result = df_test.loc[:, ['id','class']]
df_result.to_csv(result_path +'RCNN.csv',index=False)

最后的提交结果，好羞耻。等后续有时间再继续完善和尝试其他的模型。

task6

模型融合

机器学习系列之七】模型调优与模型融合(代码应用篇) - 多元思考力 - CSDN博客
Ensemble Learning-模型融合-Python实现 - AaronChou的博客 - CSDN博客
集成学习stacking - winycg的博客 - CSDN博客
机器学习中的Stacking模型融合 - 小码仔 - CSDN博客
首先尝试了以下代码进行stacking模型融合，该代码是没有用第三方库，程序也比较老，有一些接口已经改变，在测试后后已经不能够运行，自己尝试修正，没有成功。

# coding=utf8


from sklearn import datasets
from sklearn.ensemble import RandomForestClassifier, ExtraTreesClassifier, GradientBoostingClassifier
from sklearn.cross_validation import train_test_split
from sklearn.cross_validation import StratifiedKFold
import numpy as np
from sklearn.metrics import roc_auc_score
from sklearn.datasets.samples_generator import make_blobs

'''创建训练的数据集'''
data, target = make_blobs(n_samples=50000, centers=2, random_state=0, cluster_std=0.60)

'''模型融合中使用到的各个单模型'''
clfs = [RandomForestClassifier(n_estimators=5, n_jobs=-1, criterion='gini'),
        RandomForestClassifier(n_estimators=5, n_jobs=-1, criterion='entropy'),
        ExtraTreesClassifier(n_estimators=5, n_jobs=-1, criterion='gini'),
        ExtraTreesClassifier(n_estimators=5, n_jobs=-1, criterion='entropy'),
        GradientBoostingClassifier(learning_rate=0.05, subsample=0.5, max_depth=6, n_estimators=5)]

'''切分一部分数据作为测试集'''
X, X_predict, y, y_predict = train_test_split(data, target, test_size=0.33, random_state=2017)


dataset_blend_train = np.zeros((X.shape[0], len(clfs)))
dataset_blend_test = np.zeros((X_predict.shape[0], len(clfs)))

'''5折stacking'''
n_folds = 5
skf = list(StratifiedKFold(y, n_folds))
for j, clf in enumerate(clfs):
    '''依次训练各个单模型'''
    # print(j, clf)
    dataset_blend_test_j = np.zeros((X_predict.shape[0], len(skf)))
    for i, (train, test) in enumerate(skf):
        '''使用第i个部分作为预测，剩余的部分来训练模型，获得其预测的输出作为第i部分的新特征。'''
        # print("Fold", i)
        X_train, y_train, X_test, y_test = X[train], y[train], X[test], y[test]
        clf.fit(X_train, y_train)
        y_submission = clf.predict_proba(X_test)[:, 1]
        dataset_blend_train[test, j] = y_submission
        dataset_blend_test_j[:, i] = clf.predict_proba(X_predict)[:, 1]
    '''对于测试集，直接用这k个模型的预测值均值作为新的特征。'''
    dataset_blend_test[:, j] = dataset_blend_test_j.mean(1)
    print("val auc Score: %f" % roc_auc_score(y_predict, dataset_blend_test[:, j]))
# clf = LogisticRegression()
clf = GradientBoostingClassifier(learning_rate=0.02, subsample=0.5, max_depth=6, n_estimators=30)
clf.fit(dataset_blend_train, y)
y_submission = clf.predict_proba(dataset_blend_test)[:, 1]

print("Linear stretch of predictions to [0,1]")
y_submission = (y_submission - y_submission.min()) / (y_submission.max() - y_submission.min())
print("blend result")
print("val auc Score: %f" % (roc_auc_score(y_predict, y_submission)))

来自github
尝试使用第三方库mlxtend实现stacking

clf1 = KNeighborsClassifier(n_neighbors=1)
clf2 = RandomForestClassifier(random_state=1)
clf3 = GaussianNB()
lr = LogisticRegression()
sclf = StackingClassifier(classifiers=[clf1, clf2, clf3],
                          use_probas=True,
                          average_probas=False,
                          meta_classifier=lr)

print('3-fold cross validation:\n')

for clf, label in zip([clf1, clf2, clf3, sclf], 
                      ['KNN', 
                       'Random Forest', 
                       'Naive Bayes',
                       'StackingClassifier']):

    scores =cross_val_score(clf, X, y,cv=3, scoring='accuracy')
    print("Accuracy: %0.2f (+/- %0.2f) [%s]" 
          % (scores.mean(), scores.std(), label))

来自集成学习总结&Stacking利器（mlxtend库） - 法相的博客 - CSDN博客
集成学习还是要花费很长时间的，调参由于时间原因就没有进行。模型融合的效果并没有特别好。
看到其他博客有写道最开始对数据进行预处理时候词向量转化的参数不同对最后的结果影响很大。
“达观杯”文本智能处理挑战赛心得体会 - 丶小祖宗的博客 - CSDN博客
记录一下下次尝试一下这个参数进行特征处理。
最后提交结果，比较纳闷的是训练的好好准确率也还可以，预测数据居然出现这么大的偏差，只比上次进步了一丁点。有点没搞明白。

你可能感兴趣的:(“达观杯”文本智能处理挑战赛练习)

“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛 fzyz123 Datawhale AI夏令营人工智能 Datawhale 大模型技术 NLP 深度学习 AI夏令营
前言：本次是DatawhaleAI夏令营2025年第一期的内容，赛事是：基于带货视频评论的用户洞察挑战赛（科大讯飞AI大赛）一、赛事背景在直播电商爆发式增长浪潮中，短视频平台积累的海量带货视频及用户评论数据蕴含巨大商业价值。这些数据不仅是消费者体验的直接反馈，更是驱动品牌决策的关键资产。用户洞察的核心在于视频内容与评论数据的联合挖掘：通过智能识别推广商品分析评论中的情感表达与观点聚合精准捕捉消费者
蓝桥杯2023年第十四届省赛真题-岛屿个数撰卢蓝桥杯算法职场和发展
目录题目题目描述输入格式输出格式样例输入样例输出思路：两次DFS（染色法+合并）-Dotcpp编程社区代码：题目题目描述小蓝得到了一副大小为M×N的格子地图，可以将其视作一个只包含字符‘0’（代表海水）和‘1’（代表陆地）的二维数组，地图之外可以视作全部是海水，每个岛屿由在上/下/左/右四个方向上相邻的‘1’相连接而形成。在岛屿A所占据的格子中，如果可以从中选出k个不同的格子，使得他们的坐标能够组
优化版三国主题MySQL建表与查询练习（细节增强）韩公子的Linux大集市五 MySQL运维DBA mysql 数据库
文章目录优化版三国主题MySQL建表与查询练习（细节增强）题目一：三国人物信息表（全面优化）建表语句（增强约束与注释）插入数据（含完整信息）查询练习（增强实用性）题目二：三国战役表（增强关系设计）建表语句（完整关系模型）插入数据（完整战役信息）查询练习（多表关联）综合实战演练1.人物能力值分析2.战役地图查询3.胜负因素分析设计亮点总结优化版三国主题MySQL建表与查询练习（细节增强）题目一：三国
【JS三兄弟谁是谁】搞懂 splice、slice、split，只需一杯奶茶的时间！ dorabighead 前端八股总结 javascript 前端开发语言
JavaScript有三兄弟，经常一起“切人”。他们名字相似、功能相关，但性格迥异，常被搞混。今天，就带你喝着奶茶，笑着剖析，帮你彻底搞懂：splice、slice、split到底是谁？干了啥？凭啥这么火？一、三兄弟登场：不同对象，不同任务名称作用对象是否修改原对象返回类型功能简述splice数组✅是被删除元素数组原地删除元素并可插入新元素slice数组/字符串❌否副本（子集）复制选中部分，原体不
小学家长和老师最喜欢的出题神器！
暑假到了，家里的学生也放假了，大家每天都是怎么度过的？今天我给家长们推荐一款神器：小学生数学习题生成器，相信家长们一定非常喜欢！小学生数学习题生成器就像一位聪明的“数学小管家”。输入年级、知识点、题量和难度，几秒就能吐出一份量身定制的练习卷，加减乘除、应用题、图形、数列应有尽有，覆盖每个学习阶段。核心亮点：进度精准同步：从一年级的数数到六年级的综合题，它紧扣教材，按知识点推送练习，像私人导师一样帮
数据基础练习云朵大王 java 数据库开发语言
--创建部门表CREATETABLEDepartments(department_idINTPRIMARYKEY,department_nameVARCHAR(50)NOTNULL);--创建员工表CREATETABLEEmployees(employee_idINTPRIMARYKEY,employee_nameVARCHAR(50)NOTNULL,salaryDECIMAL(10,2)NOTN
SQL 视图与事务知识点详解及练习题云朵大王数据库 java 大数据
在数据库操作中，视图和事务是非常重要的概念，它们在数据管理和操作一致性方面发挥着关键作用。下面我们将详细介绍视图和事务的相关知识，并通过练习题来巩固理解。一、知识点梳理（一）视图作用：常用于保存复杂的SQL语句，是一张虚拟表。格式：createorreplaceview视图名称asselect......withcheckoption操作：可进行select、insert、update、delet
SQL 索引与日志知识点详解及练习题
索引和日志在数据库的高效运行和数据安全中扮演着重要角色。下面我们详细梳理索引和日志的相关知识，并通过练习题加深理解。一、知识点梳理（一）索引基本概念：索引是为了加速查询的数据结构，其数据结构为B+树。B代表Balance（平衡），数据保存在叶子结点中。分类主键索引：唯一标识一行，不允许为空，一张表只能有一个主键。唯一索引：标识一行，允许为空，一张表可以有多个唯一索引。普通索引：允许重复和空值。联合
C#学习第一天总结
大家好！我是C#编程的初学者，今天开始我的学习之旅。这是我的第一份学习总结，主要涵盖了C#的基础程序结构、数据类型、变量声明以及类型转换。这些内容是C#入门的基石，我会以笔记形式分享我的理解和练习心得。希望这份总结能帮助其他新手快速上手，也欢迎大家一起交流讨论。接下来，我将按主题整理今天的核心知识点。一、程序结构概述C#程序由多个基本元素组成，理解这些结构是编写代码的基础：**using指令**：
SpringBoot异步执行详细教程蹦跑的蜗牛 Springboot vue.js spring boot
SpringBoot异步执行详细教程一、异步执行概述想象一下你去奶茶店买奶茶：同步模式：你点单后，必须站在柜台前等奶茶做好（奶茶师做完一杯再做下一杯），期间不能干其他事。异步模式：你点单后，奶茶店给你一个取餐号（发起任务），你可以去旁边买零食（继续做其他事），等奶茶做好后店员叫号（通过回调或通知获取结果）。SpringBoot异步执行的本质就是：让程序在执行耗时操作（如发邮件、调接口）时，不阻塞主
python中函数与递归的练习
求一个十进制的数值的二进制的0、1的个数实现一个用户管理系统（要求使用容器保存数据）[{name:xxx,pass:xxx,……},{},{}]users=[]#用户类，包含基本信息classUser:def__init__(self,name,password,email=None):self.name=nameself.password=passworddef__str__(self):ret
数据库练习题 EmorZhong 我的MySQL 数据库 mysql 算法
MySQL练习https://github.com/EmorZz1G/DatabaseStudy在GitHub中查看更多题目理解有点离谱，多个题目更新查询平均成绩大于80的学生姓名。查询课程成绩大于课程平均成绩的选课信息，显示学生姓名、课程名称和成绩。查询至少选修了C1和C2课程的学生名单。查询选修了C1课程而没有选修C2课程的学生名单。统计每门课程成绩大于80分的学生数。统计计算机系“CS”学生
【Python练习】036. 编写一个函数，将一个字符串中的所有字符按ASCII值排序视睿从零开始学习机器人 python windows microsoft
036.编写一个函数，将一个字符串中的所有字符按ASCII值排序036.编写一个函数，将一个字符串中的所有字符按ASCII值排序示例代码运行结果代码解释扩展：使用`sorted()`函数注意事项实现方法方法一：使用内置sorted函数和join方法方法二：使用列表的sort方法方法三：使用ord函数自定义排序方法四：手动实现冒泡排序算法方法五：使用计数排序036.编写一个函数，将一个字符串中的所有
【Python练习】035. 编写一个函数，实现简单的文本搜索功能视睿从零开始学习机器人 python 开发语言机器人算法人工智能
035.编写一个函数，实现简单的文本搜索功能035.编写一个函数，实现简单的文本搜索功能示例代码代码解释测试结果注意事项多种实现方法方法一：使用字符串内置方法方法二：使用正则表达式方法三：使用列表推导式方法四：使用KMP算法方法五：使用第三方库035.编写一个函数，实现简单的文本搜索功能示例代码importredefsimple_text_search(text,pattern):"""在文本中搜
巅峰对决，超三十万奖金等你挑战！第十届信也科技杯全球AI算法大赛火热开赛！
信也科技今年跟IJCAI和CIKM这两大全球顶级AI会议合作，这场比赛被全球人工智能顶会CIKM收录为官方赛事单元，获奖选手有机会全球人工智能顶会创造更大的影响力。巅峰对决，超三十万奖金等你挑战！第十届信也科技杯全球AI算法大赛火热开赛！赛事概况随着深度伪造技术的高度发展，人工智能产业走深向实，生成合成技术开始呈现工具化和普及化趋势。在生成合成内容质量显著提升的当下，基于换脸攻击的身份冒用和欺诈事
Leetcode刷题笔记——栈篇 code_lover_forever Leetcode刷题笔记 leetcode 笔记算法 python
Leetcode刷题笔记——栈篇栈的简介栈是一种先进后出的数据结构(FirstInLastOut)，栈作为一种数据结构，是一种只能在一端进行插入和删除操作的特殊线性表，这里我不做过多介绍，栈的应用和练习算是面试中的高频考点了，接下来看下我们来看一下Leetcode关于栈的常见面试题题型，每道题都附上了简单明了的python解法，大家重点关注算法思想即可一、栈在括号匹配中的应用第一题：括号的最大嵌套
测试你的Python环境是否配置成功川星弦 python 开发语言
#导入需要的库importrequestsfrombs4importBeautifulSoup#目标网页URLurl='https://quotes.toscrape.com/'#这是一个专门用来练习爬虫的网站#设置请求头，模拟浏览器访问headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHT
全球DeepFake攻防挑战赛&DataWhale AI 夏令营——图像赛道 czijin 人工智能 deep learning
全球DeepFake攻防挑战赛&DataWhaleAI夏令营——图像赛道赛题背景随着人工智能技术的迅猛发展，深度伪造技术（Deepfake）正成为数字世界中的一把双刃剑。这项技术不仅为创意内容的生成提供了新的可能性，同时也对数字安全构成了前所未有的挑战。Deepfake技术可以通过人工智能算法生成高度逼真的图像、视频和音频内容，这些内容看起来与真实的毫无二致。然而，这也意味着虚假信息、欺诈行为和隐
BUUCTF在线评测-练习场-WebCTF习题[GYCTF2020]Blacklist1-flag获取、解析
解题思路打开靶场，跟之前有一题很像，应该是一个出题人，增强了靶场提示黑名单对于我来说太薄弱了，不是吗？上次题我记得用的是堆叠注入+预编译或者更改表名..这次估计把这两都过滤了没关系，我们还是常规思路起手，先判断闭合，输入1'1'error1064:YouhaveanerrorinyourSQLsyntax;checkthemanualthatcorrespondstoyourMariaDBserv
17linux批量创建用户与权限管理 Crazy________ Linux初级 chrome 前端
一.如何批量创建用户在企业中我们通常使用shell脚本批量创建用户，这里为了练习，我选择使用sed和awk来拼接命令案例一：批量创建用户[root@db01~]#echouseradd_laoli{1..3}useradd_laoli1useradd_laoli2useradd_laoli3#这是echo命令[root@db01~]#echouseradd_laoli{1..3}|xargs-n1
Python 机器学习核心入门与实战进阶 Day 8 - 数据建模与分析项目实战预备：项目规划与需求拆解蓝婷儿 python python 机器学习开发语言
✅今日目标理解数据分析/建模项目的一般流程练习项目需求理解与目标拆解明确后续模型评估指标与预期交付成果起草项目计划文档（可选写为Markdown）一、项目背景与题目建议（可选方向）项目名称简介学生成绩预测分析系统根据历史表现预测成绩是否达标、学科薄弱点等求职者简历筛选模型根据简历信息预测是否通过初筛电商用户购买预测系统分析用户行为数据预测是否购买公司销售数据趋势分析可视化+聚合分析：月销售趋势、区
leetcode练习下一个排列 ly-how 算法数据结构 leetcode
整数数组的一个排列就是将其所有成员以序列或线性顺序排列。例如，arr=[1,2,3]，以下这些都可以视作arr的排列：[1,2,3]、[1,3,2]、[3,1,2]、[2,3,1]。整数数组的下一个排列是指其整数的下一个字典序更大的排列。更正式地，如果数组的所有排列根据其字典顺序从小到大排列在一个容器中，那么数组的下一个排列就是在这个有序容器中排在它后面的那个排列。如果不存在下一个更大的排列，那么
Pandas 学习（数学建模篇）停走的风数学建模 pandas 学习
今天学习数学建模2023年C篇（228）优秀论文2023高教社杯全国大学生数学建模竞赛C题论文展示（C228）-2023C题论文-中国大学生在线一.pd.DataFramepd.DataFrame()是pandas库中用于创建二维表格数据结构（DataFrame）的核心函数。它的作用是将各种格式的数据（如字典、列表、Series等）转换为带有行索引和列标签的表格形式，便于数据处理和分析.impor
CTFSHOW-WEB-36D杯 wyjcxyyy 前端 android
给你shell这道题对我这个新手还是有难度的，花了不少时间。首先f12看源码，看到?view_source，点进去看源码location.href=\'./index.php\'');if(!isset($_GET['code'])){show_source(__FILE__);exit();}else{$code=$_GET['code'];if(!preg_match($secret_waf,
【单片机】51单片机练习代码 iFulling 单片机笔记单片机 51单片机嵌入式硬件
【单片机】51单片机练习代码1.端口定义LED灯端口蜂鸣器端口2.独立按键程序编写3.数码管显示4.外部中断初始化5.中断函数程序编写6.串口程序初始化7.LCD602写数据和写命令8.用定时器实现秒表9.流水灯（数组实现）10.花样流水两边往中间（数组实现）11.用定时器编写等宽方波12.用定时器编写非等宽方波1.端口定义LED灯端口#includesbitled0=P1^0;//定义LED灯端
DIDCTF-22蓝帽杯初赛小丑001. DIDCTF 网络安全
手机取证_1题目描述现对一个苹果手机进行取证，请您对以下问题进行分析解答。627604C2-C586-48C1-AA16-FF33C3022159.PNG图片的分辨率是？（答案参考格式：1920×1080）注意：中间为乘号×，不是字母xflag：360×360手机取证_2题目描述姜总的快递单号是多少？（答案参考格式：abcABC123）flag：SF1142358694796网站取证_1题目描述据
数字化时代练歌神器：卡拉OK点唱机应用全解析
本文还有配套的精品资源，点击获取简介：卡拉OK点唱机是一款专为音乐爱好者和练歌者设计的软件，提供网络点播、音轨分离、音调调整、评分系统、回放功能和歌词同步显示等辅助功能，帮助用户随时随地进行歌唱练习，提升演唱技巧。高级版本还提供专业音效处理功能，使得卡拉OK点唱机成为业余爱好者和专业歌手的理想训练工具。1.网络点播功能的实现与应用网络点播功能改变了我们获取媒体内容的方式，赋予了用户前所未有的主动性
第十五届蓝桥杯嵌入式客观题真题（第二场）（个人错点总结） lo卖火柴的小熊猫电子相关竞赛分享蓝桥杯职场和发展嵌入式硬件
题目忘记拷贝了--，回忆到的写一下1.常见放大器的功能有（ABCD）A.放大B.滤波C.振荡D.比较X.stm32的ADC功能描述正确的是（ABCD）A.自校准B.12位采样精度C.单/多采集设置D.软件设置左靠右靠数据阵列X.RS485旁路的对称电阻作用.（D）A.B.静电保护C.防止浪涌D.防止信号反射X.BUCK电路的电平转换功能（D）A.AC/ACB.AC/DCC.DC/ACD.DC/DC
大唐杯省赛考纲总结（10%） LUO-CHEn 大唐杯第十届 5G 信息与通信
系列文章目录本届大唐杯考察范围20%通信基础知识70%5G内容10%商业流程文章目录系列文章目录前言一、通信基础知识的考察（20%）二、5G内容5G无线技术（20%）：5G网络技术（10%）：5G协议与信令（15%）:5G工程实践（15%）：5G+垂直行业应用（10%）:三、商业流程（10%）:总结前言大唐杯以推广信息通信领域前沿技术、协同高校学科建设、推动行业创新发展为目的，激发高校学生参赛热情
大唐杯题库之二 LUO-CHEn 大唐杯第十届 5G
[单选题]1、对于大唐5G基站设备，当时钟同步时，至少需要锁定几颗卫星（）A、3B、6C、4D、5答案：A[单选题]2、在5G网络架构中，以下选项哪一项是AMF的功能？（）A、下行数据的通知B、注册管理C、会话的建立修改删除D、漫游功能答案：B[单选题]3、对于大唐5G基站设备，HSCTD板卡插在0槽位，则其登录的物理IP地址为（）A、172.27.245.91B、172.27.245.100C、
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置