helloliping

机器学习-LDA--景区评论分析 ipython

#导入所需基本包
import pandas as pd
import numpy as np
# 导入扩展库
import re                           # 正则表达式库
import jieba                        # 结巴分词
import jieba.posseg                 # 词性获取
import collections                  # 词频统计库
import csv                          #文件读写

import os
import pandas as pd

# 打开文件
path = 'A:\jupyter_code\模式识别期末论文\评论数据'
dirs = os.listdir( path )         #os.listdir() 方法用于返回指定的文件夹包含的文件或文件夹的名字的列表。
# 输出所有表格文件
excels=[]
i=0
for fname in dirs:
     if 'xlsx' in fname:  #搜索带有xlsx的文件，即读取所有.xlsx文件
        print ('%-22s'%fname,'\t','标签取为：',i)
        df = pd.read_excel('评论数据/'+fname)
        df['标签']=str(i) #添加标签
        excels.append(df)
        i+=1
a = pd.concat(excels)           #纵向合并
#评论内容去重
a = a.dropna(subset=['评分'])  #删除评分为空值的行
print('去重之前：',a.shape[0])
a=a.drop_duplicates(subset=['评论内容'])
print('去重之后：',a.shape[0])

a.to_excel('景区评论.xlsx',index=False)   #保存文件

丽江古城.xlsx              	 标签取为： 0
九寨沟.xlsx               	 标签取为： 1
伦敦眼.xlsx               	 标签取为： 2
卢浮宫博物馆.xlsx            	 标签取为： 3
张家界.xlsx               	 标签取为： 4
杭州西湖.xlsx              	 标签取为： 5
洱海.xlsx                	 标签取为： 6
都江堰景区.xlsx             	 标签取为： 7
雅典卫城.xlsx              	 标签取为： 8
鼓浪屿.xlsx               	 标签取为： 9
去重之前： 25789
去重之后： 23811

import pandas as pd 
data = pd.read_excel('景区评论.xlsx')

去重之前： 23811
去重之后： 23811

词频统计

import jieba                        # 结巴分词
import jieba.posseg                 # 词性获取
import collections                  # 词频统计库 
import re                           # 正则表达式
import csv                          #文件读写
import pandas as pd 


data = pd.read_excel('景区评论.xlsx')
stopWords = pd.read_csv('stopword.txt',encoding='utf-8', sep='lipingliping', header=None)
custom_stopWords = pd.read_csv('自定义停用词.txt',encoding='utf-8', sep='lipingliping',header=None)
adverbWords = pd.read_csv('程度副词.txt',encoding='utf-8', sep='lipingliping',header=None)
stop = list(stopWords.iloc[:, 0])+list(custom_stopWords.iloc[:, 0])+list(adverbWords.iloc[:, 0])#将停用词写入列表
#景区热词表名
name=['丽江古城热词','九寨沟热词','伦敦眼热词','卢浮宫博物馆热词','张家界热词','杭州西湖热词','洱海热词','都江堰景区热词','雅典卫城热词','鼓浪屿热词']
j=0
for labels in range(0,10):
    
    data01=(''.join(str(i) for i in data.loc[data["标签"]==labels,"评论内容"]))
    #预处理
    pattern = re.compile(u'\t|\n|\.|-|:|;|\)|\(|\?|\ |"\|~·@￥……*|“”|‘’|（）|{}|') # 定义正则表达式匹配模式(空格等)
    data02 = re.sub(pattern, '', data01)     # 将符合模式的字符去除
    data_cut = jieba.cut(data02,cut_all=False,HMM=True)

    data_stop = []
    #去除停用词(目的是去掉一些意义不大的词)
    for word in data_cut:         # 循环读出每个分词
        if word not in stop:       # 如果不在去除词库中
            data_stop.append(word)    # 分词追加到列表

    word_counts = collections.Counter(data_stop)       # 对分词做词频统计
    word_counts_top = word_counts.most_common(20)    # 获取前20个最高频的词
    print(word_counts_top)
    
    words_cloud_A = open('A:/jupyter_code/模式识别期末论文/景区热词表/'+name[j]+'.csv', 'w', newline = '')   #打开景区热词表格文件，若表格文件不存在则创建
    write = csv.writer(words_cloud_A)    #创建一个csv的writer对象用于写每一行内容
    write.writerow(['评论热词','热度'])  #写表格表头
    item = list(word_counts.items()) #将字典转化为列表格式
    item.sort(key = lambda x: x[1], reverse = True) #对列表按照第二列进行排序
    for k in range(20):
        write.writerow(item[k])#把前20词语写入表格
    words_cloud_A.close()
    j+=1

:10: ParserWarning: Falling back to the 'python' engine because the 'c' engine does not support regex separators (separators > 1 char and different from '\s+' are interpreted as regex); you can avoid this warning by specifying engine='python'.
  stopWords = pd.read_csv('stopword.txt',encoding='utf-8', sep='lipingliping', header=None)
:11: ParserWarning: Falling back to the 'python' engine because the 'c' engine does not support regex separators (separators > 1 char and different from '\s+' are interpreted as regex); you can avoid this warning by specifying engine='python'.
  custom_stopWords = pd.read_csv('自定义停用词.txt',encoding='utf-8', sep='lipingliping',header=None)
:12: ParserWarning: Falling back to the 'python' engine because the 'c' engine does not support regex separators (separators > 1 char and different from '\s+' are interpreted as regex); you can avoid this warning by specifying engine='python'.
  adverbWords = pd.read_csv('程度副词.txt',encoding='utf-8', sep='lipingliping',header=None)
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\28138\AppData\Local\Temp\jieba.cache
Loading model cost 0.663 seconds.
Prefix dict has been built successfully.


[('地方', 649), ('晚上', 485), ('酒吧', 469), ('不错', 459), ('客栈', 434), ('喜欢', 434), ('值得', 408), ('感觉', 353), ('里', 334), ('特色', 328), ('景色', 306), ('住', 299), ('吃', 290), ('商业化', 284), ('走', 275), ('热闹', 275), ('大研', 268), ('四方街', 265), ('美', 255), ('木府', 230)]
[('景色', 882), ('不错', 653), ('值得', 498), ('九寨', 477), ('美', 459), ('风景', 346), ('瀑布', 243), ('地方', 228), ('推荐', 223), ('看水', 213), ('水', 213), ('总体', 206), ('归来', 205), ('好玩', 193), ('有趣', 186), ('性价比', 182), ('体验', 179), ('超赞', 178), ('高', 177), ('海', 167)]
[('摩天轮', 528), ('排队', 456), ('泰晤士河', 314), ('不错', 260), ('俯瞰', 227), ('景色', 222), ('时间', 217), ('晚上', 201), ('值得', 200), ('地标', 196), ('坐', 182), ('快速通道', 179), ('世界', 167), ('建筑', 167), ('夜景', 163), ('美', 142), ('乘坐', 138), ('地方', 135), ('携程', 134), ('英国', 133)]
[('艺术', 738), ('蒙娜丽莎', 665), ('时间', 594), ('巴黎', 578), ('世界', 534), ('排队', 532), ('法国', 466), ('维纳斯', 398), ('值得', 377), ('参观', 375), ('金字塔', 335), ('建筑', 330), ('胜利', 305), ('雕塑', 304), ('女神', 297), ('著名', 295), ('地方', 284), ('三宝', 274), ('讲解', 271), ('小时', 262)]
[('景色', 1060), ('不错', 842), ('值得', 584), ('走', 510), ('索道', 490), ('天子山', 479), ('玩', 464), ('袁家界', 459), ('门票', 444), ('风景', 413), ('坐', 407), ('时间', 390), ('森林公园', 378), ('杨家', 358), ('界', 342), ('溪', 324), ('金鞭', 323), ('十里', 322), ('画廊', 320), ('国家森林公园', 313)]
[('景色', 522), ('不错', 431), ('美', 398), ('美景', 385), ('走', 298), ('风景', 291), ('地方', 287), ('断桥', 264), ('雷峰塔', 238), ('值得', 233), ('感觉', 224), ('苏堤', 192), ('喜欢', 173), ('美丽', 159), ('坐', 151), ('十景', 151), ('中', 143), ('三潭印月', 141), ('时间', 139), ('荷花', 138)]
[('地方', 587), ('美', 580), ('苍山', 558), ('景色', 477), ('双廊', 444), ('不错', 432), ('风景', 404), ('环海', 332), ('值得', 318), ('住', 312), ('感觉', 305), ('环', 260), ('骑行', 247), ('租', 247), ('云南', 242), ('时间', 213), ('拍照', 212), ('电动车', 203), ('海', 201), ('建议', 185)]
[('不错', 642), ('水利工程', 626), ('景色', 566), ('值得', 499), ('智慧', 475), ('古人', 368), ('讲解', 251), ('地方', 241), ('走', 234), ('历史', 223), ('李冰', 214), ('导游', 208), ('风景', 199), ('性价比', 176), ('推荐', 169), ('总体', 169), ('宝瓶口', 163), ('好好', 163), ('时间', 162), ('高', 162)]
[('神庙', 260), ('希腊', 243), ('建筑', 189), ('历史', 176), ('古希腊', 124), ('地方', 108), ('雅典娜', 106), ('值得', 94), ('城市', 90), ('中', 87), ('帕特农', 81), ('文明', 81), ('神殿', 67), ('壮观', 65), ('感觉', 64), ('世界', 63), ('震撼', 59), ('古老', 57), ('遗迹', 54), ('文化', 52)]
[('岛上', 839), ('厦门', 789), ('不错', 785), ('地方', 514), ('景色', 487), ('值得', 470), ('日光岩', 418), ('码头', 390), ('建筑', 347), ('吃', 294), ('时间', 258), ('风景', 251), ('住', 246), ('适合', 244), ('感觉', 233), ('岛', 231), ('走', 231), ('推荐', 213), ('钢琴', 208), ('菽庄花园', 208)]

LDA主题分析

import jieba                        # 结巴分词
import jieba.posseg                 # 词性获取
import collections                  # 词频统计库 
import re                           # 正则表达式
import csv                          #文件读写
import pandas as pd

data = pd.read_excel('景区评论.xlsx')
stopWords = pd.read_csv('stopword.txt',encoding='utf-8', sep='lipingliping', header=None)
custom_stopWords = pd.read_csv('自定义停用词.txt',encoding='utf-8', sep='lipingliping',header=None)
adverbWords = pd.read_csv('程度副词.txt',encoding='utf-8', sep='lipingliping',header=None)
stop = list(stopWords.iloc[:, 0])+list(custom_stopWords.iloc[:, 0])+list(adverbWords.iloc[:, 0])+[' ','\n','\t']#将停用词写入列表

:9: ParserWarning: Falling back to the 'python' engine because the 'c' engine does not support regex separators (separators > 1 char and different from '\s+' are interpreted as regex); you can avoid this warning by specifying engine='python'.
  stopWords = pd.read_csv('stopword.txt',encoding='utf-8', sep='lipingliping', header=None)
:10: ParserWarning: Falling back to the 'python' engine because the 'c' engine does not support regex separators (separators > 1 char and different from '\s+' are interpreted as regex); you can avoid this warning by specifying engine='python'.
  custom_stopWords = pd.read_csv('自定义停用词.txt',encoding='utf-8', sep='lipingliping',header=None)
:11: ParserWarning: Falling back to the 'python' engine because the 'c' engine does not support regex separators (separators > 1 char and different from '\s+' are interpreted as regex); you can avoid this warning by specifying engine='python'.
  adverbWords = pd.read_csv('程度副词.txt',encoding='utf-8', sep='lipingliping',header=None)

data0 = data.loc[data['标签']==0, ['评分','评论内容']]
data1 = data.loc[data['标签']==1, ['评分','评论内容']]
data2 = data.loc[data['标签']==2, ['评分','评论内容']]
data3 = data.loc[data['标签']==3, ['评分','评论内容']]
data4 = data.loc[data['标签']==4, ['评分','评论内容']]
data5 = data.loc[data['标签']==5, ['评分','评论内容']]
data6 = data.loc[data['标签']==6, ['评分','评论内容']]
data7 = data.loc[data['标签']==7, ['评分','评论内容']]
data8 = data.loc[data['标签']==8, ['评分','评论内容']]
data9 = data.loc[data['标签']==9, ['评分','评论内容']]


data_pos=data9.loc[data9["评分"]>=4,"评论内容"]
data_neg=data9.loc[data9["评分"]<=2,"评论内容"]
data_pos_cut = data_pos.astype('str').apply(lambda x: jieba.lcut(x))
data_neg_cut = data_neg.astype('str').apply(lambda x: jieba.lcut(x))
pos = data_pos_cut.apply(lambda x: [i for i in x if i not in stop])
neg = data_neg_cut.apply(lambda x: [i for i in x if i not in stop])

# 导入情感评价表
feeling = pd.read_csv('BosonNLP_sentiment_score.txt', sep=' ', header=None, encoding='utf-8')
# 改变列名
feeling.columns = ['word', 'score']
#feeling
# 将felling中的word字段转化为列表
feel = list(feeling['word'])
# 自定义查分函数
def classfi(my_list):
    SumScore = 0
    for i in my_list:
        if i in feel:
            SumScore += feeling['score'][feel.index(i)]
        return SumScore
# 运算时间较长
pos_score = pos.apply(lambda x: classfi(x))
neg_score = neg.apply(lambda x: classfi(x))

# 导入扩展库
import re                           # 正则表达式库
import jieba                        # 结巴分词
import gensim
from gensim import corpora, models, similarities
neg_feel = pd.concat((neg_score,neg),axis=1)
pos_feel = pd.concat((pos_score,pos), axis=1)
# 改变列名,便于查看
pos_feel.columns = ['评分', '评论']
neg_feel.columns = ['评分', '评论']
# 主题分析
# 建立词典
pos_dict = corpora.Dictionary(pos_feel['评论'])
neg_dict = corpora.Dictionary(neg_feel['评论'])
# 建立语料库
pos_corpus = [pos_dict.doc2bow(i) for i in pos_feel['评论']]
neg_corpus = [neg_dict.doc2bow(i) for i in neg_feel['评论']]
# LDA模型训练
pos_lda = models.LdaModel(pos_corpus, num_topics=3, id2word=pos_dict)
neg_lda = models.LdaModel(neg_corpus, num_topics=3, id2word=neg_dict)

print("\n正面评价")
# 输出每个主题
for i in range(3):
    print("主题%d : " % i)
    print(pos_lda.print_topic(i))
    
print("\n负面评价")
# 输出每个主题
for i in range(3):
    print("主题%d : " % i)
    print(neg_lda.print_topic(i))

正面评价
主题0 : 
0.008*"地方" + 0.008*"景色" + 0.007*"值得" + 0.006*"不错" + 0.006*"美丽" + 0.005*"美" + 0.004*"走" + 0.003*"总" + 0.003*"断桥" + 0.003*"相宜"
主题1 : 
0.016*"美景" + 0.010*"风景" + 0.009*"景色" + 0.007*"上有天堂" + 0.006*"下有苏杭" + 0.006*"喜欢" + 0.005*"地方" + 0.005*"喷泉" + 0.004*"美丽" + 0.004*"游船"
主题2 : 
0.014*"不错" + 0.014*"美" + 0.012*"景色" + 0.009*"断桥" + 0.008*"走" + 0.008*"值得" + 0.008*"雷峰塔" + 0.006*"美景" + 0.006*"感觉" + 0.006*"地方"

负面评价
主题0 : 
0.020*"小时" + 0.018*"套餐" + 0.017*"导游" + 0.016*"船上" + 0.016*"雷峰塔" + 0.013*"10" + 0.013*"坐船" + 0.013*"现场" + 0.013*"坐" + 0.013*"开水"
主题1 : 
0.017*"小时" + 0.016*"号" + 0.016*"请问" + 0.016*"账" + 0.016*"消息" + 0.016*"退票" + 0.016*"回复" + 0.015*"船上" + 0.014*"导游" + 0.013*"套餐"
主题2 : 
0.029*"纯净水" + 0.021*"高" + 0.020*"一瓶" + 0.018*"10" + 0.017*"小时" + 0.014*"雷峰塔" + 0.012*"游客" + 0.012*"成本" + 0.012*"交通" + 0.012*"不可思议"

data01=(''.join(str(i) for i in data.loc[data["标签"]==labels,"评论内容"]))
#预处理
pattern = re.compile(u'\t|\n|\.|-|:|;|\)|\(|\?|\ |"') # 定义正则表达式匹配模式(空格等)
data02 = re.sub(pattern, '', data01)     # 将符合模式的字符去除
data_cut = jieba.cut(data02,cut_all=False,HMM=True)
stopWords = pd.read_csv('stopword.txt',encoding='utf-8', sep='lipingliping', header=None)
custom_stopWords = pd.read_csv('自定义停用词.txt',encoding='utf-8', sep='lipingliping',header=None)
adverbWords = pd.read_csv('程度副词.txt',encoding='utf-8', sep='lipingliping',header=None)
stop = list(stopWords.iloc[:, 0])+list(custom_stopWords.iloc[:, 0])+list(adverbWords.iloc[:, 0])#将停用词写入列表
data_stop = []
#去除停用词(目的是去掉一些意义不大的词)
for word in data_cut:         # 循环读出每个分词
    if word not in stop:       # 如果不在去除词库中
        data_stop.append(word)    # 分词追加到列表

import os
import jieba
import warnings
warnings.filterwarnings('ignore')
import numpy as np
import pandas as pd
from keras import models,layers
from keras.utils.np_utils import to_categorical
from keras.preprocessing.text import Tokenizer
from sklearn import metrics
from sklearn.naive_bayes import MultinomialNB
from sklearn.preprocessing import LabelEncoder,OneHotEncoder
from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
from sklearn.feature_selection import SelectKBest,f_classif

# 法2：tf-idf策略

tf_idf = TfidfVectorizer()

x_trian_vec = tf_idf.fit_transform(data_stop)  #将训练集文本转换为TF-IDF权重矩阵

#x_test_vec = tf_idf.transform(X_test_cut)  #将测试集文本转换为TF-IDF权重矩阵

x_trian_vec.shape  #查看形状

data = pd.read_excel('景区评论.xlsx')
pos_data = data.loc[data['评分']>=4,['评分','评论内容']]
neg_data = data.loc[data['评分']<=3,['评分','评论内容']]
pos_data['评分']=0
neg_data['评分']=1

data01

	评分	评论内容
0	0	这到底是怎么一回事，身边竟然好多朋友都在问我：“我在丽江，怎么只看到了束河古镇，可是旅游票...
1	0	丽江有三大古城， #大研古镇（又名丽江古城）是规模最大也最受欢迎的一个，来丽江就没有人能逃...
2	0	春节长假的最后一天去丽江古城转了下，简直惊呆了，游客超级少，和我几年前去过丽江时完全不能比...
3	0	丽江古城又名大研镇，它位于丽江坝中部，北依象山、金虹山、西枕狮子山，东南面临数十里的良田阔野...
4	0	丽江古城，三个古镇中大研最大、最知名，人最多，商业化程度也最高。爱热闹，喜欢夜生活，选这里就...
...	...	...
23762	1	规模很小，表演因为天热海狮不配合。可玩性低，
23763	1	吃的和其他景点美食差不多，不要排队吃东西，绝对后悔，开放的景点不多，路边的别墅衰败的厉害有些...
23782	1	性价比低，可玩性低，有待改进，景色一般，
23785	1	携程上订票只有一个套餐，是和岛上一个旅游景点一起的优惠门票，我觉得不实惠，我买一张成人一张儿...
23786	1	中山路的轮渡那么近又方便，为什么给弄到夏鼓码头啊，又远停车又不方便，说停车4元每小时，我们停...

23811 rows × 2 columns

data0 = pos_data.loc[pos_data['评分']==0].sample(901,random_state=123)
data1 = neg_data.loc[neg_data['评分']==1].sample(901,random_state=123)

data01 = pd.concat([data0,data1],axis=0)

data01.columns=['标签','评论内容']
data01

	标签	评论内容
11504	0	确实不错，空气清新，还有野生猕猴，值得游玩个三五天
4491	0	刚好遇到好天气，出沟的时候遇到下雪了，第一次见下雪，很美
11303	0	门票领了优惠券便宜了点运气很好天气不错虽然有点晒但是天空很美空气很新鲜
16861	0	推荐。苍山雪，洱海月。去的那几天天气不错，坐在海边晒晒太阳吹吹风，简直惬意的不要不要的。虽然...
15561	0	到大理主要就是围绕着洱海旅游，洱海很大，景点都分散在环海周边，年轻人可以选择租车或者骑行，老...
...	...	...
3661	1	景区面积很大，游客不少。空气清新，景色秀丽
10429	1	也许是来之前心理预期太高，反而没啥太大意思，景区里没什么人很悠闲，但是也正因为人少.5点半走...
11330	1	可玩性低，性价比低，有待改进，怀着10多年的向往和激动的心情终于来到了张家界国家森林公园，2...
11079	1	如果考虑看风景：不推荐。假如电梯人客满，不在玻璃面前就看不到任何景色\n如果考虑代步：推荐，...
15760	1	路线设计不合理

1802 rows × 2 columns

import jieba
data_cut = data01['评论内容'].apply(jieba.lcut)

data01_cut=data_cut.apply(lambda x:' '.join(x))
data01_cut

11504                确实 不错 ， 空气清新 ， 还有 野生 猕猴 ， 值得 游玩 个 三五天
4491         刚好 遇到 好 天气 ， 出沟 的 时候 遇到 下雪 了 ， 第一次 见 下雪 ， 很 美
11303    门票 领了 优惠券 便宜 了 点   运气 很 好   天气 不错   虽然 有点 晒   ...
16861    推荐 。 苍山 雪 ， 洱海 月 。 去 的 那 几天 天气 不错 ， 坐在 海边 晒 晒太...
15561    到 大理 主要 就是 围绕 着 洱海 旅游 ， 洱海 很大 ， 景点 都 分散 在 环海 周...
                               ...                        
3661                       景区 面积 很大 ， 游客 不少 。 空气清新 ， 景色 秀丽
10429    也许 是 来 之前 心理 预期 太高 ， 反而 没 啥 太大 意思 ， 景区 里 没什么 人...
11330    可玩性 低 ， 性价比 低 ， 有待 改进 ， 怀着 10 多年 的 向往 和 激动 的 心...
11079    如果 考虑 看 风景 ： 不 推荐 。 假如 电梯 人 客满 ， 不 在 玻璃 面前 就 看...
15760                                            路线 设计 不合理
Name: 评论内容, Length: 1802, dtype: object

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
cv = CountVectorizer().fit(data01_cut)
cv_data=cv.transform(data01_cut)
cv_data.toarray()

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]], dtype=int64)

from sklearn.naive_bayes import MultinomialNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import LinearSVC
from sklearn.model_selection import train_test_split
from sklearn import svm

cv_train,cv_test,y_train,y_test = train_test_split(
    cv_data,data01['标签'],
test_size=0.2,random_state=345)

model_nb=MultinomialNB(alpha=0.01).fit(X_train,data01['标签'])
model_nb.score(X_train,data01['标签'])

0.974472807991121

model_nb1=MultinomialNB(alpha=0.00001).fit(cv_train,y_train)
model_nb1.score(cv_test,y_test)

0.703601108033241

model_knn = KNeighborsClassifier().fit(cv_data,data01['标签'])
model_knn.score(cv_data,data01['标签'])

0.7708102108768036

model_knn1 = KNeighborsClassifier().fit(cv_train,y_train)
model_knn1.score(cv_test,y_test)

0.6537396121883656

model_svc = LinearSVC().fit(cv_data,data01['标签'])
model_svc.score(cv_data,data01['标签'])

0.9961154273029966

model_svc1 = LinearSVC().fit(cv_train,y_train)
model_svc1.score(cv_test,y_test)

0.7257617728531855

模型评估

from sklearn.metrics import classification_report,confusion_matrix

y_pre_nb1 = model_nb1.predict(cv_test)
print(classification_report(y_true=y_test,y_pred=y_pre_nb1))
print(confusion_matrix(y_true=y_test,y_pred=y_pre_nb1))

              precision    recall  f1-score   support

           0       0.72      0.71      0.71       187
           1       0.69      0.70      0.69       174

    accuracy                           0.70       361
   macro avg       0.70      0.70      0.70       361
weighted avg       0.70      0.70      0.70       361

[[133  54]
 [ 53 121]]

y_pre_knn1 = model_knn1.predict(cv_test)
print(classification_report(y_true=y_test,y_pred=y_pre_knn1))
print(confusion_matrix(y_true=y_test,y_pred=y_pre_knn1))

              precision    recall  f1-score   support

           0       0.74      0.79      0.76       187
           1       0.75      0.71      0.73       174

    accuracy                           0.75       361
   macro avg       0.75      0.75      0.75       361
weighted avg       0.75      0.75      0.75       361

[[147  40]
 [ 51 123]]

y_pre_svc1 = model_svc1.predict(cv_test)
print(classification_report(y_true=y_test,y_pred=y_pre_svc1))
print(confusion_matrix(y_true=y_test,y_pred=y_pre_svc1))
cm=confusion_matrix(y_true=y_test,y_pred=y_pre_svc1)
cm

              precision    recall  f1-score   support

           0       0.72      0.74      0.73       187
           1       0.71      0.69      0.70       174

    accuracy                           0.72       361
   macro avg       0.72      0.72      0.72       361
weighted avg       0.72      0.72      0.72       361

[[139  48]
 [ 54 120]]





array([[139,  48],
       [ 54, 120]], dtype=int64)

import seaborn as sns
from sklearn.metrics import confusion_matrix
import matplotlib.pyplot as plt
sns.set()
C1=confusion_matrix(y_true=y_test,y_pred=y_pre_nb1)
C2=confusion_matrix(y_true=y_test,y_pred=y_pre_knn1)
C3= confusion_matrix(y_true=y_test,y_pred=y_pre_svc1)
sns.heatmap(C1,annot=True,cmap='summer',fmt='g')

sns.heatmap(C2,annot=True,cmap='summer',fmt='g')

sns.heatmap(C3,annot=True,cmap='summer',fmt='g')

具体代码和数据集请到以下链接下载

机器学习-景区文本分析

你可能感兴趣的:(python机器学习,python,机器学习,自然语言处理)

《Python 实现 B 站视频信息爬虫：从批量获取到 CSV 保存》维他奶糖61 python 音视频爬虫
B站视频信息爬虫实战：用Python批量获取B站视频数据引言在数据分析和内容研究场景中，获取B站视频的标题、播放量、作者等信息是常见需求。本文将介绍如何使用Python编写一个B站视频爬虫，通过DrissionPage库实现自动化数据采集，并保存为CSV格式。相比传统Selenium，DrissionPage的API更简洁，适合快速开发爬虫脚本。技术栈与环境准备核心库：DrissionPage：基
Java 多线程并发编程面试笔录一览 weixin_34318272 面试 python java
2019独角兽企业重金招聘Python工程师标准>>>知识体系图：1、线程是什么？线程是进程中独立运行的子任务。2、创建线程的方式方式一：将类声明为Thread的子类。该子类应重写Thread类的run方法方式二：声明实现Runnable接口的类。该类然后实现run方法推荐方式二，因为接口方式比继承方式更灵活，也减少程序间的耦合。3、获取当前线程信息？Thread.currentThread()4
python为指定目录下的文件名批量加前缀 jghhh01 python java 前端
功能描述：批量重命名指定目录下的文件，文件名加前缀，默认格式为“目录名_原文件名”。代码importargparseimportosimportsysimportloggingdefgen_args():"""说明-----解析命令行参数"""parser=argparse.ArgumentParser(prog="批量文件重命名工具",description="批量重命名目录中的文件名,新文件名
学而思编程周赛语言普及奠基组 | 2025年春第15周T1 新二进制热爱编程的通信人算法 c++
欢迎大家订阅我的专栏：算法题解：C++与Python实现！本专栏旨在帮助大家从基础到进阶，逐步提升编程能力，助力信息学竞赛备战！专栏特色1.经典算法练习：根据信息学竞赛大纲，精心挑选经典算法题目，提供清晰的代码实现与详细指导，帮助您夯实算法基础。2.系统化学习路径：按照算法类别和难度分级，从基础到进阶，循序渐进，帮助您全面提升编程能力与算法思维。适合人群：准备参加蓝桥杯、GESP、CSP-J、CS
学而思编程周赛语言普及奠基组 | 2025年春第15周T2 散步热爱编程的通信人算法 c++
欢迎大家订阅我的专栏：算法题解：C++与Python实现！本专栏旨在帮助大家从基础到进阶，逐步提升编程能力，助力信息学竞赛备战！专栏特色1.经典算法练习：根据信息学竞赛大纲，精心挑选经典算法题目，提供清晰的代码实现与详细指导，帮助您夯实算法基础。2.系统化学习路径：按照算法类别和难度分级，从基础到进阶，循序渐进，帮助您全面提升编程能力与算法思维。适合人群：准备参加蓝桥杯、GESP、CSP-J、CS
Python商务数据分析——Matplotlib 数据可视化学习笔记爱吃代码的小皇冠 python numpy matplotlib pandas 学习笔记数据分析
一、Matplotlib基础认知1.1库功能与定位核心作用：将数据可视化展示，提升数据直观性与说服力应用场景：绘制折线图、饼图、柱状图等2D/3D图表双接口模式：MATLAB风格：通过pyplot函数快速绘图（自动管理图形对象）面向对象：显式创建Figure和Axes对象（适合复杂绘图）1.2核心对象架构容器类：图(Figure)、坐标系(Axes)、坐标轴(Axis)、刻度(Tick)基础类：线
Python爬虫：Requests与Beautiful Soup库详解 Pu_Nine_9 Python爬虫的学习 python 爬虫 requests beautifulsoup
前言在当今数据驱动的时代，网络爬虫成为了获取网络信息的重要工具。Python作为最流行的爬虫语言之一，拥有丰富的库支持。今天我们就来介绍两个最基础也最强大的爬虫库：Requests和BeautifulSoup，并补充关于lxml解析器和RequestsSession的内容。一、Requests库：让HTTP请求变得简单Requests是一个优雅而简单的HTTP库，它让发送HTTP请求变得非常简单，
centos 7+hadoop 2.7.3 mozhw c/c++linu/unix java
安装JDK版本:jdk-8u131-linux-x64.tar.gz需要先删除系统自带的openjdk先查找java再移除[hadoop@localhost~]$rpm-qa|grepjavajava-1.7.0-openjdk-1.7.0.111-2.6.7.8.el7.x86_64python-javapackages-3.4.1-11.el7.noarchtzdata-java-2016g-
Python 数据分析：numpy，抽提，基本索引。听故事学知识点怎么这么容易？好开心啊没烦恼 numpy python 数据分析 numpy 开发语言数据挖掘人工智能机器学习
目录1示例代码2欢迎纠错3免费爬虫------以下关于Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowchart流程图导出与导
Python 数据分析：pandas 的 DataFrame，抽行、抽列、抽行列。df[] / df.loc[] / df.iloc[]，位置索引 / 标签索引，切片 / 不切片好开心啊没烦恼 Python数据分析 python 数据分析 pandas 开发语言数据挖掘
目录1预备知识：Series1.1生成1.2抽提（1）单条（2）多条不连（3）多条连1.3取值2正文：DataFrame2.1生成df2.2抽提2.2.1抽列（1）单列df[]df.loc[]df.iloc[]（2）多列不连df[]df.loc[]df.iloc[]（3）多列连df[]←不存在这种抽提法！df.loc[]df.iloc[]2.2.2抽行（1）单行df[]df.loc[]df.ilo
Python 数据分析：numpy.transpose() ，转换维度。听故事学知识点怎么这么容易？好开心啊没烦恼 numpy numpy python 开发语言数据分析数据挖掘人工智能机器学习
目录1一维数组2二维数组3三维数组4欢迎纠错5免费爬虫------以下关于Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowch
Python 编辑器：Geany，不是内部或外部命令，系统找不到指定路径
目录1找到设置选项2开始设置2.1complie2.2execute3欢迎纠错4免费爬虫------以下关于Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，
基于django+Spark+大数据+爬虫技术的国漫推荐与可视化平台设计和实现(源码+论文+部署讲解等) 阿勇学长大数据项目实战案例 Java精品毕业设计实例 Python数据可视化项目案例大数据 django spark 国漫推荐与可视化平台毕业设计 Java
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
文本生成新纪元：解锁大模型的企业级应用密码
数字化浪潮席卷各行业的当下，文本生成技术正经历着翻天覆地的变革，这场变革的幕后功臣正是大模型。今天，咱们就来深入探讨大模型在文本生成领域的奥秘，看看它如何赋能企业，又该怎样规避风险，实现价值最大化。技术跃迁：从笨拙规则到智能生成回首往昔，文本生成依靠规则模板与关键字替换，虽能实现基础自动化，却如机械舞者，动作生硬、缺乏灵动。业务稍有变动，规则需全面重构，耗时费力。随着N-gram等统计机器学习方法
【有源码】基于爬虫+python的美食数据分析与可视化flask热门美食推荐系统的设计与实现 Q2643365023 Python 大数据 python 爬虫计算机毕设选题毕业设计源码计算机毕设项目数据分析美食推荐系统
注意：该项目只展示部分功能，如需了解，文末咨询即可。本文目录1.开发环境2系统设计2.1设计背景2.2设计内容3系统展示3.1功能展示视频3.2系统页面4更多推荐5部分功能代码1.开发环境开发语言：Python采用技术：flask、爬虫数据库：MySQL开发环境：PyCharm2系统设计2.1设计背景在现代社会中，人们对美食的兴趣和需求日益增长。互联网和社交媒体的普及使得各种美食信息、评论和推荐变
【零基础学AI】第10讲：线性回归 1989 0基础学AI 人工智能线性回归算法 python 回归 numpy 开源
本节课你将学到理解线性回归的原理和应用场景掌握最小二乘法的基本思想使用Python构建房价预测模型学会评估回归模型的性能指标开始之前环境要求Python3.8+JupyterNotebook或任何PythonIDE需要安装的包pipinstallscikit-learnpandasmatplotlibseabornnumpy前置知识第9讲：机器学习概述基本的Python和数据处理能力核心概念什么是
【零基础学AI】第9讲：机器学习概述 1989 0基础学AI 人工智能机器学习 python numpy devops 开源
本节课你将学到理解什么是机器学习，以及它与传统编程的区别掌握监督学习、无监督学习的基本概念使用scikit-learn完成你的第一个机器学习项目构建一个完整的iris花朵分类器开始之前环境要求Python3.8+JupyterNotebook或任何PythonIDE需要安装的包pipinstallscikit-learnpandasmatplotlibseaborn前置知识基本的Python语法（
python递归实现乘法_算法-递归 weixin_39817012 python递归实现乘法
我们在前面学习过递归函数，递归函数采用的就是递归算法，前面我们通过最常见的菲波那切数列去学习了递归函数，这一节我们再来详细了解一下递归算法。1.递归算法递归算法(英语：recursionalgorithm)在计算机科学中是指一种通过重复将问题分解为同类的子问题而解决问题的方法。递归式方法可以被用于解决很多的计算机科学问题，因此它是计算机科学中十分重要的一个概念，递归算法有三个特点：1)递归的过程一
自然语言处理(NLP)中的文本生成控制技术 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据自然语言处理 easyui 人工智能 ai
自然语言处理(NLP)中的文本生成控制技术关键词：文本生成、可控生成、语言模型、Prompt工程、解码策略、条件控制、评估指标摘要：本文深入探讨自然语言处理中文本生成控制技术的最新进展。我们将从基础概念出发，系统分析各种控制方法的原理和实现，包括Prompt设计、解码策略优化、条件控制机制等核心内容。文章将结合数学模型、算法实现和实际案例，全面展示如何实现高质量、可控的文本生成，并探讨该领域面临的
算法-基础算法-枚举算法（Python）总裁余(余登武) 算法与数据结构算法 leetcode
文章目录前言解题思路题目1两数之和2计数质数前言枚举算法（EnumerationAlgorithm）：也称为穷举算法，指的是按照问题本身的性质，一一列举出该问题所有可能的解，并在逐一列举的过程中，将它们逐一与目标状态进行比较以得出满足问题要求的解。在列举的过程中，既不能遗漏也不能重复。枚举算法的核心思想是：通过列举问题的所有状态，将它们逐一与目标状态进行比较，从而得到满足条件的解。由于
NLP随机插入 Humbunklung 机器学习自然语言处理人工智能 python nlp
文章目录随机插入示例Python代码示例随机插入随机插入是一种文本数据增强方法，其核心思想是在原句中随机选择若干位置，插入与上下文相关的词语，从而生成新的训练样本。这种方法能够增加句子的多样性，提高模型对不同词序和表达方式的鲁棒性。示例原句：机器学习可以提升数据分析的效率。随机插入后（插入“显著”）：机器学习可以显著提升数据分析的效率。Python代码示例下面是一个简单的随机插入实现，假设我们有一
Python全栈数据工程师养成攻略-全部代码实战详解国营窝窝乡蛮大人
本文还有配套的精品资源，点击获取简介：本攻略提供全面资源，帮助初学者系统掌握Python全栈数据工程师的核心技能，包括数据处理、分析、数据库管理及Web开发。攻略详细指导如何使用.gitignore保持项目整洁，通过README.md文档深入了解项目内容，以及如何操作data目录中的数据集和codes目录中的Python代码，实现从数据处理到Web应用构建的全流程。学习内容涵盖数据ETL、Pand
python爬虫登录校验之滑块验证、图形验证码（OCR） yuwinter Python python 爬虫 ocr 滑块验证
在爬虫过程中，验证码和滑块验证是常见的反爬措施。针对这些挑战，通常采用OCR识别图形验证码和模拟滑块拖动来处理滑块验证。以下是如何处理这两种类型验证的详细方法。1.图形验证码（OCR）a.使用tesserocr和Pillow处理图形验证码tesserocr是基于TesseractOCR引擎的Python封装，常用来识别简单的图形验证码。如果验证码不太复杂，可以用它来识别文本。步骤：安装依赖：pip
python + selenium通过滑块验证 weixin_51144854 python selenium 爬虫 opencv
1、介绍使用python进行自动化操作或者爬虫过程中，可能会遇到需要进行验证的情况。本文介绍了两种通过滑块验证的方法：轮廓检测通过OpenCV进行轮廓检测，找到滑块背景中缺口的位置，计算缺口到滑块的距离。模板匹配通过OpenCV分析滑块背景图与滑块的相似度，找到滑块背景图中与滑块最相似的区域就是缺口的位置，然后计算缺口到滑块的距离。2、轮廓检测测试地址：https://accounts.douba
Python爬虫实战：研究MarkupSafe库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 MarkupSafe
1.引言1.1研究背景与意义随着互联网数据量的爆炸式增长，网页内容自动提取与分析技术在信息检索、舆情监控、数据挖掘等领域的需求日益凸显。网络爬虫作为获取网页内容的核心工具，能够自动化采集互联网信息。然而，直接渲染爬取的网页内容存在安全隐患，特别是跨站脚本攻击（XSS）风险。攻击者可能通过注入恶意脚本窃取用户信息或破坏网站功能。MarkupSafe作为Python的安全字符串处理库，能够有效处理不可
Python爬虫实战：研究sanitize库相关技术 ylfhpy 爬虫项目实战 python 爬虫网络开发语言安全 sanitize
1.引言1.1研究背景与意义在当今数字化时代，互联网已成为人们获取信息、交流互动的重要平台。随着Web2.0技术的发展，用户生成内容(UGC)、社交媒体嵌入、第三方插件等功能极大丰富了网页的内容和交互性，但也带来了严峻的安全挑战。根据Web应用安全联盟(WAS)的统计数据，2025年全球范围内因网页安全漏洞导致的数据泄露事件超过15万起，造成的经济损失高达250亿美元。其中，跨站脚本攻击(XSS)
Python爬虫实战：研究xmltodict库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 xmltodict
1.引言1.1研究背景与意义气象数据在农业生产、交通规划、灾害预警等多个领域具有重要应用价值。传统的气象数据获取方式主要依赖于气象部门发布的统计信息，存在更新不及时、数据维度有限等问题。随着互联网技术的发展，气象网站提供了丰富的实时气象数据，但这些数据通常以HTML、XML等非结构化或半结构化形式存在，难以直接利用。因此，开发高效的数据采集与解析系统具有重要的现实意义。1.2国内外研究现状网络爬虫
【TVM 教程】PAPI 入门
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/性能应用程序编程接口（PerformanceApplicationProgrammingInterface，简称PAPI）是一个可在各种平台上提供性能计数器的库。在指定的运行期间，性能计数器提供处理器行为的准确底层信息，包含简单的指标，如总
Pthon httpx 使用代理下载文件（qbit）
前言技术栈Python3.11.8httpx0.28.1示例代码#encoding:utf-8#author:qbit#date:2025-06-30#summary:httpx使用代理下载文件importhttpxproxy='http://127.0.0.1:8081'defDownFile(url,file):withopen(file,'wb')asf:withhttpx.stream('
python网络安全实战_基于Python网络爬虫实战 weixin_39907850 python网络安全实战
文件的操作：一般都要使用os模块和os.path模块importos.pathos.path.exists('D:\\Python\\1.txt')#判断文件是否存在abspath(path)#返回path所在的绝对路径dirname(p)#返回目录的路径exists(path)#判断文件是否存在getatime(filename)#返回文件的最后访问时间getctime(filename)#返回
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。