悟乙己

R语言︱情感分析—基于监督算法R语言实现（二）

每每以为攀得众山小，可、每每又切实来到起点，大牛们，缓缓脚步来俺笔记葩分享一下吧，please~

———————————————————————————

笔者寄语：本文大多内容来自未出版的《数据挖掘之道》的情感分析章节。本书中总结情感分析算法主要分为两种：词典型+监督算法型。

监督算法型主要分别以下几个步骤：

构建训练+测试集+特征提取（TFIDF指标）+算法模型+K层交叉验证。可与博客对着看：R语言︱词典型情感分析文本操作技巧汇总（打标签、词典与数据匹配等）

————————————————————————————————————————————————

基于监督算法的情感分析存在着以下几个问题：

（1）准确率而言，基于算法的方法还有待提高，而目前的算法模型准确性很难再上一个层次，所以研究者要不创造更新更强大的算法，要不转向寻求其他的解决方案以使准确率更上一个台阶；

（2）如果文本越来越多，词汇变量也会增多，矩阵会越来越稀疏，计算量越来越大，这样在挑选算法的同时我们将不得不解决另外一个问题，即特征词的提取，这里的特征词提取方法不是一般的特征词提取方法就能解决的，其目的是提取能够区分情感倾向的特征词，所以找到能够实现目的的方法也着实不易。

（3）基于算法的分析方式一般具有行业特殊性，也就是说很难训练一个可以跨行业的模型，这样就会遇到另外一个问题：挑选训练样本。比如本来是针对汽车销售行业构建的模型迁移到快消行业，准确性就有可能下降，为了保证准确性，须要挑选快消行业的训练集进行重训练，那问题来了，这种训练集一般要成千上万条文本评论，人工挑选的话也许会让人筋疲力尽，眼前发黑的。

目前以上三点是基于算法的方法需要改进和提高的关键点，至于分析情感的细腻程度、情感主体归属等等问题就不仅仅是算法这一种解决方案的问题了，其他方式同样也会遇到这类麻烦，可以另外作为一个新的课题进行研究。（摘自《数据挖掘之道》）

————————————————————————————————————————————————

一、TFIDF算法指标的简介

监督式算法需要把非结构化的文本信息转化为结构化的一些指标，这个算法提供了以下的一些指标，在这简单叙述：

TF = 某词在文章中出现的次数/文章包含的总词数（或者等于某词出现的次数）

DF = （包含某词的文档数）/（语料库的文档总数）

IDF = log（（语料库的文档总数）/（包含某词的文档数+1））

TFIDF = TF*IDF

TF就是一篇文章中出现某个词的次数，你可能认为“中国”出现的次数最多，其实不然，“的”、“是”、“在”、”地“之类最多，这类词是停用词，在提取关键词之前必须剔除掉。

剔除停用词之后，比如“中国”、“省份”等一些常用的词的词频也会很高，这时候需要用IDF（"逆文档频率"（Inverse Document Frequency，缩写为IDF））来把这些词的权重调低，如果一个词比较“常见”（指在日常所有文档中），那么它的IDF就比较低。要计算IDF，首先要有一个充实的语料库。利用IDF作为惩罚权重，就可以计算词的TFIDF。

这几个指标就会监督型算法的核心指标，用来作为以后分类的输入项。

我们有了三个指标：tf、df、tfidf，选哪个用于构建模型？由于tf受高频词影响较大，我们暂时将其排除，根据上面的统计逻辑发现正向样本中某个词语的df和负向样本的相同，因为我们并没有把正负样本分开统计，所以在这种情况下使用df建模基本上不可能将正负样本分开，只有选tfidf了。

构建随机森林模型时需要将每一个词汇作为一个变量或者维度，这样矩阵会变得异常稀疏，但我们先不讲究这些，在企业内做数据挖掘建模时，第一目标不是追求模型统计上的完美性，而是在测试集和训练集上的稳定性和准确性。

关注这部分的理论内容详情可见博客：非主流自然语言处理——遗忘算法系列（四）：改进TF-IDF权重公式

————————————————————————————————————————————————

二、构建训练+测试数据集

1、构建训练数据集

市面上一些比较流行的语料库可见博客：情感分析︱网络公开的免费文本语料训练数据集汇总

构建训练集的步骤有：数据集导入、数据集一、二级清洗、分词、三级清洗（去停用）

1.1 数据集导入

train <- read.csv("./train.csv", sep = ",", header = T, stringsAsFactors = F)

文本作为非结构数据，导入是一个大问题，因为其有众多的分隔符、标点符的问题需要处理。

导入的数据中有一列是：label，这个就是标准的情感定义，定义这句话的正负情感（1，-1），所以是监督式的算法。

也会出现如下的问题：

# Warning message:
# In scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings, :
# EOF within quoted string

`read.csv`函数读取文件时，可能报警：“EOF within quoted string”，一般为数据中不正常的符号所致，常见的方法是将`quote = ""`设置为空，这样做虽然避免了警告，但是仍然解决不了问题，有时数据会对不上号，所以最好从符号上着手将一些特殊符号去除，还有一些文本的正则表达式的问题，可见博客： R语言︱文本（字符串）处理与正则表达式。

1.2 数据清洗（一、二级）

文本数据清洗步骤有很多：一级清洗（去标点）、二级清洗（去内容）、三级清洗（去停用词，这个步骤一般分词之后）（具体可参考博客第二部分内容：R语言︱词典型情感分析文本操作技巧汇总（打标签、词典与数据匹配等））

#一级清洗——去标点
sentence <- as.vector(train$msg) 
sentence <- gsub("[[:digit:]]*", "", sentence) #清除数字[a-zA-Z]
sentence <- gsub("[a-zA-Z]", "", sentence)
sentence <- gsub("\\.\\.", "", sentence)
#二级清洗——去内容
train <- train[!is.na(sentence), ]
sentence <- sentence[!is.na(sentence)]
train <- train[!nchar(sentence) < 2, ]
sentence <- sentence[!nchar(sentence) < 2]

1.3 分词+构建数据集

一般分词可以用Rwordseg包或者jiebaR包来进行，

library(Rwordseg)
insertWords(dict)
system.time(x <- segmentCN(strwords = sentence)) 
temp <- lapply(x, length)
temp <- unlist(temp)
id <- rep(train[, "id"], temp)
label <- rep(train[, "label"], temp)
term <- unlist(x)
trainterm <- as.data.frame(cbind(id, term, label), stringsAsFactors = F)

代码解读：insertWords了一个dict词典包，这个是正向、负向情感词，可以自行导入，网络中有非常多的词库，比如台湾大学情感NTUSD、知网Hownet情感词、中文褒贬义词典v1.0（清华大学李军）、大连理工等多类都可以自行网上搜索。

后续的步骤是将分词之后的每个词语，打上id+label标签，可见文本挖掘操作技巧文档第四节。

1.4 三级清洗-去停用词

stopword <- read.csv("./stopword.csv", header = T, sep = ",", stringsAsFactors = F)
stopword <- stopword[!stopword$term %in% dict,]
trainterm <- trainterm[!trainterm$term %in% stopword,]

尽量去除一些非特征词汇可以有效的降低计算量和内存占用率，但是在小数据量下是可有可无的，但是如果分词的内容多，这个步骤还是很关键的。

图 1

2、测试集数据构建

测试集也跟训练集一样需要经历一、二级清洗，分词，三级清洗去停用。

最后得到了数据集testterm。同样也要跟训练集一样，进行特征提取，计算TFIDF指标，但是稍有不同，见下3.4节。

————————————————————————————————————————————————

三、特征提取——TFIDF指标

在统计TFIDF等指数之前，还要处理下数据，因为在分词的时候分出了空白符，这种空白符即不能用is.na、is.null、is.nan这些函数查出来，也不能使用常见的空白符（空格" "，制表符"\t"，换行符"\n"，回车符"\r"，垂直制表符"\v"，分页符"\f"）包括空白符（"\\s"）等正则规则查出来。

trainterm <- trainterm[grepl("\\S", trainterm$term),]

3.1 计算TF指标

如上图1，logic就是新加的一列数字。

trainterm$logic <- rep(1, nrow(trainterm))# 添加辅助列

计算TF指标，是指计算每个文档，每个词的词频数，等于计数，这时需要添加一列数字1，来方便计数。

有点像做高中应用题时候，要加入一些工具线，或者经济学中的工具变量来过渡解决问题。

library(dplyr)
traintfidf <- aggregate(logic ~ id + label + term, data = trainterm, FUN = sum) %>% rename(tf = logic)

代码解读:这里的aggregate是以新数据列为计数列，以id+label+term为标签列（控制变量），

其中为啥加入label呢？不是说，按照每个文档（id），每个词（term）就可以了吗？

答：其实加了label不影响计数结果，只是让分类更有理有据一些。aggregate相当于把每个文档的词去重了一下，不是ID去重，在不同文档中也可能存在相同的词。

书中提到，要统计tf，可以通过`table`函数、`dcast`函数(reshape2包、plyr包都有这个函数)等实现，但是尝试之后发现它们要不速度慢，要不就是占用内存太高，包括data.table里的`dcast`函数，原因在于它们的中间过程要进行矩阵的转换。这里使用`aggregate`统计每篇文章每个词的频次，2行添加了一个辅助列logic，当然不添加辅助列，设置`aggregate`里的FUN参数为`length`函数也能完成，但是数据量大时耗费时间太长，不如添加辅助列，而FUN参数调用`sum`函数速度快，这句的意思就是按照id、term、label三列分组后对logic求和。

3.2 计算DF列

total <- length(unique(traintfidf$id))#统计出参与计算的文章id数，即总文章数
temp <- data.frame(table(traintfidf$term)/total) #DF=每个词的数量（就是每个词的文本数量）/总文本数量
names(temp) <- c("term", "df")
traintfidf <- left_join(traintfidf, temp)
#不要dplyr包、plyr包同时使用，比如这里就会导致rename函数被覆盖，二者的功能相似，没必要同时加载，或者先加载plyr再加载dplyr。

计算DF，是每个词文档频率，需要知道全文档数量以及每个词的文档数量，该咋办呢？

如图1，全文档数量只要统计ID就行，所以length一下去重（unique）的ID；

每个词的文档数量与词频TF是有很大区别的，TF=每个文档每个词的次数，DF=所有文档每个词的次数。所有文档每个词的次数就是计数一下即可，在这用table函数。

图2

现在有了每个词的文档频率，该如何匹配到原来的数据集中呢？

由于没有ID，那么匹配就不得不用一些词库之间的匹配方式，可以用%in%做去除，但是不太好用其做打标签的过程。

所以用了dplyr包中的left-join函数，left_join(x,y,by="name") ##xy匹配到的都保留。词库之间也可以根据词语进行匹配，这个非常棒，如图3，“阿富汗”重复的也可以直接关联上去。

图3

3.3 计算IDF（逆文档频率）以及TFIDF指标

IDF = log（（语料库的文档总数）/（包含某词的文档数+1））

IDF的起源是因为一堆无用的高频词（比如中国、政府）出现的太多，通过加权将这些词的权重下调。

temp <- data.frame(log(total/(table(traintfidf$term) + 1))) #traintfidf$term代表每个词的文档数，计算IDF
names(temp) <- c("term", "idf")
traintfidf <- left_join(traintfidf, temp)
traintfidf$tfidf <- traintfidf$tf*traintfidf$idf

文档总数=ID的数量，用去重的id来计算length，就是代码中的total，

每个词的文档数，就是每个词在所有文档的数量，用table来计数，公式中很多要素都跟DF值一样。

然后通过left_join合并之后，计算TFIDF=TF*IDF，就得到了每个文档每个词的TFIDF值，即为该词的特征值。

3.4 测试集的TFIDF指标

测试集的计算过程与训练集非常不一样，测试集的指标根据训练集的数据，直接调用即可。

（1）TF值跟训练集一样，添加一个辅助列，然后aggregate一下。

testterm <- testterm[grepl("\\S", testterm$term),]
testterm$logic <- rep(1, nrow(testterm))# 添加辅助列

testtfidf <- aggregate(logic ~ id + label + term, data = testterm, FUN = sum) %>% rename(tf = logic)#TF
#%>%来自library(tidyr)，rename来自reshape包

（2）DF、IDF、TFIDF值

total <- length(unique(traintfidf$id))   #训练集文本总数
temp <- data.frame(table(traintfidf$term)/total) #训练集DF指标
names(temp) <- c("term", "df")    

testtfidf <- left_join(testtfidf, temp) #匹配到test中

# idf来源于语料库，跟DF一样
temp <- data.frame(log(total/(table(traintfidf$term) + 1)))   #来自训练集的IDF
names(temp) <- c("term", "idf")

testtfidf <- left_join(testtfidf, temp)

testtfidf$tfidf <- testtfidf$tf*testtfidf$idf  #计算TFIDF  空缺值很多

代码解读:temp就是训练集的DF值，然后left_join匹配到测试集即可；IDF值也是同样，训练集的IDF，匹配过来就行，然后就直接计算TFIDF值。

其中肯定存在很多问题：

训练集的DF、IDF相当于是固定的，然后根据词库匹配，跟测试集合并，那么DF、IDF就不受测试集词语数量的影响了?

答：对的，训练集相当于就是基本的语料库，作为素材源头；

测试集肯定比训练集有多的单词，这部分单词怎么处理？

答：直接删除，如果这部分单词的确有用，可以加入训练集的分词库，在做一次训练集的分词内容，当然训练集之后的步骤都要重新来一遍。
如何查看测试集中有，而训练集中没有的单词呢？可以用%in%，A[A%in%B,]，可见文本挖掘操作技巧的2.3节。

left_join的过程中，为什么没用写明参照哪个变量？

答：会出现一下的错误：

Joining by: "term"
Warning message:
In left_join_impl(x, y, by$x, by$y) :
  joining factor and character vector, coercing into character vector

这个错误是可以忽略的，而且默认是按照term项来进行匹配合并。

————————————————————————————————————————————————

四、算法模型

关于算法模型，书中选用了随机森林，先不考虑为啥选择这个模型，我们直接来看看如何实现这个模型。

4.1 模型数据整理

随机森林既能完成分类任务也能完成回归预测任务，训练数据标签里只有两个分类1（正向）或-1（负向），理论上属于分类任务。

`randomForest`函数要求为数据框或者矩阵，需要原来的数据框调整为以每个词作为列名称（变量）的数据框。也就是一定意义上的稀疏矩阵（同关联规则），也就是将long型数据框转化为wide型数据框。

转换可以用的包有reshape2以及data.table。其中，data.table里的`dcast`函数比reshape2包里的`dcast`好用，尽管他们的参数都一样，但是很多人还是比较喜欢老朋友reshape2包,然而这一步需要大量的内存，本书在服务器上完成的，如果你的电脑报告内存不足的错误，可以使用data.table包里的`dcast`函数试试。

（笔者游戏本ROG玩家国度，i7-6700,16g内存，69w数据量做随机森林直接崩溃。。。）

转化为稀疏矩阵，1表示访问，0表示未访问。

Session ID	News	Finance	Entertainment	Sports
1	1	1	0	0
2	1	1	0	0
3	1	1	0	1
4	0	0	0	0
5	1	1	0	1
6	1	0	1	0

library(data.table)
train <- dcast(data = traintfidf, id + label ~ term, sum, value.var = "tfidf")

dcast是data.table中有用的函数，实现以term为横向分类依据，id+label作为纵向分类依据求和。value.var给出的是分类主要指标，这里只选择了tfidf一个指标。

如下图4，可知左边按id与label进行分类，右边是按每个单词，相当于变成了n*n个数据量，计算消耗非常大。

可参考博客：给R变个形

图4

4.2 训练集- 随机森林模型

随机森林模型不需要id项，通过row.names把id这一列放在R默认序号列，如图4中的第一列。

随机森林模型，分类和回归预测的操作不同之处在于判断因变量的类型，如果因变量是因子则执行分类任务，如果因变量是连续性变量，则执行回归预测任务。

library(randomForest)
row.names(train) <- train[, "id"]  #row.names代表着R编号列
train <- subset(train, select = -id)
train$label <- as.factor(train$label)
system.time(Randommodel100 <- randomForest(x = subset(train, select = -label), y = train[, "label"], importance = TRUE, proximity = FALSE, ntree = 100))#构建模型
#首先判断因变量的类型，如果因变量是因子则执行分类任务，如果因变量是连续性变量，则执行回归预测任务
print(Randommodel100)
# Call:
# randomForest(x = subset(train, select = -label), y = train[, "label"], ntree = 100, importance = TRUE, proximity = FALSE) 
# Type of random forest: classification
# Number of trees: 100
# No. of variables tried at each split: 157
# 
# OOB estimate of error rate: 7.04%
# Confusion matrix:
# -1 1 class.error
# -1 11602 274 0.02307174
# 1 968 4808 0.16759003

需要把标签列变成因子型才能做分类的随机森林模型，

randomForest中的参数，importance设定是否输出因变量在模型中的重要性，如果移除某个变量，模型方差增加的比例是它判断变量重要性的标准之一，proximity参数用于设定是否计算模型的临近矩阵，ntree用于设定随机森林的树数（后面单独讨论）。

print输出模型在训练集上的效果。

4.3 测试集-随机森林模型

（1）测试集的数据再整理

随机森林的数据规则是建立一个稀疏数据集，那么作为额外的测试集的数据，该如何处理，才能跟训练集对上，然后进行算法处理？

为了保证自变量与模型中用到的自变量保持一致，需要补齐完整的单词。

首先要删除一些新词（语料库中没有出现，测试集中出现的词）；

testtfidf <- testtfidf[!is.na(testtfidf$tfidf),]# 去掉test中没有匹配到train的词语

其次需要给测试集补充上一些缺失词（测试集中没出现，语料库中出现并且用于建模了）。

temp <- unique(testtfidf$term) #term测试集单词，去重
addterm <- unique(traintfidf$term)#训练集单词去重
addterm <- addterm[!addterm %in% temp]#训练集的单词去掉测试集单词

addterm就是训练集中，测试集没有的单词，需要补齐。

n <- length(addterm)
temp <- rep(NA, n*length(testtfidf))   #这个在多变量数据集中表示为变量数量
temp <- data.frame(matrix(temp, nrow = n))
temp[, 3] <- addterm

names(temp) <- names(testtfidf)  #把构造出的数据集名字变成更test一样

testtfidf <- rbind(testtfidf, temp)
tail(testtfidf) #检查一下是否整理正确

test <- dcast(data = testtfidf, id + label ~ term, sum, value.var = "tfidf")  #整理数据，符合随机森林

得到了缺失词之后，如何放到训练集的数据中呢？先构造一个n（缺失词）*length(训练集变量个数)的空矩阵，

然后将确实存在放入这个矩阵中，temp[,3]函数；

把空矩阵的变量名，改成训练集的变量名，对的上模型，names函数；

将缺失值与原值进行合并rbind函数，

然后构造随机森林识别的稀疏矩阵，dcast函数。

图5

形成了图5的矩阵，term中id、tf、df、idf、tfidf项为空值。之后通过dcast函数形成了随机森林所要的数据结构，来进行后续的分析。

笔者自问自答：

图4是训练集服从随机森林模型dcast之后的图，而图6是测试集dcast之后的表，为啥他们的单词顺序都是一样的呢？如何才能严格符合训练集的数据结构呢？

答：dcast重排的时候，是按照term的名称大小写的顺序来写的，所以肯定和训练集的结构是一致的！

为什么图5中，一些词语的Id为0，而dcast之后，不存在0id的个案呢？

答：还是dcast函数不理解的问题，重排之后，比如图5的“阿尔卑斯山”，就变成了图6的第四列的元素，但是因为阿尔卑斯山没有Id项目，所以都不属于测试集的id,显示的都是0（如图6）。

图6

（2）测试集的随机森林建模

测试集建立随机森林模型，还是需要去除缺失值，然后重命名列名，因为模型不接受id这一行作为输入变量，输入的数据集一定要干净。

test <- test[!is.na(test$id), ]
row.names(test) <- test[, "id"]
test <- subset(test, select = -id)
system.time(prediction <- predict(Randommodel100, subset(test, select = - label)))
prediction <- data.frame(cbind(subset(test, select = label),prediction, row.names(test)))

随机森林的prediction，可以输出分类标签，将预测分类、实际分类、id合并data.frame成一个数据集，并且row.names跟test一样。

之后再建立混淆矩阵。

evalue <- table(prediction$label, prediction$prediction)
print(evalue)
#        -1    1
#   -1 1836  129
#   1   618 1324

测试集分类准确率下降到了81%，尽管只检验了一次，很明显发生了过拟合。但是只是验证了一次，并不能说明随机森林模型的好坏，机器学习模型还可以经历一下K层交叉验证、模型评估（MSE等指标）以及可视化的环节。详情可见:机器学习模型评价过程博客

(3)随机森林模型的验证

常见的应用在监督学习算法中的是计算平均绝对误差（MAE）、平均平方差（MSE）、标准平均方差（NMSE）和均值等，这些指标计算简单、容易理解；而稍微复杂的情况下，更多地考虑的是一些高大上的指标，信息熵、复杂度和基尼值等等。可见：R语言︱机器学习模型评估方案（以随机森林算法为例）

本文大多学习之《数据挖掘之道》，还未出版，摘录自公众号：大音如霜，感谢老师的辛勤，真的是非常用心的在写代码以及服务大众。

每每以为攀得众山小，可、每每又切实来到起点，大牛们，缓缓脚步来俺笔记葩分享一下吧，please~

———————————————————————————

你可能感兴趣的:(NLP︱R+python,R语言与自然语言处理)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
2021-08-26 影幽
在生活中，女人与男人的感悟往往有所不同。人生最大的舞台就是生活，大幕随时都可能拉开，关键是你愿不愿意表演都无法躲避。在生活中，遇事不要急躁，不要急于下结论，尤其生气时不要做决断，要学会换位思考，大事化小小事化了，把复杂的事情尽量简单处理，千万不要把简单的事情复杂化。永远不要扭曲，别人善意，无药可救。昨天是张过期的支票，明天是张信用卡，只有今天才是现金，要善加利用！执着的攀登者不必去与别人比较自己的
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
每日一题——第九十题互联网打工人no1 C语言程序设计每日一练 c语言
题目：判断子串是否与主串匹配#include#include#include//////判断子串是否在主串中匹配//////主串///子串///boolisSubstring(constchar*str,constchar*substr){intlenstr=strlen(str);//计算主串的长度intlenSub=strlen(substr);//计算子串的长度//遍历主字符串，对每个可能得
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
水泥质量纠纷案代理词徐宝峰律师
贵州领航建设有限公司诉贵州纳雍隆庆乌江水泥有限公司产品质量纠纷案代理词尊敬的审判长、审判员：贵州千里律师事务所接受被告贵州纳雍隆庆乌江水泥有限公司的委托，指派我担任其诉讼代理人，参加本案的诉讼活动。下面，我结合本案事实和相关法律规定发表如下代理意见，供合议庭评议案件时参考：原告应当举证证明其遭受的损失与被告生产的水泥质量的因果关系。首先水泥是一种粉状水硬性无机胶凝材料。加水搅拌后成浆体，能在空气中
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
18-115 一切思考不能有效转化为行动，都TM是扯淡！成长时间线
7月25号写了一篇关于为什么会断更如此严重的反思，然而，之后日更仅仅维持了一周，又出现了这次更严重的现象。从8月2号到昨天8月6号，5天！又是5天没有更文！虽然这次断更时间和上次一样，那为什么说这次更严重？因为上次之后就分析了问题的原因，以及应该如何解决，按理说应该会好转，然而，没过几天严重断更的现象再次出现，想想，经过反思，问题依然没有解决与改变，这让我有些担忧。到底是哪里出了问题，难道我就真的
山东大学小树林支教调研团青青仓木队——翟晓楠山东大学青青仓木队
过了半年，又一次启程，又一次回到支教的初心之地。比起上一次的试探与不安，我更多了一丝稳重与熟练。心境、处境也都随着半个学期的过去而变得不同，半个学期中，身体上的，心理上的，太多的逆境让我变得步履维艰，曲曲折折，弯弯绕绕，我仿佛打不起精神，没有胃口，没有动力。感觉走的不顺畅的时候，支教这个旅程，给了我力量。自告奋勇承担起队长这一职务的我，从组织时的复杂和困难的经历，协调各种问题，从无到有，和校长和队
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
利用Requests Toolkit轻松完成HTTP请求 nseejrukjhad http 网络协议网络 python
RequestsToolkit的力量：轻松构建HTTP请求Agent在现代软件开发中，API请求是与外部服务交互的核心。RequestsToolkit提供了一种便捷的方式，帮助开发者构建自动化的HTTP请求Agent。本文旨在详细介绍RequestsToolkit的设置、使用和潜在挑战。引言RequestsToolkit是一个强大的工具包，可用于构建执行HTTP请求的智能代理。这对于想要自动化与外
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
春季养肝正当时 dxn悟
重温快乐2023年2月4日立春。春天来了，春暖花开，小鸟欢唱，那在这样的季节我们如何养肝呢？自然界的春季对应中医五行的木，人体五脏肝属木，“木曰曲直”，是以树干曲曲直直地向上、向外伸长舒展的生发姿态，来形容具有生长、升发、条达、舒畅等特征的食物及现象。根据中医天人相应的理念，肝五行属木，喜条达，主疏泄，与春天相应，所以春天最适合养肝。养肝首先要少生气，因为肝喜条达恶抑郁。人体五志肝为怒，生气发怒最
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D