拓端研究室

R语言自然语言处理（NLP）：情感分析新闻文本数据

原文链接：http://tecdat.cn/?p=19095

本文对R中的文本内容进行情感分析。此实现利用了各种现有的字典，此外，还可以创建自定义词典。自定义词典使用LASSO正则化作为一种统计方法来选择相关词语。最后，评估比较所有方法。

介绍

情感分析是自然语言处理（NLP），计算语言学和文本挖掘的核心研究分支。它是指从文本文档中提取主观信息的方法。换句话说，它提取表达意见的积极负面极性。人们也可能将情感分析称为 观点挖掘 （Pang and Lee 2008）。

研究中的应用

最近，情感分析受到了广泛的关注（K. Ravi和Ravi 2015； Pang和Lee 2008），我们将在下面进行探讨。当前在金融和社会科学领域的研究利用情感分析来理解人类根据文本材料做出的决策。这立即揭示了对从业者以及金融研究和社会科学领域的从业者的多种含义：研究人员可以使用R提取与读者相关的文本成分，并在此基础上检验其假设。同样，从业人员可以衡量哪种措辞对他们的读者而言实际上很重要，并相应地提高他们的写作水平（Pröllochs，Feuerriegel和Neumann 2015）。在下面的两个案例研究中，我们从金融和社会科学中论证了增加的收益。

应用

几个应用程序演示了情感分析在组织和企业中的用途：

金融： 金融市场的投资者在行使股票所有权之前，会以金融新闻披露的形式参考文本信息。有趣的是，它们不仅依赖数据，而且还依赖信息，例如语气和情感（Henry 2008； Loughran和McDonald 2011； Tetlock 2007），从而极大地影响了股价。通过利用情感分析，自动化交易者可以分析财务披露中传达的情感，以便进行投资决策。
市场营销： 市场营销部门通常对跟踪品牌形象感兴趣。为此，他们从社交媒体上收集了大量用户意见，并评估个人对品牌，产品和服务的感受。
评级和评论平台： 评级和评论平台通过收集用户对某些产品和服务的评级或偏好来实现有价值的功能。在这里，人们可以自动处理大量用户生成的内容（UGC）并利用由此获得的知识。例如，人们可以确定哪些提示传达了积极或者负面的意见，甚至可以自动验证其可信度。

情感分析方法

随着情感分析被应用于广泛的领域和文本来源，研究已经设计出各种测量情感的方法。最近的文献综述（Pang and Lee 2008）提供了一个全面的，与领域无关的调查。

一方面，当机器学习方法追求高预测性能时，它是首选。但是，机器学习通常充当黑匣子，从而使解释变得困难。另一方面，基于字典的方法会生成肯定和否定单词的列表。然后，将这些单词的相应出现组合为单个情感评分。因此，基本的决定变得可追溯，研究人员可以理解导致特定情感的因素。

另外， SentimentAnalysis 允许生成定制的字典。它们针对特定领域进行了定制，与纯字典相比，提高了预测性能，并具有完全的可解释性。可以在（Pröllochs，Feuerriegel和Neumann 2018）中找到此方法的详细信息。

在执行情感分析的过程中，必须将正在运行的文本转换为一种机器可读的格式。这是通过执行一系列预处理操作来实现的。首先，将文本标记为单个单词，然后执行常见的预处理步骤：停用词的删除，词干，标点符号的删除以及小写的转换。这些操作也默认在中进行 SentimentAnalysis，但可以根据个人需要进行调整。

简短示范

# 分析单个字符极性（正/负）

anaSen("是的，这对德国队来说是一场很棒的足球比赛！")

## [1] positive
## Levels: negative positive

# 创建字符串向量


documents <- c("哇，我真的很喜欢新的轻型军刀！"，

"那本书很棒。"，

"R是一种很棒的语言。"，

"这家餐厅的服务很糟糕。"

"这既不是正面也不是负面。"，

"服务员忘了我的甜点-多么糟糕的服务！")

# 分析情感


anaSen(documents)

# 根据QDAP词典提取基于词典的情感


sentiment$SentimentQDAP

## [1]  0.3333333  0.5000000  0.5000000 -0.3333333  0.0000000 -0.4000000

#查看情感方向（即正面，中性和负面）


ToDirection(sentiment$SentimentQDAP)

## [1] positive positive positive negative neutral  negative
## Levels: negative neutral positive

response <- c(+1, +1, +1, -1, 0, -1)

comToRne(sentiment, response)

##                              WordCount  SentimentGI  NegativityGI
## cor                        -0.18569534  0.990011498 -9.974890e-01
## cor.t.statistic            -0.37796447 14.044046450 -2.816913e+01
## cor.p.value                 0.72465864  0.000149157  9.449687e-06
## lm.t.value                 -0.37796447 14.044046450 -2.816913e+01
## r.squared                   0.03448276  0.980122766  9.949843e-01
## RMSE                        3.82970843  0.450102869  1.186654e+00
## MAE                         3.33333333  0.400000000  1.100000e+00
## Accuracy                    0.66666667  1.000000000  6.666667e-01
## Precision                          NaN  1.000000000           NaN
## Sensitivity                 0.00000000  1.000000000  0.000000e+00
## Specificity                 1.00000000  1.000000000  1.000000e+00
## F1                          0.00000000  0.500000000  0.000000e+00
## BalancedAccuracy            0.50000000  1.000000000  5.000000e-01
## avg.sentiment.pos.response  3.25000000  0.333333333  8.333333e-02
## avg.sentiment.neg.response  4.00000000 -0.633333333  6.333333e-01
##                            PositivityGI SentimentHE NegativityHE
## cor                         0.942954167   0.4152274 -0.083045480
## cor.t.statistic             5.664705543   0.9128709 -0.166666667
## cor.p.value                 0.004788521   0.4129544  0.875718144
## lm.t.value                  5.664705543   0.9128709 -0.166666667
## r.squared                   0.889162562   0.1724138  0.006896552
## RMSE                        0.713624032   0.8416254  0.922958207
## MAE                         0.666666667   0.7500000  0.888888889
## Accuracy                    0.666666667   0.6666667  0.666666667
## Precision                           NaN         NaN          NaN
## Sensitivity                 0.000000000   0.0000000  0.000000000
## Specificity                 1.000000000   1.0000000  1.000000000
## F1                          0.000000000   0.0000000  0.000000000
## BalancedAccuracy            0.500000000   0.5000000  0.500000000
## avg.sentiment.pos.response  0.416666667   0.1250000  0.083333333
## avg.sentiment.neg.response  0.000000000   0.0000000  0.000000000
##                            PositivityHE SentimentLM NegativityLM
## cor                           0.3315938   0.7370455  -0.40804713
## cor.t.statistic               0.7029595   2.1811142  -0.89389841
## cor.p.value                   0.5208394   0.0946266   0.42189973
## lm.t.value                    0.7029595   2.1811142  -0.89389841
## r.squared                     0.1099545   0.5432361   0.16650246
## RMSE                          0.8525561   0.7234178   0.96186547
## MAE                           0.8055556   0.6333333   0.92222222
## Accuracy                      0.6666667   0.8333333   0.66666667
## Precision                           NaN   1.0000000          NaN
## Sensitivity                   0.0000000   0.5000000   0.00000000
## Specificity                   1.0000000   1.0000000   1.00000000
## F1                            0.0000000   0.3333333   0.00000000
## BalancedAccuracy              0.5000000   0.7500000   0.50000000
## avg.sentiment.pos.response    0.2083333   0.2500000   0.08333333
## avg.sentiment.neg.response    0.0000000  -0.1000000   0.10000000
##                            PositivityLM RatioUncertaintyLM SentimentQDAP
## cor                           0.6305283                 NA  0.9865356369
## cor.t.statistic               1.6247248                 NA 12.0642877257
## cor.p.value                   0.1795458                 NA  0.0002707131
## lm.t.value                    1.6247248                 NA 12.0642877257
## r.squared                     0.3975659                 NA  0.9732525629
## RMSE                          0.7757911          0.9128709  0.5398902495
## MAE                           0.7222222          0.8333333  0.4888888889
## Accuracy                      0.6666667          0.6666667  1.0000000000
## Precision                           NaN                NaN  1.0000000000
## Sensitivity                   0.0000000          0.0000000  1.0000000000
## Specificity                   1.0000000          1.0000000  1.0000000000
## F1                            0.0000000          0.0000000  0.5000000000
## BalancedAccuracy              0.5000000          0.5000000  1.0000000000
## avg.sentiment.pos.response    0.3333333          0.0000000  0.3333333333
## avg.sentiment.neg.response    0.0000000          0.0000000 -0.3666666667
##                            NegativityQDAP PositivityQDAP
## cor                          -0.944339551    0.942954167
## cor.t.statistic              -5.741148345    5.664705543
## cor.p.value                   0.004560908    0.004788521
## lm.t.value                   -5.741148345    5.664705543
## r.squared                     0.891777188    0.889162562
## RMSE                          1.068401367    0.713624032
## MAE                           1.011111111    0.666666667
## Accuracy                      0.666666667    0.666666667
## Precision                             NaN            NaN
## Sensitivity                   0.000000000    0.000000000
## Specificity                   1.000000000    1.000000000
## F1                            0.000000000    0.000000000
## BalancedAccuracy              0.500000000    0.500000000
## avg.sentiment.pos.response    0.083333333    0.416666667
## avg.sentiment.neg.response    0.366666667    0.000000000

##                            WordCount SentimentGI NegativityGI PositivityGI
## Accuracy                   0.6666667   1.0000000   0.66666667    0.6666667
## Precision                        NaN   1.0000000          NaN          NaN
## Sensitivity                0.0000000   1.0000000   0.00000000    0.0000000
## Specificity                1.0000000   1.0000000   1.00000000    1.0000000
## F1                         0.0000000   0.5000000   0.00000000    0.0000000
## BalancedAccuracy           0.5000000   1.0000000   0.50000000    0.5000000
## avg.sentiment.pos.response 3.2500000   0.3333333   0.08333333    0.4166667
## avg.sentiment.neg.response 4.0000000  -0.6333333   0.63333333    0.0000000
##                            SentimentHE NegativityHE PositivityHE
## Accuracy                     0.6666667   0.66666667    0.6666667
## Precision                          NaN          NaN          NaN
## Sensitivity                  0.0000000   0.00000000    0.0000000
## Specificity                  1.0000000   1.00000000    1.0000000
## F1                           0.0000000   0.00000000    0.0000000
## BalancedAccuracy             0.5000000   0.50000000    0.5000000
## avg.sentiment.pos.response   0.1250000   0.08333333    0.2083333
## avg.sentiment.neg.response   0.0000000   0.00000000    0.0000000
##                            SentimentLM NegativityLM PositivityLM
## Accuracy                     0.8333333   0.66666667    0.6666667
## Precision                    1.0000000          NaN          NaN
## Sensitivity                  0.5000000   0.00000000    0.0000000
## Specificity                  1.0000000   1.00000000    1.0000000
## F1                           0.3333333   0.00000000    0.0000000
## BalancedAccuracy             0.7500000   0.50000000    0.5000000
## avg.sentiment.pos.response   0.2500000   0.08333333    0.3333333
## avg.sentiment.neg.response  -0.1000000   0.10000000    0.0000000
##                            RatioUncertaintyLM SentimentQDAP NegativityQDAP
## Accuracy                            0.6666667     1.0000000     0.66666667
## Precision                                 NaN     1.0000000            NaN
## Sensitivity                         0.0000000     1.0000000     0.00000000
## Specificity                         1.0000000     1.0000000     1.00000000
## F1                                  0.0000000     0.5000000     0.00000000
## BalancedAccuracy                    0.5000000     1.0000000     0.50000000
## avg.sentiment.pos.response          0.0000000     0.3333333     0.08333333
## avg.sentiment.neg.response          0.0000000    -0.3666667     0.36666667
##                            PositivityQDAP
## Accuracy                        0.6666667
## Precision                             NaN
## Sensitivity                     0.0000000
## Specificity                     1.0000000
## F1                              0.0000000
## BalancedAccuracy                0.5000000
## avg.sentiment.pos.response      0.4166667
## avg.sentiment.neg.response      0.0000000

从文本挖掘中执行了一组预处理操作。将标记每个文档，最后将输入转换为文档项矩阵。

输入

提供了具有其他几种输入格式的接口，其中包括

字符串向量。
在tm 软件包中实现的DocumentTermMatrix和 TermDocumentMatrix（Feinerer，Hornik和Meyer 2008）。
tm 软件包实现的语料库对象（Feinerer，Hornik和Meyer 2008）。

我们在下面提供示例。

向量的字符串

documents <- c("这很好"，

"这不好"，

"这介于两者之间")
convertToDirection(analyzeSentiment(documents)$SentimentQDAP)

## [1] positive negative neutral 
## Levels: negative neutral positive

文档词语矩阵

corpus <- VCorpus(VectorSource(documents))
convertToDirection(analyzeSentiment(corpus)$SentimentQDAP)

## [1] positive negative neutral 
## Levels: negative neutral positive

语料库对象

## [1] positive negative neutral 
## Levels: negative neutral positive

可以直接与文档术语矩阵一起使用，因此一开始就可以使用自定义的预处理操作。之后，可以计算情感分数。例如，可以使用其他列表中的停用词替换停用词。

字典

可区分三种不同类型的词典。它们所存储的数据各不相同，这些数据最终还控制着可以应用哪种情感分析方法。字典如下：

SentimentDictionaryWordlist 包含属于一个类别的单词列表。
SentimentDictionaryBinary 存储两个单词列表，一个用于肯定条目，一个用于否定条目。
SentimentDictionaryWeighted 允许单词的情感评分。

情感词典词表

# 替代

d <- Dictionary(c(“不确定”，“可能”，“有可能”))
summary(d)

## Dictionary type:  word list (single set)
## Total entries:    3

情感词典

d <- DictionaryBin(c(“增加”，“上升”，“更多”),
                               c(“下降”))
summary(d)

## Dictionary type:  binary (positive / negative)
## Total entries:    5
## Positive entries: 3 (60%)
## Negative entries: 2 (40%)

情感词典加权

d <- SentimentDictionaryWeighted(c(“增加”，“减少”，“退出”),
                                 c(+1, -1, -10),
                                 rep(NA, 3))
summary(d)

## Dictionary type:  weighted (words with individual scores)
## Total entries:    3
## Positive entries: 1 (33.33%)
## Negative entries: 2 (66.67%)
## Neutral entries:  0 (0%)
## 
## Details
## Average score:      -3.333333
## Median:             -1
## Min:                -10
## Max:                1
## Standard deviation: 5.859465
## Skewness:           -0.6155602

d <- SentimentDictionary(c(“增加”，“减少”，“退出”),
                         c(+1, -1, -10),
                         rep(NA, 3))
summary(d)

## Dictionary type:  weighted (words with individual scores)
## Total entries:    3
## Positive entries: 1 (33.33%)
## Negative entries: 2 (66.67%)
## Neutral entries:  0 (0%)
## 
## Details
## Average score:      -3.333333
## Median:             -1
## Min:                -10
## Max:                1
## Standard deviation: 5.859465
## Skewness:           -0.6155602

字典生成

用向量的形式表示因变量。此外，变量给出了单词在文档中出现的次数。然后，该方法估计具有截距和系数的线性模型。估计基于LASSO正则化，它执行变量选择。这样，它将某些系数设置为正好为零。然后可以根据剩余单词的系数按极性对它们进行排序。

# 创建字符串向量


documents <- c(“这是一件好事！”，

“这是一件非常好的事！”，

“没关系。”

“这是一件坏事。”，

“这是一件非常不好的事情。”

)
response <- c(1, 0.5, 0, -0.5, -1)

# 使用LASSO正则化生成字典


dict

## Type: weighted (words with individual scores)
## Intercept: 5.55333e-05
## -0.51 bad
##  0.51 good

summary(dict)

## Dictionary type:  weighted (words with individual scores)
## Total entries:    2
## Positive entries: 1 (50%)
## Negative entries: 1 (50%)
## Neutral entries:  0 (0%)
## 
## Details
## Average score:      -5.251165e-05
## Median:             -5.251165e-05
## Min:                -0.5119851
## Max:                0.5118801
## Standard deviation: 0.7239821
## Skewness:           0

有几种微调选项。只需更改参数，就可以用弹性网络模型替换LASSO 。

最后，可以使用read() 和保存和重新加载字典 write()

评估

最终，例程允许人们进一步挖掘生成的字典。一方面，可以通过summary() 例程显示简单的概述。另一方面，核密度估计也可以可视化正词和负词的分布。

## Comparing: wordlist vs weighted
## 
## Total unique words: 4213
## Matching entries: 2 (0.0004747211%)
## Entries with same classification: 0 (0%)
## Entries with different classification: 2 (0.0004747211%)
## Correlation between scores of matching entries: 1

## $totalUniqueWords
## [1] 4213
## 
## $totalSameWords
## [1] 2
## 
## $ratioSameWords
## [1] 0.0004747211
## 
## $numWordsEqualClass
## [1] 0
## 
## $numWordsDifferentClass
## [1] 2
## 
## $ratioWordsEqualClass
## [1] 0
## 
## $ratioWordsDifferentClass
## [1] 0.0004747211
## 
## $correlation
## [1] 1

##                             Dictionary
## cor                         0.94868330
## cor.t.statistic             5.19615237
## cor.p.value                 0.01384683
## lm.t.value                  5.19615237
## r.squared                   0.90000000
## RMSE                        0.23301039
## MAE                         0.20001111
## Accuracy                    1.00000000
## Precision                   1.00000000
## Sensitivity                 1.00000000
## Specificity                 1.00000000
## F1                          0.57142857
## BalancedAccuracy            1.00000000
## avg.sentiment.pos.response  0.45116801
## avg.sentiment.neg.response -0.67675202

下面的示例演示如何将计算出的字典用于预测样本外数据的情感。然后通过将其与内置词典进行比较来评估预测性能。

test_documents <- c(“这既不是好事也不是坏事”，

“真是好主意！”，

“不错”
)

pred <- predict(dict, test_documents)

##                              Dictionary
## cor                        5.922189e-05
## cor.t.statistic            5.922189e-05
## cor.p.value                9.999623e-01
## lm.t.value                 5.922189e-05
## r.squared                  3.507232e-09
## RMSE                       8.523018e-01
## MAE                        6.666521e-01
## Accuracy                   3.333333e-01
## Precision                  0.000000e+00
## Sensitivity                         NaN
## Specificity                3.333333e-01
## F1                         0.000000e+00
## BalancedAccuracy                    NaN
## avg.sentiment.pos.response 1.457684e-05
## avg.sentiment.neg.response          NaN

##                             WordCount SentimentGI NegativityGI
## cor                        -0.8660254 -0.18898224   0.18898224
## cor.t.statistic            -1.7320508 -0.19245009   0.19245009
## cor.p.value                 0.3333333  0.87896228   0.87896228
## lm.t.value                 -1.7320508 -0.19245009   0.19245009
## r.squared                   0.7500000  0.03571429   0.03571429
## RMSE                        1.8257419  1.19023807   0.60858062
## MAE                         1.3333333  0.83333333   0.44444444
## Accuracy                    1.0000000  0.66666667   1.00000000
## Precision                         NaN  0.00000000          NaN
## Sensitivity                       NaN         NaN          NaN
## Specificity                 1.0000000  0.66666667   1.00000000
## F1                          0.0000000  0.00000000   0.00000000
## BalancedAccuracy                  NaN         NaN          NaN
## avg.sentiment.pos.response  2.0000000 -0.16666667   0.44444444
## avg.sentiment.neg.response        NaN         NaN          NaN
##                            PositivityGI SentimentHE NegativityHE
## cor                         -0.18898224 -0.18898224           NA
## cor.t.statistic             -0.19245009 -0.19245009           NA
## cor.p.value                  0.87896228  0.87896228           NA
## lm.t.value                  -0.19245009 -0.19245009           NA
## r.squared                    0.03571429  0.03571429           NA
## RMSE                         0.67357531  0.67357531    0.8164966
## MAE                          0.61111111  0.61111111    0.6666667
## Accuracy                     1.00000000  1.00000000    1.0000000
## Precision                           NaN         NaN          NaN
## Sensitivity                         NaN         NaN          NaN
## Specificity                  1.00000000  1.00000000    1.0000000
## F1                           0.00000000  0.00000000    0.0000000
## BalancedAccuracy                    NaN         NaN          NaN
## avg.sentiment.pos.response   0.27777778  0.27777778    0.0000000
## avg.sentiment.neg.response          NaN         NaN          NaN
##                            PositivityHE SentimentLM NegativityLM
## cor                         -0.18898224 -0.18898224   0.18898224
## cor.t.statistic             -0.19245009 -0.19245009   0.19245009
## cor.p.value                  0.87896228  0.87896228   0.87896228
## lm.t.value                  -0.19245009 -0.19245009   0.19245009
## r.squared                    0.03571429  0.03571429   0.03571429
## RMSE                         0.67357531  1.19023807   0.60858062
## MAE                          0.61111111  0.83333333   0.44444444
## Accuracy                     1.00000000  0.66666667   1.00000000
## Precision                           NaN  0.00000000          NaN
## Sensitivity                         NaN         NaN          NaN
## Specificity                  1.00000000  0.66666667   1.00000000
## F1                           0.00000000  0.00000000   0.00000000
## BalancedAccuracy                    NaN         NaN          NaN
## avg.sentiment.pos.response   0.27777778 -0.16666667   0.44444444
## avg.sentiment.neg.response          NaN         NaN          NaN
##                            PositivityLM RatioUncertaintyLM SentimentQDAP
## cor                         -0.18898224                 NA   -0.18898224
## cor.t.statistic             -0.19245009                 NA   -0.19245009
## cor.p.value                  0.87896228                 NA    0.87896228
## lm.t.value                  -0.19245009                 NA   -0.19245009
## r.squared                    0.03571429                 NA    0.03571429
## RMSE                         0.67357531          0.8164966    1.19023807
## MAE                          0.61111111          0.6666667    0.83333333
## Accuracy                     1.00000000          1.0000000    0.66666667
## Precision                           NaN                NaN    0.00000000
## Sensitivity                         NaN                NaN           NaN
## Specificity                  1.00000000          1.0000000    0.66666667
## F1                           0.00000000          0.0000000    0.00000000
## BalancedAccuracy                    NaN                NaN           NaN
## avg.sentiment.pos.response   0.27777778          0.0000000   -0.16666667
## avg.sentiment.neg.response          NaN                NaN           NaN
##                            NegativityQDAP PositivityQDAP
## cor                            0.18898224    -0.18898224
## cor.t.statistic                0.19245009    -0.19245009
## cor.p.value                    0.87896228     0.87896228
## lm.t.value                     0.19245009    -0.19245009
## r.squared                      0.03571429     0.03571429
## RMSE                           0.60858062     0.67357531
## MAE                            0.44444444     0.61111111
## Accuracy                       1.00000000     1.00000000
## Precision                             NaN            NaN
## Sensitivity                           NaN            NaN
## Specificity                    1.00000000     1.00000000
## F1                             0.00000000     0.00000000
## BalancedAccuracy                      NaN            NaN
## avg.sentiment.pos.response     0.44444444     0.27777778
## avg.sentiment.neg.response            NaN            NaN

预处理

如果需要，可以实施适合特定需求的预处理阶段。如函数 ngram_tokenize() ，用于从语料库中提取n-gram。

tdm <- TermDocumentMatrix(corpus, 
                          control=list(wordLengths=c(1,Inf), 
                                       tokenize=function(x) ngram_tokenize(x, char=FALSE, 
                                                                           ngmin=1, ngmax=2)))

## Dictionary type:  weighted (words with individual scores)
## Total entries:    7
## Positive entries: 4 (57.14%)
## Negative entries: 3 (42.86%)
## Neutral entries:  0 (0%)
## 
## Details
## Average score:      5.814314e-06
## Median:             1.602469e-16
## Min:                -0.4372794
## Max:                0.4381048
## Standard deviation: 0.301723
## Skewness:           0.00276835

dict

## Type: weighted (words with individual scores)
## Intercept: -5.102483e-05
## -0.44 不好
## -0.29 非常糟糕
## 0.29  好

性能优化

##   SentimentLM
## 1         0.5
## 2         0.5
## 3         0.0
## 4        -0.5
## 5        -0.5

语言支持和可扩展性

可以适应其他语言使用。为此，需要在两点上进行更改：

预处理：使用参数 language="" 来执行所有预处理操作。
字典： 可以使用附带的字典生成方法。然后，这可以自动生成可应用于给定语言的正负词词典。

下面的示例使用德语示例。最后，我们进行情感分析。

documents <- c("Das ist ein gutes Resultat",
               "Das Ergebnis war schlecht")

sentiment <- ana(documents,
                              language="german",
sentiment

##   GermanSentiment
## 1             0.0
## 2            -0.5

## [1] positive negative
## Levels: negative positive

同样，可以使用自定义情感分数来实现字典。

woorden <- c("goed","slecht")
scores <- c(0.8,-0.5)

##   DutchSentiment
## 1           -0.5

实例

我们利用了tm 包中的路透社石油新闻。


# 分析情感


sentiment <- ana(crude)

# 计算正面和负面新闻发布数量


table(coToB(sentiment$SentimentLM))

## 
## negative positive 
##       16        4

# 情感最高和最低的新闻

## [1] "HOUSTON OIL  RESERVES STUDY COMPLETED"

crude[[which.min(sentiment$SentimentLM)]]$meta$heading

## [1] "DIAMOND SHAMROCK (DIA) CUTS CRUDE PRICES"

# 查看情感变量的摘要统计


summary(sentiment$SentimentLM)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -0.08772 -0.04366 -0.02341 -0.02953 -0.01375  0.00000

# 可视化标准化情感变量的分布


hist(scale(sentiment$SentimentLM))

# 计算相关

##               SentimentLM SentimentHE SentimentQDAP
## SentimentLM     1.0000000   0.2769878     0.4769730
## SentimentHE     0.2769878   1.0000000     0.6141075
## SentimentQDAP   0.4769730   0.6141075     1.0000000

#  1987-02-26  1987-03-02之间的原油新闻


plot(senti$Sentime)

plot(SenLM, x=date, cumsum=TRUE)

单词计算

对单词进行计数。

#词（无停用词）

##   WordCount
## 1         3

# 计算所有单词（包括停用词）

##   WordCount
## 1         4

参考文献

Feinerer，Ingo，Kurt Hornik和David Meyer。2008年。“ R中的文本挖掘基础结构”。 统计软件杂志 25（5）：1–54。

Tetlock，Paul C.，2007年。“将内容传递给投资者的情感：媒体在股票市场中的作用。” 金融杂志 62（3）：1139–68。

最受欢迎的见解

1.探析大数据期刊文章研究热点

2.618网购数据盘点-剁手族在关注什么

3.r语言文本挖掘tf-idf主题建模，情感分析n-gram建模研究

4.python主题建模可视化lda和t-sne交互式可视化

5.疫情下的新闻数据观察

6.python主题lda建模和t-sne可视化

7.r语言中对文本数据进行主题模型topic-modeling分析

8.主题模型：数据聆听人民网留言板的那些“网事”

9.python爬虫进行web抓取lda主题语义数据分析

你可能感兴趣的:(R语言,预测,文本挖掘,R语言,自然语言处理,NLP,情感分析,文本数据)

【数据结构】二叉树的特性多多钟意你吖阶段一：数据结构数据结构二叉树二叉树的特性
作者简介：大家好呀！我是路遥叶子，大家可以叫我叶子哦！❣️个人主页：【路遥叶子的博客】博主信息：四季轮换叶，一路招摇胜！专栏【安利Java零基础】【数据结构-Java语言描述】希望大家多多支持一起进步呀！~❤️若有帮助，还请【关注➕点赞➕收藏】，不行的话我再努力努力呀！————————————————⚡版权声明：本文由【路遥叶子】原创、在CSDN首发、需要转载请联系博主。想寻找共同成长的小伙伴，请
平均数1（acwing）c/c++/java/python xinghuitunan c++c语言 java python
读取两个浮点数AA和BB的值，对应于两个学生的成绩。请你计算学生的平均分，其中AA的成绩的权重为3.53.5，BB的成绩的权重为7.57.5。成绩的取值范围在00到1010之间，且均保留一位小数。输入格式输入占两行，每行包含一个浮点数，第一行表示AA，第二行表示BB。输出格式输出格式为MEDIA=X，其中XX为平均分，结果保留五位小数。数据范围0≤A,B≤10.00≤A,B≤10.0输入样例：5.
【跟着博主安装地震数据处理seismic unix】南瓜胖胖 seismic SU macos linux
如何在mac系统安装seismcunix准备工作查看brew版本安装gcc&cmake准备工作要求安装make，gcc，使用brew安装，第一要求安装brew，mac默认是没有这个组件，开始干活/bin/bash-c“$(curl-fsSLhttps://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)”复制上面代码，在mac终
设计一个高并发的系统，如何保证数据一致性？ weixin_49526058 面试后端高并发
设计高并发系统时，保证数据一致性是一个非常重要的挑战，尤其是在分布式环境中。以下是一些常见的策略和方法来保证数据一致性：1.CAP定理CAP定理表明，在一个分布式系统中，不能同时满足以下三个要求：Consistency（数据一致性）：所有节点在同一时间看到相同的数据。Availability（可用性）：每个请求都会得到响应，无论请求是否成功。PartitionTolerance（分区容忍性）：即使
利用Redis发布订阅模式、SSE实现分布式实时站内信系统 weixin_38515820 Java redis redis 分布式 java
文章目录前言一、SSE是什么？二、单机与集群的站内信实现方式有何区别？三、Redis发布、订阅模式有何特点？四、代码演示1.数据模型小结2.引入依赖3.配置RedissonClient4.编写RestController用于测试5.编写用户消息订阅逻辑6.实现消息的发布7.实现广播消息的订阅8.个人与团队消息的订阅8.效果演示总结前言站内信功能在各大系统中被广泛应用，本文结合工作的实际场景，使用j
玩客云折腾之路 - (Armbian/Armv7l) 搭建Gitea - 通过二进制文件安装 wangvic21 linux Armbian 玩客云 git arm
玩客云折腾之路基于Armbian，完成docker、挂载U盘、gitea部署等文章目录玩客云折腾之路前言一、Git托管工具的选择？二、Gitea安装步骤1.docker安装（失败）2.二进制安装安装数据库创建用户安装Gitea下载配置目录个性化目录配置-U盘创建自启服务配置Gitea前言记录一下玩客云如何安装gitea，实现代码的托管。由于Docker镜像无Armv7镜像，需要通过命令行运行可执行
开源项目-图书管理系统代码先觉开源项目 java 图书管理系统
哈喽，大家好，今天给大家带来一个图书管理系统系统主要分为图书管理，读者管理，借还管理等模块，可以下载源码了解详情项目简介本图书管理系统基于spring,springmvc,数据库为mysql。前端使用了Bootstrap。系统功能该系统实现读者和管理员登陆，图书的增删改查，读者的增删改查，借还图书，密码修改，卡号挂失，超期提醒等功能。系统登录图书管理读者管理
Web Worker终极优化指南：4秒卡顿→0延迟的实战蜕变前端御书房 JavaScript 前端性能优化 javascript
导读：从4秒卡顿到丝滑响应真实痛点场景：当斐波那契数列计算量达10亿次时，页面完全冻结4.2秒！通过WebWorker优化后，UI响应时间降至16ms以内。本文手把手带您实现性能蜕变！一、WebWorker核心原理剖析1.浏览器线程架构解密主线程：UI渲染→事件监听→JS执行→网络请求→定时器↓WebWorker线程：纯计算任务→文件IO→大数据处理2.多线程通信机制//主线程constworke
Python数据分析实战案例 master_chenchengg python python Python python开发 IT
Python数据分析实战案例数据分析的魅力：Python与Pandas的完美结合初识Pandas：数据处理的瑞士军刀环境搭建：如何在本地安装Pandas第一步：加载和查看你的第一个数据集数据清洗的艺术：让数据更干净缺失值处理：填补或删除缺失数据异常值检测：找出数据中的“怪兽”重复数据处理：告别冗余数据探索与可视化：揭开数据的神秘面纱基本统计分析：了解数据的基本特征数据可视化：用图表讲述数据的故事相
第一个问题：AI会威胁人类吗？释迦呼呼 AI一千问人工智能
第一个问题：AI会威胁人类吗？对于这个问题，我的回答是：AI本身并不会威胁人类，但其是否构成威胁取决于人类如何设计、使用和监管它。下面我将从几个角度详细分析。AI的本质：人类的工具AI（人工智能）是由人类创造的工具，它的行为和决策完全基于人类设计的算法和输入的数据。换句话说，AI没有自己的意识、意图或独立的目标，因此它本身并不具备威胁人类的动机或能力。它的作用是由开发者、使用者和管理者决定的。AI
Java数据结构与算法(买卖股票的最佳时机二贪心算法) 盘门 java数据结构与算法实战 java 开发语言
前言买卖股票最佳时机二，此时不限次数的买卖的要求获得的利益最大化。暴力算法依旧可行，可以参考之前的练习。.-力扣（LeetCode）贪心算法原理参考:Java数据结构与算法(盛水的容器贪心算法)-CSDN博客实现原理1.定义最大利润res和下标前值pre。2.下标移动比较当前股票值prices[i]与前值大小，前值小于当前值则加入利润res。3.随着下标移动前值更新。具体代码实现classSolu
解决前端 number 与后端 Long 数据表示范围不精确的问题 confident3 前端
packagecom.me.meterdemo.config;importcom.fasterxml.jackson.databind.ObjectMapper;importcom.fasterxml.jackson.databind.module.SimpleModule;importcom.fasterxml.jackson.databind.ser.std.ToStringSerialize
交换机作为DHCP server的IP分发过程（冲突的产生）香行子 tcp/ip 网络网络协议
书接上回我在交换机中新建了2个环回口分别是loopback0:30.179.1.1loopback1:30.179.1.2用来模拟2个终端。此时，我再次接入PC去获取IP地址，这台PC是昨天获取过一次IP的，30.179.1.1。时间已经超过8小时租期。按照昨天的理解，dhcpserver会去发ICMP数据包去依次检测30.179.1.1以及30.179.1.2是否可用。很显然，环回口是可达的。因
树莓派部署syncthing实现私有云 | 树莓派小无相系列 TuTuTu_ 树莓派树莓派
手机上存着不少照片，自己又时常折腾手机，总有数据丢失的问题，又对市面上的云盘不怎么放心，所以打算在家里利用树莓派搭建一个私有云。一番查找之后，发现了syncthing。Syncthing是一个跨平台，开源且免费的基于P2P的文件同步解决方案，支持Windows，Mac，Linux，Android，syncthing官方暂不支持iOS平台，但在AppStore有可用的第三方客户端。安装syncthi
鸿蒙原生绘图API：从基础到高阶的绘制之旅（基础版）
theme:hydrogen大家好，欢迎来到莓创IT技术分享频道，我是陈杨。由于经常有小伙伴一直给我反馈说莓创图表（mccharts）数据多的时候经常卡顿，很无奈之前做动画的时候没考虑ArkTs的性能瓶颈，导致现在又要重构开发。于是我重新翻阅文档，看看有没有新的方式来解决。在翻阅官网文档的时候，无意间看到这句话。发现了@ohos.graphics.drawing模块性能竟然比canvas好，所以最
基于CNN-LSTM-Attention的回归预测算法（附Tensorflow框架下的代码） Jason_Orton 算法 cnn lstm 机器学习数据挖掘回归 tensorflow
本代码基于Tensorflow框架，即插即用！！！基于CNN-LSTM-Attention的回归预测算法结合了卷积神经网络（CNN）、长短期记忆网络（LSTM）和注意力机制（Attention）三种强大的技术，通常用于时序数据的回归预测问题。这种结合模型能够有效地处理和预测复杂的时序数据，尤其是包含空间和时间信息的任务，如气象预测、股市分析、电力负荷预测等。1.模型概述该模型的核心思想是通过不同网
全面解析 HarmonyOS NEXT（5.0）：从零构建高效登录页面 harmonyos-next
全面解析HarmonyOSNEXT（5.0）：从零构建高效登录页面在本文中，我们将深入探讨如何使用HarmonyOSNEXT来构建一个功能完备的登录页面。通过这一实战案例，你将了解页面布局、数据本地化存储、网络请求等多方面知识，并见识到HarmonyOSNEXT在构建现代应用时的强大能力和灵活性。HarmonyOSNEXT基本定义与特点自主可控：HarmonyOSNEXT是华为自主研发的操作系统，
数据结构：实验题目：单链表归并。将两个非递减次序排列的单链表归并为一个非递增次序排列的单链表，并计算表长。要求利用原来两个单链表的结点存放合并后的单链表。程序员东min 数据结构
输出样例如图：代码如下：#include#include//链表节点结构typedefstructListNode{intval;structListNode*next;}ListNode;//创建新节点ListNode*createNode(intval){ListNode*newNode=(ListNode*)malloc(sizeof(ListNode));newNode->val=val;
区块链中的递归长度前缀（RLP）序列化详解 Linke- 区块链区块链以太坊
文章目录1.什么是RLP序列化？2.RLP的设计目标与优势3.RLP处理的数据类型4.RLP编码规则详解字符串的编码规则列表的编码规则5.RLP解码原理6.RLP在以太坊中的应用场景7.编码示例分析8.总结1.什么是RLP序列化？递归长度前缀（RLP）是一种专为区块链设计的序列化方法，主要用于将复杂数据结构（如嵌套列表、字符串）转换为二进制格式。其核心思想是通过添加长度前缀明确数据边界，确保数据在
Spring 核心技术解析【纯干货版】- XI：Spring 数据访问模块 Spring-Oxm 模块精讲栗筝i 栗筝i 的 Java 技术栈 #Java 框架 -专栏 spring python 数据库
在现代Java开发中，XML仍然是数据存储和数据交换的重要格式，特别是在Web服务、配置管理和数据持久化等场景中。Spring框架提供了Spring-OXM（Object/XMLMapping）模块，旨在简化Java对象与XML之间的转换，并支持多种OXM实现，如JAXB、Castor、XStream、JibX等。本篇文章深入解析了Spring-OXM模块的核心概念，并结合JAXB进行详细示例，展
高级SQL技术在Python项目中的应用：更进一步的数据分析与集成 Neo Evolution Python sql python 数据分析数据结构学习数据库
引言在第一篇中，我们深入探讨了ORM框架SQLAlchemy的高级用法以及性能优化策略。然而，要充分释放数据库的潜力，我们还需要掌握更多高级SQL特性，并将其与强大的数据分析工具生态系统有效集成。本篇将聚焦于窗口函数、CTE递归查询、JSON操作、全文搜索以及与Pandas的无缝集成，раскрывая高级SQL在数据分析领域的强大威力。窗口函数与分析查询：洞察数据背后的模式窗口函数是现代SQL标
2025asp.net全栈技术开发学习路线图 mabanbang asp.net core开发 asp.net 全栈技术
2025年技术亮点‌：Blazor已全面支持WebAssembly2.0标准.NET8+版本原生集成AI模型部署能力AzureKubernetes服务实现智能自动扩缩容EFCore新增向量数据库支持特性‌ASP.NET全栈开发关键技术说明（2025年视角）‌以下技术分类基于现代企业级应用开发需求：‌前端生态‌‌Blazor‌是微软基于WebAssembly的前端框架，允许开发者直接使用C#替代Ja
基于Python的医院运营数据可视化平台：设计、实现与应用（下） Allen_LVyingbo python 医疗高效编程研发 python 信息可视化健康医疗系统架构
5.2数据采集与预处理的代码实现从HIS、LIS等系统采集数据时，需要针对不同系统的接口特点编写相应的采集代码。以从HIS系统采集患者就诊记录为例，假设HIS系统提供了基于HTTP的API接口，且数据格式为JSON，以下是使用Python的requests库进行数据采集的代码示例：importrequestsimportjson\#HIS系统API地址his\_api\_url="http://h
数据结构之【顺序表实现】(c语言实现) zl_dfq 数据结构顺序表数据结构
强烈建议看完上一期博客之后再来看这一期：数据结构之【顺序表简介】3.实现顺序表的增删查改静态顺序表的缺陷较大，所以下面展示的是动态顺序表的相关函数3.1初始化结构体变量创建之后，首先初始化一下才好#defineINIT_CAPACITY10voidSLINIT(SL*ps){assert(ps);ps->arr=(SLDataType*)malloc(sizeof(SLDataType)*INIT
《AI与NLP：开启元宇宙社交互动新纪元》人工智能深度学习
在科技飞速发展的当下，元宇宙正从概念逐步走向现实，成为人们关注的焦点。而在元宇宙诸多令人瞩目的特性中，社交互动体验是其核心魅力之一。人工智能（AI）与自然语言处理（NLP）技术的迅猛发展，为元宇宙社交互动带来了前所未有的变革与提升，深刻地影响着用户在虚拟世界中的社交方式与体验。自然语言交互，打破沟通壁垒在早期的元宇宙雏形中，用户与虚拟环境、其他用户的交互多依赖于简单的指令输入或有限的动作操作，这种
kafka判断生产者是否向kafka集群成功发送消息 weixin_43833540 工作中遇到的kafka问题 kafka 分布式
判断kafka生产者是否成功向Kafka集群发送消息，可以通过以下几种方式来判断：同步发送方式在同步发送方式中，生产者调用send()方法后，会等待Kafka的响应来确认消息是否发送成功。如果发送成功，send()方法会返回一个RecordMetadata对象，该对象包含了消息的元数据信息，如分区号（partition）、偏移量（offset）等。如果发送失败，则会抛出异常。步骤：调用produc
MySQL常用指令凌武贰玖 #MySQL SQL数据库 mysql oracle 数据库
1.登录数据库•mysql-uusername-p：-u指定用户名，-p表示需要输入密码来登录MySQL数据库。2.查看数据库列表•SHOWDATABASES;：用于列出MySQL服务器中的所有数据库。3.创建数据库•CREATEDATABASEdatabase_name;：例如CREATEDATABASEmydb;可以创建一个名为mydb的数据库。4.选择数据库•USEdatabase_name
android 框架组件,Android 架构组件介绍臀总 android 框架组件
Android架构组件介绍Android,Architecture,Components,架构2018.08.08我们在Android开发的过程中，总是在和一些问题纠缠，比如在生命周期的管理，在屏幕旋转的时候重新布局，绘制，保存还原数据等。我们也一直在致力于减少内存的占用，减少内存泄漏的风险，优化我们的代码，特别在大项目中，要增加代码的可维护性。AndroidArchitectureCompone
创建监听器报错“一个或多个listeners启动失败” cccccchd 项目总结 windows
问题：今天写一个需求，即当项目启动时，取出数据库的商品类型，供全局使用，但是出现了创建监听器报错“一个或多个listeners启动失败”。解决：错误示范：我创建了两个IOC容器@WebListenerpublicclassProductTypeListenerimplementsServletContextListener{@OverridepublicvoidcontextInitialized
详解Vue生命周期钩子源去_云走 Vue vue.js 前端 javascript
详解Vue生命周期钩子Vue生命周期钩子简介生命周期钩子介绍1、onBeforeMount()2、onMounted()3、onBeforeUpdate()4、onUpdated()5、onBeforeUnmount()6、onUnmounted()生命周期简单归纳1、页面初始时直接触发2、数据发生改变后触发3、错误捕获生命周期图示Vue生命周期钩子简介每个Vue组件实例在创建时都需要经历一系列的
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: 361942420@qq.com
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情