情感分析是对带有情感色彩（褒义贬义/正向负向）的主观性文本进行分析，以确定该文本的观点、喜好、情感倾向。本文将针对顾客对酒店的评论数据，进行建模，并通过模型进行预测。演示情感分析中的常用操作，包括分词，文本向量化，及使用朴素贝叶斯(Naive Bayes)方法进行建模、预测。

使用的酒店评论数据集链接为：

https://raw.githubusercontent...

每条记录包括评论内容和标记喜好的标签，标签只有2个值：1代表喜欢，0为不喜欢。下图显示了4条数据：

下面我们使用Alink来进行分析、建模。

▼ 钉钉扫码加入 Alink 技术交流群 ▼

Python 版本 Alink 分析示例

使用CsvSourceBatchOp读取URL数据，代码如下：

source = CsvSourceBatchOp()\
.setFilePath('https://github.com/SophonPlus/ChineseNlpCorpus/raw/master/datasets/ChnSentiCorp_htl_all/ChnSentiCorp_htl_all.csv')\
.setSchemaStr('label long, review string')\
.setIgnoreFirstLine(True)

设置列名分别为label和review，数据类型分别为整型和字符串类型，由于该CSV数据第一行保存的是列名，需要设置读取数据时忽略第一行。

下面，我们选择5条数据打印显示出来，看一下数据源是否有问题：

source.firstN(5).print()

结果如下：

然后，我们设置Pipeline，将整个处理和模型过程封装在里面，代码如下：

pipeline = Pipeline(
    Imputer().setSelectedCols(["review"]).setOutputCols(["featureText"]).setStrategy("value").setFillValue("null"),
    Segment().setSelectedCol("featureText"),
    StopWordsRemover().setSelectedCol("featureText"),
    DocCountVectorizer().setFeatureType("TF").setSelectedCol("featureText").setOutputCol("featureVector"),
    LogisticRegression().setVectorCol("featureVector").setLabelCol("label").setPredictionCol("pred")
)

解释一下各个算法组件的作用：

Imputer：对“review”列进行缺失值填充，方式是填充字符串值“null”，结果写到“featureText“列。
Segment：是进行分词操作，即将原句子分解为单词，之间用空格分隔。由于没有输入结果列，分词结果会直接替换掉输入列的值。
StopWordsRemover：是将分词结果中的停用词去掉。
DocCountVectorizer：对“featureText“列出现的单词进行统计，并根据计算出的TF值，将句子映射为向量，向量长度为单词个数，并保存在"featureVector"列。
LogisticRegression：是使用LogisticRegression分类模型。分类预测放在“pred” 列。

下面，我们就可以进入模型训练阶段。通过Pipeline的fit()方法，可以得到整个流程的模型（PipelineModel），记作变量model，代码如下：

model = pipeline.fit(source)

使用model可以对批式/流式数据进行预测，都是调用model的transform()方法。

model.transform(source).select("pred", "label", "review").firstN(10).print()

运行结果为：

Java 版本 Alink 分析示例

首先，我们需要一个Alink的Java工程，配置好相关环境。最简单的办法是使用Alink的example工程，下载Alink git的代码，并用Jave IDE打开项目，如下图所示，可以看到三个已经写好的示例：ALSExample, GBDTExample, KMeansExample.

我们在com.alibaba.alink package下新建一个Java文件:

package com.alibaba.alink;

public class SentimentHotelSimpleExample {

  public static void main(String[] args) throws Exception {

  }
  
}

使用CsvSourceBatchOp读取URL数据，代码如下。设置列名分别为label和review，数据类型分别为整型和字符串类型，由于该CSV数据第一行保存的是列名，需要设置读取数据时忽略第一行。

CsvSourceBatchOp source = new CsvSourceBatchOp()
  .setFilePath("https://github.com/SophonPlus/ChineseNlpCorpus/raw/master/datasets"
    + "/ChnSentiCorp_htl_all/ChnSentiCorp_htl_all.csv")
  .setSchemaStr("label int, review string")
  .setIgnoreFirstLine(true)

source.firstN(5).print();

最后一行代码是选择5条数据打印显示出来，结果如下：

label|review
-----|------
0|携程订单上写明：“房型特点：一张1.3*2，另一张1.1*2米，无法加床全部房间有免费宽带”，实际入住后见到的房间是我所见过的最小的标准间，两个床尺寸相同，床的两边均靠着墙，没有一点多余的空间，甚至连放行李的地方也没有，更不要提什么橱了，跟酒店提出与所订房间不同，他们说我们订的房间空调坏了，只能换这个房间，价格一样。我不知道这是酒店的欺诈还是携程的欺诈，我要求得到赔偿。如果需要证据的话，我有实拍的房间照片。另外，建议大家不要出泰山旅游，几乎一半的酒店会不定时，无预警的停电。
0|洗澡竟然没有热水！！太郁闷了~~第二天还要爬山啊！！不过网速还可以~
0|我要求里写了要安静的房间。。谁知道那天住在6楼，外面的风，凄惨的吹着，声音很大，一个小时才入睡。让酒店换房间。他们说，酒店周围没有树，每间房间声音都很大。。赫赫，这里理由么？看来下次，起风的时候就不能去住了。
0|过了好久才想起来评价，记得离火车站超级近，不过方便的同时必然会觉得比较吵。韩日旅游团住这里的很多，前台服务冷淡。两个人住标准间，只给一张房卡，还很挑衅的看我。气的没心情。宾馆反馈2008年7月17日：酒店针对客人提出的问题，现已认真整改，希望每一位入住渤海明珠酒店的您都能高兴入住，满意而归。
0|酒店在铁路旁，晚上火