基于MLR资讯多分类

针对海量资讯,通过机器学习实现多分类,从而减轻人工打标工作量,具有重要意义。

资讯分类可以拆解为两个问题:

  1. 文本分词,提取特征
  2. 多分类模型

针对文本分词,常见中文分词工具有:HanLP、ansj、jieba和fudannlp。这里选取HanLP。而多分类模型有逻辑回归(Logistic regression)、决策树(Decision tree classifier)、随机森林(Random forest classifier)、梯度提升决策树(Gradient-boosted tree classifier) 、 多层感知分类器(Multilayer perceptron classifier)、支持向量机(Support Vector Machine)和朴素贝叶斯(Naive Bayes)等,这里选取简单易懂的逻辑回归,其他模型稍后再尝试。

一、环境

java 1.8.0_172+scala 2.11.8+spark.2.3.1+HanLP portable-1.6.8

依赖



    org.apache.spark
    spark-core_2.11
    2.3.1



    org.apache.spark
    spark-sql_2.11
    2.3.1



    org.apache.spark
    spark-hive_2.11
    2.3.1



    org.apache.spark
    spark-mllib_2.11
    2.3.1



    com.hankcs
    hanlp
    portable-1.6.8

二、流程设计

1. 数据

八爪鱼爬取人民网资讯(https://pan.baidu.com/s/1mEUZ0c-0ZOOkIkIo0KFd4w,密码mf59),采集字段有:来源(source),正文(content),频道(tab),发布时间(created_time),标题(title)。其中有一些信息爬取不到,需要过滤。对于频道资讯较少的,模型没有办法得到足够训练,可以剔除。

2.特征

标签索引转换,文本分词,过滤停用词,关键词词频特征

3.多分类

MLR多分类训练

验证集评估

测试集评估

4.流程

基于MLR资讯多分类_第1张图片

三、代码实现

1.ETL

spark加载csv文件,并保留第一行标题。

val news = spark.read.format("CSV").option("header","true").load("/opt/data/peopleNews.csv")
news.show(1,false)

资讯格式如下:

+------------------------------+---------------+----+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+------+
|title                         |created_time   |tab |content                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |source|
+------------------------------+---------------+----+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+------+
|“中国-东盟智慧农业及食品产业创新发展项目对接会”在南宁举办|2018/9/13 19:07|财经  |“中国-东盟智慧农业及食品产业创新发展项目对接会”现场            人民网北京9月13日电 (记者李岩)今日,由商务部投资促进事务局、农业农村部对外经济合作中心、广西壮族自治区商务厅及广西国际博览事务局共同举办的“中国-东盟智慧农业及食品产业创新发展项目对接会”在广西南宁召开。    据悉,作为第十五届中国-东盟博览会的重要活动之一,本次项目对接会以“引领中国-东盟农业及食品行业新机遇”为主题,通过政策解读、园区推介、企业路演等环节介绍区域内招商引资政策、发布重点项目信息,有效促进中国与东盟国家在农业及食品产业的投资合作。    在本次中国-东盟智慧农业及食品产业创新发展项目对接会上,商务部投资促进事务局副局长李勇表示,商务部投资促进事务局积极利用现有资源和渠道,以产业为主线,需求为导向,建设跨境产业投资合作平台,力争打造一个满足投引资者需求、实现产业准确对接、确保海内外互动畅通的投资促进主渠道,为地方政府和企业提供专业化投资促进服务。    就相关对接会的情况,广西壮族自治区商务厅厅长助理庄岩介绍称,中国-东盟自贸区自建设启动以来,充分发挥自身区位优势和资源优势,积极推进与东盟的农业合作,已取得一定成效。“十三五”以来,广西在东盟国家开展农业投资的企业数量累计71家,投资协议额累计18.9亿美元。对此,广西国际博览事务局副局长杨雁雁也在致辞中提到,近年来,中国与东盟的农业合作不断发展,农业技术交流频繁,双方农业合作正跨越空间限制,已实现“良性循环”。    在接下来的主题演讲环节,农业农村部对外经济合作中心研究所副研究员姜晔以“中国-东盟农业投资合作前景展望”为主题发表了演讲,全面梳理了中国-东盟农业投资合作的特点和趋势,也就中国-东盟农业领域合作提出建议。    在园区推介环节,陕西杨凌农业高新技术产业示范区、南宁经济技术开发区、新疆吉木乃边境经济合作区等7家国家级自贸区、经开区、边合区及3家境外农业合作示范区依次进行推介。园区代表们纷纷围绕园区招商引资政策、发展优势、相关配套设施及智慧农业及食品加工产业发展规划进行了重点介绍。    在企业项目对接环节,北京智创工坊孵化器、盼盼食品集团南宁分公司、京东集团等企业进行了项目路演。参加推介的园区及企业与参会嘉宾进行了充分沟通,为下一步深入对接项目打下良好基础。    据了解,本次项目对接会,包括地方政府、投资促进机构、研究机构、境内外企业、金融机构及主流媒体代表等共计百余人出席参加。产业转移中心(商务部上海基地)、中国电子商务协会、以及来自北京、上海、山东、广西、四川、辽宁、海南及新疆等地的机构及企业进行了深入对接并达成合作意向。    此外,当日下午,投资促进局还组织30家有投资意向的企业及20余家园区、投资促进机构及媒体赴南宁经济技术开发区及广西特色农业产业园区考察,并进行了深入对接。?【1】【2】【3】                (责编:袁勃)|人民网   |
|河南一小学营养餐仅半碗无配菜面条?孩子泡水后才吃下     |2018/9/13 18:57|社会  |原标题:河南一小学营养餐仅半碗面 教育厅回应:相关情况正在调查中    9月12日,微博一网友曝光河南某小学营养餐,仅半碗面条,与墙上规定菜单严重不符。封面新闻记者就此事咨询了河南省教育厅新闻办,工作人员表示目前尚不清楚相关情况,需要进一步请示领导后再调查。    在曝光视频中,多名食堂的工作人员面前摆着盆无配菜的素面条,给排队取餐的孩子每人抓了一把。墙上的公示栏标注了教育局规定的当天菜品:鸡丁炒西葫芦、炒蒜薹及大米粥,还明确了每个配菜的克数。通过记者还观察到,不少孩子还选择将面条泡水后才吃下。                            (责编:袁勃)                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |封面新闻  |
+------------------------------+---------------+----+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+------+
only showing top 1 rows

筛选去除没有爬取到有效字段记录,并打印处理后个频道资讯的数量。

val peopleWebNews = news.filter(news("title").isNotNull && news("created_time").isNotNull && news("tab").isNotNull && news("content").isNotNull && news("source").isNotNull)
println("过滤完整资讯条数为:" + peopleWebNews.count())
println("各频道资讯条数为:")
peopleWebNews.groupBy("tab").count().show(false)

过滤完整资讯条数为:1146
各频道资讯条数为:
+------------------------------+-----+
|tab                           |count|
+------------------------------+-----+
|国际                            |252  |
|澳新频道                          |5    |
|军事                            |46   |
|中国央企新闻网--权威发布中央企业,国资委,地方国企最新消息|2    |
|标签                            |2    |
|日本频道                          |17   |
|财经                            |262  |
|人民网汽车                         |1    |
|产经频道                          |128  |
|人民网能源频道                       |48   |
|金融                            |29   |
|时政                            |144  |
|法治                            |77   |
|社会                            |133  |
+------------------------------+-----+

可以看出,部分频道资讯数量较少,在分类建模时得不到足够训练。因此,剔除资讯量少的,保留国际、军事、财经、金融、时政、法制和社会频道。

val peopleNews = peopleWebNews.filter(peopleWebNews("tab").isin("国际","军事","财经","金融","时政","法制","社会"))

2.特征工程

2.1 频道索引转换

ml包StringIndexer将DataFrame字符串tab列转换为数值型label列,建立分类标签。

val indexer = new StringIndexer()
      .setInputCol("tab")
      .setOutputCol("label")
      .fit(peopleNews)

val indDF = indexer.transform(peopleNews)
indDF.groupBy("tab","label").count().show(false)
indDF.show(1,false)

+---+-----+-----+
|tab|label|count|
+---+-----+-----+
|财经 |0.0  |262  |
|时政 |2.0  |144  |
|金融 |5.0  |29   |
|军事 |4.0  |46   |
|社会 |3.0  |133  |
|国际 |1.0  |252  |
+---+-----+-----+

+------------------------------+---------------+----+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+------+-----+
|title                         |created_time   |tab |content                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |source|label|
+------------------------------+---------------+----+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+------+-----+
|“中国-东盟智慧农业及食品产业创新发展项目对接会”在南宁举办|2018/9/13 19:07|财经  |“中国-东盟智慧农业及食品产业创新发展项目对接会”现场            人民网北京9月13日电 (记者李岩)今日,由商务部投资促进事务局、农业农村部对外经济合作中心、广西壮族自治区商务厅及广西国际博览事务局共同举办的“中国-东盟智慧农业及食品产业创新发展项目对接会”在广西南宁召开。    据悉,作为第十五届中国-东盟博览会的重要活动之一,本次项目对接会以“引领中国-东盟农业及食品行业新机遇”为主题,通过政策解读、园区推介、企业路演等环节介绍区域内招商引资政策、发布重点项目信息,有效促进中国与东盟国家在农业及食品产业的投资合作。    在本次中国-东盟智慧农业及食品产业创新发展项目对接会上,商务部投资促进事务局副局长李勇表示,商务部投资促进事务局积极利用现有资源和渠道,以产业为主线,需求为导向,建设跨境产业投资合作平台,力争打造一个满足投引资者需求、实现产业准确对接、确保海内外互动畅通的投资促进主渠道,为地方政府和企业提供专业化投资促进服务。    就相关对接会的情况,广西壮族自治区商务厅厅长助理庄岩介绍称,中国-东盟自贸区自建设启动以来,充分发挥自身区位优势和资源优势,积极推进与东盟的农业合作,已取得一定成效。“十三五”以来,广西在东盟国家开展农业投资的企业数量累计71家,投资协议额累计18.9亿美元。对此,广西国际博览事务局副局长杨雁雁也在致辞中提到,近年来,中国与东盟的农业合作不断发展,农业技术交流频繁,双方农业合作正跨越空间限制,已实现“良性循环”。    在接下来的主题演讲环节,农业农村部对外经济合作中心研究所副研究员姜晔以“中国-东盟农业投资合作前景展望”为主题发表了演讲,全面梳理了中国-东盟农业投资合作的特点和趋势,也就中国-东盟农业领域合作提出建议。    在园区推介环节,陕西杨凌农业高新技术产业示范区、南宁经济技术开发区、新疆吉木乃边境经济合作区等7家国家级自贸区、经开区、边合区及3家境外农业合作示范区依次进行推介。园区代表们纷纷围绕园区招商引资政策、发展优势、相关配套设施及智慧农业及食品加工产业发展规划进行了重点介绍。    在企业项目对接环节,北京智创工坊孵化器、盼盼食品集团南宁分公司、京东集团等企业进行了项目路演。参加推介的园区及企业与参会嘉宾进行了充分沟通,为下一步深入对接项目打下良好基础。    据了解,本次项目对接会,包括地方政府、投资促进机构、研究机构、境内外企业、金融机构及主流媒体代表等共计百余人出席参加。产业转移中心(商务部上海基地)、中国电子商务协会、以及来自北京、上海、山东、广西、四川、辽宁、海南及新疆等地的机构及企业进行了深入对接并达成合作意向。    此外,当日下午,投资促进局还组织30家有投资意向的企业及20余家园区、投资促进机构及媒体赴南宁经济技术开发区及广西特色农业产业园区考察,并进行了深入对接。?【1】【2】【3】                (责编:袁勃)|人民网   |0.0  |
|河南一小学营养餐仅半碗无配菜面条?孩子泡水后才吃下     |2018/9/13 18:57|社会  |原标题:河南一小学营养餐仅半碗面 教育厅回应:相关情况正在调查中    9月12日,微博一网友曝光河南某小学营养餐,仅半碗面条,与墙上规定菜单严重不符。封面新闻记者就此事咨询了河南省教育厅新闻办,工作人员表示目前尚不清楚相关情况,需要进一步请示领导后再调查。    在曝光视频中,多名食堂的工作人员面前摆着盆无配菜的素面条,给排队取餐的孩子每人抓了一把。墙上的公示栏标注了教育局规定的当天菜品:鸡丁炒西葫芦、炒蒜薹及大米粥,还明确了每个配菜的克数。通过记者还观察到,不少孩子还选择将面条泡水后才吃下。                            (责编:袁勃)                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |封面新闻  |3.0  |
+------------------------------+---------------+----+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+------+-----+

2.2 HanLP分词

调用HanLP自带分词CRFLexicalAnalyzer和NShortSegment方法,并实现序列化。

/**
    * HanLP分词
    * @param spark
    * @param uid
    */
  class Segmenter(spark:SparkSession,uid:String) extends Serializable {

    private var inputCol = ""
    private var outputCol = ""
    private var segmentType = "StandardTokenizer"
    private var enableNature = false

    def setInputCol(value:String):this.type = {
      this.inputCol = value
      this
    }

    def setOutputCol(value:String):this.type = {
      this.outputCol = value
      this
    }

    def setSegmentType(value:String):this.type = {
      this.segmentType = value
      this
    }

    def enableNature(value:Boolean):this.type = {
      this.enableNature = value
      this
    }

    def this(spark:SparkSession) = this(spark, Identifiable.randomUID("segment"))

    def transform(dataset: DataFrame) : DataFrame = {
      var segment : Segment = null
      segmentType match {
        case "NShortSegment" =>
          segment = new MyNShortSegment()
        case "CRFSegment" =>
          segment = new MyCRFLexicalAnalyzer()
        case _=>
      }

      val tokens = dataset.select(inputCol).rdd.map{ case Row(line:String) =>
        var terms: Seq[Term] = Seq()
        import collection.JavaConversions._
        segmentType match {
          case "StandardSegment" =>
            terms = StandardTokenizer.segment(line)
          case "NLPSegment" =>
            terms = NLPTokenizer.segment(line)
          case "IndexSegment" =>
            terms = IndexTokenizer.segment(line)
          case "SpeedSegment" =>
            terms = SpeedTokenizer.segment(line)
          case "NShortSegment" =>
            terms = segment.seg(line)
          case _=>
            println("分词类型错误!")
            System.exit(1)
        }

        val termSeq = terms.map(term =>
          if(this.enableNature) term.toString else term.word
        )
        (line, termSeq)
      }

      import spark.implicits._
      val tokensSet = tokens.toDF(inputCol + "#1", outputCol)

      dataset.join(tokensSet, dataset(inputCol) === tokensSet(inputCol + "#1")).drop(inputCol + "#1")
    }
  }

  /**
    * HanLP自定义分词方法,实现序列化
    */
  class MyCRFLexicalAnalyzer() extends CRFLexicalAnalyzer with Serializable{}
  class MyNShortSegment() extends NShortSegment with Serializable{}

主函数调用,如下

    val segmenter = new Segmenter(spark)
      .setSegmentType("StandardSegment")
      .enableNature(false)
      .setInputCol("content")
      .setOutputCol("tokens")

    val segDF = segmenter.transform(indDF)
    segDF.show(1,false)


+------------------------------+---------------+----+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+------+-----+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|title                         |created_time   |tab |content                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |source|label|tokens                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |
+------------------------------+---------------+----+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+------+-----+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|“中国-东盟智慧农业及食品产业创新发展项目对接会”在南宁举办|2018/9/13 19:07|财经  |“中国-东盟智慧农业及食品产业创新发展项目对接会”现场            人民网北京9月13日电 (记者李岩)今日,由商务部投资促进事务局、农业农村部对外经济合作中心、广西壮族自治区商务厅及广西国际博览事务局共同举办的“中国-东盟智慧农业及食品产业创新发展项目对接会”在广西南宁召开。    据悉,作为第十五届中国-东盟博览会的重要活动之一,本次项目对接会以“引领中国-东盟农业及食品行业新机遇”为主题,通过政策解读、园区推介、企业路演等环节介绍区域内招商引资政策、发布重点项目信息,有效促进中国与东盟国家在农业及食品产业的投资合作。    在本次中国-东盟智慧农业及食品产业创新发展项目对接会上,商务部投资促进事务局副局长李勇表示,商务部投资促进事务局积极利用现有资源和渠道,以产业为主线,需求为导向,建设跨境产业投资合作平台,力争打造一个满足投引资者需求、实现产业准确对接、确保海内外互动畅通的投资促进主渠道,为地方政府和企业提供专业化投资促进服务。    就相关对接会的情况,广西壮族自治区商务厅厅长助理庄岩介绍称,中国-东盟自贸区自建设启动以来,充分发挥自身区位优势和资源优势,积极推进与东盟的农业合作,已取得一定成效。“十三五”以来,广西在东盟国家开展农业投资的企业数量累计71家,投资协议额累计18.9亿美元。对此,广西国际博览事务局副局长杨雁雁也在致辞中提到,近年来,中国与东盟的农业合作不断发展,农业技术交流频繁,双方农业合作正跨越空间限制,已实现“良性循环”。    在接下来的主题演讲环节,农业农村部对外经济合作中心研究所副研究员姜晔以“中国-东盟农业投资合作前景展望”为主题发表了演讲,全面梳理了中国-东盟农业投资合作的特点和趋势,也就中国-东盟农业领域合作提出建议。    在园区推介环节,陕西杨凌农业高新技术产业示范区、南宁经济技术开发区、新疆吉木乃边境经济合作区等7家国家级自贸区、经开区、边合区及3家境外农业合作示范区依次进行推介。园区代表们纷纷围绕园区招商引资政策、发展优势、相关配套设施及智慧农业及食品加工产业发展规划进行了重点介绍。    在企业项目对接环节,北京智创工坊孵化器、盼盼食品集团南宁分公司、京东集团等企业进行了项目路演。参加推介的园区及企业与参会嘉宾进行了充分沟通,为下一步深入对接项目打下良好基础。    据了解,本次项目对接会,包括地方政府、投资促进机构、研究机构、境内外企业、金融机构及主流媒体代表等共计百余人出席参加。产业转移中心(商务部上海基地)、中国电子商务协会、以及来自北京、上海、山东、广西、四川、辽宁、海南及新疆等地的机构及企业进行了深入对接并达成合作意向。    此外,当日下午,投资促进局还组织30家有投资意向的企业及20余家园区、投资促进机构及媒体赴南宁经济技术开发区及广西特色农业产业园区考察,并进行了深入对接。?【1】【2】【3】                (责编:袁勃)|人民网   |0.0  |[“, 中国, -, 东盟, 智慧, 农业, 及, 食品, 产业, 创新, 发展, 项目, 对接会, ”, 现场,         ,     , 人民网, 北京, 9, 月, 13, 日, 电,  , (, 记者, 李岩, ), 今日, ,, 由, 商务部, 投资, 促进, 事务局, 、, 农业, 农村, 部, 对外, 经济, 合作, 中心, 、, 广西, 壮族, 自治区, 商务厅, 及, 广西, 国际, 博览, 事务局, 共同, 举办, 的, “, 中国, -, 东盟, 智慧, 农业, 及, 食品, 产业, 创新, 发展, 项目, 对接会, ”, 在, 广西, 南宁, 召开, 。,     , 据悉, ,, 作为, 第, 十五, 届, 中国, -, 东盟, 博览会, 的, 重要, 活动, 之一, ,, 本次, 项目, 对接会, 以, “, 引领, 中国, -, 东盟, 农业, 及, 食品, 行业, 新, 机遇, ”, 为, 主题, ,, 通过, 政策, 解读, 、, 园区, 推介, 、, 企业, 路演, 等, 环节, 介绍, 区域内, 招商引资, 政策, 、, 发布, 重点, 项目, 信息, ,, 有效, 促进, 中国, 与, 东盟, 国家, 在, 农业, 及, 食品, 产业, 的, 投资, 合作, 。,     , 在, 本次, 中国, -, 东盟, 智慧, 农业, 及, 食品, 产业, 创新, 发展, 项目, 对接, 会上, ,, 商务部, 投资, 促进, 事务局, 副局长, 李勇, 表示, ,, 商务部, 投资, 促进, 事务局, 积极, 利用, 现有, 资源, 和, 渠道, ,, 以, 产业, 为, 主线, ,, 需求, 为, 导向, ,, 建设, 跨, 境, 产业, 投资, 合作, 平台, ,, 力争, 打造, 一个, 满足, 投, 引资, 者, 需求, 、, 实现, 产业, 准确, 对接, 、, 确保, 海内外, 互动, 畅通, 的, 投资, 促进, 主渠道, ,, 为, 地方, 政府, 和, 企业, 提供, 专业化, 投资, 促进, 服务, 。,     , 就, 相关, 对接会, 的, 情况, ,, 广西, 壮族, 自治区, 商务厅, 厅长, 助理, 庄岩, 介绍, 称, ,, 中国, -, 东盟, 自贸区, 自, 建设, 启动, 以来, ,, 充分, 发挥, 自身, 区位, 优势, 和, 资源, 优势, ,, 积极, 推进, 与, 东盟, 的, 农业, 合作, ,, 已, 取得, 一定, 成效, 。, “, 十三五, ”, 以来, ,, 广西, 在, 东盟, 国家, 开展, 农业, 投资, 的, 企业, 数量, 累计, 71, 家, ,, 投资, 协议, 额, 累计, 18.9亿, 美元, 。, 对此, ,, 广西, 国际, 博览, 事务局, 副局长, 杨雁雁, 也, 在, 致辞, 中, 提到, ,, 近年来, ,, 中国, 与, 东盟, 的, 农业, 合作, 不断, 发展, ,, 农业, 技术, 交流, 频繁, ,, 双方, 农业, 合作, 正, 跨越, 空间, 限制, ,, 已, 实现, “, 良性, 循环, ”, 。,     , 在, 接下来, 的, 主题, 演讲, 环节, ,, 农业, 农村, 部, 对外, 经济, 合作, 中心, 研究所, 副研究员, 姜晔, 以, “, 中国, -, 东盟, 农业, 投资, 合作, 前景, 展望, ”, 为, 主题, 发表, 了, 演讲, ,, 全面, 梳理, 了, 中国, -, 东盟, 农业, 投资, 合作, 的, 特点, 和, 趋势, ,, 也, 就, 中国, -, 东盟, 农业, 领域, 合作, 提出, 建议, 。,     , 在, 园区, 推介, 环节, ,, 陕西, 杨凌, 农业, 高新技术, 产业, 示范区, 、, 南宁, 经济技术开发区, 、, 新疆, 吉木乃, 边境, 经济, 合作, 区, 等, 7, 家, 国家级, 自贸区, 、, 经开区, 、, 边合区, 及, 3, 家, 境外, 农业, 合作, 示范区, 依次, 进行, 推介, 。, 园区, 代表, 们, 纷纷, 围绕, 园区, 招商引资, 政策, 、, 发展, 优势, 、, 相关, 配套, 设施, 及, 智慧, 农业, 及, 食品, 加工, 产业, 发展, 规划, 进行, 了, 重点, 介绍, 。,     , 在, 企业, 项目, 对接, 环节, ,, 北京, 智创, 工坊, 孵化器, 、, 盼盼, 食品, 集团, 南宁, 分公司, 、, 京东, 集团, 等, 企业, 进行, 了, 项目, 路演, 。, 参加, 推介, 的, 园区, 及, 企业, 与, 参会, 嘉宾, 进行, 了, 充分, 沟通, ,, 为, 下, 一, 步, 深入, 对接, 项目, 打下, 良好, 基础, 。,     , 据, 了解, ,, 本次, 项目, 对接会, ,, 包括, 地方, 政府, 、, 投资, 促进, 机构, 、, 研究, 机构, 、, 境内外, 企业, 、, 金融, 机构, 及, 主流, 媒体, 代表, 等, 共计, 百, 余, 人, 出席, 参加, 。, 产业, 转移, 中心, (, 商务部, 上海, 基地, ), 、, 中国, 电子商务, 协会, 、, 以及, 来自, 北京, 、, 上海, 、, 山东, 、, 广西, 、, 四川, 、, 辽宁, 、, 海南, 及, 新疆, 等, 地, 的, 机构, 及, 企业, 进行, 了, 深入, 对接, 并, 达成, 合作, 意向, 。,     , 此外, ,, 当日, 下午, ,, 投资, 促进局, 还, 组织, 30, 家, 有, 投资, 意向, 的, 企业, 及, 20, 余家园, 区, 、, 投资, 促进, 机构, 及, 媒体, 赴, 南宁, 经济技术开发区, 及, 广西, 特色, 农业, 产业, 园区, 考察, ,, 并, 进行, 了, 深入, 对接, 。, ?, 【, 1, 】, 【, 2, 】, 【, 3, 】,                 , (, 责编, :, 袁勃, )]|
|河南一小学营养餐仅半碗无配菜面条?孩子泡水后才吃下     |2018/9/13 18:57|社会  |原标题:河南一小学营养餐仅半碗面 教育厅回应:相关情况正在调查中    9月12日,微博一网友曝光河南某小学营养餐,仅半碗面条,与墙上规定菜单严重不符。封面新闻记者就此事咨询了河南省教育厅新闻办,工作人员表示目前尚不清楚相关情况,需要进一步请示领导后再调查。    在曝光视频中,多名食堂的工作人员面前摆着盆无配菜的素面条,给排队取餐的孩子每人抓了一把。墙上的公示栏标注了教育局规定的当天菜品:鸡丁炒西葫芦、炒蒜薹及大米粥,还明确了每个配菜的克数。通过记者还观察到,不少孩子还选择将面条泡水后才吃下。                            (责编:袁勃)                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |封面新闻  |3.0  |[原, 标题, :, 河南, 一, 小学, 营养餐, 仅, 半, 碗, 面,  , 教育厅, 回应, :, 相关, 情况, 正在, 调查, 中,     , 9, 月, 12, 日, ,, 微博, 一, 网友, 曝光, 河南, 某, 小学, 营养餐, ,, 仅, 半, 碗, 面条, ,, 与, 墙上, 规定, 菜单, 严重, 不符, 。, 封面, 新闻记者, 就, 此事, 咨询, 了, 河南省, 教育厅, 新闻办, ,, 工作, 人员, 表示, 目前, 尚, 不, 清楚, 相关, 情况, ,, 需要, 进一步, 请示, 领导, 后, 再, 调查, 。,     , 在, 曝光, 视频, 中, ,, 多, 名, 食堂, 的, 工作, 人员, 面前, 摆着, 盆, 无, 配菜, 的, 素, 面条, ,, 给, 排队, 取, 餐, 的, 孩子, 每人, 抓, 了, 一, 把, 。, 墙上, 的, 公示栏, 标注, 了, 教育局, 规定, 的, 当天, 菜品, :, 鸡丁, 炒, 西葫芦, 、, 炒, 蒜薹, 及, 大米粥, ,, 还, 明确, 了, 每个, 配菜, 的, 克, 数, 。, 通过, 记者, 还, 观察, 到, ,, 不少, 孩子, 还, 选择, 将, 面条, 泡水, 后, 才, 吃, 下, 。,             ,                 , (, 责编, :, 袁勃, )]                |
+------------------------------+---------------+----+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+------+-----+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ 

2.3 停用词

分词结果有一些无意义的词,如:和,等。需要过滤掉,这里选用通用的中文停用词表(链接: https://pan.baidu.com/s/1hLFE8ZzxZIWBhTuB_bLW-Q 密码: fyv3),进行过滤。

 val stopwords = spark.read.textFile("/opt/data/stopwordsCH.txt").collect()

    val remover = new StopWordsRemover()
      .setStopWords(stopwords)
      .setInputCol("tokens")
      .setOutputCol("removed")
    val removedDF = remover.transform(segDF)
    removedDF.show(1,false)


+------------------------------+---------------+----+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+------+-----+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|title                         |created_time   |tab |content                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |source|label|tokens                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |removed                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            |
+------------------------------+---------------+----+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+------+-----+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|“中国-东盟智慧农业及食品产业创新发展项目对接会”在南宁举办|2018/9/13 19:07|财经  |“中国-东盟智慧农业及食品产业创新发展项目对接会”现场            人民网北京9月13日电 (记者李岩)今日,由商务部投资促进事务局、农业农村部对外经济合作中心、广西壮族自治区商务厅及广西国际博览事务局共同举办的“中国-东盟智慧农业及食品产业创新发展项目对接会”在广西南宁召开。    据悉,作为第十五届中国-东盟博览会的重要活动之一,本次项目对接会以“引领中国-东盟农业及食品行业新机遇”为主题,通过政策解读、园区推介、企业路演等环节介绍区域内招商引资政策、发布重点项目信息,有效促进中国与东盟国家在农业及食品产业的投资合作。    在本次中国-东盟智慧农业及食品产业创新发展项目对接会上,商务部投资促进事务局副局长李勇表示,商务部投资促进事务局积极利用现有资源和渠道,以产业为主线,需求为导向,建设跨境产业投资合作平台,力争打造一个满足投引资者需求、实现产业准确对接、确保海内外互动畅通的投资促进主渠道,为地方政府和企业提供专业化投资促进服务。    就相关对接会的情况,广西壮族自治区商务厅厅长助理庄岩介绍称,中国-东盟自贸区自建设启动以来,充分发挥自身区位优势和资源优势,积极推进与东盟的农业合作,已取得一定成效。“十三五”以来,广西在东盟国家开展农业投资的企业数量累计71家,投资协议额累计18.9亿美元。对此,广西国际博览事务局副局长杨雁雁也在致辞中提到,近年来,中国与东盟的农业合作不断发展,农业技术交流频繁,双方农业合作正跨越空间限制,已实现“良性循环”。    在接下来的主题演讲环节,农业农村部对外经济合作中心研究所副研究员姜晔以“中国-东盟农业投资合作前景展望”为主题发表了演讲,全面梳理了中国-东盟农业投资合作的特点和趋势,也就中国-东盟农业领域合作提出建议。    在园区推介环节,陕西杨凌农业高新技术产业示范区、南宁经济技术开发区、新疆吉木乃边境经济合作区等7家国家级自贸区、经开区、边合区及3家境外农业合作示范区依次进行推介。园区代表们纷纷围绕园区招商引资政策、发展优势、相关配套设施及智慧农业及食品加工产业发展规划进行了重点介绍。    在企业项目对接环节,北京智创工坊孵化器、盼盼食品集团南宁分公司、京东集团等企业进行了项目路演。参加推介的园区及企业与参会嘉宾进行了充分沟通,为下一步深入对接项目打下良好基础。    据了解,本次项目对接会,包括地方政府、投资促进机构、研究机构、境内外企业、金融机构及主流媒体代表等共计百余人出席参加。产业转移中心(商务部上海基地)、中国电子商务协会、以及来自北京、上海、山东、广西、四川、辽宁、海南及新疆等地的机构及企业进行了深入对接并达成合作意向。    此外,当日下午,投资促进局还组织30家有投资意向的企业及20余家园区、投资促进机构及媒体赴南宁经济技术开发区及广西特色农业产业园区考察,并进行了深入对接。?【1】【2】【3】                (责编:袁勃)|人民网   |0.0  |[“, 中国, -, 东盟, 智慧, 农业, 及, 食品, 产业, 创新, 发展, 项目, 对接会, ”, 现场,         ,     , 人民网, 北京, 9, 月, 13, 日, 电,  , (, 记者, 李岩, ), 今日, ,, 由, 商务部, 投资, 促进, 事务局, 、, 农业, 农村, 部, 对外, 经济, 合作, 中心, 、, 广西, 壮族, 自治区, 商务厅, 及, 广西, 国际, 博览, 事务局, 共同, 举办, 的, “, 中国, -, 东盟, 智慧, 农业, 及, 食品, 产业, 创新, 发展, 项目, 对接会, ”, 在, 广西, 南宁, 召开, 。,     , 据悉, ,, 作为, 第, 十五, 届, 中国, -, 东盟, 博览会, 的, 重要, 活动, 之一, ,, 本次, 项目, 对接会, 以, “, 引领, 中国, -, 东盟, 农业, 及, 食品, 行业, 新, 机遇, ”, 为, 主题, ,, 通过, 政策, 解读, 、, 园区, 推介, 、, 企业, 路演, 等, 环节, 介绍, 区域内, 招商引资, 政策, 、, 发布, 重点, 项目, 信息, ,, 有效, 促进, 中国, 与, 东盟, 国家, 在, 农业, 及, 食品, 产业, 的, 投资, 合作, 。,     , 在, 本次, 中国, -, 东盟, 智慧, 农业, 及, 食品, 产业, 创新, 发展, 项目, 对接, 会上, ,, 商务部, 投资, 促进, 事务局, 副局长, 李勇, 表示, ,, 商务部, 投资, 促进, 事务局, 积极, 利用, 现有, 资源, 和, 渠道, ,, 以, 产业, 为, 主线, ,, 需求, 为, 导向, ,, 建设, 跨, 境, 产业, 投资, 合作, 平台, ,, 力争, 打造, 一个, 满足, 投, 引资, 者, 需求, 、, 实现, 产业, 准确, 对接, 、, 确保, 海内外, 互动, 畅通, 的, 投资, 促进, 主渠道, ,, 为, 地方, 政府, 和, 企业, 提供, 专业化, 投资, 促进, 服务, 。,     , 就, 相关, 对接会, 的, 情况, ,, 广西, 壮族, 自治区, 商务厅, 厅长, 助理, 庄岩, 介绍, 称, ,, 中国, -, 东盟, 自贸区, 自, 建设, 启动, 以来, ,, 充分, 发挥, 自身, 区位, 优势, 和, 资源, 优势, ,, 积极, 推进, 与, 东盟, 的, 农业, 合作, ,, 已, 取得, 一定, 成效, 。, “, 十三五, ”, 以来, ,, 广西, 在, 东盟, 国家, 开展, 农业, 投资, 的, 企业, 数量, 累计, 71, 家, ,, 投资, 协议, 额, 累计, 18.9亿, 美元, 。, 对此, ,, 广西, 国际, 博览, 事务局, 副局长, 杨雁雁, 也, 在, 致辞, 中, 提到, ,, 近年来, ,, 中国, 与, 东盟, 的, 农业, 合作, 不断, 发展, ,, 农业, 技术, 交流, 频繁, ,, 双方, 农业, 合作, 正, 跨越, 空间, 限制, ,, 已, 实现, “, 良性, 循环, ”, 。,     , 在, 接下来, 的, 主题, 演讲, 环节, ,, 农业, 农村, 部, 对外, 经济, 合作, 中心, 研究所, 副研究员, 姜晔, 以, “, 中国, -, 东盟, 农业, 投资, 合作, 前景, 展望, ”, 为, 主题, 发表, 了, 演讲, ,, 全面, 梳理, 了, 中国, -, 东盟, 农业, 投资, 合作, 的, 特点, 和, 趋势, ,, 也, 就, 中国, -, 东盟, 农业, 领域, 合作, 提出, 建议, 。,     , 在, 园区, 推介, 环节, ,, 陕西, 杨凌, 农业, 高新技术, 产业, 示范区, 、, 南宁, 经济技术开发区, 、, 新疆, 吉木乃, 边境, 经济, 合作, 区, 等, 7, 家, 国家级, 自贸区, 、, 经开区, 、, 边合区, 及, 3, 家, 境外, 农业, 合作, 示范区, 依次, 进行, 推介, 。, 园区, 代表, 们, 纷纷, 围绕, 园区, 招商引资, 政策, 、, 发展, 优势, 、, 相关, 配套, 设施, 及, 智慧, 农业, 及, 食品, 加工, 产业, 发展, 规划, 进行, 了, 重点, 介绍, 。,     , 在, 企业, 项目, 对接, 环节, ,, 北京, 智创, 工坊, 孵化器, 、, 盼盼, 食品, 集团, 南宁, 分公司, 、, 京东, 集团, 等, 企业, 进行, 了, 项目, 路演, 。, 参加, 推介, 的, 园区, 及, 企业, 与, 参会, 嘉宾, 进行, 了, 充分, 沟通, ,, 为, 下, 一, 步, 深入, 对接, 项目, 打下, 良好, 基础, 。,     , 据, 了解, ,, 本次, 项目, 对接会, ,, 包括, 地方, 政府, 、, 投资, 促进, 机构, 、, 研究, 机构, 、, 境内外, 企业, 、, 金融, 机构, 及, 主流, 媒体, 代表, 等, 共计, 百, 余, 人, 出席, 参加, 。, 产业, 转移, 中心, (, 商务部, 上海, 基地, ), 、, 中国, 电子商务, 协会, 、, 以及, 来自, 北京, 、, 上海, 、, 山东, 、, 广西, 、, 四川, 、, 辽宁, 、, 海南, 及, 新疆, 等, 地, 的, 机构, 及, 企业, 进行, 了, 深入, 对接, 并, 达成, 合作, 意向, 。,     , 此外, ,, 当日, 下午, ,, 投资, 促进局, 还, 组织, 30, 家, 有, 投资, 意向, 的, 企业, 及, 20, 余家园, 区, 、, 投资, 促进, 机构, 及, 媒体, 赴, 南宁, 经济技术开发区, 及, 广西, 特色, 农业, 产业, 园区, 考察, ,, 并, 进行, 了, 深入, 对接, 。, ?, 【, 1, 】, 【, 2, 】, 【, 3, 】,                 , (, 责编, :, 袁勃, )]|[中国, 东盟, 智慧, 农业, 食品, 产业, 创新, 发展, 项目, 对接会, 现场,         ,     , 人民网, 北京, 月, 13, 日, 电,  , 记者, 李岩, 今日, 商务部, 投资, 事务局, 农业, 农村, 部, 对外, 经济, 合作, 中心, 广西, 壮族, 自治区, 商务厅, 广西, 国际, 博览, 事务局, 举办, 中国, 东盟, 智慧, 农业, 食品, 产业, 创新, 发展, 项目, 对接会, 广西, 南宁,     , 十五, 届, 中国, 东盟, 博览会, 活动, 本次, 项目, 对接会, 引领, 中国, 东盟, 农业, 食品, 行业, 新, 机遇, 主题, 政策, 解读, 园区, 推介, 企业, 路演, 环节, 介绍, 区域内, 招商引资, 政策, 发布, 重点, 项目, 信息, 中国, 东盟, 国家, 农业, 食品, 产业, 投资, 合作,     , 本次, 中国, 东盟, 智慧, 农业, 食品, 产业, 创新, 发展, 项目, 对接, 会上, 商务部, 投资, 事务局, 副局长, 李勇, 商务部, 投资, 事务局, 利用, 现有, 资源, 渠道, 产业, 主线, 需求, 导向, 建设, 跨, 境, 产业, 投资, 合作, 平台, 力争, 打造, 投, 引资, 需求, 产业, 准确, 对接, 确保, 海内外, 互动, 畅通, 投资, 主渠道, 地方, 政府, 企业, 提供, 专业化, 投资, 服务,     , 相关, 对接会, 情况, 广西, 壮族, 自治区, 商务厅, 厅长, 助理, 庄岩, 介绍, 称, 中国, 东盟, 自贸区, 建设, 启动, 发挥, 区位, 优势, 资源, 优势, 推进, 东盟, 农业, 合作, 成效, 十三五, 广西, 东盟, 国家, 农业, 投资, 企业, 数量, 累计, 71, 家, 投资, 协议, 额, 累计, 18.9亿, 美元, 对此, 广西, 国际, 博览, 事务局, 副局长, 杨雁雁, 致辞, 中, 提到, 中国, 东盟, 农业, 合作, 发展, 农业, 技术, 交流, 频繁, 农业, 合作, 正, 跨越, 空间, 良性, 循环,     , 主题, 演讲, 环节, 农业, 农村, 部, 对外, 经济, 合作, 中心, 研究所, 副研究员, 姜晔, 中国, 东盟, 农业, 投资, 合作, 前景, 展望, 主题, 发表, 演讲, 梳理, 中国, 东盟, 农业, 投资, 合作, 趋势, 中国, 东盟, 农业, 领域, 合作, 提出, 建议,     , 园区, 推介, 环节, 陕西, 杨凌, 农业, 高新技术, 产业, 示范区, 南宁, 经济技术开发区, 新疆, 吉木乃, 边境, 经济, 合作, 区, 家, 国家级, 自贸区, 经开区, 边合区, 家, 境外, 农业, 合作, 示范区, 依次, 推介, 园区, 代表, 纷纷, 围绕, 园区, 招商引资, 政策, 发展, 优势, 相关, 配套, 设施, 智慧, 农业, 食品, 加工, 产业, 发展, 规划, 重点, 介绍,     , 企业, 项目, 对接, 环节, 北京, 智创, 工坊, 孵化器, 盼盼, 食品, 集团, 南宁, 分公司, 京东, 集团, 企业, 项目, 路演, 参加, 推介, 园区, 企业, 参会, 嘉宾, 沟通, 步, 对接, 项目, 打下, 基础,     , 本次, 项目, 对接会, 包括, 地方, 政府, 投资, 机构, 研究, 机构, 境内外, 企业, 金融, 机构, 主流, 媒体, 代表, 共计, 百, 余, 出席, 参加, 产业, 转移, 中心, 商务部, 上海, 基地, 中国, 电子商务, 协会, 北京, 上海, 山东, 广西, 四川, 辽宁, 海南, 新疆, 机构, 企业, 对接, 达成, 合作, 意向,     , 当日, 下午, 投资, 促进局, 组织, 30, 家, 投资, 意向, 企业, 20, 余家园, 区, 投资, 机构, 媒体, 赴, 南宁, 经济技术开发区, 广西, 特色, 农业, 产业, 园区, 考察, 对接,                 , 责编, 袁勃]|
|河南一小学营养餐仅半碗无配菜面条?孩子泡水后才吃下     |2018/9/13 18:57|社会  |原标题:河南一小学营养餐仅半碗面 教育厅回应:相关情况正在调查中    9月12日,微博一网友曝光河南某小学营养餐,仅半碗面条,与墙上规定菜单严重不符。封面新闻记者就此事咨询了河南省教育厅新闻办,工作人员表示目前尚不清楚相关情况,需要进一步请示领导后再调查。    在曝光视频中,多名食堂的工作人员面前摆着盆无配菜的素面条,给排队取餐的孩子每人抓了一把。墙上的公示栏标注了教育局规定的当天菜品:鸡丁炒西葫芦、炒蒜薹及大米粥,还明确了每个配菜的克数。通过记者还观察到,不少孩子还选择将面条泡水后才吃下。                            (责编:袁勃)                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |封面新闻  |3.0  |[原, 标题, :, 河南, 一, 小学, 营养餐, 仅, 半, 碗, 面,  , 教育厅, 回应, :, 相关, 情况, 正在, 调查, 中,     , 9, 月, 12, 日, ,, 微博, 一, 网友, 曝光, 河南, 某, 小学, 营养餐, ,, 仅, 半, 碗, 面条, ,, 与, 墙上, 规定, 菜单, 严重, 不符, 。, 封面, 新闻记者, 就, 此事, 咨询, 了, 河南省, 教育厅, 新闻办, ,, 工作, 人员, 表示, 目前, 尚, 不, 清楚, 相关, 情况, ,, 需要, 进一步, 请示, 领导, 后, 再, 调查, 。,     , 在, 曝光, 视频, 中, ,, 多, 名, 食堂, 的, 工作, 人员, 面前, 摆着, 盆, 无, 配菜, 的, 素, 面条, ,, 给, 排队, 取, 餐, 的, 孩子, 每人, 抓, 了, 一, 把, 。, 墙上, 的, 公示栏, 标注, 了, 教育局, 规定, 的, 当天, 菜品, :, 鸡丁, 炒, 西葫芦, 、, 炒, 蒜薹, 及, 大米粥, ,, 还, 明确, 了, 每个, 配菜, 的, 克, 数, 。, 通过, 记者, 还, 观察, 到, ,, 不少, 孩子, 还, 选择, 将, 面条, 泡水, 后, 才, 吃, 下, 。,             ,                 , (, 责编, :, 袁勃, )]                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                          |[原, 标题, 河南, 小学, 营养餐, 碗, 面,  , 教育厅, 回应, 相关, 情况, 调查, 中,     , 月, 12, 日, 微博, 网友, 曝光, 河南, 小学, 营养餐, 碗, 面条, 墙上, 菜单, 不符, 封面, 新闻记者, 此事, 咨询, 河南省, 教育厅, 新闻办, 工作, 人员, 尚, 相关, 情况, 进一步, 请示, 领导, 调查,     , 曝光, 视频, 中, 名, 食堂, 工作, 人员, 面前, 摆着, 盆, 配菜, 素, 面条, 排队, 取, 餐, 孩子, 每人, 抓, 墙上, 公示栏, 标注, 教育局, 当天, 菜品, 鸡丁, 炒, 西葫芦, 炒, 蒜薹, 大米粥, 配菜, 克, 数, 记者, 观察, 孩子, 选择, 面条, 泡水, 吃,             ,                 , 责编, 袁勃]  |
+-----+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ 

2.4 提取关键词频数特征

ml包CountVectorizer通过计数将一个文档转为向量,setVocabSize(500)设定词汇表最大size为500,setMinDF设定词汇表中的词至少要在2个文档中出现。

val vectorizer = new CountVectorizer()
      .setVocabSize(500)
      .setMinDF(2)
      .setInputCol("removed")
      .setOutputCol("features")
      .fit(removedDF)
    val vectorDF = vectorizer.transform(removedDF)

    vectorDF.select("label","features").show(5,false)

+-----+----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|label|features                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  |
+-----+----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|0.0  |(500,[1,2,4,5,6,8,9,11,12,13,14,17,19,20,24,25,27,31,32,34,36,37,38,39,45,46,48,52,56,63,65,66,71,72,73,75,79,81,82,84,87,88,92,93,98,100,101,119,124,126,128,144,150,159,160,175,176,193,204,222,227,229,240,252,277,279,288,304,307,309,310,331,347,353,362,369,370,375,385,394,399,410,411,421,431,446,479,482,484,489],[9.0,12.0,1.0,1.0,1.0,1.0,6.0,9.0,13.0,2.0,1.0,3.0,1.0,1.0,2.0,2.0,9.0,1.0,1.0,3.0,3.0,4.0,15.0,1.0,11.0,2.0,2.0,13.0,5.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,3.0,1.0,1.0,1.0,2.0,1.0,1.0,1.0,3.0,2.0,1.0,1.0,1.0,3.0,1.0,2.0,1.0,2.0,2.0,1.0,1.0,2.0,1.0,1.0,2.0,2.0,2.0,1.0,1.0,2.0,1.0,2.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,8.0,3.0,2.0,1.0,1.0,1.0,1.0,7.0,1.0,1.0,1.0,3.0,1.0,1.0,6.0])|
|3.0  |(500,[1,4,5,6,8,14,16,19,20,35,40,44,46,65,70,113,161,221,306,346,389,431],[2.0,1.0,1.0,1.0,2.0,1.0,2.0,1.0,1.0,1.0,1.0,2.0,2.0,2.0,1.0,1.0,1.0,2.0,1.0,1.0,2.0,1.0])                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |
|2.0  |(500,[0,5,6,13,16,19,20,34,44,66,84,113,161,233,258,260,431],[3.0,1.0,1.0,5.0,2.0,1.0,1.0,1.0,2.0,1.0,1.0,1.0,1.0,1.0,1.0,2.0,1.0])                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       |
|2.0  |(500,[0,5,6,14,16,19,20,25,34,43,44,48,65,66,75,106,113,126,130,143,156,161,174,179,189,190,205,211,213,221,233,242,252,254,258,260,263,305,347,362,417,431],[4.0,1.0,3.0,2.0,1.0,1.0,1.0,2.0,1.0,1.0,2.0,4.0,1.0,1.0,1.0,2.0,1.0,1.0,1.0,1.0,2.0,1.0,1.0,1.0,1.0,2.0,1.0,1.0,5.0,1.0,1.0,3.0,1.0,4.0,1.0,3.0,1.0,3.0,1.0,1.0,1.0,1.0])                                                                                                                                                                                                                                                                                                                                                                   |
|0.0  |(500,[1,3,4,19,20,44,113,161,231,250,256,413,431,472],[1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,2.0,1.0,1.0,1.0,1.0])                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                          |
+-----+----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ 

3. MLR训练与评估

将数据随机分为训练集和测试集,比例为0.8:0.2,训练MLR模型,并用训练集验证,评估模型效果;再用测试集预测,评估预测效果。

3.1 MLR训练

 val Array(train,test) = vectorDF.randomSplit(Array(0.8,0.2),15L)
    train.persist()
    val lr = new LogisticRegression()
      .setMaxIter(40)
      .setRegParam(0.2)
      .setElasticNetParam(0.0)
      .setTol(1e-7)
      .setLabelCol("label")
      .setFeaturesCol("features")
      .fit(train)
    train.unpersist()
//    打印逻辑回归的系数和截距
    println(s"Coefficients: ${lr.coefficientMatrix}")
    println(s"Intercept: ${lr.interceptVector} ")
    val trainingSummary = lr.summary

//    获取每次迭代目标,每次迭代的损失,会逐渐减少
    val objectiveHistory = trainingSummary.objectiveHistory
    println("objectiveHistory:")
    objectiveHistory.foreach(loss => println(loss))

 Coefficients: 0.005728890303054042    -0.007782241428850575   ... (500 total)
-0.0032568857839486262  9.104707702162E-4       ...
-2.22171399151836E-4    0.005030220584285451    ...
-0.0037136502870570532  0.00306479457625182     ...
-1.1156968362083442E-6  4.6176426683195056E-4   ...
0.0014649328639396812   -0.0016850087687348503  ...
Intercept: [0.8788824588481589,0.8648375826056475,0.21524872708030418,0.12577146325456717,-0.854756359028032,-1.2299838727606456] 
objectiveHistory:
1.5649096802716778
1.0334419499096483
0.9379340548582956
0.9080628471991284
0.8648384457516703
0.8382117686881513
0.7967546946024161
0.7302224353089952
0.6924838476846956
0.6896399052962554
0.6763010283352668
0.6726573613895334
0.6681468654686284
0.6649272687672904
0.6598938394831732
0.6582190983027721
0.656853218824661
0.6554645257605516
0.654534116665513
0.6535264036547145
0.6528265692563162
0.6523692774903452
0.6521941438016804
0.652066337886312
0.6518708859728211
0.6516291483673391
0.6514902645259593
0.6514304501389128
0.651376443875932
0.6513553122483812
0.6513295697310645
0.6513020407568229
0.6512893832862882
0.6512747459041505
0.6512617185868199
0.6512480898069805
0.6512438354697055
0.6512373940677232
0.651233905560227
0.6512285293083144
0.6512185579819898

3.2 评估

在分类模型中,有评估的一些指标,如下

  • True Negative(真负,TN)=>将负类预测为负类
  • False Positive(假正,FP)=>将负类预测为正类,误报
  • False Nagative(假负,FN)=>将正类预测为负类,漏报
  • True Positive Rate: TPR=TP/(TP+FN)
  • False Positive Rate: FPR=FP/(FP+TN)
  • Precision(精确率):预测为1的结果中预测正确的概率
  • Recall(召回率):标签为1样本被预测正确概率,Recall=TPR
  • Precision和Recall在某些场景下是互斥的,需要一定的约束变量来控制,引入F-score
  • F=(a^2+1)P*R/a^2*(P+R)
  • ROC曲线: 横坐标是FRP,纵坐标是TPR,TPR越大,FPR越小,分类效果较好
  • ROC曲线并不能完美的表征二分类器的分类性能,如何评价?
  • AUC:ROC曲线下的面积

3.2.1 验证集评估 

    println("验证集各标签误报率(FPR):")
    trainingSummary.falsePositiveRateByLabel
      .zipWithIndex.foreach { case (rate, label) =>
      println(s"label $label: $rate")
    }

    println("验证集各标签真分类率(TPR):")
    trainingSummary.truePositiveRateByLabel.zipWithIndex
      .foreach { case (rate, label) =>
        println(s"label $label: $rate")
      }

    println("验证集各标签分类正确率:")
    trainingSummary.precisionByLabel.zipWithIndex
      .foreach { case (prec, label) =>
        println(s"label $label: $prec")
      }

    println("验证集各标签召回率:")
    trainingSummary.recallByLabel.zipWithIndex.foreach {
      case (rec, label) =>
        println(s"label $label: $rec")
    }


    println("验证集各标签F值:")
    trainingSummary.fMeasureByLabel.zipWithIndex.foreach
    { case (f, label) =>
      println(s"label $label: $f")
    }

    val accuracyLtr = trainingSummary.accuracy
    val falsePositiveRateLtr =
      trainingSummary.weightedFalsePositiveRate
    val truePositiveRateLtr =
      trainingSummary.weightedTruePositiveRate
    val fMeasureLtr = trainingSummary.weightedFMeasure
    val precisionLtr = trainingSummary.weightedPrecision
    val recallLtr = trainingSummary.weightedRecall
    println(s"分类准确率(Precision): $accuracyLtr\n误报率(FPR): $falsePositiveRateLtr\n真正类率(TPR): $truePositiveRateLtr\n" +
      s"F值(F-measure): $fMeasureLtr\n分类准确率(Precision): $precisionLtr \n召回率(Recall): $recallLtr")

验证集各标签误报率(FPR):
label 0: 0.014553014553014554
label 1: 0.04329896907216495
label 2: 0.015358361774744027
label 3: 0.016778523489932886
label 4: 0.0
label 5: 0.0
验证集各标签真分类率(TPR):
label 0: 0.9534883720930233
label 1: 1.0
label 2: 0.8818181818181818
label 3: 0.92
label 4: 0.6
label 5: 0.92
验证集各标签分类正确率:
label 0: 0.9669811320754716
label 1: 0.9094827586206896
label 2: 0.9150943396226415
label 3: 0.9019607843137255
label 4: 1.0
label 5: 1.0
验证集各标签召回率:
label 0: 0.9534883720930233
label 1: 1.0
label 2: 0.8818181818181818
label 3: 0.92
label 4: 0.6
label 5: 0.92
验证集各标签F值:
label 0: 0.9601873536299765
label 1: 0.9525959367945824
label 2: 0.8981481481481483
label 3: 0.9108910891089109
label 4: 0.7499999999999999
label 5: 0.9583333333333334
分类准确率(Precision): 0.9324712643678161
误报率(FPR): 0.02246013325767251
真正类率(TPR): 0.9324712643678161
F值(F-measure): 0.9303617273485957
分类准确率(Precision): 0.9348538236423205 
召回率(Recall): 0.9324712643678161

3.2.2 测试集评估

val predictions = lr.transform(test)
    val converts = new IndexToString()
      .setInputCol("prediction")
      .setOutputCol("predictionTab")
      .setLabels(indDF.schema("label").metadata.getMetadata("ml_attr").getStringArray("vals"))

    val predTab = converts.transform(predictions)
    predTab.select("prediction","predictionTab","label","tab","probability").show(5,false)
    val lrv = lr.evaluate(test)
    println("测试集各标签误报率(FPR):")
    lrv.falsePositiveRateByLabel.zipWithIndex.foreach{
      case (rate, label) =>println(s"label $label: $rate")
    }
    println("测试集各标签真正率(TPR):")
    lrv.truePositiveRateByLabel.zipWithIndex.foreach{
      case (rate, label) =>println(s"label $label: $rate")
    }
    println("测试集各标签准确率(Precision):")
    lrv.precisionByLabel.zipWithIndex.foreach{
      case (rate, label) =>println(s"label $label: $rate")
    }
    println("测试集各标签召回率(Recall):")
    lrv.recallByLabel.zipWithIndex.foreach{
      case (rate, label) =>println(s"label $label: $rate")
    }
    println("测试集各标签F1值:")
    lrv.fMeasureByLabel.zipWithIndex.foreach{
      case (f, label) =>println(s"label $label:$f")
    }
    val accuracyLrv = lrv.accuracy
    val truePositiveRateLrv = lrv.weightedTruePositiveRate
    val falsePositiveRateLrv = lrv.weightedFalsePositiveRate
    val fMeasureLrv = lrv.weightedFMeasure
    val precisionLrv = lrv.weightedPrecision
    val recallLrv = lrv.weightedRecall
    println(s"分类准确率(Precision): $accuracyLrv\n误报率(FPR): $falsePositiveRateLrv\n真正类率(TPR): $truePositiveRateLrv\n" +
      s"F值(F-measure): $fMeasureLrv\n分类准确率(Precision): $precisionLrv \n召回率(Recall): $recallLrv")

+----------+-------------+-----+---+------------------------------------------------------------------------------------------------------------------------------+
|2.0       |时政           |2.0  |时政 |[0.025771496102045554,0.10525309360563138,0.8322585432858192,0.023730420296404067,0.007791979305188661,0.005194467404911156]  |
|2.0       |时政           |2.0  |时政 |[0.011677683265706298,0.07920712240191527,0.8530769985909951,0.006882773206337975,0.046098208216127395,0.0030572143189180213] |
|0.0       |财经           |0.0  |财经 |[0.6678444176443852,0.08996083171101925,0.10866515038289139,0.07157123540840242,0.04235566225181319,0.019602702601488563]     |
|2.0       |时政           |0.0  |财经 |[0.25219408788359005,0.14266158065667248,0.2821471451822117,0.2805686447255393,0.028492258668355044,0.01393628288363137]      |
|0.0       |财经           |0.0  |财经 |[0.9254464036799132,0.007420711977601766,0.011399669252226526,0.037886005960507486,0.0038878373762144037,0.013959371753536573]|
+----------+-------------+-----+---+------------------------------------------------------------------------------------------------------------------------------+

测试集各标签误报率(FPR):
label 0: 0.09375
label 1: 0.05263157894736842
label 2: 0.07801418439716312
label 3: 0.09090909090909091
label 4: 0.006060606060606061
label 5: 0.011764705882352941
测试集各标签真正率(TPR):
label 0: 0.7916666666666666
label 1: 0.8604651162790697
label 2: 0.7142857142857143
label 3: 0.6666666666666666
label 4: 0.36363636363636365
label 5: 0.6666666666666666
测试集各标签准确率(Precision):
label 0: 0.76
label 1: 0.8409090909090909
label 2: 0.6944444444444444
label 3: 0.6285714285714286
label 4: 0.8
label 5: 0.6666666666666666
测试集各标签召回率(Recall):
label 0: 0.7916666666666666
label 1: 0.8604651162790697
label 2: 0.7142857142857143
label 3: 0.6666666666666666
label 4: 0.36363636363636365
label 5: 0.6666666666666666
测试集各标签F1值:
label 0:0.7755102040816326
label 1:0.8505747126436781
label 2:0.7042253521126761
label 3:0.6470588235294118
label 4:0.5000000000000001
label 5:0.6666666666666666
分类准确率(Precision): 0.7386363636363636
误报率(FPR): 0.07176652983294508
真正类率(TPR): 0.7386363636363636
F值(F-measure): 0.7346592667046067
分类准确率(Precision): 0.7414062704971798 
召回率(Recall): 0.7386363636363636

3.3 评估结果

tab label evluate FPR TPR Precision Recall F1
财经 0 train 0.0145 0.9534 0.9669 0.9534 0.9601
test 0.0937 0.7916 0.76 0.7916 0.7755
时政 1 train 0.0432 1.0 0.9094 1.0 0.9525
test 0.0526 0.8604 0.8409 0.8604 0.8505
金融 2 train 0.0153 0.8818 0.9150 0.8818 0.8981
test 0.0780 0.7142 0.6944 0.7142 0.7042
军事 3 train 0.0167 0.92 0.9019 0.92 0.9108
test 0.0909 0.6666 0.6285 0.6666 0.6470
社会 4 train 0.0 0.6 1.0 0.6 0.7499
test 0.0060 0.3636 0.8 0.3636 0.5000
国际 5 train 0.0 0.92 1.0 0.92 0.9583
test 0.01176 0.6666 0.6666 0.6666 0.6666

参考文献

https://blog.csdn.net/yhao2014/article/details/60324939

https://blog.csdn.net/baymax_007/article/details/82428984

https://blog.csdn.net/baymax_007/article/details/81949942

http://spark.apache.org/docs/latest/ml-guide.html

你可能感兴趣的:(特征工程,spark,algorithm,逻辑回归,HanLP,分词,资讯分类)