DanCheng-studio

毕业设计 : 基于Spark的海量新闻文本聚类 - Spark 新闻分类文本分类新闻聚类

文章目录

0 前言
1 项目介绍
2 实现流程
3 开发环境
4 java目录功能介绍
5 scala目录功能介绍
- 5.1 求TF-IDF
- 5.2 调用K-means模型
- 5.3 评价方式
6 聚类结果
7 最后

0 前言

Hi，这里是丹成学长，今天学长带大家实现一个大数据项目

**基于Spark的海量新闻文本聚类 **

1 项目介绍

在大数据开发领域，Spark的大名如雷贯耳，其RDD（弹性分布式数据集）/DataFrame的内存数据结构，在机器学习“迭代”算法的场景下，速度明显优于Hadoop磁盘落地的方式，此外，Spark丰富的生态圈也使得使用它为核心能够构建一整套大数据开发系统。

今天学长将采用Spark，利用tf-idf作为文本特征，k-means算法进行聚类。

各工具版本信息如下：

Spark 2.0.0
scala 2.11.8
java 1.8
hanlp 1.5.3

2 实现流程

所采用的数据集是已经预处理过的，每个类别的文件都按照1,2,3这样的数据开头，这里的1,2,3就代表类别1,类别2,类别3.这样会遇到一个问题，也是该博客实现过程中的一个bug，类别10的开头第一个字母也是‘1’，导致类别1的判定是存在争议的。但为了省事，笔者这里就只用其中的9类文本作为聚类文本，由已知标签，从而判断聚类效果。

参考中的博客采用的Spark版本偏老，为Spark1.6,现在Spark的版本已经迈进了2代，很多使用方法都不建议了，比如SQLContext,HiveContext和java2scala的一些数据结构转换。本文立足2.0版本的spark,将其中过时的地方代替，更加适合新手入门上手。

3 开发环境

开发环境采用idea+maven（虽然SBT在spark业界更加流行）

下面是学长的maven配置，放在pom.xml文件中：

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>HanLP</groupId>
    <artifactId>myHanLP</artifactId>
    <version>1.0-SNAPSHOT</version>

    <properties>
        <spark.version>2.0.0</spark.version>
        <scala.version>2.11</scala.version>
    </properties>

    <dependencies>
        <!-- scala环境,有了spark denpendencies后可以省略 -->
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>2.11.8</version>
        </dependency>
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-compiler</artifactId>
            <version>2.11.8</version>
        </dependency>
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-reflect</artifactId>
            <version>2.11.8</version>
        </dependency>
        <!-- 日志框架 -->
        <dependency>
            <groupId>log4j</groupId>
            <artifactId>log4j</artifactId>
            <version>1.2.12</version>
        </dependency>
        <!-- 中文分词框架 -->
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.5.3</version>
        </dependency>
        <!-- Spark dependencies -->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_${scala.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_${scala.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_${scala.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-hive_${scala.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-mllib_${scala.version}</artifactId>
            <version>${spark.version}</version>
        </dependency>
    </dependencies>

    <build>
        <plugins>
            <plugin>
                <groupId>org.scala-tools</groupId>
                <artifactId>maven-scala-plugin</artifactId>
                <version>2.15.2</version>
                <executions>
                    <execution>
                        <goals>
                            <goal>compile</goal>
                            <goal>testCompile</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.6.0</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                </configuration>
            </plugin>

            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-surefire-plugin</artifactId>
                <version>2.19</version>
                <configuration>
                    <skip>true</skip>
                </configuration>
            </plugin>
        </plugins>
    </build>


</project>

其中需要注意的有两个地方，第一个地方是scala.version,不要具体写到2.11.8，这样的话是找不到合适的spark依赖的，直接写2.11就好。第二个地方是maven-scala-plugin,这个地方主要是为了使得项目中java代码和scala代码共存的，毕竟它们俩是不一样的语言，虽然都能在jvm中跑，但编译器不一样呀…所以这个地方非常重要.

4 java目录功能介绍

java目录下的文件主要有两个功能：

测试Hanlp
转换编码、合并文件

测试hanlp工具，这是个开源的java版本分词工具，文件中分别测试了不同的分词功能。另一个是将所有文件从GBK编码模式转换成UTF-8，再将这些小文件写到一个大文件中。转换编码是为了文件读取顺利不报编码的错误。大文件是为了提高Spark或Hadoop这类工具的效率，这里涉及到它们的一些实现原理，简单来说，文件输入到Spark中还会有分块、切片的操作，大文件在这些操作时，效率更高。

5 scala目录功能介绍

scala目录下总共有4个子目录，分别是用来测试scala编译运行是否成功，调用Spark MLlib计算tf-idf，计算TF-IDF再利用K-means聚类，工具类。这里的工具类是原博客作者设计的，设计的目的是确定Spark是在本地测试，还是在集群上火力全来跑，并且适用于Window系统。因为我去掉了其封装的SQLContext（已不建议使用）,所以这个工具类在我Linux操作系统下意义也不是很大…

5.1 求TF-IDF

求TF-IDF采用SparkSession替代SparkContext,如下：

package test_tfidf

import org.apache.spark.ml.feature.{HashingTF, IDF, Tokenizer}
import org.apache.spark.sql.SparkSession
//import utils.SparkUtils
/**
  *测试Spark MLlib的tf-idf
  * Created by zcy on 18-1-4.
  */
object TFIDFDemo {
  def main(args: Array[String]) {
    val spark_session = SparkSession.builder().appName("tf-idf").master("local[4]").getOrCreate()
    import spark_session.implicits._ // 隐式转换
    val sentenceData = spark_session.createDataFrame(Seq(
      (0, "Hi I heard about Spark"),
      (0, "I wish Java could use case classes"),
      (1, "Logistic regression models are neat")
    )).toDF("label", "sentence")

    // 分词
    val tokenizer = new Tokenizer().setInputCol("sentence").setOutputCol("words")
    println("wordsData----------------")
    val wordsData = tokenizer.transform(sentenceData)
    wordsData.show(3)
    // 求TF
    println("featurizedData----------------")
    val hashingTF = new HashingTF()
      .setInputCol("words").setOutputCol("rawFeatures").setNumFeatures(2000) // 设置哈希表的桶数为2000，即特征维度
    val featurizedData = hashingTF.transform(wordsData)
    featurizedData.show(3)
    // 求IDF
    println("recaledData----------------")
    val idf = new IDF().setInputCol("rawFeatures").setOutputCol("features")
    val idfModel = idf.fit(featurizedData)
    val rescaledData = idfModel.transform(featurizedData)
    rescaledData.show(3)
    println("----------------")
    rescaledData.select("features", "label").take(3).foreach(println)
  }
}

上面TF转换特征向量的代码设置了桶数，即特征向量的维度，这里将每个文本用2000个特征向量表示。

5.2 调用K-means模型

// Trains a k-means model.
println("creating kmeans model ...")
val kmeans = new KMeans().setK(k).setSeed(1L)
val model = kmeans.fit(rescaledData)
// Evaluate clustering by computing Within Set Sum of Squared Errors.
println("calculating wssse ...")
val WSSSE = model.computeCost(rescaledData)
println(s"Within Set Sum of Squared Errors = $WSSSE")

5.3 评价方式

假设最终得到的文件和预测结果如下：

val t = List(
    ("121.txt",0),("122.txt",0),("123.txt",3),("124.txt",0),("125.txt",0),("126.txt",1),
    ("221.txt",3),("222.txt",4),("223.txt",3),("224.txt",3),("225.txt",3),("226.txt",1),
    ("421.txt",4),("422.txt",4),("4.txt",3),("41.txt",3),("43.txt",4),("426.txt",1)

文件名的第一个字符是否和聚类类别一致，统计结果来判断，是否聚类成功，最终得到整体的聚类准确率,这里提供demo例子如下：

package test_scala

import org.apache.spark.Partitioner
import utils.SparkUtils
/**
  * Created by zcy on 18-1-4.
  */
object TestPartition {
  def main(args: Array[String]): Unit ={
    val t = List(
      ("121.txt",0),("122.txt",0),("123.txt",3),("124.txt",0),("125.txt",0),("126.txt",1),
      ("221.txt",3),("222.txt",4),("223.txt",3),("224.txt",3),("225.txt",3),("226.txt",1),
      ("421.txt",4),("422.txt",4),("4.txt",3),("41.txt",3),("43.txt",4),("426.txt",1)
    ) // 文档开头代表类别，后一个数字代表预测类型
    val sc = SparkUtils.getSparkContext("test partitioner",true) //本地测试：true

    val data = sc.parallelize(t)
    val file_index = data.map(_._1.charAt(0)).distinct.zipWithIndex().collect().toMap
    println("file_index: " + file_index) // key:begin of txt, value:index
    val partitionData = data.partitionBy(MyPartitioner(file_index))

    val tt = partitionData.mapPartitionsWithIndex((index: Int, it: Iterator[(String,Int)]) => it.toList.map(x => (index,x)).toIterator)
    println("map partitions with index:")
    tt.collect().foreach(println(_)) // like this: (0,(421.txt,4))
    // firstCharInFileName , firstCharInFileName - predictType

    val combined = partitionData.map(x =>( (x._1.charAt(0), Integer.parseInt(x._1.charAt(0)+"") - x._2),1) )
      .mapPartitions{f => var aMap = Map[(Char,Int),Int]();
        for(t <- f){
          if (aMap.contains(t._1)){
            aMap = aMap.updated(t._1,aMap.getOrElse(t._1,0)+1)
          }else{
            aMap = aMap + t
          }
        }
        val aList = aMap.toList
        val total= aList.map(_._2).sum
        val total_right = aList.map(_._2).max
        List((aList.head._1._1,total,total_right)).toIterator
        //       aMap.toIterator //打印各个partition的总结
      }
    val result = combined.collect()
    println("results: ")
    result.foreach(println(_)) // (4,6,3) 类别4，总共6个，3个正确
    for(re <- result ){
      println("文档"+re._1+"开头的 文档总数："+ re._2+",分类正确的有："+re._3+",分类正确率是："+(re._3*100.0/re._2)+"%")
    }
    val averageRate = result.map(_._3).sum *100.0 / result.map(_._2).sum
    println("平均正确率为："+averageRate+"%")
    sc.stop()
  }
}

case class MyPartitioner(file_index:Map[Char,Long]) extends Partitioner{
  override def getPartition(key: Any): Int = key match {
    case _ => file_index.getOrElse(key.toString.charAt(0),0L).toInt //将value转换成int
  }
  override def numPartitions: Int = file_index.size
}

6 聚类结果

最终，在学长本地Spark伪集群环境下，用4个进程模拟4台主机，输出结果如下：

从整个运行结果来看，正确率还是很高的，值得信赖，但和参考大佬的论文比，某些类别还是不够准确，毕竟k-means算法有一定的随机性，这种误差我们还是可以接受的。并且从整体运行时间上来说，真的非常快（估计在十几秒），这个时间还包括了启动Spark，初始化等等过程，和python处理相比，不仅高效，还更加可靠。强推…

7 最后

你可能感兴趣的:(计算机专业,毕业设计系列,大数据,spark,聚类,分类,毕业设计,新闻文本聚类)

设计模式概述 - 设计模式的重要性 w(ﾟДﾟ)w吓洗宝宝了 C++从 0 到 1 设计模式 c++
引言设计模式是软件工程中用于解决常见设计问题的经典解决方案。它们提供了一种标准化的方式来组织和设计代码，使得代码更易于理解、维护和扩展。在C++编程中，设计模式尤为重要，因为它们可以帮助开发者应对复杂的系统设计，提高代码的可重用性和灵活性。本文将探讨设计模式的基本概念、分类以及它们在C++中的重要性。1.什么是设计模式？设计模式是经过验证的、可重用的解决方案，用于解决在软件设计中反复出现的问题。它
JAVA：Spring Boot 实现责任链模式处理订单流程的技术指南拾荒的小海螺 JAVA java spring boot 责任链模式
1、简述在复杂的业务系统中，订单流程往往需要一系列的操作，比如验证订单、检查库存、处理支付、更新订单状态等。责任链模式（ChainofResponsibility）可以帮助我们将这些处理步骤分开，并且以链式方式处理每一个操作，从而让代码更加清晰、可扩展和模块化。本文将介绍如何在SpringBoot3.3中使用责任链模式实现订单流程管理。2、场景设计责任链模式是一种行为设计模式，它通过将请求沿着处理
Taro 鸿蒙技术内幕系列（四）：JDImage 自研鸿蒙图片库京东零售技术 taro taro harmonyos 华为
基于Taro打造的京东鸿蒙APP已跟随鸿蒙Next系统公测，本系列文章将深入解析Taro如何实现使用React开发高性能鸿蒙应用的技术内幕背景2024年初，京东正式启动了鸿蒙APP的开发工作。由于电商APP大量依赖图片来展示商品信息，对图片库的性能和加载体验要求极高，因此图片库被作为核心基础能力提前纳入京东鸿蒙首期基础建设计划。本文将详细介绍京东自研鸿蒙图片库的开发过程及其技术原理。技术实现前期调
vim系列-文本操作篇工具
Vim实用技巧：文本编辑与处理基数行与偶数行分组使用Vim的替换命令，可以轻松地将基数行和偶数行分组：%s/\(^.*$\)\n\(^.*$\)/\1\2/g然后，删除所有的基数行：%s/^.*$\n\(^.*$\)/\1/g删除重复行在Vim中删除重复行是一个常见的操作，以下是几种方法：删除相邻重复行:g/\(.\+\)$\n\1/d删除不相邻重复行使用排序命令删除不相邻的重复行：:sortu删
玩转至轻云大数据平台-docker部署篇 fanciNate454 大数据 docker
产品介绍至轻云是一款超轻量级、企业级大数据计算平台，基于Spark生态打造。一键部署，开箱即用。快速实现大数据离线ETL、Spark计算、实时计算、可视化调度、自定义接口、数据大屏以及自定义表单等多种功能，为企业提供高效便捷的大数据解决方案。至轻云有什么特点呢？又能怎么玩呢？产品特点开源轻量化云原生架构:兼容云原生架构，支持Docker、Rancher平台的快速部署。国内镜像下载:可直接从阿里云镜
YOLOv10全网最新创新点改进系列：YOLOv10融合SwinTransformer模块，分辨率每层变成一半，而通道数变成两倍,有效提升小目标检测效果！ AI棒棒牛 YOLO 目标检测人工智能模型改进 yolov10 创新 sci写作
YOLOv10全网最新创新点改进系列：YOLOv10融合SwinTransformer模块，分辨率每层变成一半，而通道数变成两倍,有效提升小目标检测效果！所有改进代码均经过实验测试跑通！截止发稿时YOLOv10已改进40+！自己排列组合2-4种后，考虑位置不同后可排列组合上千万种！改进不重样！！专注AI学术，关注B站up主：Ai学术叫叫兽er！购买相关资料后畅享一对一答疑！YOLOv10全网最新创
中科曙光C/C++研发工程师二面 TrustZone_ ARM/Linux嵌入式面试 c语言 c++开发语言
自我介绍；针对项目：CNN模型、损失函数、评价指标、改进方向、计算加速；CNN模型CNN，即卷积神经网络，是一种专门用于处理具有类似网格结构数据的深度学习模型。它通过卷积层和池化层提取图像特征，并通过全连接层进行分类或回归预测。CNN在图像识别、目标检测和图像生成等领域取得了巨大成功。具体来说，CNN的模型结构包括输入层、卷积层、激活函数、池化层、全连接层和输出层。输入层接收图像数据，并将其转换为
5g网络架构_【5G网络架构】系列之五：5G核心网向to B演进 weixin_39980298 5g网络架构
编者按：前面推文小编简要介绍了移动通信核心网的发展历程，以及变得“妈都不认识了”5G核心网。然而，toB业务才是5G的核心业务，本期我们看下5G核心网是如何向toB业务演进的。根据3GPP标准组织定义，5G网络的大脑——核心网发生了空前变化。首先，5G核心网原生支持控制面和用户面彻底分离，使得用户面UPF可灵活下沉，与边缘计算(MEC)一起分布式部署于更靠近用户和数据源的位置，从而可降低网络时延，
普罗米修斯统计信息上报结构设计高晓伟_Steven go语言 go 普罗米修斯
为了实现高效的监控和警报，普罗米修斯提供了一个强大的统计信息上报机制。通过这个机制，可以将应用程序的各种统计信息发送到普罗米修斯，普罗米修斯会对这些信息进行处理，然后提供丰富的监控和警报功能。下面是基本的统计信息上报结构：1.指标在普罗米修斯中，指标是指一个可以被测量的数据，例如请求次数、响应时间等。指标由一个名称和一组标签组成。名称是指标的唯一标识符，标签用于对指标进行分类。2.指标类型普罗米修
Python 爬虫入门教程：从零构建你的第一个网络爬虫 m0_74825223 面试学习路线阿里巴巴 python 爬虫开发语言
网络爬虫是一种自动化程序，用于从网站抓取数据。Python凭借其丰富的库和简单的语法，是构建网络爬虫的理想语言。本文将带你从零开始学习Python爬虫的基本知识，并实现一个简单的爬虫项目。1.什么是网络爬虫？网络爬虫（WebCrawler）是一种通过网络协议（如HTTP/HTTPS）获取网页内容，并提取其中有用信息的程序。常见的爬虫用途包括：收集商品价格和评价。抓取新闻或博客内容。统计数据分析。爬
Python数据分析与程序设计-番外：在vscode中使用Jupyter Notebook 想当糕手 python 数据分析 vscode jupyter
前言在系列文章的第二篇中，我们介绍了使用“if__name__=="__main__":”来模拟c语言中的main函数+封装测试函数的方法来提高代码可读性。当然，这并不是最佳的选择，本篇博客为您将介绍更为高效便捷的工具，希望能对你有所帮助！关于JupyterNotebookJupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它是
大模型GUI系列论文阅读 DAY2续：《一个具备规划、长上下文理解和程序合成能力的真实世界Web代理》 feifeikon 论文阅读
摘要预训练的大语言模型（LLMs）近年来在自主网页自动化方面实现了更好的泛化能力和样本效率。然而，在真实世界的网站上，其性能仍然受到以下问题的影响：(1)开放领域的复杂性，(2)有限的上下文长度，(3)在HTML结构上的归纳偏差不足。我们提出WebAgent，一个由LLM驱动的智能代理，能够通过自我学习的方式，在真实网站上按照自然语言指令完成任务。WebAgent通过将指令提前规划，将其分解为子指
《一个月教你玩转C++》系列第九章：C++中的 if 和 else（2） c++布丁 C++c++开发语言
第九章：C++中的if和else（2）本章布丁将介绍elseif语句，关系运算符和逻辑运算符。我们将通过简单的例子来展示它们的用法哟！elseif语句elseif语句是if语句的扩展，它允许我们在第一个条件不满足时继续检查其他条件。基本用法：当我们需要根据多个条件执行不同的代码块时，elseif语句就显得非常有用。它的基本用法如下：if(条件1){//如果条件1为真，则执行这里的代码}elseif
Python基础02（Python序列结构/列表/元组/集合/字典/序列解包） XYX的Blog Python python
Python序列结构序列结构的分类：1.有无顺序（是否可以通过索引访问序列结构的元素）：有序：列表，元组，字符串无序：字典，集合2.是否可变（是否可以增加或删除元素）：可变：列表，字典，集合不可变：元组，字符串1.List列表列表（list）是最重要的Python内置对象之一，是包含若干元素的有序连续内存空间。在形式上，列表的所有元素放在一对[]中，元素之间使用逗号分隔。在Python中，同一个列
自建 MongoDB 实战 | MongoDB 文档查询新钛云服 mongodb 数据库 nosql
新钛云服已累计为您分享703篇技术干货专题介绍：八篇文章，近五万字。自建MongoDB实践系列文章，为您阐述日常工作中常用的NoSQL产品——MongoDB运维相关的日常实战。主要涉及到：·MongoDB的安装及基本使用（点击进入）·MongoDB文档查询（本期内容）·MongoDB复制集的介绍及搭建（后续更新）·MongoDB分片集群的介绍及搭建（后续更新）·MongoDB的备份及恢复（后续更新
曝华为鸿蒙PC有望今年上市；腾讯撤回“微信蓝包”商标注册；荣耀管理层大洗牌，中国区CMO将离职 | 极客头条极客日报华为 harmonyos 微信
「极客头条」——技术人员的新闻圈！CSDN的读者朋友们好，「极客头条」来啦，快来看今天都有哪些值得我们技术人关注的重要新闻吧。整理|苏宓出品|CSDN（ID：CSDNnews）一分钟速览新闻点！赵明离职之后荣耀管理层大洗牌，荣耀中国区CMO将离职曝华为鸿蒙PC正做半公开测试找新Bug，今年有望上市腾讯撤回“微信蓝包”商标注册，马化腾：希望外界不要对“送礼物”功能过度吹捧CNNIC报告称中国有2.4
《重生到现代之从零开始的C语言生活》——C语言的数据类型和变量 yttandb c语言生活
C语言的数据类型和变量数据类型C语言中的数据类新用来描述数据，而类型可以理解为是数据的分类。数据类型可以分为以下几个内置类型字符型整型浮点型布尔类型自定义类型数组结构体-struct枚举-enum联合体-union在下面我们着重讲解内置类型字符型char可以创建一个字符型的变量（变量会在下文进行描述，在这知道即可）整形短整型shortint整形int长整型longint更长的整形longlongi
1、Java 环境搭建与基本概念：开启 Java 编程之旅的第一步翻晒时光从0学Java java 开发语言
大家好，欢迎来到我们的Java学习系列博客，今天是第一课，我们将一起探索Java环境搭建与基本概念。无论你是编程新手，还是想要学习一门新语言的老手，Java都是一个非常值得学习的语言，它在众多领域都有着广泛的应用，从企业级软件开发、安卓应用开发到大数据处理，都能看到Java的身影。让我们开始这充满挑战与乐趣的Java学习之旅吧！一、Java的发展历程与特点Java诞生于SunMicrosystem
springboot图书馆管理系统前后端分离版本酷爱码 spring boot 后端 java
springboot图书馆管理系统前后端分离版本，系统供的功能全部都可以使用这是一个成品，系统的架构包括代码的层次都比较清晰而且功能比较丰富大家可以拿到手里改改界面改改文字的描述细节稍微修改一下就可以完成自己的毕业设计了，也可二次开发系统特性技术先进：使用了最新的SpringBoot框架，简化了项目配置，提高了开发效率。模块化设计：系统分为多个独立但相互关联的模块，如用户管理、书籍管理、借阅记录等
大数据：数字时代的变革引擎大数据
在当今这个数字化飞速发展的时代，大数据无疑是最为耀眼的存在，如同变革的引擎，驱动着各个领域的创新与发展。大数据的起源可追溯到信息技术发展的早期阶段。随着计算机的诞生和数据存储技术的逐步发展，人们开始积累越来越多的数据。然而，早期的数据量相对较小，处理和分析技术也较为有限。直到互联网的普及，数据的产生方式发生了根本性的变化。网站、搜索引擎、社交媒体等互联网应用的兴起，使得数据量呈爆炸式增长。每天，全
【Redis】使用redis-cli的“--bigkeys”选项查找大Key 奇墨 ITQM redis 数据库缓存
在Redis的使用过程中，我们经常会遇到BigKey（下文将其称为“大key”）及HotKey（下文将其称为“热key”）。大Key与热Key如果未能及时发现并进行处理，很可能会使服务性能下降、用户体验变差，甚至引发大面积故障。下面将为大家介绍大Key的定义及查找方法：一、什么是大Key？通常我们会将含有较大数据或含有大量成员、列表数的Key称之为大Key，下面我们将用几个实际的例子对大Key的特
飞轮科技荣获中国电信星海大数据最佳合作伙伴奖！
近日，由中国电信集团数据发展中心主办的数据要素合作论坛在广州召开。大会以“数聚共生·智启未来”为主题，旨在展示数据要素应用成果，探索数据要素创新实践。与会期间，为了感谢2024年生态合作伙伴对中国电信数据业务发展工作的支持，会议举行了“星海大数据·最佳合作伙伴奖”颁奖仪式。飞轮科技凭借其在数据分析领域的卓越表现与深厚实力，获得这一殊荣。作为中国电信的长期合作伙伴，飞轮科技持续致力于为中国电信提供先
用大数据“喂养”出来的AI模型ChatGPT 爆火是大数据、大算力、强算法的支撑，中国缺乏的什么？ Ai17316391579 深度学习服务器人工智能
先来了解一下ChatGPT的基本情况ChatGPT本质属于生成式人工智能，属于无监督或半监督的机器学习。与之相关的还有Discriminativemodeling区分式模型，区分式模型大多属于监督式学习。生成性人工智能目前有两种主要的框架：GAN（GenerativeAdversarialNetwork）和GPT（GenerativePre-trainedTransformer）。GAN目前广泛应
Android15音频进阶之音效sessionId(一百零四) Android系统攻城狮 Android Audio工程师进阶系列音视频 Android15 音效 Visualizer处理 audiosessionId
简介：CSDN博客专家、《Android系统多媒体进阶实战》一书作者新书发布：《Android系统多媒体进阶实战》优质专栏：Audio工程师进阶系列【原创干货持续更新中……】优质专栏：多媒体系统工程师系列【原创干货持续更新中……】优质视频课程：AAOS车载系统+AOSP14系统攻城狮入门视频实战课
构建知识图谱：从文本到结构化数据的转化 sagvWSRJHMNEB 知识图谱人工智能 python
技术背景介绍知识图谱是一种将信息表示为实体及其相互关系的结构化数据模型，广泛用于提高数据检索和决策支持的质量。特别是在基于知识的检索增强生成（RAG）应用中，通过将非结构化文本转化为知识图谱，可以显著提升系统对复杂关系的理解和导航能力。核心原理解析构建知识图谱的核心步骤包括：信息提取和数据库存储。从文本中提取结构化信息主要依赖于大语言模型（LLM），如OpenAI的GPT-4，其能力在于解析和分类
Qt Network编程之HTTP请求与处理努力搬砖的咸鱼 QT新手之路 qt http 开发语言
Qt作为一个功能强大的跨平台C++框架，提供了丰富的网络编程支持，特别是针对HTTP请求与处理。本文将深入探讨如何使用QtNetwork模块进行HTTP请求，并处理服务器响应。QtNetwork模块简介QtNetwork模块是Qt框架中负责网络编程的组件。它提供了一系列类来处理网络协议、套接字编程、HTTP/HTTPS请求等。对于HTTP请求与处理，我们主要关注的QNetworkAccessMan
软考系统架构设计师系列知识点之面向服务架构设计理论与实践（5）蓝天居士系统架构设计师软考系统架构
接前一篇文章：软考系统架构设计师系列知识点之面向服务架构设计理论与实践（4）所属章节：第15章.面向服务架构设计理论与实践第2节SOA的发展历史15.2SOA的发展历史15.2.3SOA的微服务化发展随着互联网技术的快速发展，为适应日益增长的用户访问量和产品的快速更新迭代，应用系统架构也经历了从简到繁、从单体架构到SOA架构再到微服务架构的演进过程。这导致了SOA架构向更细粒度、更通用化程度发展，
AAAI2024论文解读|Towards Fairer Centroids in k-means Clustering面向更公平的 k 均值聚类中心 paixiaoxin 文献阅读论文合集支持向量机机器学习人工智能聚类公平性 k 均值聚类质心代表性群体代表性公平性
论文标题TowardsFairerCentroidsink-meansClustering面向更公平的k均值聚类中心论文链接TowardsFairerCentroidsink-meansClustering论文下载论文作者StanleySimoes,DeepakP,MuirisMacCarthaigh内容简介本文提出了一种新的聚类级质心公平性（Cluster-levelCentroidFairne
我的编程入门成长之路 ocean2103 成长职场和发展学习方法程序人生
接触说起我的编程入门，其实惨不忍睹。我是2001年上的大学，只是觉得计算机是个高科技，就稀里糊涂的报了个计算机专业。上大学前没摸过电脑，以为大块头显示器就是电脑；也没有摸过键盘，以为学计算机就是学打字的…刚上大一的时候，那时候学校不让大一新生自己买电脑，网吧还很流行，于是有天晚上就和同学一起去网吧包宿。同学帮我申请了个QQ号，结果整个晚上，我在网上跟别人诉苦说我是计算机专业的，但是打字都打不好，将
10多套html视频教程，让你彻底搞懂html。学习路上助你一臂之力！ guoguo507 前端 javascript html
快速入口在文章最后，大家耐心观看！谢谢(想学其他更多编程技术视频，请进我的博客查看。)踏上HTML之旅：从新手到进阶的蜕变在当今数字化时代，网页无处不在，从社交媒体到在线购物，从新闻资讯到学习平台。而HTML作为构建网页的基石，掌握它不仅是踏入Web开发领域的第一步，更是理解互联网信息呈现方式的关键。对于渴望在网页设计、前端开发领域一展身手的人来说，从浅入深地学习HTML是开启精彩旅程的钥匙。一、
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他