大数据翻身

Spark之创建Rdd、DataFrame、Dataset

一、RDD

1.1 通过本地集合创建RDD

  val seq1 = Seq(1001,"liming",24,95)
  val seq2 = Seq(1,2,3)
  //可以不指定分区数
  val rdd1: RDD[Any] = sc.parallelize(seq1,2)
  println(rdd1.collect().mkString(","))
  val rdd2: RDD[Int] = sc.makeRDD(Seq(1,2,3,4),2)
  //也可以使用Array、List
  val rdd3 = sc.parallelize(List(1, 2, 3, 4))
  val rdd4 = sc.parallelize(Array(1, 2, 3, 4))
  rdd3.take(10).foreach(println)

1.2 通过外部数据创建RDD

//外部数据(文件)创建RDD
  val rdd1 = sc.textFile("file_path")
  //1、textFile传入的是一个路径
  //2、分区是由HDFS中的block决定的

1.3 通过RDD衍生新的RDD

//RDD衍生RDD
  val rdd1 = sc.parallelize(Seq("zhangsan","lisi","wangwu"))
  //通过RDD执行算子操作会产生RDD
  val rdd2 = rdd1.map(item => (item, 1))

二、DataFrame

1.1 通过Seq生成

val df = spark.createDataFrame(Seq(
  ("ming", 20, 15552211521L),
  ("hong", 19, 13287994007L),
  ("zhi", 21, 15552211523L)
)).toDF("name", "age", "phone")

df.show()

1.2 通过读取外部结构化数据

1.2.1 读取Json文件生成

json文件内容：

{"name":"ming","age":20,"phone":15552211521}
{"name":"hong", "age":19,"phone":13287994007}
{"name":"zhi", "age":21,"phone":15552211523}

代码：

    val dfJson = spark.read.format("json").load("/Users/hadoop/sparkLearn/data/student.json")
    dfJson.show()

1.2.2 读取csv文件生成

csv文件：

name,age,phone
ming,20,15552211521
hong,19,13287994007
zhi,21,15552211523

代码：

val dfCsv = spark.read.format("csv").option("header", true).load("/Users/hadoop/sparkLearn/data/students.csv")
dfCsv.show()

1.2.3 读取parquet文件

val dfparquet = spark.read.parquet("/Users/hadoop/sparkLearn/data/students.parquet")

1.3 通过jdbc创建

    //读取数据库（mysql）
    val options = new util.HashMap[String,String]()
    options.put("url", "jdbc:mysql://localhost:3306/spark")
    options.put("driver","com.mysql.jdbc.Driver")
    options.put("user","root")
    options.put("password","hollysys")
    options.put("dbtable","user")

    spark.read.format("jdbc").options(options).load().show()

1.4 动态创建schema

1.4.1 ArrayList + Schema

    val schema = StructType(List(
      StructField("name", StringType, true),
      StructField("age", IntegerType, true),
      StructField("phone", LongType, true)
    ))
    val dataList = new util.ArrayList[Row]()
    dataList.add(Row("ming",20,15552211521L))
    dataList.add(Row("hong",19,13287994007L))
    dataList.add(Row("zhi",21,15552211523L))
    spark.createDataFrame(dataList,schema).show()

1.4.2 RDD + Schema

文件内容：

54655326,44039606001410150001,2020-11-28 20:51:04,2020-11-28 20:51:04,2020-11-28 18:45:16,61,http://190.176.35.157/photos/sensord
oor_face/20201128/6c33fe6e2215e74997a57a11916ece43/614374_1.jpg,szgj_img/20201128-ac8a6897-000a580ae00068-07f7ca68-00003eb0
54655326,44039606001410150001,2020-11-28 20:51:04,2020-11-28 20:51:04,2020-11-28 18:45:16,61,http://190.176.35.157/photos/sensord
oor_face/20201128/6c33fe6e2215e74997a57a11916ece43/614374_1.jpg,szgj_img/20201128-ac8a6897-000a580ae00068-07f7ca68-00003eb0
54655327,44039603011410050002,2020-11-28 20:51:04,2020-11-28 20:51:04,2020-11-28 19:37:49,272,http://190.176.35.157/photos/sensor
door_face/20201128/0ff9f28494461eafca57e569d62493f7/9578502_0.jpg,szgj_img/20201128-a96baad0-000a580ae01a5d-0885e0e0-000022b0

 //从原始RDD中创建一个包含Row的RDD
    val FacialProfileRDD: RDD[Row] = linesRDD.map(line => {
      val strs: Array[String] = line.split(",")
      Row(strs(0), strs(1), strs(2), strs(3), strs(4), strs(5), strs(6), strs(7))
    })

//创建由StructType表示的模式，该模式与上述步骤中创建的RDD中的行结构相匹配
    val structType: StructType = StructType(
      StructField("aid", StringType, true) ::
        StructField("gbNO", StringType, true) ::
        StructField("create_time", StringType, true) ::
        StructField("update_time", StringType, true) ::
        StructField("acquisition_time", StringType, true) ::
        StructField("recordId", StringType, true) ::
        StructField("bigcaptureFaceUrl", StringType, true) ::
        StructField("smallcaptureFaceUrl", StringType, true) ::
        Nil
    )

    //DataFrame = RDD + Schema
    //通过SparkSession提供的createDataFrame方法，将模式应用到Row的RDD中
    val FacialProfileDF: DataFrame = spark.createDataFrame(FacialProfileRDD, structType)

1.5 通过样例类case class 创建

文件内容同1.4.2

创建样例类：

package com.sibat.applications.part0

//样例类facialprofile:"aid","gbNo","create_time","update_time","acquisition_time","recordId","bigcaptureFaceUrl","smallcaptureFaceUrl"
case class FacialProfile(aid:String, gbNO:String, create_time:String, update_time:String, acquisition_time:String, recordId:String, bigcaptureFaceUrl:String, smallcaptureFaceUrl:String)

组装：

//profile泛型是FacialProfile ,FacialProfile既有数据，又有字段
    //数据 + Scheme
    val FacialProfileRDD: RDD[FacialProfile] = linesRDD.map(line => {
      val column: Array[String] = line.split(",")
      FacialProfile(column(0), column(1), column(2), column(3),column(4), column(5), column(6), column(7))
    })
    //将RDD转成DF  需要导入隐式转换
    //该隐式转换在SparkSession中
    import spark.implicits._
    val FacialProfileDF: DataFrame = FacialProfileRDD.toDF()

三、DataSet

3.1 什么是DataSet

DataSet是分布式的数据集合，Dataset提供了强类型支持，也是在RDD的每行数据加了类型约束。DataSet是在Spark1.6中添加的新的接口。它集中了RDD的优点（强类型和可以用强大lambda函数）以及使用了Spark SQL优化的执行引擎。DataSet可以通过JVM的对象进行构建，可以用函数式的转换（map/flatmap/filter）进行多种操作。

3.2 DataSet操作API地址：

http://spark.apache.org/docs/2.2.0/api/scala/index.html#org.apache.spark.sql.Dataset

3.3 通过spark.createDataset通过集合进行创建dataSet

val ds1 = spark.createDataset(1 to 10)

3.4 从已经存在的rdd当中构建dataSet

val ds2 = spark.createDataset(sc.textFile("file:///export/servers/person.txt"))

3.5 通过样例类配合创建DataSet

spark-shell中一次输入多行操作
:paste后Enter进入，退出时进入没有输入的行Ctrl D结束

case class Person(name:String,age:Int)
val personDataList = List(Person("zhangsan",18),Person("lisi",28))
val personDS = personDataList.toDS
personDS.show

3.6 通过DataFrame转化生成

案例一：

使用as[类型]转换为DataSet

case class Person(name:String,age:Long)
val jsonDF = spark.read.json("file:///export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0/examples/src/main/resources/people.json")
val jsonDS = jsonDF.as[Person]
jsonDS.show

案例二：

创建Dataframe

scala>val df= spark.createDataFrame(Seq(
                ("Tom",20,15552211521L),
                ("Jack",19,13287994007L),
                ("Tony",21,15552211523L),
                ("Tom",20,15552211521L),
                ("David",22,15552211523L),
                ("Alex",25,15552211523L)
                )) toDF("name","age","phone")
df: org.apache.spark.sql.DataFrame= [name: string, age: int ...1 more field]

查看

scala> df.show()
+-----+---+-----------+
| name|age|      phone|
+-----+---+-----------+
|  Tom|20|15552211521|
| Jack|19|13287994007|
| Tony|21|15552211523|
|  Tom|20|15552211521|
|David|22|15552211523|
| Alex|25|15552211523|
+-----+---+-----------+

创建样例类

scala>import spark.implicits._
import spark.implicits._
 
scala>case class Person(name: String, age: String, phone: String)
definedclass Person

转成DataSet

scala>val person= df.as[Person]
person: org.apache.spark.sql.Dataset[Person]= [name: string, age: int ...1 more field]
 
scala> person.show
+-----+---+-----------+
| name|age|      phone|
+-----+---+-----------+
|  Tom|20|15552211521|
| Jack|19|13287994007|
| Tony|21|15552211523|
|  Tom|20|15552211521|
|David|22|15552211523|
| Alex|25|15552211523|
+-----+---+-----------+

DataSet的基本操作

去重(所有字段都相同)

scala> person.distinct().show()
+-----+---+-----------+
| name|age|      phone|
+-----+---+-----------+
|David|22|15552211523|
| Alex|25|15552211523|
|  Tom|20|15552211521|
| Tony|21|15552211523|
| Jack|19|13287994007|
+-----+---+-----------+

去重(某一字段相同)

scala> person.dropDuplicates("phone").show()
+----+---+-----------+
|name|age|      phone|
+----+---+-----------+
|Jack|19|13287994007|
| Tom|20|15552211521|
|Tony|21|15552211523|
+----+---+-----------+

四、RDD，DataFrame，DataSet互相转化

你可能感兴趣的:(spark,大数据,数据分析)

【Pandas超实用经验汇总-数据建模分析】 Mr.小海 Python 数据挖掘数据分析 python
Pandas超实用经验汇总-数据分析前言基本方法1.读取文件2.查看数据3.修改、删除、替换数据等总结前言看见了很多教程虽然很全，但是很多技巧容易忘记且几乎用不上，读起来晦涩难懂，今天我给大家总结了Pandas的一些学习经验技巧，包含常见日常使用的pandas知识，以及一些技巧,这些技巧常见于数学建模，数据分析，数据挖掘比赛等。基本方法1.读取文件方法如下：importpandasaspd#正常写
Go与Python在数据管道与分析项目中的抉择：性能与灵活性的较量真智AI 人工智能 python go
你正在设计一个全新数据管道或启动一个分析项目，此时你或许正在思考该选择Python还是Go。五年前，这甚至不是个值得讨论的问题——你会毫不犹豫地选择Python，故事到此为止。然而，近年来Go在数据领域，尤其是在数据基础设施和实时处理方面，正逐渐被更多人采用。实际上，这两种语言都已在现代数据技术栈中找到了各自的定位。Python依然非常适合机器学习和数据分析，而Go则逐步成为高性能数据基础设施的首
Python爬虫实战：从新浪财经爬取股票新闻的完整实现 Python爬虫项目 python 爬虫开发语言数据分析 php
第一部分：爬虫概述1.1什么是爬虫？爬虫是指通过程序模拟浏览器的行为，自动化地抓取网络上的数据。通过爬虫技术，能够从各种网站上提取信息，广泛应用于数据采集、数据分析、机器学习等领域。1.2新浪财经简介新浪财经是中国最大的财经信息平台之一，提供股票、基金、债券、外汇等多方面的财经新闻和数据。在股票领域，新浪财经提供了大量的股票行情、实时数据、新闻报道等信息，因此爬取新浪财经的股票新闻对于投资分析和决
基于用户画像的商品推荐系统 Dush32 机器学习人工智能 python 推荐算法
随着人工智能和大数据技术的进步，产品推荐系统成为了现代广告与电商平台中不可或缺的部分。通过深度挖掘用户的行为数据，能够为广告主提供精准的用户画像，从而更高效地推荐相关产品，提升购买转化率。本项目基于科大讯飞AI营销云大赛的赛题，目的是利用用户画像进行产品推荐，预测用户是否会购买相应商品。我们使用了机器学习的二分类模型，通过分析用户的性别、年龄、常驻地、机型等信息，来判断用户的付费行为。项目目标：本
InfluxDB 数据模型：桶、测量、标签与字段详解（一）计算机毕设定制辅导-无忧 #InfluxDB db
一、引言**在大数据和物联网蓬勃发展的当下，时间序列数据的处理需求呈爆发式增长。InfluxDB作为一款高性能的开源时序数据库，凭借其卓越的特性，在时序数据库领域占据了重要地位，被广泛应用于各种场景。InfluxDB专为时间序列数据设计，拥有高效的存储和查询性能。它采用独特的存储引擎，能够快速写入大量带有时间戳的数据，并支持灵活的查询操作。其核心设计针对时间序列数据的特点进行了优化，包括时间索引、
Kafka 集群架构与高可用方案设计（一）计算机毕设定制辅导-无忧 #Kafka kafka 架构分布式
Kafka集群架构与高可用方案设计的重要性在大数据和分布式系统的广阔领域中，Kafka已然成为了一个中流砥柱般的存在。它最初由LinkedIn开发，后捐赠给Apache软件基金会并成为顶级项目，凭借其卓越的高吞吐量、可扩展性以及持久性，被广泛应用于日志收集、实时数据处理、流计算、数据集成等诸多关键领域。在日志收集场景下，以大型互联网公司为例，每天都会产生海量的日志数据，如用户的访问记录、系统操作日
基于 Python/PHP/Node.js 的淘宝 API 商品数据抓取开发教程
在电商数据分析、竞品监控等场景中，抓取淘宝商品数据是常见需求。淘宝开放平台（OpenPlatform）提供了标准化的API接口，通过合法途径调用可高效获取商品信息。本文将分别基于Python、PHP、Node.js三种语言，详解淘宝API商品数据抓取的开发流程，并提供完整代码示例。一、淘宝API准备工作在开发前，需完成以下准备步骤：注册开发者账号访问注册账号并完成实名认证，创建应用（应用类型选择“
大数据集成方案对比：Kafka vs Flume vs Sqoop AI天才研究院计算 AI大模型应用入门实战与进阶 Agentic AI 实战大数据 kafka flume ai
大数据集成方案对比：KafkavsFlumevsSqoop关键词：大数据集成、Kafka、Flume、Sqoop、流处理、批量迁移、日志收集摘要：在大数据生态中，数据集成是连接数据源与数据处理平台的关键环节。本文深度对比Kafka、Flume、Sqoop三大主流集成工具，从核心架构、技术原理、适用场景到实战案例展开系统性分析。通过数学模型量化性能差异，结合实际项目经验总结选型策略，帮助开发者根据业
飞算科技：以创新科技引领数字化变革，旗下飞算 JavaAI 成开发利器飞算JavaAI开发助手科技
作为国家级高新技术企业，飞算科技专注于自主创新，在数字科技领域持续深耕，用前沿技术为各行业客户赋能，助力其实现数字化转型升级的飞跃。飞算科技凭借深厚的技术积累，将互联网科技、大数据、人工智能等技术与实际应用紧密融合。公司组建了一支由行业资深专家和技术精英构成的团队，他们在相关领域积累了多年实践经验，深刻理解不同行业客户在数字化进程中面临的痛点与挑战。基于这些洞察，飞算科技推出了一系列具有创新性和实
Python爬虫实战：批量下载小红书笔记图片的全流程技术解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫笔记开发语言音视频 github
1.引言：为什么要爬取小红书笔记图片小红书作为新兴的生活方式分享平台，聚集了大量高质量原创笔记内容，涵盖时尚、美妆、旅游、美食等多领域。笔记中的图片往往是内容的核心，批量下载小红书笔记图片，有助于：内容归档与备份数据分析与用户行为研究图像识别与机器学习训练电商推广及内容再加工但小红书对内容保护做得较好，爬取难度较高，需要结合多技术手段突破。2.小红书平台特点与爬取难点动态加载与API接口多变：页面
Java 大视界 -- Java 大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用青云交大数据新视界 Java 大视界 java 大数据机器学习情绪分析智能投资多源数据
Java大视界--Java大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用）引言：正文：一、金融情绪数据的立体化采集与治理1.1多模态数据采集架构1.2数据治理与特征工程二、Java机器学习模型的工程化实践2.1情感分析模型的深度优化2.2强化学习驱动的动态投资策略三、顶级机构实战：Java系统的金融炼金术四、技术前沿：Java与金融科技的未来融合4.1量子机器学习集成4.2联邦学习在合
Java 大视界 -- Java 大数据在影视内容推荐与用户兴趣挖掘中的深度实践（183）青云交大数据新视界 Java 大视界 Java+Python 双剑合璧：AI 大数据实战通关秘籍大数据影视内容推荐用户兴趣挖掘协同过滤基于内容推荐数据可视化个性化推荐系统
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！全网（微信公众号/CSDN/抖音/华为/支付宝/微博）：青云交一、欢迎加入【福利社群】点击快速加入1：青云交技术圈福利社群（NEW)点击快速加入2：2025CS
Java 大视界 -- 基于 Java 的大数据分布式文件系统在科研数据存储与共享中的应用优化（187）青云交大数据新视界 Java 大视界 Java+Python 双剑合璧：AI 大数据实战通关秘籍大数据大数据分布式文件系统科研数据存储科研数据共享应用优化 HDFS 数据分区
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！全网（微信公众号/CSDN/抖音/华为/支付宝/微博）：青云交一、欢迎加入【福利社群】点击快速加入1：青云交技术圈福利社群（NEW)点击快速加入2：CSDN博客
Python医疗大数据实战：基于Scrapy-Redis的医院评价数据分布式爬虫设计与实现 Python爬虫项目 python 开发语言爬虫 selenium scrapy
摘要本文将详细介绍如何使用Python构建一个高效的医院评价数据爬虫系统。我们将从爬虫基础讲起，逐步深入到分布式爬虫架构设计，使用Scrapy框架结合Redis实现分布式爬取，并采用最新的反反爬技术确保数据采集的稳定性。文章包含完整的代码实现、性能优化方案以及数据处理方法，帮助读者掌握医疗大数据采集的核心技术。关键词：Python爬虫、Scrapy-Redis、分布式爬虫、医疗大数据、反反爬技术1
数据分析综合应用 30分钟精通计划 z日火校招学习日记数据分析数据挖掘
数据分析综合应用30分钟精通计划（完整版含输出）⏰时间分配5分钟：数据加载与清洗基础10分钟：探索性数据分析(EDA)10分钟：数据分析实战案例5分钟：分析报告生成第一部分：数据加载与清洗基础(5分钟)1.模拟真实数据集importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportwarningswarnings
flink-sql读写hive-1.13 第一片心意 flink flink sql hive
1.版本说明本文档内容基于flink-1.13.x，其他版本的整理，请查看本人博客的flink专栏其他文章。1.1.概述ApacheHive已经成为了数据仓库生态系统中的核心。它不仅仅是一个用于大数据分析和ETL场景的SQL引擎，同样也是一个数据管理平台，可用于发现，定义，和演化数据。Flink与Hive的集成包含两个层面。一是利用了Hive的MetaStore作为持久化的Catalog，用户可通
数据分析的三大框架：底层技术、分析建模、工具选择 YHFHing 数据分析数据分析
有了世界观，我们可以开始搭建自己的知识大厦了。在搭建知识大厦之前，先需要建立知识的框架，然后才能高效的填充知识。所以今天我们先建立框架。数据分析的三大框架数据科学的框架分为三部分：底层技术框架/数据分析框架/工具选择框架，接下来依次给大家介绍：1.底层技术框架底层技术框是数据科学的基础设施，我们有所了解就好，处理框架和处理引擎负责对数据系统中的数据进行计算。流处理系统：流处理系统会对随时进入系统的
AI日报-20250620：华为云重磅发布盘古大模型5.5！宇树科技C轮融资引爆资本圈！Genspark AI Pod震撼发布！未来世界2099 AI日报人工智能华为云科技业界资讯
1、昆仑万维开源Skywork-SWE-32B：32B模型刷新代码修复SOTA，性能直逼闭源巨头2、腾讯AILab开源音乐生成大模型SongGeneration，人人皆可创作音乐！3、重磅！ManusAIWindows版免码开放，职场效率革命来袭！4、B站618商单效率飙升5倍！通义千问3助力AI选人功能大爆发5、HailuoVideoAgent震撼发布：零门槛生成专业级视频，创意秒变现实！6、中
觉察与正念佳佳的宝瓶子
今天因为交电费的事与妈妈沟通。在沟通的过程中，年届八十的母亲一直给我强调着过去怎么怎么。父母家的电费一直是银行代扣的，这样的模式自从可以通过银行代扣便开始了。可见那时候的父母还是蛮新潮的，能接受新事物的。至从有了智能手机，人类便进入了大数据时代。通过微信或支付宝来交电费方便得多。可惜父亲不在了，老母亲是连手机都坚决不用的人。（因为想要掩饰自己的不能、不敢，所以干脆拒绝！不愿意做任何的改变）。今年，
Java大视界：Java大数据在智能医疗电子健康档案数据挖掘与健康服务创新＞ Loving_enjoy 计算机学科论文创新点人工智能深度学习迁移学习经验分享
>本文通过完整代码示例，揭秘如何用Java大数据技术挖掘电子健康档案价值，实现疾病预测、个性化健康管理等创新服务。###一、智能医疗时代的数据金矿电子健康档案（EHR）作为医疗数字化的核心载体，包含海量患者全生命周期健康数据。据统计，全球医疗数据量正以每年**48%的速度增长**，单个三甲医院年数据量可达**PB级**。这些数据蕴藏着疾病规律、治疗效能的宝贵知识，但传统技术难以有效挖掘。**Jav
无人值守人工智能智慧系统数据分析：深度洞察与未来展望呆码科技人工智能数据分析数据挖掘
无人值守人工智能智慧系统数据分析：深度洞察与未来展望随着科技的飞速发展，人工智能（AI）技术已逐渐渗透到社会经济的各个领域，其中无人值守人工智能智慧系统作为AI技术应用的前沿阵地，正引领着一场深刻的行业变革。这类系统通过集成高级算法、大数据分析、物联网（IoT）及云计算等先进技术，实现了对复杂环境的自主监控、智能决策与高效管理，极大地提升了运营效率，降低了人力成本，并开启了数据驱动决策的新纪元。本
Python在股票数据分析中的应用，如何通过代码实现精准预测股价走势？股票程序化交易接口量化交易股票API接口 Python股票量化交易数据分析 python 股票数据分析股价走势预测代码实现股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>数据获取与导入在股票数据分析中，首先要获取相关数据。Python有许多库可实现这一功能，比如pandas-datareader。使用它可以轻松从知名数据源如雅虎财经获取股票的历史价格、成交量等数据。只需简单几行代码，就能将特定股票在特
浮漂式水质监测设备：智能守护水环境的未来之眼柏峰电子人工智能
浮漂式水质监测设备：智能守护水环境的未来之眼柏峰【BF-FBSZ】随着全球水资源短缺和水污染问题日益严峻，水质监测技术正迎来前所未有的发展机遇。作为这一领域的创新突破，浮漂式水质监测设备凭借其实时性、智能化和网络化优势，正在重塑水资源管理的新格局。本文将深入探讨这一技术的原理、特点、应用场景及未来发展趋势。一、技术原理与系统架构浮漂式水质监测设备是一种集成了现代传感器技术、物联网和大数据分析的智能
NUS：LLM表格数据建模综述
标题：LanguageModelingonTabularData:ASurveyofFoundations,TechniquesandEvolution来源：arXiv,2408.10548摘要表格数据是一种跨领域的流行数据类型，由于其异构性和复杂的结构关系，带来了独特的挑战。在表格数据分析中实现高预测性能和鲁棒性对许多应用程序具有重大前景。受自然语言处理，特别是转换器架构的最新进展的影响，出现了
基于蜣螂算法优化多头注意力机制的卷积神经网络结合双向长短记忆神经网络实现温度预测DBO-CNN-biLSTM-Multihead-Attention附matlab代码 matlab科研助手神经网络算法 cnn
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。个人主页：Matlab科研工作室个人信条：格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理图像处理路径规划元胞自动机无人机物理应用机器学习内容介绍温度预测在气象学、农业、能源等领域具有重要的应用价值。随着大数据和人工智能技术的快速发
套数据分析模板（含 Python 代码和示例数据）女码农的重启开发语言数据清洗 python java 数据分析
一、销售数据分析模板（1-10套）模板1：月度销售趋势分析示例数据（sales_monthly.csv）月份,销售额,销量,客单价2023-01,120000,500,2402023-02,135000,550,245.452023-03,150000,600,250...Python代码importpandasaspdimportmatplotlib.pyplotasplt#设置中文显示plt.
SPARKLE：深度剖析强化学习如何提升语言模型推理能力
摘要：强化学习（ReinforcementLearning，RL）已经成为赋予语言模型高级推理能力的主导范式。尽管基于RL的训练方法（例如GRPO）已经展示了显著的经验性收益，但对其优势的细致理解仍然不足。为了填补这一空白，我们引入了一个细粒度的分析框架，以剖析RL对推理的影响。我们的框架特别研究了被认为可以从RL训练中受益的关键要素：（1）计划遵循和执行，（2）问题分解，以及（3）改进的推理和知
基于Socket来构建无界数据流并通过Flink框架进行处理每天五分钟玩转人工智能 Flink技术实战 flink 大数据 Flink 分布式无界数据
本文重点随着大数据技术的不断发展，实时数据流处理已成为企业应对海量数据、实现快速决策的关键技术。ApacheFlink是一个开源的流处理框架，它能够对无界数据流进行高效的、精确的处理。本文将介绍如何通过Socket构建无界数据流，并利用Flink框架进行无界流处理。基于Socket构建无界数据无界数据指的是源源不断产生的数据，这些数据通常来自各种实时数据源，如用户行为日志、传感器数据等。Socke
sgg大数据全套技术链接[plus] 原来是大华啊~ 资源大数据
写在开头：感谢尚硅谷，尚硅谷万岁，我爱尚硅谷111个技术栈+43个项目，兄弟们，冲！最近小米又又又火了一把，致敬所有造福人民的企业和伟大的企业家，致敬雷军，小米，致敬马云，致敬尚硅谷，致敬所有为人民谋福的英雄人物和企业，再次献上我诚挚的敬意，致敬！尚硅谷大数据全套111个技术1.Java从入门到精通JDK版链接：https://pan.baidu.com/s/1GAc610SYSMmZBuOX4D
疫情下，我的健康码首次变成了黄码唯我一心
3月中旬，老公在广州白云区接了一单生意，要很久才回来，就在那里租了一间房，带我和孩子一起住。房子在七楼，步梯，因孩子小，自己就很少下楼，都是他买菜回来，4月8号，订单完成，返程回了佛山。过了两天突然接到短信通知，白云区要大规模核酸筛查，又过一天收到短信:通过大数据分析，您近期行程涉及疫情防控重点区域，您的健康码将被赋予2次黄码并需开展2次核酸检测，请注意健康码状态，尽快凭码到附近黄码核酸检测点进行
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他