weixin_39804059

MySQL spark离线计算_Spark SQL实现日志离线批处理

一、基本的离线数据处理架构：

数据采集 Flume：Web日志写入到HDFS

数据清洗脏数据 Spark、Hive、MR等计算框架来完成。清洗完之后再放回HDFS

数据处理按照需要，进行业务的统计和分析。也通过计算框架完成

处理结果入库存放到RDBMS、NoSQL中

数据可视化通过图形化展示出来。 ECharts、HUE、Zeppelin

处理框图：

1 2 3 4 5 6 7为离线处理，其中5不一定是Hive(还有Spark SQL等) 6不一定是RDBMS(NoSQL)

执行时，可用调度框架Oozie、Azkaban，指定任务执行的时间

另外一条线是实时处理

拟定项目需求：

统计某时间段最受欢迎的某项的TopN和对应的访问次数

按地市统计最受欢迎从IP提取城市信息

按访问流量统计

互联网日志一般包括有：

访问时间访问URL 耗费流量访问IP地址

从日志里提取以上我们需要的数据

假设我们现在仅有一台电脑供学习作为集群使用，为了防止内存溢出，有必要进行剪切日志：

用head -10000命令截取前10000条

数据量太大的话，在IDE中可能会报错

二、日志处理过程

数据清洗：

第一步：从原始日志提取有用信息，本例中就是拿到时间、URL、流量、IP

读取日志文件，得到RDD，通过map方法，split成一个数组，然后选择数组中有用的几项(用断点的方法分析哪几项有用，并匹配相应的变量)

获取到的信息有可能因为某些问题，如线程问题而导致生成了带有错误的信息，第一步中一开始用了SimpleDateFormat(线程不安全)来转变时间格式，会导致某些时间转换错误。一般要改成FastDateFormat来做

实现代码：

//提取有用信息，转换格式

object SparkStatFormatJob {

def main(args: Array[String])={

val spark= SparkSession.builder().appName("SparkStatFormatJob").master("local[2]").getOrCreate()

val access= spark.sparkContext.textFile("/Users/kingheyleung/Downloads/data/10000_access.log")//access.take(10).foreach(println)

access.map(line =>{

val splits= line.split(" ")

val ip= splits(0)//用断点的方法，观察splits数组，找出时间、url、流量对应哪一个字段//创建时间类DateUtils，转换成常用的时间表达方式//把url多余的""引号清除掉

val time = splits(3) + " " + splits(4)

val url= splits(11).replaceAll("\"", "")

val traffic= splits(9)//(ip, DateUtils.parse(time), url, traffic) 用来测试输出是否正常//把裁剪好的数据重新组合,用Tab分割

DateUtils.parse(time) + "\t" + url + "\t" + traffic + "\t" +ip

}).saveAsTextFile("file:///usr/local/mycode/immooclog/")

spark.stop()

}

//日期解析

object DateUtils {//输入格式

val ORIGINAL_TIME_FORMAT = FastDateFormat.getInstance("dd/MMM/yyyy:HH:mm:sss Z", Locale.ENGLISH)//输出格式

val TARGET_TIME_FORMAT = FastDateFormat.getInstance("yyyy-MM-dd HH:mm:ss")

def parse(time:String)={

TARGET_TIME_FORMAT.format(newDate(getTime(time)))

}

def getTime(time:String)={try{

ORIGINAL_TIME_FORMAT.parse(time.substring(time.indexOf("[") + 1, time.lastIndexOf("]"))).getTime

}catch{case e : Exception =>{0l}

}

一般日志处理需要进行分区

本例中按照日志中的访问时间进行分区

第二步：解析上一步得到的有用信息，我把它称为解析日志

其实就是把较为整洁的数据日志，解析出每个字段的含义，并把RDD转成DF

在此案例中，完成的是：

输入：访问时间访问URL 耗费流量访问IP地址 =>转变为输出：url、类型(本例中url的后缀有article还是video)、对应ID号、流量、ip、城市、时间、天(用于分组)

并且创建DataFrame(也就是定义Row和StructType，其中Row要和原日志的每个字段对应，而StructType是根据所需要的输出来定义就行)

实现代码：

//解析日志

object SparkStatCleanJob {

def main(args: Array[String])={

val spark= SparkSession.builder().appName("SparkStatCleanJob").master("local[2]").getOrCreate()

val accessRDD= spark.sparkContext.textFile("file:///Users/kingheyleung/Downloads/data/access_10000.log")//RDD convert to DF, define Row and StructType

val accessDF = spark.createDataFrame(accessRDD.map(line =>LogConvertUtils.convertToRow(line)), LogConvertUtils.struct)//accessDF.printSchema()//accessDF.show(false)

spark.stop()

}

//RDD转换成DF的工具类

object LogConvertUtils {//构建Struct

val struct =StructType(

Array(

StructField("url", StringType),

StructField("cmsType", StringType),

StructField("cmsId", LongType),

StructField("traffic", LongType),

StructField("ip", StringType),

StructField("city", StringType),

StructField("time", StringType),

StructField("day", StringType)

)

)//提取信息，构建Row

def convertToRow(line:String) ={try{

val splits= line.split("\t")

val url= splits(1)

val traffic= splits(2).toLong

val ip= splits(3)

val domain= "http://www.imooc.com/"val cms= url.substring(url.indexOf(domain) +domain.length())

val cmsSplits= cms.split("/")

var cmsType= ""var cmsId= 0l

//判断是否存在

if (cmsSplits.length > 1) {

cmsType= cmsSplits(0)

cmsId= cmsSplits(1).toLong

}

val city= IpUtils.getCity(ip) //通过Ip解析工具传进，具体看下面

val time = splits(0)

val day= time.substring(0, 10).replaceAll("-", "")//定义Row，与Struct一样

Row(url, cmsType, cmsId, traffic, ip, city, time, day)

}catch{case e: Exception => Row(0)

}

注意：转换时一定要记得类型转换！！！！

进一步解析：对IP地址解析来获得城市信息

在这里，为了让IP地址转换成直观的城市信息，我使用了GitHub上的开源项目来实现：

用Maven编译下载的项目

mvn clean package -DskipTests

安装jar包到自己的Maven仓库中：

mvn install:install-file -Dfile=路径.jar -DgroupId=com.ggstar -DartifactId=ipdatabase -Dversion=1.0 -Dpackaging=jar

在IDE里面的pom.xml添加dependency，参照GitHub主页上的pom.xml中的dependency

但是出现报错了：

java.io.FileNotFoundException:

file:/Users/rocky/maven_repos/com/ggstar/ipdatabase/1.0/ipdatabase-1.0.jar!/ipRegion.xlsx (No such file or directory)

根据提示，我们需要在项目源码中找到相应的文件拷进去IDE中的main/resources中！

存储清洗后的数据：

按day分区来进行存储 partitionBy

存储模式：mode(SaveMode.Overwrite) 覆盖存储

coalesce：据说生产中经常用，是项目的调优点，控制文件的输出大小，个数

三、统计功能实现

功能实现一：统计TopN视频

第一步：读取数据，read.format().load

第二步：

使用DataFrame API统计分析

SQL API

最后把统计结果保存在MySQL数据库中

调优点：

读取parquet文件时，系统会默认解析各字段相应的数据类型，但有时候我们就只需要它是String类型，需要在SparkSession定义时添加：

config("spark.sql.sources.partitionColumnTypeInference.enabled, "false"")

变成只会按照原类型读入

两种方法：

若使用DataFrame API来做：

用$号时候需要导入隐式转换(这里是列名转换成列)！spark.implicits._

用到dataframe的count()函数要导入包：org.apache.spark.sql.functions._

若使用SQL API来做：

创建临时表createTempView

小心写SQL语句换行时不注意而忽略空格

实现代码：

//完成统计操作

object TopNStatJob {

def main(args: Array[String]) {

val spark= SparkSession.builder().appName("TopNStatJob")

.config("spark.sql.sources.partitionColumnTypeInference.enabled", "false")

.master("local[2]").getOrCreate()

val accessDF= spark.read.format("parquet").load("/Users/kingheyleung/Downloads/data/clean/")

dfCountTopNVideo(spark, accessDF)

sqlCountTopNVideo(spark, accessDF)//accessDF.printSchema()

spark.stop()

}

def dfCountTopNVideo(spark: SparkSession, accessDF: DataFrame): Unit={/** DF API

**/

//导入隐式转换, 留意$号的使用, 并且导入functions包，使agg聚合函数count能够使用，此处若不用$的话，就无法让times进行desc排序了

importspark.implicits._

val topNDF= accessDF.filter($"day" === "20170511" && $"cmsType" === "video")

.groupBy("day", "cmsId").agg(count("cmsId").as("times")).orderBy($"times".desc)

topNDF.show(false)

}

def sqlCountTopNVideo(spark: SparkSession, accessDF: DataFrame): Unit={/** SQL API

**/

//创建临时表access_view，注意换行时，很容易忽略掉空格

accessDF.createTempView("access_view")

val topNDF= spark.sql("select day, cmsId, count(1) as times from access_view " +

"where day == '20170511' and cmsType == 'video' " +

"group by day, cmsId " +

"order by times desc")

topNDF.show(false)

}

在保存数据之前，需要写连接MySQL数据库的工具类，用到java.sql包

使用DriverManager，连接到mysql 3306

释放资源，connection和preparedstatement都要，注意处理异常

注意：若测试时拿不到连接，出现以下报错，那就是没有在dependency中添加或者选对mysql-connetor包

java.sql.SQLException: No suitable driver found for jdbc:mysql://localhost:3306/imooc_project?user=root&password=666

Error:scalac: error while loading , Error accessing /Users/kingheyleung/.m2/repository/mysql/mysql-connector-java/5.0.8/mysql-connector-java-5.0.8.jar

我最终选的是5.1.40版本才对了

实现代码：

/** 连接MySQL数据库

* 操作工具类

**/object MySQLUtils {//获得连接

def getConnection(): Unit ={

DriverManager.getConnection("jdbc:mysql://localhost:3306/imooc_project?user=root&password=666")

}//释放资源

def release(connection: Connection, pstmt: PreparedStatement): Unit ={try{if (pstmt != null) {

pstmt.close()

}

}catch{case e: Exception =>e.printStackTrace()

}finally{

connection.close()

}

把统计数据保存到MySQL

在mysql中创建一张表，包含day，cms_Id，times三个字段(注意各自的数据类型，以及定义不允许为NULL，并把day和cms_Id作为PRI KEY)

创建模型类case class，三个输入参数，day、cms_Id，times

创建操作数据库DAO类，输入的参数是一个list，list装的是上面的模型类，目的是插入insert记录到数据库中，DAO中分以下几步：

首先，做jdbc连接的准备，创建connection和prepareStatement，把关闭连接也写好，用try catch finally抛出异常；

然后写sql语句，preparestatement需要赋值的地方用占位符放着；

进行对list遍历，把每个对象都放进pstmt中

调优点！！！遍历前把自动提交关掉，遍历中把pstmt加入批处理中，遍历完后执行批处理操作！最后手工提交连接

实现代码：

//课程访问次数实体类

case classVideoAccessStat(day: String, cmsId:Long, times: Long)/** 各个维度统计的DAO操作

**/object StatDAO {/** 批量保存VideoAccessStat到数据库

**/def insertDayAccessTopN(list: ListBuffer[VideoAccessStat]): Unit={

var connection: Connection= null //jdbc的准备工作, 定义连接

var pstmt: PreparedStatement = null

try{

connection= MySQLUtils.getConnection() //真正获取连接

connection.setAutoCommit(false) //为了实现批处理，要关掉默认的自动提交

val sql= "insert into day_topn_video(day, cms_id, times) values (?, ?, ?)" //占位符

pstmt = connection.prepareStatement(sql) //把SQL语句生成pstmt对象，后面才可以填充占位符中的数据

for (ele

pstmt.setString(1, ele.day)

pstmt.setLong(2, ele.cmsId)

pstmt.setLong(3, ele.times)

pstmt.addBatch()//加入批处理

}

pstmt.execute()//执行批量处理

connection.commit() //手工提交

}catch{case e: Exception =>e.printStackTrace()

}finally{

MySQLUtils.release(connection, pstmt)

}

为了对应以上的第3步，要把统计记录的DF生成一个个对象，放进list中：

创建模型类对应的list

对记录进行遍历，把记录的每个字段当做参数，创建模型类对象

把每个对象添加到list中

把list传进DAO类中

以下代码添加到上面的TopNJob类里面中就可以把之前生成到的topDF的结果记录保存到MySQL当中了：

try{

topNDF.foreachPartition(partitionOfRecords=> { // val list = new ListBuffer[VideoAccessStat] //创建list来装统计记录//遍历每一条记录，取出来上面对应的三个字段day，cmsId，times

partitionOfRecords.foreach(info =>{

val day= info.getAs[String]("day") //后面的就是取出来的记录的每个字段

val cmsId = info.getAs[Long]("cmsId")

val times= info.getAs[Long]("times")//每一次循环创建一个VideoAccessStat对象，添加一次进入list中

list.append(VideoAccessStat(day, cmsId, times))

})//把list传进DAO类

StatDAO.insertDayAccessTopN(list)

})

}catch{case e: Exception =>e.printStackTrace()

}

到此为止已经把项目需求一完成。

功能实现二：按照城市来找出topN视频

在功能一的基础上，运用row_number函数来实现

具体的实现代码：

//先计算访问次数，并按照day，cmsId，city分组

val cityAccessTopNDF = accessDF.filter(accessDF.col("day") === "20170511" && accessDF.col("cmsType") === "video")

.groupBy("day", "cmsId", "city").agg(count("cmsId").as("times"))//进行分地市排序，使用到row_number函数，生成一个排名，定义为time_rank, 并且取排名前3

cityAccessTopNDF.select(

cityAccessTopNDF.col("day"),

cityAccessTopNDF.col("cmsId"),

cityAccessTopNDF.col("times"),

cityAccessTopNDF.col("city"),

row_number().over(Window.partitionBy(cityAccessTopNDF.col("city"))

.orderBy(cityAccessTopNDF.col("times").desc)

).as("times_rank")

).filter("times_rank <= 3").show(false)

}

其他步骤和功能一一样，但是插入Mysql的时候报错，原因是MySQL不支持插入中文！！！！

首先可以在mysql命令行中用SET character来改：

SET character_set_client = utf8

可通过

show variables like 'character_set_%’;

查看当前的character编码设置

然后在jdbc连接时，加上：

useUnicode=true&characterEncoding=utf8

改了之后，虽然能够导入MySQL了，而且不出现乱码，但只有一部分数据，并且在控制台报错：

com.mysql.jdbc.PreparedStatement.fillSendPacket

com.mysql.jdbc.PreparedStatement.execute

后来把批处理删掉竟然就可以把所有数据导入了：

pstmt.executeUpdate //不使用批处理的pstmt插入

功能三：按流量来排序topN视频

和功能一几乎完全一样，只不过计算流量总和时用的不是count函数而是要用sum函数

为了代码的复用性，防止生成重复的数据，在StatDAO定义删除的函数：

def deleteDayData(day: String) ={

var connection: Connection= nullvar pstmt: PreparedStatement= nullvar tables= Array("day_topn_video","day_city_topn_video","traffic_topn_video")try{

connection=MySQLUtils.getConnection()for (table

val deleteSql= s"delete from $table where day = ?” //Scala特殊处理

pstmt =connection.prepareStatement(deleteSql)

pstmt.setString(1, table)

pstmt.setString(2, day)

pstmt.executeUpdate()

}

}catch{case e: Exception =>e.printStackTrace()

}finally{

MySQLUtils.release(connection, pstmt)

}

需要注意的是，table在pstmt中的特殊用法！！

后续会对以上内容进行可视化处理、跑在YARN上的修改、性能调优

前沿技术推动机器人的智能化升级 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据机器人 ai
前沿技术推动机器人的智能化升级关键词：机器人智能化、人工智能、机器学习、计算机视觉、自主导航、人机交互、边缘计算摘要：本文深入探讨了前沿技术如何推动机器人从传统自动化向智能化升级的演进过程。文章首先分析了机器人技术发展的历史脉络和当前挑战，然后详细阐述了人工智能、机器学习、计算机视觉等关键技术如何赋能机器人智能化。通过算法原理分析、数学模型构建和实际项目案例，展示了智能机器人的核心技术实现路径。最
策略模式 - Flutter中的算法超市，运行时自由切换“计算法则“！明似水 flutter 策略模式 flutter 算法
痛点场景：支付流程的if-else地狱假设你正在开发一个电商App，需要支持多种支付方式：voidprocessPayment(Stringmethod,doubleamount){if(method=='alipay'){print('调用支付宝SDK，支付¥$amount');//支付宝特定逻辑...}elseif(method=='wechat'){print('调用微信支付SDK，支付¥$
P1967 [NOIP 2013 提高组] 货车运输(树链剖分+线段树) gw_water cocoa c++算法贪心算法数据结构
文章目录题目要求一、解题思路二、解题过程1.数据结构2.求最小生成树(Kruskal算法)2.答案计算(TCD+SegementTree)AC代码题目要求A国有n座城市，编号从1到n，城市之间有m条双向道路。每一条道路对车辆都有重量限制，简称限重。现在有q辆货车在运输货物，司机们想知道每辆车在不超过车辆限重的情况下，最多能运多重的货物。一、解题思路本题求一条路径，使得其在不超过限制重量的前提下，载
鸿蒙应用变现策略：盈利模式全面分析操作系统内核探秘操作系统内核揭秘 harmonyos 华为 ai
鸿蒙应用变现策略：盈利模式全面分析关键词：鸿蒙应用、变现策略、盈利模式、应用内购买、广告盈利、订阅服务摘要：本文旨在全面分析鸿蒙应用的变现策略和盈利模式。随着鸿蒙操作系统的广泛应用，众多开发者希望借助这一平台实现应用的盈利。文章将从背景介绍入手，阐述鸿蒙应用的发展现状和盈利的重要性。接着详细解析核心概念，包括常见的盈利模式及其原理。通过数学模型和公式说明不同盈利模式的潜在收益计算方法。结合项目实战
青少年编程与数学 02-022 专业应用软件简介 02 计算机辅助设计（CAD）软件：AutoCAD 明月看潮生编程与数学第02阶段青少年编程应用软件编程与数学 CAD
青少年编程与数学02-022专业应用软件简介02计算机辅助设计（CAD）软件：AutoCAD一、计算机辅助设计（CAD）概述（一）定义（二）CAD的优势（三）CAD的应用范围二、计算机辅助设计发展历程（一）起源阶段（20世纪50年代-60年代）（二）初步发展阶段（20世纪70年代）（三）成熟阶段（20世纪80年代-90年代）（四）拓展阶段（20世纪末-21世纪初）（五）智能化与集成化阶段（21世纪
青少年编程与数学 02-022 专业应用软件简介 03 三维建模及动画软件：Autodesk Maya 明月看潮生编程与数学第02阶段青少年编程 maya 编程与数学应用软件动画三维建模
青少年编程与数学02-022专业应用软件简介03三维建模及动画软件：AutodeskMaya一、什么是三维建模二、什么是计算机动画三、三维建模及动画设计软件的发展历程（一）早期探索阶段（20世纪60年代-80年代）（二）初步发展阶段（20世纪80年代-90年代）（三）快速发展阶段（20世纪90年代-21世纪初）（四）多元化与整合阶段（21世纪初-至今）四、三维建模及动画设计软件主要产品（一）Aut
生信分析用python还是r_生信分析利器：JupyterLab weixin_39612726 生信分析用python还是r
生信分析对计算机的开发环境有诸多要求，随之而来的自然就是很多麻烦。不说别的，要兼顾Python和R的问题就有够头疼。一边想着用Python搭流程处理文本和分析结果，另一边还想着用R来做统计分析和画图，而且大多数时候生信分析还得在服务器上完成。Python你用Pycharm，R用Rstudio，一会这儿一会那儿的切来切去，还得设置服务器连接(Pycharm如果不是付费版本，要连服务器还挺麻烦)。完了
变量与数据类型转换久未放晴的天空@ 算法
文章目录前言一、变量二、数据类型二、类型转换总结前言在编程中，变量与数据类型转换是基础且核心的概念。变量用于存储数据，而数据类型决定了数据的存储方式与操作规则。实际开发中，经常需要将数据从一种类型转换为另一种类型以满足计算、逻辑判断或交互需求。理解数据类型转换的规则、方法及潜在问题，能够帮助开发者更高效地编写健壮、灵活的代码。本节将系统介绍变量定义、常见数据类型以及如何在不同类型间进行安全转换。一
关于AWS使用（一）——申请付费版亚马逊云服务器的详细流程 m0_63984008 linux 服务器 mysql
一、创建账号：注册准备：1，一个在用邮箱2，一张在用的有Visa或者Master标志的信用卡（要支持美元预授权）3，一部在用的电话4,一个支持key文件导入的ssh客户端（我后面只介绍linux下使用ssh命令行客户端）5，最好是有软件（不是必要的，主要是访问速度的问题。耐心不好的人一定要访问）步骤1,注册：亚马逊云计算中心的网址：https://aws.amazon.com/cn(如果英文可以的
container_memory_working_set_bytes` 与 `container_memory_usage_bytes` 的区别强哥之神 prometheus 容器 docker k8s
在Prometheus中，container_memory_working_set_bytes与container_memory_usage_bytes的区别如下：计算方式及包含内容：container_memory_usage_bytes：表示容器当前使用的总内存，包括所有内存，不管这些内存是否最近被访问过，也不管其是否可以被操作系统回收，即它包含了缓存、工作集等所有内存部分。container
微软服务器安全问题国际云1688 微软云云计算服务器云原生运维 azure
微软云服务器安全深度解析：挑战、应对与未来展望——构建韧性“安全之盾”的持续博弈！在当今数字化时代，云计算已成为众多企业和组织运行业务的核心基础设施和“数字生命线”，而微软云（Azure）作为全球领先的云服务提供商之一，其安全性无疑是全球数十万企业客户最为关注的焦点。然而，近年来，我们不得不承认，微软云服务器却频繁出现安全事故，从配置错误引发的数据泄露到DDoS攻击下的防护困境，再到软件更新导致的
没有VISA怎么注册AWS？国际云1688 aws 云原生人工智能云计算服务器大数据 aws
没有VISA怎么注册AWS？跨境卖家、开发者与学生党必看的“AWS账号开通终极指南”！在云计算日益普及的今天，AmazonWebServices（AWS）作为全球领先的云服务提供商，以其服务广度、技术深度和生态系统成熟度，吸引了众多开发者、企业和初创公司的目光。然而，对于一些用户，特别是初学者、学生、或身处国际支付不便地区的个人和中小企业来说，注册AWS账号时遇到的第一个“拦路虎”就是：没有VIS
Codeforces Round 927 (Div. 3)-------＞E - Final Countdown(高精度思想+前缀和优化) @超级码力算法笔记
1.想这这种分析起来很有规律，但是找到的时候，就可以猜结论赌一下了。2.题目样例：输入：12345输出：13715。你会发现12345+1234+123+12+1=13715。3.发现前缀和特点：写在代码里面4.代码//前缀和特点：/*列计算竖式-->123451234123121*///你会发现每一位上如果不进位的话，值会等于他前面数位上数字的和（前缀和）#include#includeusin
【AI】AI大模型发展史：从理论探索到技术爆发不想当程序汪的第N天 AI 人工智能
一、早期探索阶段—理论与技术奠基1.1符号主义与连接主义的博弈20世纪50-70年代，符号主义AI主导研究方向，通过专家系统模拟人类逻辑推理，但受限于计算能力和数据规模。80年代连接主义AI兴起，以神经网络为核心，反向传播算法的提出为深度学习奠定基础。1.2神经网络初步实践1980年：卷积神经网络（CNN）雏形诞生1998年：LeNet-5模型成功应用于手写数字识别，成为首个商用深度学习模型关键局
Mysql数据库操作 2301_80329775 MySQL管理和高可用 Linux系统管理数据库 mysql adb
目录前言一：Mysql数据库介绍二:MYSQL库操作1.系统数据库2.数据库操作2.1创建数据库2.2数据库命名规则2.3选择数据库2.4查看数据库2.5删除数据库三：MYSQL表操作1.表介绍2.查看表3.创建表3.1语法3.2类型介绍日期类型：3.3约束条件3.4创建表示例4.查看表结构5.修改表5.1修改表名5.2增加字段5.3删除字段5.4修改字段6.复制表7.删除表四、MySQL数据操作
MySQL 索引和事务 2301_80329775 Linux系统管理 MySQL管理和高可用 mysql adb android
目录前言一、MySQL索引介绍1.索引概述2.索引作用3.索引的分类3.1普通索引3.2唯一索引3.3主键索引3.4组合索引(最左前缀)3.5全文索引(FULLTEXT)3.6创建索引的原则依据3.7查看索引3.8删除索引二、MySQL事务1.事务的ACID原则MYSQL事务处理主要有两种方法:(1)用BEGIN、ROLLBACK、COMMIT显式控制事务(2)用SETAUTOCOMMIT修改自动
MySQL语句执行流程 xinghaoyan mysql 数据库
MySQL逻辑架构连接器连接命令一般是这么写的mysql-h$ip-P$port-u$user-p那么什么是连接器？MySQL连接器（MySQLConnector）是用于连接和与MySQL数据库进行交互的驱动程序。它提供了与MySQL数据库服务器通信的功能，包括建立连接、执行查询、更新数据等。MySQL提供了多种连接器，常用的有以下几种：JDBC连接器：JDBC（JavaDatabaseConne
如何设计一个聊天系统？
设计一个聊天系统涉及多个模块，包括消息传输、用户管理、存储策略、状态同步、高可用等。下面我从系统设计角度为你分层展开一个具备扩展性与高可用能力的聊天系统设计方案：✅一、需求定义（可根据实际调整）1.1基础功能用户注册/登录一对一私聊群聊离线消息消息撤回/删除在线状态显示多端同步（Web、移动、桌面）1.2非功能需求高并发（百万连接）实时性（RTT<100ms）高可用/可扩展消息可靠性保证支持水平扩
Mysql（SaaS）数据库设计 it_1234 SAAS MySQL 设计模式数据结构 Oracle
MyISAM存储引擎MyISAM是默认存储引擎。它基于更老的ISAM代码，但有很多有用的扩展。（注意MySQL5.1不支持ISAM）。每个MyISAM在磁盘上存储成三个文件。第一个文件的名字以表的名字开始，扩展名指出文件类型。.frm文件存储表定义。数据文件的扩展名为.MYD(MYData)。索引文件的扩展名是.MYI(MYIndex)。要明确表示你想要用一个MyISAM表格，请用ENGINE表选
YOLOv10 全面升级解析：关键改进点一文掌握要努力啊啊啊计算机视觉 YOLO 目标跟踪人工智能目标检测深度学习
✅YOLOv10改进点详解一、前言YOLOv10是由Ultralytics团队在2024年提出的新一代目标检测模型，在保持高精度的同时进一步优化了部署效率和推理速度。它的核心改进包括：改进方向内容✅非解耦头轻量化设计消除非必要分支，减少冗余计算✅Anchor-Free模式默认启用，无需手动设置anchor✅TAL+DFLLoss提升边界框回归质量✅多任务统一接口detect/segment/pos
推客系统小程序全栈开发：从架构设计到功能落地实践 wx_ywyy6798 python java 编辑器推客系统推客系统开发推客微小店推客系统开发
在流量为王的时代，推客系统作为高效的营销裂变工具，正成为企业数字化转型的关键抓手。本文将结合实战案例，深度拆解推客系统小程序从0到1的开发全流程，涵盖需求分析、技术选型、核心功能实现及性能优化方案，为技术人提供可复用的开发思路。一、项目背景与需求剖析推客系统小程序旨在构建一个“用户推广-佣金结算-数据追踪”的闭环生态。某电商平台的实际需求中，需要实现多级分销机制、实时订单同步、智能佣金计算、可视化
PCSC读卡器示例程序揭秘与实践路怜涯
本文还有配套的精品资源，点击获取简介：本项目“PCSC_Demo_PCSC_oldct2_读卡_PCSC型读卡器读卡软件_circle7me.zip”展示了一个使用PCSC（个人计算机智能卡）标准接口读取智能卡数据的演示程序。PCSC是智能卡交互的标准，由SCIA制定，允许应用程序通过统一API访问智能卡。项目包含源代码，支持多种编程语言，并展示了PC/SC架构、API接口、智能卡通信协议、读卡器
华为硬件路由模拟器Hw-routesim的使用与实践指南路怜涯
本文还有配套的精品资源，点击获取简介：Hw-routesim是一个为华为网络设备提供模拟环境的工具，可帮助用户熟悉操作华为路由器、交换机和计算机。通过模拟器，学习者能进行网络实验和故障排查，降低学习成本。它支持路由器和交换机的模拟，计算机网络配置和连接性测试，提供实验模板和丰富的学习资源，并为华为认证考试提供模拟环境。Hw-routesim是网络技术学习的重要辅助工具，能够提升用户理论知识和实际操
Python和MATLAB数字信号波形和模型模拟
要点Python和MATLAB实现以下波形和模型模拟以给定采样率模拟正弦信号，生成给定参数的方波信号，生成给定参数隔离矩形脉冲，生成并绘制线性调频信号。快速傅里叶变换结果释义：复数离散傅里叶变换、频率仓和快速傅里叶变换移位，逆快速傅里叶变换移位，数值NumPy对比观察FFT移位和逆FFT移位。离散时域表示：余弦信号生成取样，使用FFT频域信号表示，使用FFT计算离散傅里叶变换DFT，获得幅度谱并提
Python时域信号特征提取技术要点路怜涯
本文还有配套的精品资源，点击获取简介：在机器学习领域，时域信号特征提取是数据预处理的关键环节，特别是对于时间序列数据。时域信号特征包括信号的基本特性量，如平均值、中值、峰值、谷值、峰谷差、方差、标准差、极值点、峭度与峰度、自相关函数、滑动窗口统计、傅立叶变换和小波分析等。使用Python中的NumPy、Pandas和SciPy库可以帮助我们计算这些特征，并为机器学习模型训练准备数据。本文将介绍如何
#华为昇腾#华为计算#昇腾开发者计划2025# hid_clf-2oizpt7skaq 安全
#华为昇腾#华为计算#昇腾开发者计划2025#通过学习AscendC算子开发的初级教程，通过课程讲解及样例实操，帮助我学习使用AscendC开发自己的算子。收获很大。的内容链接：https://www.hiascend.com/developer-program_2025
CentOS企业级文件服务器终极部署指南
方案对比与选择指南（企业级评估）技术方案详细对比表方案协议版本典型应用场景核心优势主要局限性NFSNFSv3/NFSv4.2高性能计算(HPC)、容器持久化存储、AI训练数据集共享内核级支持、RDMA协议支持、10μs级延迟、支持pNFS并行传输默认无加密、ACL管理复杂、Windows需额外客户端SambaSMB3.1.1企业办公协作、Hyper-V虚拟机存储、MicrosoftSQLServe
鲲鹏翱翔，逐梦前行 whu_lee #华为鲲鹏 #华为计算 #鲲鹏开发者计划2025
在华为计算举办的KADC大会上，我有幸听闻了“鲲鹏开发者计划2025”发布的消息，这无疑为开发者们开辟了一片崭新的天地，也让我心潮澎湃，迫不及待地投身其中，开启了一场充实而富有成就感的学习之旅。大会结束后，我便一头扎进了相关知识的海洋。先是仔细研究了“鲲鹏开发者计划2025”，从计划的宏观目标到具体的实施路径，每一个细节都让我眼前一亮，仿佛看到了未来技术发展的新方向和新机遇。紧接着，我开启了在线学
OpenCV让Python实现人脸特征点检测 Python编程之道 Python编程之道 opencv python 人工智能 ai
OpenCV让Python实现人脸特征点检测关键词：OpenCV、Python、人脸检测、特征点定位、计算机视觉、Dlib、深度学习摘要：本文将深入探讨如何使用OpenCV和Python实现人脸特征点检测。我们将从基础概念开始，逐步介绍人脸检测和特征点定位的核心算法原理，包括传统的Haar级联检测器和基于深度学习的Dlib面部特征点检测器。文章将提供详细的代码实现和数学原理讲解，并通过实际项目案例
使用 C++ 和 OpenCV 构建驾驶员疲劳检测软件 whoarethenext c++opencv 开发语言
使用C++和OpenCV构建驾驶员疲劳检测软件重要声明：本文所描述的软件是一个概念验证的原型，绝对不能用作现实世界中的安全系统。真正的车载安全系统需要经过大量的测试、具备冗余设计并通过专业认证，以确保其绝对可靠。驾驶疲劳是全球范围内引发交通事故的主要原因之一。当驾驶员感到困倦时，他们的反应时间会变慢，决策能力会下降，而在方向盘后睡着的风险则会急剧增加。为了解决这一关键问题，计算机视觉技术提供了一个
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号

MySQL spark离线计算_Spark SQL实现日志离线批处理

你可能感兴趣的:(MySQL,spark离线计算)