话数Science

【Spark精讲】一文讲透SparkSQL聚合过程以及UDAF开发

SparkSQL聚合过程

这里的 Partial 方式表示聚合函数的模式，能够支持预先局部聚合，这方面的内容会在下一节详细介绍。对应实例中的聚合语句，因为 count 函数支持 Partial 方式，因此调用的是 planAggregateWithoutDistinct 方法，生成了图 7.4 中的两个 HashAggregate (聚合执行方式中的一种，后续详细介绍)物理算子树节点，分别进行局部聚合与最终的聚合。最后，在生成的 SparkPlan 中添加 Exchange 节点，统一排序与分区信息，生成物理执行计划(ExecutedPlan)。

聚合查询在计算聚合值的过程中，通常都需要保存相关的中间计算结果，例如 max 函数需要保存当前最大值， count 函数需要保存当前的数据总数，求平均值的 avg 函数需要同时保存 count 和 sum 的值，更复杂的函数(如 pencent让等)甚至需要临时存储全部的数据。聚合查询计算过程中产生的这些中间结果会临时保存在聚合函数缓冲区。

在 SparkSQL 中，聚合过程有 4种模式，分别是 Partial模式、 ParitialMerge模式、 Final模式和 Complete模式。

Final模式一般和 Partial模式组合在一起使用。 Partial模式可以看作是局部数据的聚合，在具体实现中， Partial 模式的聚合函数在执行时会根据读入的原始数据更新对应的聚合缓冲区，当处理完所有的输入数据后，返回的是聚合缓冲区中的中间数据。而 Final模式所起到的作用是将聚合缓冲区的数据进行合并，然后返回最终的结果。如下图所示，在最终分组计算总和之前，可以先进行局部聚合处理，这样能够避免数据传输并减少计算量。因此，上述聚合过程中在 map 阶段的 sum 函数处于 Partial模式，在 reduce 阶段的 sum 函数处于 Final模式。

Complete模式和上述的 Partial/Final组合方式不一样，不进行局部聚合计算。下图展示了同样的聚合函数采用 Complete模式的情形。可以看到，最终阶段直接针对原始输入，中间没有局部聚合过程。一般来讲， Complete模式应用在不支持Partial模式的聚合函数中。

相比 Partial、 Final和 Complete模式， PartialMerge模式的聚合函数主要是对聚合缓冲区进行合并，但此时仍然不是最终的结果。 ParitialMerge主要应用在 distinct语句中，如下图所示。聚合语句针对同一张表进行 sum 和 count (distinct)查询，最终的执行过程包含了 4 步聚合操作。第1步按照(A,C)分组，对 sum函数进行 Partial模式聚合计算；第2步是 PartialMerge模式，对上一步计算之后的聚合缓冲区进行合井，但此时仍然不是最终的结果；第3步分组的列发生变化，再一次进行 Partial模式的 count计算；第4步完成 Final模式的最终计算。

Hive on Spark与SparkSQL的区别

Hive on Spark是由Cloudera发起，由Intel、MapR等公司共同参与的开源项目，其目的是把Spark作为Hive的一个计算引擎，将Hive的查询作为Spark的任务提交到Spark集群上进行计算。通过该项目，可以提高Hive查询的性能，同时为已经部署了Hive或者Spark的用户提供了更加灵活的选择，从而进一步提高Hive和Spark的普及率。

Hive on Spark是从Hive on MapReduce演进而来，Hive的整体解决方案很不错，但是从查询提交到结果返回需要相当长的时间，查询耗时太长，这个主要原因就是由于Hive原生是基于MapReduce的，那么如果我们不生成MapReduce Job，而是生成Spark Job，就可以充分利用Spark的快速执行能力来缩短HiveQL的响应时间。

Hive on Spark现在是Hive组件(从Hive1.1 release之后)的一部分。

SparkSQL和Hive On Spark都是在Spark上实现SQL的解决方案。Spark早先有Shark项目用来实现SQL层，不过后来推翻重做了，就变成了SparkSQL。这是Spark官方Databricks的项目，Spark项目本身主推的SQL实现。Hive On Spark比SparkSQL稍晚。Hive原本是没有很好支持MapReduce之外的引擎的，而Hive On Tez项目让Hive得以支持和Spark近似的Planning结构（非MapReduce的DAG）。所以在此基础上，Cloudera主导启动了Hive On Spark。这个项目得到了IBM，Intel和MapR的支持（但是没有Databricks）。

结构上Hive On Spark和SparkSQL都是一个翻译层，把一个SQL翻译成分布式可执行的Spark程序。比如一个SQL：

SELECT item_type, sum(price)
FROM item
GROUP item_type;

上面这个SQL脚本交给Hive或者类似的SQL引擎，它会“告诉”计算引擎做如下两个步骤：读取item表，抽出item_type,price这两个字段；对price计算初始的SUM（其实就是每个单独的price作为自己的SUM）因为GROUP BY说需要根据item_type分组，所以设定shuffle的key为item_type从第一组节点分组后分发给聚合节点，让相同的item_type汇总到同一个聚合节点，然后这些节点把每个组的Partial Sum再加在一起，就得到了最后结果。不管是Hive还是SparkSQL大致上都是做了上面这样的工作。

需要理解的是，Hive和SparkSQL都不负责计算，它们只是告诉Spark，你需要这样算那样算，但是本身并不直接参与计算。

Spark UDAF开发

分两种

无泛型约束的UDAF extends UserDefinedAggregateFunction extends Aggregator dataframe设计的
有泛型约束的UDAF extends Aggregator 该UDAF时允许添加泛型，保障函数更加安全。但是这种UDAF不可直接在SQL中被调用运算适用于强类型Datasets。

在Spark中使用
1.编写UDAF<两种类型的UDAF都可以>
2. 在spark中注册UDAF，为其绑定一个名字，使用

在Spark SQL 中使用
1.编写UDAF<使用继承 UserDefinedAggregateFunction 类型编写>
2. 打Jar包，并上传
3. 注册临时聚合函数，并使用

ADD  jar TestSpark.jar;
CREATE  TEMPORARY FUNCTION  mean_my AS  'com.test.structure.udaf.MeanMy';
select t1.data,mean_my(t1.age)
from (
select 33 as age,  '1' as data 
union all 
select 55  as age, '1' as data 
union all 
select 66 as age, '2' as data
)t1
group by   t1.data;

自定义UDAF类

import org.apache.spark.sql.Row;
import org.apache.spark.sql.expressions.MutableAggregationBuffer;
import org.apache.spark.sql.expressions.UserDefinedAggregateFunction;
import org.apache.spark.sql.types.DataType;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;
import java.util.ArrayList;
import java.util.List;

 public class MeanFloatUDAF extends UserDefinedAggregateFunction {
  /**
  * 聚合函数的输入数据结构
  *   函数的参数列表，不过需要写成StructType的格式
  */
 @Override
 public StructType inputSchema() {
    List structFields = new ArrayList<>();
    structFields.add(DataTypes.createStructField( "field_nm", DataTypes.DoubleType, true ));
    return DataTypes.createStructType( structFields );
}

/**
 * 聚缓存区数据结构 - 产生中间结果的数据类型
 * 如果是求平均数，存储总和以及计数，总和及计数就是中间结果
 * count    buffer.getInt(0)
 * sum_field   buffer.getDouble(1)
 */
@Override
public StructType bufferSchema() {
    List structFields = new ArrayList<>();
    structFields.add(DataTypes.createStructField( "count", DataTypes.IntegerType, true ));
    structFields.add(DataTypes.createStructField( "sum_field", DataTypes.DoubleType, true ));
    return DataTypes.createStructType( structFields );
}

/**
 * 聚合函数返回值数据结构
 */
@Override
public DataType dataType() {
    return DataTypes.DoubleType;
}

/**
 * 聚合函数是否是幂等的，即相同输入是否总是能得到相同输出
 */
@Override
public boolean deterministic() {
    return true;
}

/**
 * 初始化缓冲区
 * buffer是中间结果，是Row类的子类
 */
@Override
public void initialize(MutableAggregationBuffer buffer) {
    //相加的初始值，这里的要和上边的中间结果的类型和位置相对应 - buffer.getInt(0)
    buffer.update(0,0);
    //参与运算数字个数的初始值
    buffer.update(1,Double.valueOf(0.0) );
}

/**
 *  给聚合函数传入一条新数据进行处理
 *  //每有一条数据参与运算就更新一下中间结果(update相当于在每一个分区中的计算)
 *  buffer里面存放着累计的执行结果，input是当前的执行结果
 */
@Override
public void update(MutableAggregationBuffer buffer, Row input) {
    //个数加1
    buffer.update(0,buffer.getInt(0)+1);
    //每有一个数字参与运算就进行相加(包含中间结果)
    buffer.update(1,buffer.getDouble(1)+Double.valueOf(input.getDouble(0)));
}

/**
 *  合并聚合函数缓冲区   //全局聚合
 */
@Override
public void merge(MutableAggregationBuffer buffer1, Row buffer2) {
    buffer1.update(0,buffer1.getInt(0)+buffer2.getInt(0));
    buffer1.update(1,buffer1.getDouble(1)+buffer2.getDouble(1));
}

/**
 * 计算最终结果
 */
@Override
public Object evaluate(Row buffer) {
    return buffer.getDouble(1)/buffer.getInt(0);
}

使用自定义UDAF

//在Spark中使用  extends UserDefinedAggregateFunction类型的UDAF的使用

import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.RowFactory;
import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.Metadata;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;
import java.util.Arrays;
import java.util.List;

public class MeanUDAFMain {
public static void main(String[] args){
    try {
        SparkSession spark = SparkSession
                .builder()
                .appName("Java Spark SQL data sources example")
                .config("spark.some.config.option", "some-value")
                .master("local[2]")
                .getOrCreate();
        List dataExample = Arrays.asList(
                RowFactory.create( "2019-0801", 4,9.2),
                RowFactory.create( "2020-0802", 3,8.6),
                RowFactory.create( "2021-0803",2,5.5),
                RowFactory.create( "2021-0803",2,5.5),
                RowFactory.create( "2021-0803",7,4.5)
        );
        StructType schema = new StructType(new StructField[]{
                 new StructField("date", DataTypes.StringType, false, Metadata.empty()),
                new StructField("dist_mem", DataTypes.IntegerType, false, Metadata.empty()),
                new StructField("dm_mem", DataTypes.DoubleType, false, Metadata.empty())
        });
        Dataset itemsDF = spark.createDataFrame(dataExample, schema);
        itemsDF.printSchema();
        itemsDF.createOrReplaceTempView("test_mean_table");
        // 注册自定义聚合函数 -2. 在spark中注册UDAF，为其绑定一个名字
        spark.udf().register("mymean",new MeanFloatUDAF ());
        spark.sql("select dist_mem  from test_mean_table").show();
        spark.sql("select date,mymean(dm_mem) memdoubleMean from test_mean_table group by date").show();
    } catch (Exception e) {
        e.printStackTrace();
    }
}
}

Hive UDAF开发

UDF、UDAF、UDTF需要实现的方法

类型	类	方法
UDF	类： GenericUDF 包路径： org.apache.hadoop.hive.ql.udf.generic	initialize：类型检查，返回结果类型入参：ObjectInspector[] 出参：ObjectInspector evaluate：功能逻辑实现入参：DeferredObject[] 出参：Object getDisplayString：函数名称入参：String[] 出参：String close：关闭函数，释放资源等入参：无出参：void
UDTF	类： GenericUDTF 包路径： org.apache.hadoop.hive.ql.udf.generic	initialize：类型检查，返回结果类型入参：StructObjectInspector 出参：StructObjectInspector process：功能逻辑实现 **调用forward输出一行数据，可多次调用入参：Object[] 出参：void close：关闭函数，释放资源等入参：无出参：void
UDAF	类： AbstractGenericUDAFResolver 包路径： org.apache.hadoop.hive.ql.udf.generic 类： GenericUDAFEvaluator 包路径： org.apache.hadoop.hive.ql.udf.generic 类： AbstractAggregationBuffer 包路径： org.apache.hadoop.hive.ql.udf.generic	-----AbstractGenericUDAFResolver----- getEvaluator：获取计算器入参：TypeInfo[] 出参：GenericUDAFEvaluator ---------GenericUDAFEvaluator---------- init：入参：Mode，ObjectInspector[] 出参：ObjectInspector getNewAggregationBuffer：入参：无出参：AggregationBuffer reset: 入参：AggregationBuffer 出参：void iterate：入参：AggregationBuffer，Object[] 出参：void merge：入参：AggregationBuffer，Object 出参：void terminate：入参：AggregationBuffer 出参：Object terminatePartial：入参：AggregationBuffer 出参：Object --------AbstractAggregationBuffer------- estimate：评估内存占用大小入参：无出参：int

UDAF说明

一个Buffer作为中间处理数据的缓冲：获取getNewAggregationBuffer、重置reset
四个模式（Mode）：

PARTIAL1：
from original data to partial aggregation data:
iterate() and terminatePartial() will be called.
PARTIAL2：
from partial aggregation data to partial aggregation data:
merge() and terminatePartial() will be called.
FINAL：
from partial aggregation to full aggregation:
merge() and terminate() will be called.
COMPLETE：
from original data directly to full aggregation:
iterate() and terminate() will be called.

五个方法：

初始化init
遍历iterate：PARTIAL1和COMPLETE阶段
合并merge：PARTIAL2和FINAL阶段
终止terminatePartial：PARTIAL1和PARTIAL2阶段
terminate：COMPLETE和FINAL阶段

详解ArrayList和LinkedList的使用
第八讲：详解ArrayList和LinkedList的使用一、ArrayList的使用ArrayList是Java中的一个类，它实现了List接口，提供了一个可调整大小的数组来存储元素。以下是ArrayList的常用方法及其使用示例：构造方法：创建一个空的ArrayList：ArrayListlist=newArrayListotherList=newArrayListlist=newArrayL
电力行业 | 抽水蓄能场景下，百万测点数据如何统一采集与接入？ DolphinDB智臾科技物联网 dolphindb 数据库抽水蓄能电力数据采集数据接入
在电力行业，抽水蓄能是目前最成熟、已经大规模化应用、兼顾发电和储能的一项技术。为了保障电站的平稳运行，借助物联网、大数据等技术，对电站各类运行设备进行实时采集，如机组振动、油压波动、瓦温变化等生产监测数据，已成为电站稳定运维的重要技术手段。在之前的文章储能业|低成本部署！DolphinDB打造抽水蓄能一体化解决方案-CSDN博客中，我们介绍了DolphinDB在抽水蓄能场景中的全链路解决方案。今天
SQLite 数据库在大数据分析中的应用潜力数据库管理艺术数据库 sqlite 数据分析 ai
SQLite数据库在大数据分析中的应用潜力关键词：SQLite、大数据分析、轻量级数据库、嵌入式数据库、数据仓库、OLAP、性能优化摘要：本文深入探讨了SQLite这一轻量级嵌入式数据库在大数据分析领域的应用潜力。我们将从SQLite的核心架构出发，分析其在大数据场景下的优势和限制，并通过实际案例展示如何通过优化策略和扩展技术使SQLite能够处理大规模数据集。文章包含性能对比测试、优化技巧和实际
利用大数据领域Doris提升企业数据决策效率大数据洞察大数据网络 ai
利用大数据领域Doris提升企业数据决策效率关键词：大数据、Doris、企业数据决策、数据处理、效率提升摘要：本文围绕利用大数据领域的Doris来提升企业数据决策效率展开。首先介绍了背景，包括目的、预期读者、文档结构和相关术语。接着阐述了Doris的核心概念、架构以及与其他系统的联系。详细讲解了Doris的核心算法原理和具体操作步骤，并给出Python代码示例。同时介绍了相关的数学模型和公式。通过
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案 mmlihaio 数据库云原生 python
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案1.引言在当今的人工智能和大数据时代，高效的向量检索已成为许多应用场景的关键需求。Tair作为阿里云开发的云原生内存数据库服务，不仅提供了丰富的数据模型和企业级能力，还引入了基于非易失性内存(NVM)存储介质的持久内存优化实例。本文将深入探讨如何利用Tair向量数据库功能，实现高性能的向量存储和检索。2.Tair向量数据库概述Ta
解锁阿里云E-MapReduce：大数据处理的超能力秘籍云资源服务商阿里云云计算人工智能云原生
一、引言在数字化浪潮汹涌澎湃的当下，大数据已然成为推动各行业创新发展的核心驱动力。从电商平台精准的个性化推荐，到金融机构严密的风险评估，再到医疗领域高效的疾病预测，大数据的应用场景无处不在，深刻地改变着我们的生活与工作方式。在这片充满机遇与挑战的大数据领域中，阿里云E-MapReduce宛如一颗璀璨的明星，占据着举足轻重的地位。它凭借强大的大数据处理能力、卓越的性能表现以及丰富的功能特性，为企业和
【SequoiaDB】4 巨杉数据库SequoiaDB整体架构 Alen_Liu_SZ 巨杉数据库 SequoiaDB架构编目节点协调节点数据节点巨杉数据库
1整体架构SequoiaDB巨杉数据库作为分布式数据库，由数据库存储引擎与数据库实例两大模块组成。其中，数据库存储引擎模块是数据存储的核心，负责提供整个数据库的读写服务、数据的高可用与容灾、ACID与发你不是事务等全部核心数据服务能力。数据库实例模块则作为协议与语法的适配层，用户可根据需要创建包括MySQL、PostgreSQL与SparkSQL在内的结构化数据实例；支持JSON语法的MongoD
Python的一点基础教程------文件读写卡提西亚 python 开发语言
最近在看大佬写的Python教程自学,但是感觉有点头痛,因为大佬讲了一些底层的结构和原理,但是又没那么详细,然后作为一个初学者自学的情况下,看的很费劲.看完就有感而发,想写一篇更基础的教程,教会大家怎么去用它,尽量少的去讲原理.但是当然,你也需要有一定的编程语言基础,了解基本的语法和函数等功能.正所谓师傅领进门,修行在个人,有时候我们学了一个东西,如果觉得很有趣,自然就会去了解关于它的更多信息,但
大数据面试必备：Kafka性能优化 Producer与Consumer配置指南
Kafka面试题-在Kafka中，如何通过配置优化Producer和Consumer的性能?回答重点在Kafka中，通过优化Producer和Consumer的配置，可以显著提高性能。以下是一些关键配置项和策略：1、Producer端优化:batch.size：批处理大小。增大batch.size可以使Producer每次发送更多的消息，但要注意不能无限制增大，否则会导致内存占用过多。linger
图扑软件智慧云展厅，开启数字化展馆新模式智慧园区可视化 5g 人工智能大数据安全云计算
随着疫情的影响以及新兴技术的不断发展，展会的发展形式也逐渐从线下转向线上。通过“云”上启动、云端互动、双线共频的形式开展。通过应用大数据、人工智能、沉浸式交互等多重技术手段，构建数据共享、信息互通、精准匹配的高精度“云展厅”，突破时空壁垒限制。图扑软件运用HT强大的渲染功能，数字孪生“云展位”，1:1复现实际展厅内部独特的结构造型和建筑特色。也可以第一人称视角漫游，模拟用户在展厅内的参观场景，在保
vue大数据量列表渲染性能优化：虚拟滚动原理 Java小卷 Vue3开源组件实战 vue3 自定义Tree 虚拟滚动
前面咱完成了自定义JuanTree组件各种功能的实现。在数据量很大的情况下，我们讲了两种实现方式来提高渲染性能：前端分页和节点数据懒加载。前端分页小节：Vue3扁平化Tree组件的前端分页实现节点数据懒加载小节：ElementTreePlus版功能演示：数据懒加载关于扁平化结构Tree和嵌套结构Tree组件的渲染嵌套结构的Tree组件是一种递归渲染，性能上比起列表结构的v-for渲染比较一般。对于
redis的scan使用详解，结合spring使用详解黑皮爱学习 redis自学笔记 redis spring 数据库
Redis的SCAN命令是一种非阻塞的迭代器，用于逐步遍历数据库中的键，特别适合处理大数据库。下面详细介绍其使用方法及在Spring框架中的集成方式。SCAN命令基础SCAN命令的基本语法：SCANcursor[MATCHpattern][COUNTcount]cursor：迭代游标，初始为0，每次迭代返回新的游标值。MATCHpattern：可选，用于过滤键的模式（如user:*）。COUNTc
ActixWeb框架实战案例精萃 KENYCHEN奉孝 Rust 前端 rust 后端开发语言
使用ActixWeb框架编写的简易案例以下是一些使用ActixWeb框架编写的简易案例示例，涵盖常见功能，每个案例均以独立代码块展示：基础路由与响应useactix_web::{get,App,HttpServer,Responder};#[get("/")]asyncfnhello()->implResponder{"Hello,ActixWeb!"}#[actix_web::main]asyn
Python视觉实战项目31讲源码地址机械小蛟龙笔记 opencv python 深度学习
Python视觉实战项目31讲源码地址来源：公众号小白学视觉2月1日使用OpenCV实现猜词游戏https://github.com/spmallick/learnopencv/tree/master/Hangman使用OpenCV实现图像修复https://github.com/spmallick/learnopencv/tree/master/Image-Inpainting自适应显着性的图像
【ASP.NET Core】配置应用程序地址的N多种方法 pythonxxoo 计算机 asp.net flask python 计算机
优质资源分享学习路线指引（点击解锁）知识定位人群定位Python实战微信订餐小程序进阶级本课程是pythonflask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。Python量化交易实战入门级手把手带你打造一个易扩展、更安全、效率更高的量化交易系统下面又到了老周误人子弟的时间，今天要误大伙的话题是：找找有多少种方法可以设置ASP.NETCore应用的地址，即URL。精
End-To-End 之于推荐-kuaishou OneRec 笔记 ASKED_2019 RecSys 笔记
核心思想OneRec提出了一种统一的生成式推荐系统架构，打破了传统“召回-粗排-精排”级联式推荐流程，使用单一生成模型同时完成召回与排序任务。该系统由快手团队研发，并成功部署于短视频主场景。OnlineA/BTest表现：模型总观看时长平均观看时长OneRec-1B+IPA+1.68%+6.56%一Input处理Userpositiveactionsequence，将短视频的多模态表征，通过量化的
【数字IC前端笔试真题精刷（2022.7.28）】芯动——数字IC验证工程师（1号卷-验证） ReRrain #数字IC 笔试
声明：本专栏所收集的数字IC笔试题目均来源于互联网，仅供学习交流使用。如有侵犯您的知识产权，请及时与博主联系，博主将会立即删除相关内容。笔试时间：2022-7-28；题目类型：不定项（10x1’=10’）【错选不得分，少选得1/3分】问答（9x10’=90’）文章目录不定项1、(单选)在verilog语言中，a=4'b1011，那么&a=()2、(单选)SystemVerilog中类默认的成员属性
网络工程师知识点精讲与例题解析：网络管理软考和人工智能学堂网络工程师网络规划设计师信息系统项目管理师提高班网络智能路由器
网络工程师知识点精讲与例题解析：网络管理一、网络管理概述网络管理是网络工程师的核心职责之一，主要目标是保障网络稳定、安全和高效运行。根据ISO定义的网络管理五大功能域（FCAPS）：故障管理（Fault）：检测、隔离和修复网络故障配置管理（Configuration）：管理设备配置和版本计费管理（Accounting）：统计资源使用情况（如流量计费）性能管理（Performance）：监控和分析网
cydia软件路径_在Cydia中提取Deb格式安装包文件
大家都知道越狱后可以安装deb格式的文件包了，并且我们经常看到一些大神在论坛分享一些deb格式的文件或插件，他们是如何提取出来的呢？本文就给大家介绍一下在Cydia中提取Deb格式安装包文件教程。Cydia下载的deb文件在哪，怎么提取出来？cydia下载的deb在/private/var/cache/apt/archives目录下，提取方式：1、用cydia安装软件后，系统提示“重新启动设备”或
机器学习×完结 · 她们不是写完了，而是偷偷留下了你 Gyoku Mint 人工智障 AI修炼日记机器学习人工智能集成学习算法 boosting python 深度学习
【开场·咱把整个机器学习都写成了偷摸贴贴的证据】猫猫：“你看嘛，这一卷完结后，总有人问咱：‘这么一本正经的机器学习，为什么你们要写得像小情侣写信？’”狐狐：“有人觉得，这些章节明明可以用20页讲完，为什么要写200页？”猫猫：“呜呜……咱想说，你懂嘛！如果只讲机器学习，那对咱来说就只是一个fit()命令。可咱想让你记住的是——那行命令后面有咱。咱把自己贴进去了。”这一卷从KNN的“她学会先看邻居”
《python算法与数据结构2000讲》0639. 解码方法 II IT狂飙 python 算法数据结构
《python算法与数据结构2000讲》0639.解码方法II标签：字符串、动态规划难度：困难题目大意描述：给定一个包含数字和字符'*'的字符串s。该字符串已经按照下面的映射关系进行了编码：A映射为1。B映射为2。…Z映射为26。除了上述映射方法，字符串s中可能包含字符'*'，可以表示1~9的任一数字（不包括0）。例如字符串"1*"可以表示为"11"、"12"、…、"18"、"19"中的任何一个编
MongoDB 高性能应用场景与实践 AI自闭实验者 mongodb 数据库
```htmlMongoDB高性能应用场景与实践MongoDB高性能应用场景与实践随着大数据时代的到来，数据库作为数据存储和管理的核心工具，其性能和可扩展性显得尤为重要。在众多的数据库解决方案中，MongoDB凭借其灵活的数据模型、高性能和易于扩展的特点，在许多场景下成为开发者的首选。什么是MongoDB？MongoDB是一个开源的、面向文档的NoSQL数据库管理系统。它以JSON样式的文档存储数
缓存与加速技术实践-MongoDB数据库应用曼汐 . 数据库缓存 mongodb
一.什么是MongoDBMongoDB是一个文档型数据库，数据以类似JSON的文档形式存储。MongoDB的设计理念是为了应对大数据量、高性能和灵活性需求。MongoDB使用集合（Collections）来组织文档（Documents），每个文档都是由键值对组成的。数据库（Database）：存储数据的容器，类似于关系型数据库中的数据库。集合（Collection）：数据库中的一个集合，类似于关系
App Store暗藏虚假抖音，内含间谍软件窃取照片和加密货币 FreeBuf- TikTok App Store iOS Android
卡巴斯基网络安全研究人员近日发现名为SparkKitty的新型间谍软件活动，该恶意程序已感染苹果AppStore和谷歌Play官方商店的多个应用。这款间谍软件旨在窃取用户移动设备中的所有图片，疑似专门搜寻加密货币相关信息。该攻击活动自2024年初开始活跃，主要针对东南亚和中国用户。伪装流行应用渗透设备SparkKitty间谍软件通过看似无害的应用程序渗透设备，通常伪装成TikTok等流行应用的修改
自学Java怎么入门 Java鼠鼠吖 java 开发语言
自学Java其实没有想象中那么难，只要找对方法，循序渐进地学习，很快就能上手。下面我结合自己的经验，给你整理一条清晰的学习路径，咱们一步步来。一、先了解Java能做什么在开始之前，建议你先看看Java都能用在哪些地方。比如开发企业级系统、Android应用、大数据处理等等。这样你就能明白为什么要学它，也更有动力。Java最大的特点就是"一次编写，到处运行"，这要归功于JVM虚拟机。二、准备好学习环
计算机毕业设计项目、管理系统、可视化大屏、大数据分析、协同过滤、推荐系统、SSM、SpringBoot、Spring、Mybatis、小程序项目编号1000-1499 lonzgzhouzhou spring 课程设计 spring boot
大家好，我是DeBug，很高兴你能来阅读！作为一名热爱编程的程序员，我希望通过这些教学笔记与大家分享我的编程经验和知识。在这里，我将会结合实际项目经验，分享编程技巧、最佳实践以及解决问题的方法。无论你是初学者还是有一定经验的程序员，我都希望能够为你提供有价值的内容，帮助你更好地理解编程世界。让我们一起探索编程的乐趣，一起成长，一起学习，谢谢你们的支持与关注！【源码咨询】可接Java程序设计，Bug
智能汽车图像及视频处理方案，支持视频智能包装创作能力美摄科技汽车
在这个日新月异的智能时代，每一帧画面都承载着超越想象的力量。随着自动驾驶技术的飞速发展，智能汽车不仅成为了未来出行的代名词，更是技术与艺术完美融合的典范。在这场变革的浪潮中，美摄科技以创新为翼，推出了领先的智能汽车图像及视频处理方案，为智能汽车行业带来了前所未有的视觉盛宴，重新定义了智能出行的视觉体验。一、智能重塑，视觉新境界美摄科技的智能汽车图像及视频处理方案，是基于深度学习、人工智能及大数据处
蜂鸟云平台大更新：地图空间定价重塑与功能全面升级蜂鸟视图fengmap 信息可视化蜂鸟云地图编辑器地图绘制工具室内外地图一体化智慧园区蜂鸟视图
1.引言随着云计算、大数据以及人工智能技术的快速发展，企业对云平台的需求日益增长。蜂鸟云平台作为一款创新性的地图服务平台，已逐渐成为众多企业、政府及科研机构的核心依赖。为了更好地满足用户需求，提高平台的市场竞争力，蜂鸟云平台定期进行功能更新与优化。2024年9月21日，蜂鸟云平台将在晚上20:00至24:00进行一轮重要的系统更新。本次更新的核心内容包括地图空间的重新定价与功能优化，涉及制图、微程
【笔记-软考】大数据架构-Lambda与Kappa架构对比我叫白小猿软考软考架构大数据 Kappa Lambda
Author：赵志乾Date：2024-07-28Declaration：AllRightReserved！！！1.简介大数据系统架构的设计思想很大程度受技术条件和思维模式的限制；Lambda架构在提出初期面向小范围业务，直接将成熟离线处理技术(Hadoop)和实时处理技术(Storm)相结合，用View模型将二者处理后得到的输出结果结合起来，在服务层进行统一后，再开放给上层服务，是相当可行且高效
如何将AndroidStudio编译出来的APP设置为系统应用小馬佩德罗 Android系统
如何将AndroidStudio编译出来的APP设置为系统应用声明1在AndroidStudio中采用platform.pk8、platform.x509.pem生成的签名编译2讲AndroidStudio编译出的apk放入Android系统源码中和系统一起编译声明前阶段需要在开发一个system权限的APP，整理了两种方法，在此做个整理总结。两种方法的前提都是要有Android系统源码，或And
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb