十二点的泡面

大数据学习之Flink算子、了解（Transformation）转换算子（基础篇三）

Transformation转换算子（基础篇三）

目录

Transformation转换算子（基础篇三）

三、转换算子（Transformation）

1.基本转换算子

1.1 映射（Map）

1.2 过滤（filter）

1.3 扁平映射（flatmap）

1.4基本转换算子的例子

2.聚合算子（Aggregation）

2.1 按键分区（keyBy）

2.2 简单聚合

2.3 归约聚合（reduce）

3.用户自定义函数（UDF）

3.1 函数类（Function Classes）

3.2 富函数类（Rich Function Classes）

4.物理分区（Physical Partitioning）

4.1 随机分区（shuffle）

4.2 轮询分区（Round-Robin）

4.3 重缩放分区（rescale）

4.4 广播（broadcast）

4.5 全局分区（global）

4.6 自定义分区（Custom）

三、转换算子（Transformation）

数据源读入数据之后，我们就可以使用各种转换算子，将一个或多个 DataStream 转换为新的 DataStream，如图所示。一个Flink程序的核心，其实就是所有的转换操作，它们决定了处理的业务逻辑。

1.基本转换算子

1.1 映射（Map）

map算子接收一个函数作为参数，并把这个函数应用于DataStream的每个元素，最后将函数的返回结果作为结果DataStream中对应元素的值，即将DataStream的每个元素转换成新的元素。

1.2 过滤（filter）

filter 转换操作，顾名思义是对数据流执行一个过滤，通过一个布尔条件表达式设置过滤条件，对于每一个流内元素进行判断，若为 true 则元素正常输出，若为 false 则元素被过滤掉。

1.3 扁平映射（flatmap）

flatMap 操作又称为扁平映射，主要是将数据流中的整体（一般是集合类型）拆分成一个一个的个体使用。消费一个元素，可以产生 0 到多个元素。flatMap 可以认为是“扁平化”（flatten）和“映射”（map）两步操作的结合，也就是先按照某种规则对数据进行打散拆分，再对拆分后的元素做转换处理

1.4基本转换算子的例子

代码如下：

import org.apache.flink.streaming.api.scala._

object Practice_of_Simple_Operators {
  def main(args: Array[String]): Unit = {
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    env.setParallelism(1) //设置并行度为1
    //常见的简单算子 有：map、flatmap、filter
    //map
    //从集合中获取不同数据类型数据
    val dataStream1 = env.fromCollection(List(1,2,3))
    //对每一个数 都乘以2
    val resultStream1 = dataStream1.map(data => data * 2)
    resultStream1.print("resultStream1")
    //flatmap
    val dataStream2 = env.fromCollection(List("hello word","hello flink","hello spark"))
    val resultStream2 = dataStream2.flatMap(_.split(" "))
    resultStream2.print("resultStream2")
    //filter
    val resultStream3 = dataStream1.filter(_%2==0)
    resultStream3.print("resultStream3")

    env.execute("Stream Transform")//启动flink作业
  }
}

运行结果：

2.聚合算子（Aggregation）

直观上看，基本转换算子确实是在“转换”——因为它们都是基于当前数据，去做了处理和输出。
而在实际应用中，我们往往需要对大量的数据进行统计或整合，从而提炼出更有用的信息。比如之前 word count 程序中，要对每个词出现的频次进行叠加统计。这种操作，计算的结果不仅依赖当前数据，还跟之前的数据有关，相当于要把所有数据聚在一起进行汇总合并——这就是所谓的“聚合”（Aggregation），也对应着 MapReduce 中的 reduce 操作。

2.1 按键分区（keyBy）

对于 Flink 而言，DataStream是没有直接进行聚合的API 的。因为我们对海量数据做聚合肯定要进行分区并行处理，这样才能提高效率。所以在 Flink 中，要做聚合，需要先进行分区； 这个操作就是通过keyBy来完成的。

keyBy 是聚合前必须要用到的一个算子。keyBy 通过指定键（key），可以将一条流从逻辑上划分成不同的分区（partitions）。这里所说的分区，其实就是并行处理的子任务，也就对应着任务槽（task slot）。

基于不同的key，流中的数据将被分配到不同的分区中去；这样一来，所有具有相同的key 的数据，都将被发往同一个分区，那么下一步算子操作就将会在同一个 slot 中进行处理了。

keyBy算子主要作用于元素类型是元组或数组的DataStream上。使用该算子可以将DataStream中的元素按照指定的key(字段)进行分组，具有相同key的元素将进入同一个分区中(不进行聚合)，并且不改变原来元素的数据结构。在逻辑上将流划分为不相交的分区，在内部是通过哈希分区实现的。

//配置执行环境
val env = StreamExecutionEnvironment.getExecutionEnvironment
//fromElements --> 给一个固定的元素集合 创建一个数据流（DataStream）
//数据流是以键值对的形式存在的
val source = env.fromElements((1, 2), (2, 1),(1, 6), (1, 9), (1, 7),  (2, 2), (2, 10), (3, 1))
//keyby算子
source.keyBy(temp => temp._1).print("result")
 // 执行 Flink 作业
env.execute("Flink FromElements Example")

运行结果：

2.2 简单聚合

有了按键分区的数据流 KeyedStream，我们就可以基于它进行聚合操作了。Flink 为我们内置实现了一些最基本、最简单的聚合 API，主要有以下几种：
- sum()：在输入流上，对指定的字段做叠加求和的操作。
- min()：在输入流上，对指定的字段求最小值。
- max()：在输入流上，对指定的字段求最大值。
- minBy()：与 min()类似，在输入流上针对指定字段求最小值。
  
  不同的是，min()只计算指定字段的最小值，其他字段会保留最初第一个数据的值；
  
  而 minBy()则会返回包含字段最小值的整条数据。
- maxBy()：与 max()类似，在输入流上针对指定字段求最大值。
  
  不同的是，max()只计算指定字段的最大值，其他字段会保留最初第一个数据的值；
  
  而 maxBy()则会返回包含字段最大值的整条数据。
简单聚合算子使用非常方便，语义也非常明确。这些聚合方法调用时，也需要传入参数；但并不像基本转换算子那样需要实现自定义函数，只要说明聚合指定的字段就可以了。指定字段的方式有两种：指定位置，和指定名称。对于元组类型的数据，同样也可以使用这两种方式来指定字段。需要注意的是，元组中字段的名称，是以1、2、_3、…来命名的。例如，下面就是对元组数据流进行聚合的测试：
对于元组类型的数据，同样也可以使用这两种方式来指定字段。需要注意的是，元组中字段的名称，是以1、2、_3、…来命名的。

测试：

import org.apache.flink.streaming.api.scala._

object TransTupleAggregation {
  def main(args: Array[String]): Unit = {
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    env.setParallelism(1)
    val stream = env
      .fromElements(
        ("a", 1), ("a", 3), ("b", 3), ("b", 4)
      )
    stream.print("原数据")
    stream.keyBy(_._1).sum(1).print() //对元组的索引 1 位置数据求和
    stream.keyBy(_._1).sum("_2").print() //对元组的第 2 个位置数据求和
    stream.keyBy(_._1).max(1).print() //对元组的索引 1 位置求最大值
    stream.keyBy(_._1).max("_2").print() //对元组的第 2 个位置数据求最大值
    stream.keyBy(_._1).min(1).print() //对元组的索引 1 位置求最小值
    stream.keyBy(_._1).min("_2").print() //对元组的第 2 个位置数据求最小值
    stream.keyBy(_._1).maxBy(1).print() //对元组的索引 1 位置求最大值
    stream.keyBy(_._1).maxBy("_2").print() //对元组的第 2 个位置数据求最大值
    stream.keyBy(_._1).minBy(1).print() //对元组的索引 1 位置求最小值
    stream.keyBy(_._1).minBy("_2").print() //对元组的第 2 个位置数据求最小值
    env.execute()
  }
}

而如果数据流的类型是样例类，那么就只能通过字段名称来指定，不能通过位置来指定了。

import org.apache.flink.streaming.api.scala._
object TransAggregationCaseClass {
  def main(args: Array[String]): Unit = {
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    env.setParallelism(1)
    val stream = env.fromElements(
      Event("Mary", "./home", 1000L),
      Event("Bob", "./cart", 2000L)
    )
    // 使用 user 作为分组的字段，并计算最大的时间戳
    stream.keyBy(_.user).max("timestamp").print()
    env.execute()
  }
}

一个聚合算子，会为每一个key保存一个聚合的值，在Flink中我们把它叫作“状态”（state）。所以每当有一个新的数据输入，算子就会更新保存的聚合结果，并发送一个带有更新后聚合值的事件到下游算子。对于无界流来说，这些状态是永远不会被清除的，所以我们使用聚合算子，应该只用在含有有限个 key 的数据流上。

2.3 归约聚合（reduce）

与简单聚合类似，reduce()操作也会将 KeyedStream 转换为 DataStream。它不会改变流的元素数据类型，所以输出类型和输入类型是一样的。
调用 KeyedStream 的 reduce()方法时，需要传入一个参数，实现 ReduceFunction 接口。接口在源码中的定义如下：

public interface ReduceFunction extends Function, Serializable {
    T reduce(T value1, T value2) throws Exception;
}

ReduceFunction 接口里需要实现 reduce()方法，这个方法接收两个输入事件，经过转换处理之后输出一个相同类型的事件；所以，对于一组数据，我们可以先取两个进行合并，然后再将合并的结果看作一个数据、再跟后面的数据合并，最终会将它“简化”成唯一的一个数据，这也就是 reduce“归约”的含义。在流处理的底层实现过程中，实际上是将中间“合并的结果” 作为任务的一个状态保存起来的；之后每来一个新的数据，就和之前的聚合状态进一步做归约。

下面我们来看一个稍复杂的例子。

我们将数据流按照用户 id 进行分区，然后用一个 reduce()算子实现 sum()的功能，统计每个用户访问的频次；进而将所有统计结果分到一组，用另一个 reduce()算子实现 maxBy()的功能，记录所有用户中访问频次最高的那个，也就是当前访问量最大的用户是谁。

import org.apache.flink.streaming.api.scala._

object TransReduce {
  def main(args: Array[String]): Unit = {
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    env.setParallelism(1)
    env
      .addSource(new ClickSource)
      .map(r => (r.user, 1L))
      //按照用户名进行分组
      .keyBy(_._1)
      //计算每个用户的访问频次
      .reduce((r1, r2) => (r1._1, r1._2 + r2._2))
      //将所有数据都分到同一个分区
      .keyBy(_ => true)
      //通过 reduce 实现 max 功能，计算访问频次最高的用户
      .reduce((r1, r2) => if (r1._2 > r2._2) r1 else r2)
      .print()
    env.execute()
  }
}

reduce()同简单聚合算子一样，也要针对每一个 key 保存状态。因为状态不会清空，所以我们需要将 reduce()算子作用在一个有限 key 的流上。

3.用户自定义函数（UDF）

3.1 函数类（Function Classes）

3.2 富函数类（Rich Function Classes）

4.物理分区（Physical Partitioning）

4.1 随机分区（shuffle）

4.2 轮询分区（Round-Robin）

4.3 重缩放分区（rescale）

4.4 广播（broadcast）

4.5 全局分区（global）

4.6 自定义分区（Custom）

你可能感兴趣的:(算子,Flink,大数据,学习,flink)

人生不止于职业发展人工智能
0你的问题，我知道！工作意义是啥？职业发展在人生啥角色？1工作意义农村人努力学习考上大学，得好工作，为逃离同村同龄人十几岁就工厂打工命运，过不凡人生，实现改命的唯一途径。毕业就进入自带光环的大厂，有份让所有亲戚羡慕的公司和薪水。我认为工作价值是让自己自立，改变命运。但现实挑战才开始。工作前几年，职场战战兢兢，如履薄冰，尽心尽力做靠谱人靠谱事。交代任务二话不说就是干，加班熬夜不敢喊累。这时，工作好像
Spark 学习-1 (python) 一二三四0123 spark 学习 python
Spark官方文档快速入门指南Spark架构-Spark教程1.基本概念RDD（resilientdistributeddataset）弹性分布式数据集，对分布式数据和计算的基本抽象。每个Spark应用由一个驱动器程序（driverprogram）发起集群上的并行操作，驱动器程序一般要管理多个执行器（executor）节点。当我们在集群上执行一个操作，不同的节点会对文件不同部分展开计算。驱动器程序
Python大数据之PySpark(三)使用Python语言开发Spark程序代码_windows spark python 2401_84181704 程序员大数据 python spark
算子：rdd的api的操作，就是算子，flatMap扁平化算子，map转换算子Transformation算子Action算子步骤：1-首先创建SparkContext上下文环境2-从外部文件数据源读取数据3-执行flatmap执行扁平化操作4-执行map转化操作，得到(word,1)5-reduceByKey将相同Key的Value数据累加操作6-将结果输出到文件系统或打印代码：#-*-codi
Python软体中使用Scikit-learn库训练简单线性回归模型清水白石008 Python题库 python python scikit-learn 线性回归
Python软体中使用Scikit-learn库训练简单线性回归模型1.引言作为数据科学家和机器学习从业者,我们经常需要处理各种类型的数据,并从中提取有价值的信息。其中,线性回归是最基础也是最常用的机器学习算法之一。它可以帮助我们预测连续型目标变量,在很多实际应用场景中都有广泛应用,比如房价预测、销量预测等。在本文中,我将使用Python的Scikit-learn库,介绍如何训练一个简单的线性回归
超实用的Python机器学习教程 - 基于scikit - learn库 AI_DL_CODE 人工智能 python 机器学习人工智能
一、机器学习简介机器学习的定义与概念机器学习是一门多领域交叉学科，它涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。简单来说，机器学习是让计算机从数据中学习规律并进行预测或决策的技术。它旨在构建能够自动从数据中学习模式并进行改进的算法，而无需被明确编程来执行特定任务。例如，我们可以让机器学习算法通过分析大量的历史天气数据来预测未来的天气情况，或者通过分析用户的购物历史来推荐可能感兴趣
MixRec: Heterogeneous Graph Collaborative Filtering UnknownBody Recommendation 人工智能
本文是深度学习相关文章，针对《MixRec:HeterogeneousGraphCollaborativeFiltering》的翻译。MixRec：异构图协同过滤摘要1引言2前言3方法4评估5相关工作6结论摘要对于现代推荐系统来说，使用低维潜在表示来嵌入用户和基于他们观察到的交互的项目已经变得司空见惯。然而，许多现有的推荐模型主要是为粗粒度和同质交互而设计的，这限制了它们在两个关键维度上的有效性。
LearnLM: Improving Gemini for Learning UnknownBody LLM Daily 语言模型人工智能自然语言处理
本文是LLM系列文章，针对《LearnLM:ImprovingGeminiforLearning》的翻译。LearnLM：提升Gemini的学习能力摘要1引言2建模3人类评价设计4结果5结论摘要今天的生成式人工智能系统默认情况下会呈现信息，而不是像人类导师那样让用户参与学习服务。为了解决这些系统的广泛潜在教育用例，我们将注入教学行为的挑战重新定义为一种教学指导，其中培训和评估示例包括描述后续模型中
【python】利用 GridSearchCV 和 SVM 进行学生成绩预测码银支持向量机机器学习人工智能
在机器学习领域，寻找最优模型参数是一个重要的步骤，它直接影响模型的泛化能力和预测准确性。本文将通过一个具体案例介绍如何使用支持向量机（SVM）和网格搜索（GridSearchCV）来预测学生的成绩，并通过调整参数来优化模型性能。数据集：公众号“码银学编程”后台回复：学生成绩-SVM前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家：前言–人工智能教程引言学生的成绩预测
从零开始学习电池SOC算法洛溪之恋新能源BMS 算法
电池的SOC（StateofCharge，荷电状态）估算是电池管理系统（BMS）中的核心算法之一。SOC表示电池当前剩余电量与标称容量的比值，通常以百分比形式表示。准确的SOC估算对于电池的性能、安全性和寿命管理至关重要。以下是几种常见的SOC估算算法及其特点：开路电压法（OCV法）原理：通过测量电池的开路电压（OpenCircuitVoltage,OCV）来估算SOC。电池的开路电压与SOC之间
C++学习——引用变量中易出现的错误 Ricky_One 学习 c++笔记
在C++学习中容易出现变量引用不恰当导致编译错误，先来看一段代码：#includeusingnamespacestd;voidprintMessage(string&message){cout<
机器学习笔记——特征工程好评笔记补档机器学习人工智能论文阅读 AIGC transformer 深度学习面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本笔记介绍机器学习中常见的特征工程方法、正则化方法和简要介绍强化学习。文章目录特征工程（FzeatureEngineering）1.特征提取（FeatureExtraction）手工特征提取（ManualFeatureExtraction）：自动特征提取（AutomatedFeatureExtraction）：2.特征选择
JAVA-基础⑦二维数组与排序冷山寒水 java 开发语言
1、冒泡排序（BubbleSort）冒泡排序是所有排序算法中最简单的一个排序，也是我个人学习的第一个排序方法，在这里重新进行一个总结。冒泡排序（BubbleSort）就如同其名称一样，水中的气泡由于压强的原因所以从下到上其大小也是从小到大，如下图整个排序过程分为一个大循环和大循环中的很多小循环进行，我们先来讲其中的小循环他做的事情：每次小循环其实做的事情都很简单，就是单纯的循环所有数据找到其中最大
《程序人生》工作2年感悟 Zyy~ 程序人生职场和发展
一些杂七杂八的感悟：1.把事做好比什么都重要，先树立量良好的形象，再横向发展。2.职场就是人情世故，但也不要被人情世故绑架。3.要常怀感恩的心，要记住帮助过你的人，愿意和你分享的人，有能力的时候不要忘记帮助别人。4.机会很重要，不要轻易放弃一些你觉得不重要的东西，其实那些东西也很重要。5.要学的技术太多了，但是只有打牢根基才能走的更远。6.学习是一个持久性过程，要注重平时的积累，多写写博客，多敲敲
centos7搭建flink1.18并以 standalone模式启动咸鱼c君 flink 大数据大数据
版本组件版本scala2.12.20java1.8.0_181flink1.18.1关于scala和Java的安装参考：scala和java安装flink下载地址：flink下载链接集群规划bigdata01bigdata02bigdata03masterworkerworkerworker安装1.创建存放路径三个节点都需要操作用于存放安装包:mkdir/home/software/用于存放存放解
深度学习论文: Cultivated Land Extraction from High-Resolution Remote Sensing Image mingo_敏 Paper Reading Deep Learning Instance Segmentation python 人工智能机器学习
深度学习论文:CultivatedLandExtractionfromHigh-ResolutionRemoteSensingImageTheWinningSolutiontotheiFLYTEKChallenge2021CultivatedLandExtractionfromHigh-ResolutionRemoteSensingImagePDF:https://arxiv.org/pdf/22
不同物体运动方向的检测-python 人工智能专属驿站 python 开发语言
方法优点适用场景缺点光流法实时性强、支持稠密方向分析视频流中物体整体运动对背景复杂场景鲁棒性差特征点跟踪精确捕捉局部运动特征点明显的物体特征点丢失影响结果帧间差分简单快速，适合实时检测背景稳定、低复杂度场景对噪声和阴影敏感深度摄像头三维方向检测，抗背景干扰能力强需要深度信息的场景需要特殊硬件，成本较高惯性传感器不依赖视觉，适用环境广泛设备本体的运动分析精度受传感器噪声影响机器学习能适应复杂非线性场
高赞口碑！侯捷C++系列精品课盼达思文体科创经验分享
引言在当今软件开发领域，C++凭借其高效、灵活的特性，始终占据着至关重要的地位。从系统软件到游戏开发，从嵌入式系统到高性能计算，C++的应用场景极为广泛。然而，C++复杂的语法和高深的编程思想，让许多学习者望而却步。侯捷C++系列精品课的出现，犹如黑暗中的明灯，为广大C++学习者指明了方向。侯捷老师拥有丰富的教学经验和深厚的技术功底，他的课程讲解深入浅出、生动有趣，能够帮助学习者快速掌握C++的核
Java核心与应用：Java异常处理全解析星核日记《Java 核心与应用》java python 开发语言
Java核心与应用：Java异常处理全解析“程序的世界里，异常是不可避免的。但优秀的开发者，总能优雅地处理它们。”——凌云学习目标✅掌握Java异常分类体系与继承结构✅理解Checked/Unchecked异常的设计哲学✅熟练使用异常链进行根因分析✅掌握try-with-resources的底层原理✅设计符合规范的异常体系1.Java异常处理概述在Java开发中，异常处理是保证程序健壮性的重要手段
Flink Connector 写入 Iceberg 流程源码解析_confluent icebergsinkconnector 字节全栈_mMD flink java 大数据
//添加Writer算子，有并行度SingleOutputStreamOperatorwriterStream=appendWriter(distributeStream,flinkRowType,equalityFieldIds);//添加Commit算子，并行度固定为1SingleOutputStreamOperatorcommitterStream=appendCommitter(write
C 语言学习记录：选择语句与循环语句 Aphelios380 算法学习 c语言
在C语言的学习进程中，选择语句和循环语句是构建程序逻辑的重要部分。作为结构化编程语言，C语言主要包含顺序结构、选择结构和循环结构，其中选择语句和循环语句分别控制着程序的分支走向和重复执行，对实现复杂的业务逻辑起着关键作用。接下来，让我们深入学习这两类语句。一、选择语句在生活中，我们时刻面临着各种抉择，比如是选择去清华、北大还是其他地方深造，是否找朋友玩耍，以及选择及时行乐还是克勤克俭的生活方式等。
《大数据时代“快刀”：Flink实时数据处理框架优势全解析》程序猿阿伟大数据 flink
在数字化浪潮中，数据呈爆发式增长，实时数据处理的重要性愈发凸显。从金融交易的实时风险监控，到电商平台的用户行为分析，各行业都急需能快速处理海量数据的工具。Flink作为一款开源的分布式流处理框架，在这一领域崭露头角，备受瞩目。一、真正实时，毫秒级响应与部分将流处理模拟为微批处理的框架不同，Flink是专为实时流处理打造的“原生”引擎。它直接处理持续不断的事件流，无需将数据攒成批次再处理，这种设计赋
严恭敏老师PSINS工具箱学习笔记-1 嘀嗒zxy 惯导学习笔记 matlab
PSINS工具箱学习与使用刚开始入门惯性导航算法，看了一些书但实践出了一些问题，经推荐了解到西工大严恭敏老师的PSINS工具箱很适合自学，就在网上找了一些相关资料，很全。网址：http://www.psins.org.cn/syb站介绍：https://www.bilibili.com/video/BV1R54y1E7ut/?vd_source=6ce8821b81ac808150f82236f5
C++学习——类和对象(上) ｛Hello World} c++学习
C++学习——类和对象一、面向对象和面向过程的初步认识二、什么是类一、面向对象和面向过程的初步认识我们之前学习了C语言，我们知道①C语言：C语言是一门面向过程的语言，关注的是过程，分析出求解问题的步骤，通过函数调用来逐步解决问题。②C++:C++是一门面向对象的语言，关注的是对象，将一件事情拆分为不同的对象，靠对象之间的交互完成。我们在此可以举一个例子，洗衣服的过程。面向过程：洗衣服的过程便是：拿
第一篇：数据库基础与概念猿享天开数据库数据库
第一篇：数据库基础与概念目标读者：没有接触过数据库的初学者。内容概述：在本篇文章中，我们将从零开始，详细介绍数据库的基本概念、常见的数据库管理系统（DBMS）以及数据库设计的基础知识。无论你是完全没有接触过数据库，还是对其有些模糊的印象，这篇文章都将帮助你理解数据库的核心功能和工作原理，并为你进一步深入学习数据库打下坚实的基础。一、什么是数据库？我们生活中每时每刻都在接触数据，比如：你手机上的联系
【后端速成Vue】v-bind和v-model 程序猿教你打篮球后端速成Vue vue.js javascript 前端
篮球哥找工作专属IT岗位内部推荐：专属内推链接：内推通道前言：前面的文章看完，可能会有疑问，在Vue中如何操作类名呢？我要想动态的控制类名该怎么办？这篇文章就来解决这个问题，Vue扩展了v-bind的语法，可以使用Vue针对class类名和style行内样式进行控制，下面就一起来学习v-bind的使用。1、v-bind操作类名对象的方式绑定类名：什么意思呢，这里:class传递了一个对象，这个对象
大模型开发流程及项目实战辣椒种子机器学习人工智能
一、大模型开发整理流程1.1、什么是大模型开发我们将开发以大语言模型为功能核心、通过大语言模型的强大理解能力和生成能力、结合特殊的数据或业务逻辑来提供独特功能的应用称为大模型开发。开发大模型相关应用，其技术核心点虽然在大语言模型上，但一般通过调用API或开源模型来实现核心的理解与生成，通过PromptEnginnering来实现大语言模型的控制，因此，虽然大模型是深度学习领域的集大成之作，大模型开
C语言字符与字符串杂记 du__kefeng C语言 c语言字符串
文章目录前言一、字符0，'0'，'\0'二、字符串为什么用char*存储字符串而不用char计算字符串长度三、字符数组与字符串常量的区别总结前言最近学习了C语言字符和字符串的相关知识，本文将学到的相关知识中本人认为比较有意思的知识点记下来，方便以后复习。提示：以下是本篇文章正文内容，下面案例可供参考一、字符0，‘0’，’\0’在学习字符的相关知识的时候，让我印象比较深的是这三个字符，此处做个记录。
园区智能化系统实现管理与服务的智能化转型与创新进阶快鲸智慧楼宇管理系统其他
内容概要园区智能化系统的出现，标志着管理与服务向智能化转型的重要一步。这一系统不仅仅是一个技术解决方案，更是一个全面提升园区运营效率与安全性的独特工具。通过集成大数据分析、物联网和人工智能，园区智能化系统能够为各类园区如工业园、产业园、物流园、写字楼与公寓等提供切实可行的解决方案。“智能化管理不仅是未来的发展趋势，更是提升竞争力的必要手段。”在资产管理方面，智能化系统能够实时监控并优化资源的配置，
Meta首席科学家Yann LeCun预言：5年内AI架构将颠覆，当前大模型的4大核心缺陷机器小乙人工智能
✨引言：一场颠覆AI行业的预言在2025冬季达沃斯“技术辩论”现场，Meta首席AI科学家、图灵奖得主杨立昆（YannLeCun）抛出一个震撼观点：“当前的大语言模型（LLM）范式将在3-5年内被淘汰。”这位深度学习先驱的论断，不仅直指ChatGPT等明星产品的技术天花板，更揭示了下一代AI进化的核心路径——构建理解物理世界的“世界模型”（WorldModel）。作为Meta人工智能实验室负责人，
Python学习之旅：进阶阶段（七）数据结构-计数器（collections.Counter）喜-喜 Python python 学习数据结构
在Python编程的进阶学习中，数据处理是一项重要的任务。collections.Counter作为Python标准库collections模块中的一员，为我们提供了一种高效且便捷的方式来统计数据出现的次数。接下来，就让我们一起深入了解这个强大的计数器。一、什么是计数器 collections.Counter本质上是一个特殊的字典，它用于统计可迭代对象中元素出现的次数。普通字典是通过键值对来
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他