流浮影

Flink开发技术点

Flink

1.算子分类

1.1 one-to-one

1.2redistributing

2.备注记

1.keyby的特殊

keyby是基于hashcode进行重分区的，而broadcast和rebanlance是随机重新分区
sum等算子是基于keyedsteam，【普通的数据类型是Dsteam

3.Flink流处理的API

flink的处理过程包含source transfer sink

3.1创建执行环境

    val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    StreamExecutionEnvironment.createLocalEnvironment(1)
    StreamExecutionEnvironment.createRemoteEnvironment("172.168.72.64",4044,"")
   环境执行的俩种方式：
   第一种是flink自动获取，自动包装
   第二种是 手动切换的类型

3.2source几种的例子

readTextFile 读文件的source接入
socketTextStream：从文本流读入的方式
env.fromCollection(List(
  SendsoRendsourceTest("ceshi1",1547718199,123),
 SendsoRendsourceTest("ceshi2",1287319287,100),
  ))：从内存读集合的方式

从kafka中读取数据的方式

  val properties = new Properties()
    properties.setProperty("bootstrap.serers","localhost:9092")
    properties.setProperty("group.id","consumer-group")
    properties.setProperty("auto.offset.reset","latest")
    properties.setProperty("value.deserializer","org.apache.kafka.common.serialization.StringDeserializer")
    properties.setProperty("value.deserializer","org.apache.kafka.common.serialization.StringDeserializer")
    val data: DataStream[String] = env.addSource(new FlinkKafkaConsumer011[String]("ceshi",new SimpleStringSchema(),properties))
    data.print("data")
    env.execute("source test job")

java版本

import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.api.java.tuple.Tuple;
import org.apache.flink.api.java.tuple.Tuple1;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.*;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer011;
import org.apache.flink.util.Collector;
import scala.Int;

import javax.xml.crypto.*;
import java.util.Properties;

public class FlinkSteamingApi {
    public static void main(String[] args) {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
//    StreamExecutionEnvironment.createLocalEnvironment(1)
//    StreamExecutionEnvironment.createRemoteEnvironment("172.168.72.64",4044,"")
        env.setParallelism(4);
        Properties properties = new Properties();
        properties.setProperty("","");
        DataStreamSource<String> inputData = env.addSource(new FlinkKafkaConsumer011<String>("test", new SimpleStringSchema(), properties));
//        SingleOutputStreamOperator mapDataStream =
        SingleOutputStreamOperator<Int> sum = inputData.flatMap(new FlatMapFunction<String, Int>() {
            public void flatMap(String o, Collector collector) throws Exception {
                String[] split = o.split("");
                for (String data : split) {
                    collector.collect(new Tuple2(data, 1));
                }
            }
        }).keyBy(0).sum(1);
        sum.print();
        try {
            env.execute("cveshi");
        } catch (Exception e) {
            e.getMessage();
        }

    }
}

3.3不同算子执行在不同的slot上的设置

3.3.1slotSharingGroup

slotSharingGroup("1")将slot划分组管理，同一组内可以共享slot
默认情况：slotSharingGroup （"defualt"）
在指定上slot组之后，后面的算子默认是和之前指定的slot组

应用场景：类似于窗口计算比较耗时的算子任务，可以单独使用slot组区分资源应用

3.3.2disablechaining和startNewChain

disablechaining :算子作用，算子前后任务都不能合并成一个任务执行
startNewChain：算子作用算子断开前面算子

3.4自定义source源

import java.util.{Properties, Random}

import org.apache.flink.api.common.serialization.SimpleStringSchema
import org.apache.flink.streaming.api.scala._
import org.apache.flink.api.java.utils.ParameterTool
import org.apache.flink.streaming.api.functions.source.SourceFunction
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer011
import org.apache.kafka.common.serialization.StringDeserializer

object FlinkSteaming {
  def main(args: Array[String]): Unit = {
    val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
//    StreamExecutionEnvironment.createLocalEnvironment(1)
//    StreamExecutionEnvironment.createRemoteEnvironment("172.168.72.64",4044,"")
      env.setParallelism(4)
//    val data: DataStream[SendsoRendsourceTest] = env.fromCollection(List(
//      SendsoRendsourceTest("ceshi1",1547718199,123),
//      SendsoRendsourceTest("ceshi2",1287319287,100),
//      SendsoRendsourceTest("ceshi2",1287319287,99),
//      SendsoRendsourceTest("ceshi1",1547718200,123),
//      SendsoRendsourceTest("ceshi1",1547718201,123),
//      SendsoRendsourceTest("ceshi1",1547718202,123)
//    ))
//    data.print("data")
//    val data: DataStream[String] = env.readTextFile("E:\\java_home_work\\IdeaProjects\\zbs_learn\\zbs_spring\\src\\main\\resources\\Tess_data")
//    env.socketTextStream("",21)
// v从kafka中读取数据
    val properties = new Properties()
    properties.setProperty("bootstrap.serers","localhost:9092")
    properties.setProperty("group.id","consumer-group")
    properties.setProperty("auto.offset.reset","latest")
    properties.setProperty("value.deserializer","org.apache.kafka.common.serialization.StringDeserializer")
    properties.setProperty("value.deserializer","org.apache.kafka.common.serialization.StringDeserializer")
    val data: DataStream[String] = env.addSource(new FlinkKafkaConsumer011[String]("ceshi",new SimpleStringSchema(),properties))
    data.print("data")
    data.flatMap(_.split(" ")).map((_,1)).slotSharingGroup("1").disableChaining()
      .filter(_._1.nonEmpty).keyBy(0).sum(1).startNewChain()
    data.slotSharingGroup("1")
    env.execute("source test job")

  }

}
//数据的输入形式是集合
case class SendsoRendsourceTest(id:String,timestap:Double,rmperatur:Double)
//从文件中读取数据

object sourceDemo{
  def main(args: Array[String]): Unit = {
    val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    val stream5: DataStream[SendsoRendsourceTest] = env.addSource(new MysensorSource())
    stream5.print()
    env.execute("ceshisource")
  }
}
//实现一个自定义的sourceFunction,自动生成测试数据
class MysensorSource extends SourceFunction[SendsoRendsourceTest] {
//  定义一个FLAG，表示数据源是否正常运行
  var running:Boolean=true
  override def run(ctx: SourceFunction.SourceContext[SendsoRendsourceTest]): Unit = {
    val rand = new Random()
    var curTemps = 1.to(10).map(
      i=>("sensor"+i,60 +rand.nextGaussian()*20)
    )
    //无限循环，生成循环数据
    while (running){
      //随机生成微小波动
      curTemps.map(
        data=> (data._1,data._2+rand.nextGaussian())
      )
      val cutrs=System.currentTimeMillis()
      //包装成样例类，用ctx发送数据
      curTemps.foreach(
        data=>ctx.collect(SendsoRendsourceTest(data._1,cutrs,data._2))
      )
     Thread.sleep(1000)
    }
  }

  override def cancel(): Unit = {
    running=false
  }
}

3.5transform

scource之后，sink之前的算子都是转换算子

基本转换算子

map、flatmap、filter

特殊算子，只在数据传输之前起作用，起到重分区和类型装换

keyby 基于key的hashcode做重分区 datastream -> keystream
下面可以做滚动聚合算子

dataStream 是没有聚合操作，目前所有的聚合操作都是针对keySteam

滚动聚合算子

sum 
min和minby区别 min只输出指定字段的最小值，其他字段使用第一个的值，minby是根据最小值的，其他字段也是最小值的其他字段   
max和maxby区别 同上
reduce  类型为keyedstream keyby流 根据历史结果+新传入的数据进行计算 所以两个参数是相同的
fold 已删除
aggregate  
reduce和aggregate 
.reduce(
        (a: SendsoRendsourceTest, b: SendsoRendsourceTest) => {
          a.rmperatur = a.rmperatur + b.rmperatur
          a
        }

拆分

split-select 分流  
connect 和comap/coflatmap
成对出现，都是针对 splitSteam 或者 connectSteam ,然后通过select 或者comap coflatmap 进行获取
union 合流

 data.split(x=>{   //TraversableOnce sacla里的复杂类型  seq list等
      if(x.isEmpty){
        List("high")
      }                   
      else
        List("low")
    }).select("high")

有状态的算子

mapwithstate

函数类：flink提供了所有的udf的函数类 都可以通过继承实现自己的函数类

富函数类：flink提供了所有的udf的函数类 都可以通过继承实现自己的函数类比一般的udf类多加生命周期的函数
        open() 初始化的时候，只调用一次
        close() 结束的时候，只调用一次
        getruntimecontext():获取运行时上下文，例如状态 
        状态操作多用于 状态编程 
        getruntimecontext().getIndexOfThisSubtask:获取当前任务的子任务编号

3.6sink源

sink： .writeAsCsv()  输出为csv文件的sink方法
       ..writeToSocket() 一般测试数据
官方提供的sink源 sourece源
  kafka                 sink/sources
  cassandra   
  kinesis Streams       sink/sources
  es
  hdfs
  rabbitmq              sink/sources
  nifi                  sink/sources
  twitter streaming api source 
Bahir 
	activemq            sink/sources
	flume
	redis
	akka
	netty

kafka sink 案例分析：
tuple2SingleOutputStreamOperator.addSink(
                new FlinkKafkaProducer011>("localhost:9092","sinktest",new mySerializationSchema())
        );
class   mySerializationSchema implements SerializationSchema> {
    @Override
    public byte[] serialize(Tuple2 stringIntegerTuple2) {
        return stringIntegerTuple2.toString().getBytes();
    }
}

redis sink 案例分析：

        org.apache.bahir
        flink-connector-redis_2.11
        1.0
  apache bahir的依赖


 tuple2SingleOutputStreamOperator.addSink(new RedisSink>(new FlinkJedisPoolConfig.Builder().setHost("").setPort(6379).build(),
                new RedisMapper>() {
                    @Override 
                    //定义保存数据到redis的命令
                    public RedisCommandDescription getCommandDescription() {
                        new RedisCommandDescription(RedisCommand.HSET,"sadasdas");
                    }

                    @Override
                    public String getKeyFromData(Tuple2 data) {
                        return data.f0;
                    }

                    @Override
                    public String getValueFromData(Tuple2 data) {
                        return data.f1.toString();
                    }
                });
        env.execute();

自定义sink源： 使用richfunction 使用open方式创建连接然后实现invoke方式发送数据 实现数据插入
    tuple2SingleOutputStreamOperator.addSink(new RichSinkFunction>() {
            //声明连接和预编译语句
            Connection connection = null;
            PreparedStatement insertstmt = null;
            PreparedStatement updateStmnt = null;

            @Override
            public void open(Configuration parameters) throws Exception {
                connection = DriverManager.getConnection("jdbc:mysql://localhost:3306/test", "root", "123456");
                System.out.println(connection);
                insertstmt = connection.prepareStatement("insert into ceshi(name,id) values (?,?)");
                updateStmnt = connection.prepareStatement("update  ceshi set id=? where name=?");

            }

            //每来一条数据，就调用连接执行sql


            @Override
            public void invoke(Tuple2 value, Context context) throws Exception {
                //直接执行更新语句，如果没有更新就拆入
                updateStmnt.setInt(1, value.f1);
                updateStmnt.setString(2, value.f0);
                updateStmnt.execute();
                if (updateStmnt.getUpdateCount() == 0) {
                    insertstmt.setString(1,value.f0);
                    insertstmt.setInt(2,value.f1);
                    insertstmt.execute();
                }
            }

            @Override
            public void close() throws Exception {
                insertstmt.close();
                updateStmnt.close();
                connection.close();
            }
        });

        env.execute();

4.窗口

windows:窗口就是将无限流切割为有限流的一种方式，塔会将流数据发送到有限大小的桶中进行分析

4.1窗口的类型

时间窗口：
  滚动时间窗口-tumbling Winows: 数据根据固定的窗口长度对数据进行划分 时间对齐，窗口长度固定，没有重叠
  滑动时间窗口-Sliding Windows:滑动窗口是固定窗口的更广义的一种形式，滑动窗口由固定的窗口长度和滑动间隔组成，窗口长度固定，可以有重叠
  会话窗口-特殊的一种窗口Session Windows：由一系列事件组合一个指定时间长度的timeout间隙组成，也就是一段时间就么有接受到新数据就会生成一个新的窗口
计数窗口：
  滚动计数窗口-tumbling Winows: 数据根据固定的窗口长度对数据进行划分
  滑动计数窗口-Sliding Windows:滑动窗口是固定窗口的更广义的一种形式，滑动窗口由固定的窗口长度和滑动间隔组成，窗口长度固定，可以有重叠

4.2Window ApI

窗口分配器.window()方法
我们可以用window()来定义一个窗口，然后基于这个windows去做一些聚合和其他的处理操作，注意这个window() 方法必须在keyby以后使用
Flink还提供了更加简单的.timeWindow和.countWindow方法，用于定义时间和计数窗口

窗口测试：
在不使用keyby算子的开窗函数，调用windowall方法，这个方法会默认吧数据都会放到一个key里，相当于提前加了group ，建议不是用
splitDataStream.windowAll();
基于keyby之后的开窗更常见
正常的写法：
 DataStream<Tuple2<String, Integer>> tuple2SingleOutputStreamOperator = splitDataStream.keyBy(0).timeWindow(Time.seconds(2)).sum(1);
        tuple2SingleOutputStreamOperator.print();

窗口的分配器:globalWindows共同的窗口计数器
           tumblingWinows滚动窗口计数器
           SlidingWindows滑动窗口计数器
           sessionWindows会话窗口计数器

实例： 滚动时间窗口 .timeWindow(Time.seconds(15))
      滑动时间窗口 .timeWindow(Time.seconds(15)，Time.seconds(5))
      会话窗口     .window(EventTimeSessionWindows.withGap(Time.minutes(10)))
      滚动计数窗口 .countWindow(5)
      滑动计数窗口 .countWindows(10,2)

4.3窗口聚合操作

增量聚合函数

每条数据来之后，保持一个简单的状态 
ReduceFunction AggregateFunction 来一个计算一个，保持状态，不输出 .sum .min .max

全窗口函数 ds-aws-ds

全把窗口的所有数据收集起来，等到计算的时候遍历所有数据
ProcessWindowFunction WindowFunction 类似于批处理

        DataStream<Tuple2<String, Integer>> tuple2SingleOutputStreamOperator = splitDataStream.keyBy(0).timeWindow(Time.seconds(2)
        ).aggregate(new AggregateFunction<Tuple2<String, Integer>, Integer, Tuple2<String, Integer>>() {
            @Override
            public Integer createAccumulator() {
                return 0;
            }

            @Override
            public Integer add(Tuple2<String, Integer> stringIntegerTuple2, Integer integer) {
                return integer+1;
            }

            @Override
            public Tuple2<String, Integer> getResult(Integer integer) {
                return null;
            }

            @Override
            public Integer merge(Integer integer, Integer acc1) {
                return null;
            }
        })
                ;
        tuple2SingleOutputStreamOperator.print();
        env.execute();

    }

.apply(new WindowFunction<Tuple2<String, Integer>, Tuple2<String, Integer>, Tuple, TimeWindow>() {
            @Override
            public void apply(Tuple tuple, TimeWindow window, Iterable<Tuple2<String, Integer>> input, Collector<Tuple2<String, Integer>> out) throws Exception {
                //获取最终时间
                long end = window.getEnd();
                ArrayList<Tuple2<String, Integer>> list = IteratorUtils.toList(input.iterator();
                out.collect(list.get(0));
            }
        })

.countWindow(10,2).aggregate(new AggregateFunction<Tuple2<String, Integer>, Tuple2<Integer,Integer>, Tuple2<String, Integer>>() {
                    @Override
                    public Tuple2<Integer, Integer> createAccumulator() {
                        return new  Tuple2(1,1);
                    }

                    @Override
                    public Tuple2<Integer, Integer> add(Tuple2<String, Integer> stringIntegerTuple2, Tuple2<Integer, Integer> integerIntegerTuple2) {

                        return new Tuple2< Integer, Integer>(stringIntegerTuple2.f1+integerIntegerTuple2.f0,stringIntegerTuple2.f1+1);
                    }

                    @Override
                    public Tuple2<String, Integer> getResult(Tuple2<Integer, Integer> integerIntegerTuple2) {
                        return null;
                    }

                    @Override
                    public Tuple2<Integer, Integer> merge(Tuple2<Integer, Integer> integerIntegerTuple2, Tuple2<Integer, Integer> acc1) {
                        return null;
                    }
                })
                ;

注意：刚开窗的滑动步长就是输出的频率

4.4窗口的其他方法

process context 是上下文

.trigger() 触发器
   定义window关闭，触发计算，输出结果
·evictor() 移除器 定义移除某些数据的逻辑
.allowedLateness() 允许处理迟到的数据
.sideOutputLateData() 讲迟到的数据放入侧输出流
.getSideOutput获取侧输出流

窗口的迟到的逻辑，现在原窗口的时间输出一次，切窗口不会立即关闭，会等待一个时间的，等待数据的传入，再次计算，再次输出，等到迟到时间到后，才会关闭窗口
迟到数据-》窗口等待-》测输出流写入处理-》侧输出流获取数据

.countWindow(10,2)
//                .trigger()
//                .evictor()
                .allowedLateness(Time.seconds(2))
                .sideOutputLateData(new OutputTag<>("123"))
                .aggregate(new AggregateFunction<Tuple2<String, Integer>, Tuple2<Integer,Integer>, Tuple2<String, Integer>>() {
                    @Override
                    public Tuple2<Integer, Integer> createAccumulator() {
                        return new  Tuple2(1,1);
                    }

                    @Override
                    public Tuple2<Integer, Integer> add(Tuple2<String, Integer> stringIntegerTuple2, Tuple2<Integer, Integer> integerIntegerTuple2) {

                        return new Tuple2< Integer, Integer>(stringIntegerTuple2.f1+integerIntegerTuple2.f0,stringIntegerTuple2.f1+1);
                    }

                    @Override
                    public Tuple2<String, Integer> getResult(Tuple2<Integer, Integer> integerIntegerTuple2) {
                        return null;
                    }

                    @Override
                    public Tuple2<Integer, Integer> merge(Tuple2<Integer, Integer> integerIntegerTuple2, Tuple2<Integer, Integer> acc1) {
                        return null;
                    }
                })

注意点：侧输出流的获取只能用 SingleOutPutStreamOperator这个数据类型，DataStream没有getSidwOutput的方法
例如：SingleOutputStreamOperator alertStream = (SingleOutputStreamOperator) alerts;

5.时间语义

主要包含三个时间语义：
       Event Time  事件创建的时间
       ingestion time 数据进入Flink的时间
       processing time 执行操作算子的本地系统时间，与机器相关

不同的时间语义有不同的应用的场景
Event time是我们更关心的时间

设置代码的处理时间是处理时间 
 env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)

然后设置流的事件时间时.assignTimestampsAndWatermarks

5.1乱序时间的影响

Event Time也会带来数据的影响，因为数据的到达是可能是无序，影响数据窗口的操作

例子，当新的窗口数据到时，上一个窗口将要关闭，但是上一窗口执行什么操作，是关闭还是等待，怎么关闭，原来的迟到数据处理会带来一个问题
      ，窗口先输出结果，然后再迟到一条计算一条，会造成大量的输出窗口计算，

5.2Watermark

遇到一个时间戳达到了窗口的关闭时间，不应该立刻触发窗口的计算，而是等待一段时间，等迟到的数据来了在关闭窗口

watermark是衡量数据EventTime的机制，可以设定延迟触发

通常结合window的实现，数据流的Watermark用于timestamp小于Watewrmark的数据，都已经到达了，因此，window的执行也是Watermark触发的

watermark，让窗口延迟触发，allowedLateness 运行时等待迟到数据，singoutput侧输出流处理真正数据的延迟

5.3Watermark的特点

watermark是一条特殊的数据记录
watermark必须单点递增，以确保任务的事件时间时钟在向前推进，而不是在后退，watermark于数据的时间戳有关
举例：
   以数字代表时间戳
            1  5  3  6  8  7 
watermark     2     5        8
watermark的时间怎么设置，最大的迟到时间 
数据会根据时间分桶，但是窗口的关闭是根据water
0-5的桶
1 w -2
4 w 1
5 w 2

5.4Watermark的传递

涉及到多个分区的数据 Watermark怎么保证共同 广播下游
涉及到多个上游watermark向下传递时，

每一个任务可能会有多个并行的上游任务发送watermark 取上游最小的watermaek，同时也要跟多个并行的下游任务 去发送他的watermark broadcast

5.5Watermark的定义

.assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor<Tuple2<String, Integer>>( Time.seconds(10)) {
            @Override
            public long extractTimestamp(Tuple2<String, Integer> element) {
                return element.f1 *1000L ;
            }
        });

实现的类里传的参数是watermark的延迟时间 类中是取哪个字段是通过extractTimestamp 来设置 取哪个字段

.assignTimestampsAndWatermarks(new AscendingTimestampExtractor>() {
            @Override
            public long extractAscendingTimestamp(Tuple2 element) {
                return element.f1;
            }
        });

如果数据是升序的，即不需要设置Watermark的时间 默认是－1毫秒的

assignTimestampsAndWatermarks方法可以传两个function 
主要分为两类：
AssignerWithPeriodicWatermarks 周期性生成watermark 隔一段时间自动生成
AssignerWithPunctuatedWatermarks 立即生成watermark 基于数据来判断是否生成watermaek

5.6窗口开始时间

窗口的开始时间：
窗口的起始点， 源码里是一个取模的操作 使用当前的时间戳-offset
        splitDataStream.keyBy(0).window(TumblingEventTimeWindows.of(Time.seconds(2),Time.seconds(1)));
        splitDataStream.keyBy(0).window(SlidingEventTimeWindows.of(Time.seconds(2),Time.seconds(1),Time.seconds(1)));
通过窗口的时间变量控制窗口的开始时间

HiveSQL ->AST(抽象语法树) -> QB(查询块) ->OperatorTree（操作树）->优化后的操作树->mapreduce任务树->优化后的mapreduce任务树

Hive SQL编译过程

词法、语法解析: Antlr 定义 SQL 的语法规则，完成 SQL 词法，语法解析，将 SQL 转化为抽象语法树 AST Tree；
Antlr是一种语言识别的工具，可以用来构造领域语言。使用Antlr构造特定的语言只需要编写一个语法文件，定义词法和语法替换规则即可，Antlr完成了词法分析、语法分析、语义分析、中间代码生成的过程。

语义解析: 遍历 AST Tree，抽象出查询的基本组成单元 QueryBlock；
生成逻辑执行计划: 遍历 QueryBlock，翻译为执行操作树 OperatorTree；
优化逻辑执行计划: 逻辑层优化器进行 OperatorTree 变换，合并 Operator，达到减少 MapReduce Job，减少数据传输及 shuffle 数据量；
生成物理执行计划: 遍历 OperatorTree，翻译为 MapReduce 任务；
优化物理执行计划: 物理层优化器进行 MapReduce 任务的变换，
生成最终的执行计划

6状态编程

6.1状态的基本概念

Flink的状态 
 分为两大类：
   算子状态 OPeratior State
   键控状态 Keyed State
状态后端 State Backends

我们任务数据流一条一条处理的，可以看做是无状态算子，
类似于 window的 minby sum这种是带状态的算子，会有一个额外的任务来维护这个状态 state会缓存的内存中
状态需要关联 因为本地的状态需要有互通的（序列化反序列化 以及哪些状态储存在哪里 ） 高效存储 状态一致性等。 
被mange state  raw state

6.2举例示范

连续两个数据差值超过10度

public class FlatmapRichFunctionDev extends RichFlatMapFunction<Tuple2<String, Integer>, Tuple3<String, Integer, Integer>> {
    private Integer num_flag;
    //定义状态，保存上一次的值
    private ValueState<Integer> state;

    @Override
    public void open(Configuration parameters) throws Exception {
        super.open(parameters);
        state = getRuntimeContext().getState(new ValueStateDescriptor<Integer>("last_temp", Integer.class));
    }

    public FlatmapRichFunctionDev(int num_flag) {
        this.num_flag = num_flag;
    }

    @Override
    public void flatMap(Tuple2<String, Integer> stringIntegerTuple2, Collector<Tuple3<String, Integer, Integer>> collector) throws Exception {
        Integer value = state.value();
        if (value != null) {
            Integer i = Math.abs(stringIntegerTuple2.f1 - value);
            if(i > num_flag) { 
                collector.collect(new Tuple3<>(stringIntegerTuple2.f0,value,stringIntegerTuple2.f1)) ;
            }
           
        }
        state.update(stringIntegerTuple2.f1);
    }
}

6.3键控状态

键控状态是根据输入数据流中定义的建 来维护和访问的
Flink为每一个key维护一个状态实例，并将具有相同键的所有数据，都分区到同一个算子中，这个任务会维护和处理这个key对应的状态
当任务处理一条数据时

键控状态的API
1）值状态(ValueState)
获取值：valueState.value()
修改值：valueState.update(value: T)
2）列表状态（ListState）
单个添加值：listState.add(value: T)
添加所有值：listState.addAll(values: java.util.List[T])
获得所有值：ListState.get()（注意：返回的是Iterable[T]）
修改所有值：ListState.update(values: java.util.List[T])
3）映射状态（MapState）
根据Key获取值：mapState.get(key: K)
添加一对值：mapState.put(key: K, value: V)
判断Key是否存在：mapState.contains(key: K)
移除某个Key：mapState.remove(key: K)
4）聚合状态（ReducingState & AggregatingState）
add方法：ReducingState.add(value: T)
在使用聚合状态时，ReducingState需要传递三个参数：
5）通用API：
State.clear()是清空操作

键控状态的数据结构：
        值状态： Value state 列表状态 list state 映射状态 Map state 聚合状态 Reducing state & Aggregating State

键控装填的声明：
myValueState = getRuntimeContext().getState(new ValueStateDescriptor("last_temp", Integer.class));

算子状态：定义一个变量 提交给flink 通过checkpoint 将数据保存和恢复

7.状态后端

7.1概念

Flink提供不同的状态后端（State Backend）来区分状态的存储方式和存储位置。主要是指定存储状态数据的位置
Flink状态可以存储在java堆内存内或者内存之外。通过状态后端的设置，Flink允许应用持有大容量的状态。开发者可以在不改变应用逻辑的情况下设置状态后端。
实例：
env.setStateBackend(new FsStateBackend("hdfs://namenode:40010/flink/checkpoints"));

7.2自带的state Backend

1.MemoryStateBackend
2.FsStateBackend
3.RocksDBStateBackend

7.2.1MemoryStateBackend

默认使用的就是MemoryStateBackend，此时Flink的状态会保存在TaskManager的内存中，
                                而Checkpoint会保存在JobManager的内存中。
默认开启异步快照 可以通过MemoryStateBackend的构造函数配置进行关闭
                                new MemoryStateBackend(MAX_MEM_STATE_SIZE, false);

限制

每个独立的状态（state）默认限制大小为5MB， 可以通过构造函数增加容量
状态的大小不能超过akka的framesize大小 akka.framesize “10485760b”
聚合状态（aggregate state ）必须放入JobManager的内存。

场景

本地测试
Flink任务状态数据量较小的场景

7.2.2 FsStateBackend

FsStateBackend将动态数据保存在taskmanger的内存中，
通过checkpoint机制，将状态快照写入配置好的文件系统或目录中。
最小元数据保存jobManager的内存中，
另外FsStateBackend通过配置一个fileStateThreshold阈值，小于该值时state存储到metadata中而非文件中。

场景

大状态、长窗口、大key/value状态的的任务
全高可用配置

7.2.3RocksDBStateBackend

RocksDBStateBackend将工作状态保存在RocksDB数据库（RocksDB 是一个基于 LSM 实现的 KV 数据库，
State数据部分存储在内存中，一部分存储在磁盘文件上）。
通过checkpoint, 整个RocksDB数据库被复制到配置的文件系统中。
最小元数据保存jobManager的内存中。
RocksDBStateBackend可以通过enableIncrementalCheckpointing参数配置是否进行增量Checkpoint（而MemoryStateBackend 和 FsStateBackend不能）。
跟FsStateBackend 不同的是，RocksDBStateBackend仅支持异步快照（asynchronous snapshots）。

场景

大状态、长窗口、大key/value状态的的任务
全高可用配置 由于RocksDBStateBackend将工作状态存储在taskManger的本地文件系统，状态数量仅仅受限于本地磁盘容量限制，对比于FsStateBackend保存工作状态在内存中，RocksDBStateBackend能避免flink任务持续运行可能导致的状态数量暴增而内存不足的情况，因此适合在生产环境使用。

8.ProcessFunction

8.1process

ProcessFunction 函数是低阶流处理算子，可以访问流应用程序所有（非循环）基本构建块：
事件 (数据流元素)
状态 (容错和一致性)
定时器 (事件时间和处理时间)
ProcessFunction 可以被认为是一种提供了对 KeyedState 和定时器访问的 FlatMapFunction。每在输入流中接收到一个事件，就会调用来此函数来处理。

定时器可以对处理时间和事件时间的变化做一些处理。每次调用 processElement() 都可以获得一个 Context 对象，通过该对象可以访问元素的事件时间戳以及 TimerService。TimerService 可以为尚未发生的事件时间/处理时间实例注册回调。当定时器到达某个时刻时，会调用 onTimer() 方法。在调用期间，所有状态再次限定为定时器创建的键，允许定时器操作 KeyedState。

对于容错的状态，ProcessFunction 可以通过 RuntimeContext 访问 KeyedState，类似于其他有状态函数访问 KeyedState。
如果要访问 KeyedState 和定时器，那必须在 KeyedStream 上使用 ProcessFunction。
stream.keyBy(...).process(new MyProcessFunction())

8.1.3.CoProcessFunction，双流操作

绑定到两个不同的输入流，分别调用processElement1和processElement2对两个输入流的数据进行处理

8.1.4.KeyedProcessFunction

区别在于Context多了 getCurrentKey方法 keyedProcessFunction作为ProcessFunction的扩展，在其onTimer方法中提供了对定时器对应key的访问

8.1.5.TimerService

计时器

你可能感兴趣的:(flink,kafka,大数据)

Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
Kafka系列之：Dead Letter Queue死信队列DLQ 快乐骑行^_^ Kafka Kafka系列 Dead Letter Queue 死信队列 DLQ
Kafka系列之：DeadLetterQueue死信队列DLQ一、死信队列二、参数errors.tolerance三、创建死信队列主题四、在启用安全性的情况下使用死信队列更多内容请阅读博主这篇博客：Kafka系列之：KafkaConnect深入探讨-错误处理和死信队列一、死信队列死信队列（DLQ）仅适用于接收器连接器。当一条记录以JSON格式到达接收器连接器时，但接收器连接器配置期望另一种格式，如
消息中间件巡检搬砖小常消息中间件运维笔记 RocketMQ kafka 中间件巡检运维
除资源使用情况外，消息中间件RocketMQ、kafka还可以巡检哪些？一、RocketMQ巡检1、检查broker写入耗时是否有压力2、检查brokerbusy的数量与频率3、主题发送TPS、发送错误率巡检4、从节点消费情况检查5、集群各broker消息流转情况巡检二、Kafka巡检1、检查是否有分区发生ISR频繁扩张收缩2、检查分区leader选举值是否处于正常水平3、检查controller
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
[特殊字符] 实时数据洪流突围战：Flink+Paimon实现毫秒级分析的架构革命（附压测报告）——日均百亿级数据处理成本降低60%的工业级方案 Lucas55555555 flink 大数据
引言：流批一体的时代拐点据阿里云2025白皮书显示，实时数据处理需求年增速达240%，但传统Lambda架构资源消耗占比超运维成本的70%。某电商平台借助Flink+Paimon重构实时数仓后，端到端延迟从分钟级压缩至800ms，计算资源节省5.6万核/月。技术红利窗口期：2025年ApachePaimon1.0正式发布，支持秒级快照与湖仓一体，成为替代Iceberg的新范式一、痛点深挖：实时数仓
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink 2.0 DataStream算子全景 Edingbrugh.南空大数据 flink flink 人工智能
在实时流处理中，ApacheFlink的DataStreamAPI算子是构建流处理pipeline的基础单元。本文基于Flink2.0，聚焦算子的核心概念、分类及高级特性。一、算子核心概念：流处理的"原子操作1.数据流拓扑（StreamTopology）每个Flink应用可抽象为有向无环图（DAG），由源节点（Source）、算子节点（Operator）和汇节点（Sink）构成，算子通过数据流（S
FlinkSQL 自定义函数详解 Tit先生基础 flink sql 大数据 java
FlinkSQL函数详解自定义函数除了内置函数之外，FlinkSQL还支持自定义函数，我们可以通过自定义函数来扩展函数的使用FlinkSQL当中自定义函数主要分为四大类:1.ScalarFunction:标量函数特点:每次只接收一行的数据，输出结果也是1行1列典型的标量函数如:upper(str),lower(str),abs(salary)2.TableFunction:表生成函数特点:运行时每
Flink自定义函数之聚合函数（UDAGG函数）土豆马铃薯 Flink flink 大数据
1.聚合函数概念聚合函数：将一个表的一个或多个行并且具有一个或多个属性聚合为标量值。聚合函数理解：假设一个关于饮料的表。表里面有三个字段，分别是id、name、price，表里有5行数据。假设你需要找到所有饮料里最贵的饮料的价格，即执行一个max()聚合。你需要遍历所有5行数据，而结果就只有一个数值。2.聚合函数实现聚合函数主要通过扩展AggregateFunction类实现。AggregateF
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
Flink DataStream API详解（一） bxlj_jcj Flink flink 大数据
一、引言Flink的DataStreamAPI，在流处理领域大显身手的核心武器。在很多实时数据处理场景中，如电商平台实时分析用户购物行为以实现精准推荐，金融领域实时监控交易数据以防范风险，DataStreamAPI都发挥着关键作用，能够对源源不断的数据流进行高效处理和分析。接下来，就让我们一起深入探索FlinkDataStreamAPI。二、DataStream编程基础搭建在开始使用FlinkDa
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
flink自定义函数逆风飞翔的小叔 flink 入门到精通 flink 大数据 big data
前言在很多情况下，尽管flink提供了丰富的转换算子API可供开发者对数据进行各自处理，比如map()，filter()等，但在实际使用的时候仍然不能满足所有的场景，这时候，就需要开发人员基于常用的转换算子的基础上，做一些自定义函数的处理1、来看一个常用的操作原始待读取的文件核心代码importorg.apache.flink.api.common.functions.FilterFunction
Flink自定义函数的常用方式飞Link Water flink java 大数据
一、实现Flink提供的接口//自定义函数classMyMapFunctionimplementsMapFunction{publicIntegermap(Stringvalue){returnInteger.parseInt(value
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
Flink DataStream API详解（二）
一、引言咱两书接上回，上一篇文章主要介绍了DataStreamAPI一些基本的使用，主要是针对单数据流的场景下，但是在实际的流处理场景中，常常需要对多个数据流进行合并、拆分等操作，以满足复杂的业务需求。Flink的DataStreamAPI提供了一系列强大的多流转换算子，如union、connect和split等，下面我们来详细了解一下它们的功能和用法。二、多流转换2.1union算子union算
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
如何通过YashanDB优化企业大数据处理流程数据库
在当今数据驱动的商业环境中，企业面临着巨大的数据处理挑战。性能瓶颈、数据一致性问题和可扩展性需求使得大数据处理成为一项复杂任务。作为一种新兴的数据库管理系统，YashanDB以其独特的架构设计和强大的数据处理能力，在解决这些挑战方面提供了有效的手段。本文旨在探讨如何利用YashanDB优化大数据处理流程，为企业提供高效、可靠的解决方案。YashanDB的体系架构与部署形态YashanDB支持多种部
Pandas 学习教程 _pass_ Data-Alaysis pandas 信息可视化
目录定义基本操作一维数组操作二维数组操作数据选择过滤数据处理数据清洗数据转换数据分析排序分组聚合数据透视表高级操作合并数据时间序列处理自定义函数调用数据可视化集成数据导出和导入大数据分块处理定义全称：'paneldata'and'pythondataanalysis'Analy:Series(一维数据)、DataFrame(二维数据)主要应用：数据清洗：处理缺失数据、重复数据等数据转换：改变数据的
Kafka系列之：安装具有安全认证的kafka-2.8.2分布式集群快乐骑行^_^ 大数据 Kafka系列安全认证 kafka-2.8.2 分布式集群
Kafka系列之：安装具有安全认证的kafka-2.8.2分布式集群一、下载Zookeeper3.7.1和Kafka2.8.2二、解压Zookeeper3.7.1和Kafka2.8.2三、安装Zookeeper3.7.1详细步骤1.修改zookeeper配置文件2.创建zookeeper数据目录3.zookeeper创建myid4.设置zookeeper访问kafka认证5.拷贝zookeeper
rdkafka线程过多_我是如何处理大并发量订单处理的 KafKa部署总结 weixin_39574928 rdkafka线程过多
今天要介绍的是消息中间件KafKa，应该说是一个很牛的中间件吧，背靠Apache与很多有名的中间件搭配起来用效果更好哦，为什么不用RabbitMQ，因为公司需要它。网上已经有很多怎么用和用到哪的内容，但结果很多人都倒在了入门第一步环境都搭不起来，可谓是从了解到放弃，所以在此特记录如何在linux环境搭建，windows中配置一样，只是启动运行bat文件。想要用它就先必须了解它能做什么及能做到什么程
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla