顧棟

【Flink学习】flink-training浅析

文章目录

官网练习
- 数据集说明
- - Schema of Taxi Ride Events 乘坐出租车事件的结构
- 项目工程
- - common
  - ride-cleansing
  - - RideCleansingSolution
  - hourly-tips
  - - HourlyTipsSolution
  - rides-and-fares
  - - RidesAndFaresSolution
  - long-ride-alerts
  - - LongRidesSolution

官网练习

数据集说明

纽约市出租车和豪华轿车委员会提供了一个关于 2009 年至 2015 年纽约市出租车出行的公共数据集。我们使用该数据的修改子集来生成有关出租车出行的事件流。您应该在上述步骤中下载了这些。

Schema of Taxi Ride Events 乘坐出租车事件的结构

我们的出租车数据集包含有关纽约市个人出租车乘车的信息。每个行程由两个事件表示：行程开始和行程结束事件。每个事件由十一个字段组成：

rideId         : Long      // 每次行程都有一个唯一的 ID
taxiId         : Long      // 每辆出租车的唯一 ID
driverId       : Long      // 每位司机的唯一 ID
isStart        : Boolean   // TRUE 表示行程开始事件，FALSE 表示行程结束事件
startTime      : DateTime  // 行程开始时间
endTime        : DateTime  // 行程结束时间
                           // 时间格式  "1970-01-01 00:00:00"
startLon       : Float     // 行程开始位置的经度
startLat       : Float     // 行程开始位置的纬度
endLon         : Float     // 行程结束位置的经度
endLat         : Float     // 行程结束位置的纬度
passengerCnt   : Short     // 乘车人数

由TaxiRide类实现
数据集包含坐标信息无效或缺失的记录（经度和纬度均为 0.0）。

还有一个包含出租车费用数据的相关数据集，具有以下字段：

rideId         : Long      // 每次行程都有一个唯一的 ID
taxiId         : Long      // 每辆出租车的唯一 ID
driverId       : Long      // 每位司机的唯一 ID
startTime      : DateTime  // 行程开始时间
paymentType    : String    // 支付类型CSH （cash 现金） or CRD （card 银行卡）
tip            : Float     // 这次行程的小费
tolls          : Float     // 这次行程的通行费
totalFare      : Float     // 收取的总车费

由TaxiFare类实现
注意：获取到数据集之后，不需要解压，直接将压缩找个路径存放，并更新类ExerciseBase中的静态成员变量PATH_TO_RIDE_DATA和PATH_TO_FARE_DATA。

数据集下载地址：nycTaxiRides.gz、nycTaxiFares.gz

项目工程

代码来源：https://github.com/apache/flink-training/tree/release-1.10

在flink-training项目中一共有5个子工程：

common
ride-cleansing
rides-and-fares
hourly-tips
long-ride-alerts

common

这个子模块主要包含：

实现出租车行程类和出租车车费类，以及对应的TaxiRideSource和TaxiFareSource；
实现了基础类ExerciseBase，包含一些简单的辅助方法，比如定了数据集的路径和任务并发数等等。
使用GeoUtils 提供实用方法来处理数据流练习的位置（j经纬度）。
定义一个确实解决方案的异常类MissingSolutionException
RideCountExample 计算每位司机行程的个数，用来验证工程可以成功启动的简单例子

ride-cleansing

对应着DataStream API 简介的教程

主要包含了RideCleansingExercise和RideCleansingSolution。两者的区别是RideCleansingSolution中对过滤器进行了实现，而RideCleansingExercise只是抛出MissingSolutionException异常。

RideCleansingSolution

该练习的任务是过滤出租车行程记录的数据流，以仅保留在纽约市内开始和结束的行程。应打印生成的流。

参数input：输入数据文件的路径

package org.apache.flink.training.solutions.ridecleansing;

import org.apache.flink.api.common.functions.FilterFunction;
import org.apache.flink.api.java.utils.ParameterTool;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.training.exercises.common.datatypes.TaxiRide;
import org.apache.flink.training.exercises.common.sources.TaxiRideSource;
import org.apache.flink.training.exercises.common.utils.ExerciseBase;
import org.apache.flink.training.exercises.common.utils.GeoUtils;

/**
 * Solution to the "Ride Cleansing" exercise of the Flink training in the docs.
 *
 * The task of the exercise is to filter a data stream of taxi ride records to keep only rides that
 * start and end within New York City. The resulting stream should be printed.
 *
 * 
Parameters:
 *   -input path-to-input-file
 */
public class RideCleansingSolution extends ExerciseBase {

	/**
	 * Main method.
	 *
	 * Parameters:
	 *   -input path-to-input-file
	 *
	 * @throws Exception which occurs during job execution.
	 */
	public static void main(String[] args) throws Exception {

		ParameterTool params = ParameterTool.fromArgs(args);
		final String input = params.get("input", PATH_TO_RIDE_DATA);

		final int maxEventDelay = 60;       // events are out of order by max 60 seconds
		final int servingSpeedFactor = 600; // events of 10 minutes are served in 1 second

		// set up streaming execution environment
		StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
		env.setParallelism(ExerciseBase.parallelism);

		// start the data generator
		DataStream<TaxiRide> rides = env.addSource(rideSourceOrTest(new TaxiRideSource(input, maxEventDelay, servingSpeedFactor)));

		DataStream<TaxiRide> filteredRides = rides
				// keep only those rides and both start and end in NYC
				.filter(new NYCFilter());

		// print the filtered stream
		printOrTest(filteredRides);

		// run the cleansing pipeline
		env.execute("Taxi Ride Cleansing");
	}

	public static class NYCFilter implements FilterFunction<TaxiRide> {
		@Override
		public boolean filter(TaxiRide taxiRide) {
			return GeoUtils.isInNYC(taxiRide.startLon, taxiRide.startLat) &&
					GeoUtils.isInNYC(taxiRide.endLon, taxiRide.endLat);
		}
	}
}

由上图里理解执行流程

创建了一个Stream的执行环境，并将并发设置成了4；
通过addSource将TaxiRideSource增加到了Stream Source中；
使用filter实现只保留New York的行程记录
printOrTest将过滤之后的结果添加到sink中并进行了打印TaxiRide记录。
使用execute执行这个任务。

输出结果

2> 160240,START,2013-01-01 08:09:17,1970-01-01 00:00:00,-73.98502,40.76364,-73.9217,40.743343,1,2013010976,2013013178
4> 160175,START,2013-01-01 08:09:00,1970-01-01 00:00:00,-73.98134,40.72515,-74.006805,40.730034,1,2013002250,2013011576
3> 160209,START,2013-01-01 08:09:00,1970-01-01 00:00:00,-74.004196,40.75183,-73.943405,40.815296,1,2013010930,2013012572
2> 159459,END,2013-01-01 08:01:35,2013-01-01 08:09:09,-73.86216,40.76514,-73.96182,40.769604,1,2013004363,2013011978
4> 159121,END,2013-01-01 07:58:00,2013-01-01 08:09:00,-73.995094,40.769707,-73.95765,40.800457,3,2013005495,2013013406

3> 160233,START,2013-01-01 08:09:12,1970-01-01 00:00:00,-73.98917,40.731537,-73.994804,40.750256,1,2013007271,2013013903
3> 160233,END,2013-01-01 08:09:12,2013-01-01 08:17:25,-73.98917,40.731537,-73.994804,40.750256,1,2013007271,2013013903

从结果上看是删选出了纽约城中的行程记录，但是发现数据本身在时间上存在存问题，1970年？脏数据？

hourly-tips

对应着流式分析的教程

HourlyTipsSolution

练习的任务是首先计算每个司机每小时收集的总小费，然后从该流中找到每小时最高的小费总数。

public class HourlyTipsSolution extends ExerciseBase {

	/**
	 * Main method.
	 *
	 * Parameters:
	 * -input path-to-input-file
	 *
	 * @throws Exception which occurs during job execution.
	 */
	public static void main(String[] args) throws Exception {

		// read parameters
		ParameterTool params = ParameterTool.fromArgs(args);
		final String input = params.get("input", ExerciseBase.PATH_TO_FARE_DATA);

		final int maxEventDelay = 60;       // events are out of order by max 60 seconds
		final int servingSpeedFactor = 600; // events of 10 minutes are served in 1 second

		// set up streaming execution environment
		StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
		env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);
		env.setParallelism(ExerciseBase.parallelism);

		// start the data generator
		DataStream<TaxiFare> fares = env.addSource(fareSourceOrTest(new TaxiFareSource(input, maxEventDelay, servingSpeedFactor)));

		// compute tips per hour for each driver
		DataStream<Tuple3<Long, Long, Float>> hourlyTips = fares
				.keyBy((TaxiFare fare) -> fare.driverId)
				.window(TumblingEventTimeWindows.of(Time.hours(1)))
				.process(new AddTips());

		DataStream<Tuple3<Long, Long, Float>> hourlyMax = hourlyTips
				.windowAll(TumblingEventTimeWindows.of(Time.hours(1)))
				.maxBy(2);

//		You should explore how this alternative behaves. In what ways is the same as,
//		and different from, the solution above (using a windowAll)?

// 		DataStream> hourlyMax = hourlyTips
// 			.keyBy(0)
// 			.maxBy(2);

		printOrTest(hourlyMax);

		// execute the transformation pipeline
		env.execute("Hourly Tips (java)");
	}

	/*
	 * Wraps the pre-aggregated result into a tuple along with the window's timestamp and key.
	 */
	public static class AddTips extends ProcessWindowFunction<
			TaxiFare, Tuple3<Long, Long, Float>, Long, TimeWindow> {
		@Override
		public void process(Long key, Context context, Iterable<TaxiFare> fares, Collector<Tuple3<Long, Long, Float>> out) {
			float sumOfTips = 0F;
			for (TaxiFare f : fares) {
				sumOfTips += f.tip;
			}
			out.collect(Tuple3.of(context.window().getEnd(), key, sumOfTips));
		}
	}
}

由上图里理解执行流程

创建了一个Stream的执行环境，并将并发设置成了4，配置了EventTime；
通过addSource将TaxiRideSource增加到了Stream Source中；
根据司机ID分组利用滚动窗口（小时间隔）计算每小时每个司机的小费，AddTips类中拥有小时区间的结束时间，司机id，小费对象。
对第三步骤的结果再次进行每小时最高小费的计算maxBy(2),2指的Tuple3的下标为2的元素。
printOrTest将过滤之后的结果添加到sink中并进行了打印hourlyMax记录。
使用execute执行这个任务。

输出结果
输出的是Tuple3对象，小时区间的结束时间，司机id，小费

2> (1357308000000,2013014526,81.98)
3> (1357311600000,2013026978,33.9)
4> (1357315200000,2013018152,74.91)
1> (1357318800000,2013004219,20.2)

window与windowAll啥区别？

rides-and-fares

对应着数据管道 & ETL的教程

RidesAndFaresSolution

本练习的目标是通过票价信息填充 TaxiRides，使得数据更丰富完整。

public class RidesAndFaresSolution extends ExerciseBase {

	/**
	 * Main method.
	 *
	 * Parameters:
	 * -rides path-to-input-file
	 * -fares path-to-input-file
	 *
	 * @throws Exception which occurs during job execution.
	 */
	public static void main(String[] args) throws Exception {

		ParameterTool params = ParameterTool.fromArgs(args);
		final String ridesFile = params.get("rides", PATH_TO_RIDE_DATA);
		final String faresFile = params.get("fares", PATH_TO_FARE_DATA);

		final int delay = 60;					// at most 60 seconds of delay
		final int servingSpeedFactor = 1800; 	// 30 minutes worth of events are served every second

		// Set up streaming execution environment, including Web UI and REST endpoint.
		// Checkpointing isn't needed for the RidesAndFares exercise; this setup is for
		// using the State Processor API.

		Configuration conf = new Configuration();
		conf.setString("state.backend", "filesystem");
		conf.setString("state.savepoints.dir", "file:\\code\\flink\\training-data\\savepoints");
		conf.setString("state.checkpoints.dir", "file:\\code\\flink\\training-data\\checkpoints");
		StreamExecutionEnvironment env = StreamExecutionEnvironment.createLocalEnvironmentWithWebUI(conf);
		env.setParallelism(ExerciseBase.parallelism);

		env.enableCheckpointing(10000L);
		CheckpointConfig config = env.getCheckpointConfig();
		config.enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION);

		DataStream<TaxiRide> rides = env
				.addSource(rideSourceOrTest(new TaxiRideSource(ridesFile, delay, servingSpeedFactor)))
				.filter((TaxiRide ride) -> ride.isStart)
				.keyBy(ride -> ride.rideId);

		DataStream<TaxiFare> fares = env
				.addSource(fareSourceOrTest(new TaxiFareSource(faresFile, delay, servingSpeedFactor)))
				.keyBy(fare -> fare.rideId);

		// Set a UID on the stateful flatmap operator so we can read its state using the State Processor API.
		DataStream<Tuple2<TaxiRide, TaxiFare>> enrichedRides = rides
				.connect(fares)
				.flatMap(new EnrichmentFunction())
				.uid("enrichment");

		printOrTest(enrichedRides);

		env.execute("Join Rides with Fares (java RichCoFlatMap)");
	}

	public static class EnrichmentFunction extends RichCoFlatMapFunction<TaxiRide, TaxiFare, Tuple2<TaxiRide, TaxiFare>> {
		// keyed, managed state
		private ValueState<TaxiRide> rideState;
		private ValueState<TaxiFare> fareState;

		@Override
		public void open(Configuration config) {
			rideState = getRuntimeContext().getState(new ValueStateDescriptor<>("saved ride", TaxiRide.class));
			fareState = getRuntimeContext().getState(new ValueStateDescriptor<>("saved fare", TaxiFare.class));
		}

		@Override
		public void flatMap1(TaxiRide ride, Collector<Tuple2<TaxiRide, TaxiFare>> out) throws Exception {
			TaxiFare fare = fareState.value();
			if (fare != null) {
				fareState.clear();
				out.collect(Tuple2.of(ride, fare));
			} else {
				rideState.update(ride);
			}
		}

		@Override
		public void flatMap2(TaxiFare fare, Collector<Tuple2<TaxiRide, TaxiFare>> out) throws Exception {
			TaxiRide ride = rideState.value();
			if (ride != null) {
				rideState.clear();
				out.collect(Tuple2.of(ride, fare));
			} else {
				fareState.update(fare);
			}
		}
	}
}

由上图里理解执行流程

创建了一个Stream的执行环境，并将并发设置成了4，与之前的练习不同，这里将事件时间变为30分钟。
由于使用需要使用有状态的转换，使用Configuration配置了状态存储的方式和路径。每10s进行一次checkpoint。取消任务的状态文件需要手动清理。
通过addSource将TaxiRideSource和TaxiRideSource分别增加到了Stream Source的rides和fares中，将每个行程id作为key进行分组，rides过滤出开始类型的行程。
实现了一个EnrichmentFunction类，作为处理函数。rides流走flatMap1方法，fares走flatMap2方法。将每个行程id作为key，把开始类型的行程与行程费用对象通过key组合成一个元组流。
printOrTest将过滤之后的结果添加到sink中并进行了打印enrichedRides记录。
使用execute执行这个任务。

输出结果

2> (1494598,START,2013-01-04 15:48:25,1970-01-01 00:00:00,0.0,0.0,-73.95784,40.675404,1,2013007827,2013007823,1494598,2013007827,2013007823,2013-01-04 15:48:25,CRD,4.0,0.0,42.0)
3> (1494966,START,2013-01-04 15:49:20,1970-01-01 00:00:00,-73.99782,40.740948,-73.99345,40.731056,1,2013004745,2013016201,1494966,2013004745,2013016201,2013-01-04 15:49:20,CSH,0.0,0.0,6.0)
2> (1494659,START,2013-01-04 15:48:42,1970-01-01 00:00:00,-73.98507,40.728317,-74.009056,40.716156,1,2013012349,2013025722,1494659,2013012349,2013025722,2013-01-04 15:48:42,CRD,2.7,0.0,16.2)
3> (1494813,START,2013-01-04 15:49:00,1970-01-01 00:00:00,-73.99216,40.7503,-73.98552,40.75631,1,2013000782,2013014855,1494813,2013000782,2013014855,2013-01-04 15:49:00,CSH,0.0,0.0,7.5)

同时检查了一下状态存储的文件夹，发现取消任务后，他的状态文件并没有被删除。需要手动删除。

疑问 savepoints和checkpoints每个子文件夹下的文件有存的具体是什么呢？

long-ride-alerts

对应着事件驱动应用的教程

LongRidesSolution

本练习的目标是为在前 2 小时内未与 END 事件匹配的出租车行程发出 START 事件。

	public static void main(String[] args) throws Exception {

		ParameterTool params = ParameterTool.fromArgs(args);
		final String input = params.get("input", ExerciseBase.PATH_TO_RIDE_DATA);

		final int maxEventDelay = 60;       // events are out of order by max 60 seconds
		final int servingSpeedFactor = 600; // events of 10 minutes are served in 1 second

		// set up streaming execution environment
		StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
		env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);
		env.setParallelism(ExerciseBase.parallelism);

		// start the data generator
		DataStream<TaxiRide> rides = env.addSource(rideSourceOrTest(new TaxiRideSource(input, maxEventDelay, servingSpeedFactor)));

		DataStream<TaxiRide> longRides = rides
				.keyBy(r -> r.rideId)
				.process(new MatchFunction());

		printOrTest(longRides);

		env.execute("Long Taxi Rides");
	}

	private static class MatchFunction extends KeyedProcessFunction<Long, TaxiRide, TaxiRide> {
		// keyed, managed state
		// holds an END event if the ride has ended, otherwise a START event
		private ValueState<TaxiRide> rideState;

		@Override
		public void open(Configuration config) {
			ValueStateDescriptor<TaxiRide> startDescriptor =
					new ValueStateDescriptor<>("saved ride", TaxiRide.class);
			rideState = getRuntimeContext().getState(startDescriptor);
		}

		@Override
		public void processElement(TaxiRide ride, Context context, Collector<TaxiRide> out) throws Exception {
			TimerService timerService = context.timerService();

			if (ride.isStart) {
				// the matching END might have arrived first; don't overwrite it
				if (rideState.value() == null) {
					rideState.update(ride);
				}
			} else {
				rideState.update(ride);
			}

			timerService.registerEventTimeTimer(ride.getEventTime() + 120 * 60 * 1000);
		}

		@Override
		public void onTimer(long timestamp, OnTimerContext context, Collector<TaxiRide> out) throws Exception {
			TaxiRide savedRide = rideState.value();
			if (savedRide != null && savedRide.isStart) {
				out.collect(savedRide);
			}
			rideState.clear();
		}
	}

}

由上图里理解执行流程

创建了一个Stream的执行环境，并将并发设置成了4，配置了EventTime；。
通过addSource将TaxiRideSource增加到了Stream Source中；
通过行程id进行分组，具体的逻辑在MatchFunction中实现。MatchFunction继承了KeyedProcessFunction。重写了open，processElement，onTimer。
1. 在初始化的时候调用了open，为TaxiRide创建了对于的值状态描述符（ValueStateDescriptor）
2. 当票价事件（TaxiFare-Event）输入（到达）时调用processElement，对行程的状态进行更新。并注册一个计时器，到期时间为事件开始时间后的2h。
3. 当watermark表明窗口现在需要完成的时候调用。应该就是上面注册的定时器到时回调onTimer这个方法。采集器采集超过2h还没收到收到行程结束的行程（以行程开始事件表示）
printOrTest将过滤之后的结果添加到sink中并进行了打印longRides记录。
使用execute执行这个任务。

输出结果

3> 2758,START,2013-01-01 00:10:13,1970-01-01 00:00:00,-73.98849,40.725166,-73.989006,40.763557,1,2013002682,2013002679
2> 7575,START,2013-01-01 00:20:23,1970-01-01 00:00:00,-74.002426,40.73445,-74.0148,40.716736,1,2013001908,2013001905
2> 22131,START,2013-01-01 00:47:03,1970-01-01 00:00:00,-73.97784,40.72598,-73.926346,40.74442,1,2013008502,2013008498
1> 25473,START,2013-01-01 00:53:10,1970-01-01 00:00:00,-73.98471,40.778183,-73.98471,40.778183,1,2013007595,2013007591
1> 29907,START,2013-01-01 01:01:15,1970-01-01 00:00:00,-73.96685,40.77239,-73.918274,40.84052,1,2013007187,2013007183
3> 30796,START,2013-01-01 01:03:00,1970-01-01 00:00:00,-73.99605,40.72438,-73.99827,40.729496,6,2013002159,2013002156
1> 33459,START,2013-01-01 01:07:47,1970-01-01 00:00:00,0.0,0.0,0.0,0.0,1,2013009337,2013009334
4> 36822,START,2013-01-01 01:14:00,1970-01-01 00:00:00,-73.95057,40.779404,-73.98082,40.77466,1,2013009669,2013009666

1970的时间数据，就是为了验证这个场景，特意造的数据

自动驾驶技术研发适用Infortrend普安存储IEC平台
Infortrend普安存储IEC私有云平台，轻松高效应用无人驾驶技术自动驾驶汽车（例如自动驾驶出租车、无人驾驶公交）和无人驾驶飞行器（UAV）依靠摄像头、物联网传感器、雷达、GPS采集的实时数据瞬间做出决策。自动驾驶系统作为核心部分，不间断分析环境条件，应对潜在风险，确保乘客和货物运输安全。Autopilot应用程序在开发和模拟中，大数据、AI（人工智能）、ML（机器学习）等技术能否高速发挥作用
c# 在sql server 数据库中批插入数据 StevenChen85 上位机 C#数据库数据库 c#
C#实现SQLServer批量插入数据的几种高效方法及代码示例：1.SqlBulkCopy类（最高效）usingSystem.Data.SqlClient;publicstaticvoidBulkInsertWithSqlBulkCopy(DataTabledata){stringconnectionString="Server=.;Database=TestDB;IntegratedSecuri
阿里云瑶池数据库 Data Agent for Meta 正式发布，让 AI 更懂你的业务！数据库人工智能知识资讯
背景随着生成式人工智能（GenerativeAI）从概念验证迈向规模化商业落地，AIAgent已成为企业核心业务流程的重要组成部分。然而，当模型调用日益便捷时，核心痛点已不再是模型本身，而是集中在一个关键要素上：数据。AIAgent的落地瓶颈已从技术能力转向高质量、高相关性、安全合规的数据供给。企业面临的核心挑战在于：数据孤岛导致知识库分散，通用大模型难以理解专业业务传统数据管理依赖人工开发维护，
ListExtension 扩展方法增加转DataTable()方法
方法1.判断集合是否为Null2.判断集合是否不为Null3.判断集合是否有值4.拼接成字符串5.根据一个表达式去除重复6.转DataTable泛型对象转换方法//////集合扩展方法///publicstaticclassListExtension{//////判断集合是否为Null////////////publicstaticboolIsNull(thisIEnumerablelist){r
datax-web任务执行时脏数据
经DataX智能分析,该任务最可能的错误原因是:com.alibaba.datax.common.exception.DataXException:Code:[DBUtilErrorCode-10],Description:[连接数据库失败.请检查您的账号、密码、数据库名称、IP、Port或者向DBA寻求帮助(注意网络环境).].-具体错误信息为：com.mysql.jdbc.exceptions
大数据系列 | 日志数据采集工具Filebeat的架构分析及应用降世神童大数据技术专栏大数据架构
大数据系列|日志数据采集工具Filebeat的架构分析及应用1.Filebeat的由来2.Filebeat原理架构分析3.Filebeat的应用3.1.安装Filebeat3.2.实战采集应用程序日志1.Filebeat的由来在介绍Filebeat之前，先介绍一下Beats。Beats是一个家族的统称，Beats家族有8个成员，早期的ELK架构中使用Logstash收集、解析日志，但是Logs
Java IO流知识点总结 Zonda要好好学习 javaSE java 开发语言
文章目录IO流的定义作用主要应用场景IO流的分类按照流的方向分类按照读取数据方式不同分类重要IO流讲解IO包重点掌握的16中IO包FileInputStream文件拷贝FileReader的使用FileWriter的使用带有缓冲区的字符流BufferedReader节点流和包装流带有缓冲区的字符输出流数据流DataOutputStream和DataInputStream标准输出流日志工具类的封装F
基于SpringBoot+Vue+大学校园图书管理系统设计和实现(源码+LW+部署讲解) 阿勇学长大数据项目实战案例 Java精品毕业设计实例微信小程序项目实战案例 spring boot vue.js 后端大学校园图书管理系统 Java毕业设计
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
Java爬虫技术详解：原理、实现与优势 cyc&阿灿 Java 多线程 java 爬虫开发语言
一、什么是网络爬虫？网络爬虫（WebCrawler），又称网络蜘蛛或网络机器人，是一种自动化程序，能够按照一定的规则自动浏览和抓取互联网上的信息。爬虫技术是大数据时代获取网络数据的重要手段，广泛应用于搜索引擎、数据分析、价格监控等领域。Java作为一种稳定、高效的编程语言，凭借其强大的网络编程能力和丰富的生态库，成为开发网络爬虫的热门选择。二、Java爬虫核心组件一个完整的Java爬虫通常包含以下
【读代码】PDF-Extract-Kit深度解析：最好用的RAG开源PDF解析工具 kakaZhui pdf AIGC 大模型 RAG Agent DeepSeek
一、基本介绍PDF-Extract-Kit是由OpenDataLab推出的开源工具包，专注于解决复杂PDF文档的内容解析难题。该项目集成了当前最先进的文档解析模型，通过模块化设计实现灵活的功能组合，支持布局检测、公式识别、表格解析等多项核心功能。其最大特点在于：多模态解析能力：支持文字、公式、表格、图像等元素的联合解析工业级鲁棒性：在模糊扫描件、水印文档等复杂场景下仍保持高准确率开箱即用体验：提供
199. 二叉树的右视图 C++实现
给定一棵二叉树，想象自己站在它的右侧，按照从顶部到底部的顺序，返回从右侧所能看到的节点值。示例:输入: [1,2,3,null,5,null,4]输出: [1,3,4]解释:1rightSideView(TreeNode*root){//使用队列vectordata;queueque;if(root==NULL)returndata;que.push(root);intcurrent=1;//用于
Python网络爬虫与数据处理工具大全：从入门到精通俞凯润
Python网络爬虫与数据处理工具大全：从入门到精通awesome-web-scrapingListoflibraries,toolsandAPIsforwebscrapinganddataprocessing.项目地址:https://gitcode.com/gh_mirrors/aw/awesome-web-scraping本文基于知名Python网络爬虫资源库lorien/awesome-w
springboot集成达梦数据库，取消MySQL数据库，解决问题和冲突执笔诉情殇〆数据库 spring boot mysql 达梦
一、驱动与连接配置更换JDBC驱动在pom.xml中移除MySQL驱动，添加达梦驱动（版本根据DM数据库选择）：com.damengDmJdbcDriver8.1.2.141修改数据源配置#application.yml中配置达梦连接（注意模式名大小写敏感）：spring:datasource:driver-class-name:dm.jdbc.driver.DmDriverurl:jdbc:dm
如何学习才能更好地理解人工智能工程技术专业和其他信息技术专业的关联性？人工智能教学实践 python编程实践人工智能学习人工智能
要深入理解人工智能工程技术专业与其他信息技术专业的关联性，需要跳出单一专业的学习框架，通过“理论筑基-实践串联-跨学科整合”的路径构建系统性认知。以下是分阶段、可落地的学习方法：一、建立“专业关联”的理论认知框架绘制知识关联图谱操作方法：用XMind或Notion绘制思维导图，以AI为中心，辐射关联专业的核心技术节点。例如：AI（机器学习）├─数据支撑：大数据技术（Hadoop/Spark）+数据
MySQL 8.0 OCP 1Z0-908 题目解析(6) 一只fish MYSQL OCP mysql 数据库
题目021Choosetwo.Whichtwostatementsaretrueaboutthemysql_config_editorprogram?□A)Itprovidesaninterfacetochangemy.cnffiles.□B)Itcanmovedatadirtoanewlocation.□C)Itwilluse[client]optionsbydefaultunlessyoupr
Anconda环境下Vscode安装Python Java后时代程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
最全面的MySQL数据库讲解，带你基础入门mysql mysql
数据库软件里面用的比较多的就MySQL了，对于企业还是个人开发者，或者是学生，都是很好的选择，下面为大家带来MySQL的学习教程，让大家快速入门MySQL数据库，学会安装配置MySQL，掌握MySQL基本知识，并轻松使用MySQL数据库。什么是数据库？数据库通常是一个或一组文件，保存了一些符合特定规格的数据，数据库对应的英语单词是DataBase，简称DB，数据库软件称为数据库管理系统（DBMS）
数据库闪回失败怎么办？ORA-38757 修复全攻略数据库oracle
前言在Oracle数据库的恢复过程中，ORA-38757错误是一个常见的“拦路虎”。它提示你：“数据库必须处于挂载状态且未打开时才能执行FLASHBACK操作。”如果你遇到了这个错误，不要慌张。这篇文章将为你详细解析错误成因，并提供清晰的排查与修复步骤，帮助你顺利完成闪回任务。一、什么是ORA-38757？当你尝试使用FLASHBACKDATABASE命令进行数据库级别的闪回操作时，如果数据库不是
Python 爬虫实战 | 国家医保一个不务正业的程序猿 Python 爬虫实战 python
一、国家医保1、目标网站网址：https://fuwu.nhsa.gov.cn/nationalHallSt/#/search/drug-directory目标数据：获取药品信息2、网站特点服务端返回加密数据，客户端发送请求携带的载荷也是加密的3、定位解密入口可以通过关键字encData来确定解密位置，但是，请求载荷也有这个关键字，直接搜关键字存在混淆，需要确认清楚是发送请求还是解析响应的逻辑。该
关于vue2使用elform的rules校验
在使用vue2开发项目的时候使用element组件的el-form大多数情况都需要用到必填项校验举个栗子：立即创建重置exportdefault{data(){return{ruleForm:{name:'',region:'',},rules:{name:[{required:true,message:'请输入活动名称',trigger:'blur'},{min:3,max:5,message:
同花顺Supermind量化交易 Python基础编程--pandas进阶
本节为pandas进阶内容，核心还是DataFrame数据处理，注意包括缺失数据处理、函数的应用和映射、数据规整等。第七节：pandas进阶本节为pandas进阶内容，核心还是DataFrame数据处理，注意包括缺失数据处理、函数的应用和映射、数据规整等。开始之前首先导入库:numpy和pandasIn[1]:importpandasaspdimportnumpyasnp一、缺失数据处理还是获取M
新华妙笔：AI智能写作助手，让高效写作触手可及东风西巷 AI写作 android 软件需求智能手机
在当今快节奏的时代，无论是职场人士、学生还是创作者，都面临着大量的写作任务。从工作总结、调研报告到公文写作、商业文案，高效且高质量的写作能力成为了提升个人竞争力的关键。然而，写作不仅需要丰富的知识储备和扎实的文字功底，还需要大量的时间和精力去打磨。为了帮助用户更高效地完成写作任务，新华妙笔APP应运而生。它是一款功能强大的AI智能写作助手，依托自然语言处理（NLP）和大数据分析技术，能够快速生成各
中国软件供应链安全厂商推荐︱悬镜安全聚焦全球数字经济大会·中国信通院最新成果发布 DevSecOps选型指南安全
2025年7月3日，由全球数字经济大会组委会主办，中国信息通信研究院、中国通信标准化协会承办的全球数字经济大会—云智算安全论坛暨第三届“SecGo论坛”在京召开。北京市经济和信息化局副局长顾瑾栩、中国通信标准化协会副理事长兼秘书长代晓慧、中国信通院党委副书记王晓丽、中国信通院云计算与大数据研究所副所长栗蔚出席会议。在成果发布环节，中国信通院对云智算安全行业发展、产业创新有突出贡献的个人予以表彰，悬
Redisson使用示例
1，引入依赖（百度搜索即可）2，配置yamlspring:redis:##redis单机环境配置host:127.0.0.1#host:10.192.33.144port:6379#port:20051#password:123456password:''#database:1database:0ssl:false##redis集群环境配置#cluster:#nodes:127.0.0.1:700
从 MDM 到 Data Fabric：下一代数据架构如何释放 AI 潜能大卫的 AI 办公摸鱼手册人工智能与主数据元数据专栏 fabric 架构人工智能
从MDM到DataFabric：下一代数据架构如何释放AI潜能——传统治理与新兴架构的范式变革与协同进化引言：AI规模化落地的数据困境在人工智能技术快速发展的今天，企业对AI的期望已从“单点实验”转向“规模化落地”。然而，Gartner数据显示，仅有20%的AI项目能够真正实现工业化部署，其核心瓶颈在于数据质量、实时性和治理复杂性。传统主数据管理（MDM）虽能解决基础数据标准化问题，但在应对多源异
DeepSpeed zero1，zero2，zero3和FSDP区别详解 ALGORITHM LOL python 分布式
1.基本概念DeepSpeedZeROZeRO是由MicrosoftDeepSpeed团队开发的一种内存优化技术，旨在通过分片模型状态来训练超大模型，减少每个GPU的内存占用，同时避免传统模型并行（如张量并行或流水线并行）所需的代码修改。ZeRO分为三个阶段（Stage1、Stage2、Stage3），每阶段逐步增加分片的范围，从而进一步降低内存需求。FSDP(FullyShardedDataPa
数据编织趋势探秘
今天跟大家聊聊数据编织（DataFabric）的概念Gartner在2022年重要战略技术趋势中重点提到数据编织（DataFabric）这个概念，本质上是在谈怎么实现“数据找人而不是人找数据”的愿景为什么DataFabric将会成为一种趋势，为什么越来越多的企业将在未来采用这样的方式进行部署？1、在传统IT时代，无论是早年的“数据仓库”还是近几年的“数据湖”和“大数据”时代，其实数据利用都是集中式
【WIN系统】Win11开机锁屏的漂亮壁纸如何保存？南工说焊接软件应用经验分享
博主电脑：联想小新AIR14（系统WIN11）图片路径：C:\ProgramData\Lenovo\devicecenter\LockScreen\cache注意事项：要先显示隐藏项目才能找到
浅谈数据管理架构 Data Fabric（数据编织）及其关键特征、落地应用 Aloudata Data Fabric 多源异构数据集成数据管理
伴随着企业从数字化转型迈向更先进的数智化运营新阶段，对看数、用数的依赖越来越强，但数据的海量增长给数据管理带来一系列难题，如数据类型和加工链路日益复杂，数据存储和计算引擎更加分散，数据需求响应与数据质量、数据安全风险难以兼顾，数据流通过程中的合规性冲突，以及混合多云环境下的“数据孤岛”等。简言之，进入数智化时代，企业数据管理正变得异常复杂和艰难，传统的数据管理架构往往依赖于单一、物理集中的数据仓库
编织数据的实时脉络——构建基于MySQL的数据编织平台，实现实时数据治理墨夶数据库学习资料1 mysql
在当今数字化转型加速的时代，企业面临着前所未有的挑战与机遇。随着业务复杂度和数据量的不断增长，传统的数据管理方式已难以满足现代企业的需求。数据编织（DataFabric）作为一种新兴的数据架构，它通过集成、管理和提供对分散在不同系统中的数据访问来简化复杂的数据环境，为企业提供了更加高效的数据管理和利用途径。本文将详细介绍如何构建一个基于MySQL的数据编织平台，帮助您实现对企业内部数据流动的全面掌
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa

【Flink学习】flink-training浅析

文章目录

官网练习

数据集说明

Schema of Taxi Ride Events 乘坐出租车事件的结构

项目工程

common

ride-cleansing

RideCleansingSolution

hourly-tips

HourlyTipsSolution

rides-and-fares

RidesAndFaresSolution

long-ride-alerts

LongRidesSolution

你可能感兴趣的:(Flink,flink,大数据,big,data)