Arry85

年薪50万前阿里工程师分享如何构建flink sql平台

我们都知道，离线计算有Hive,使用过的知道，需要先定义一个schema,比如针对HDFS这种存储对标mysql定义一个schema，schema的本质是什么？主要描述下面这些信息

1）当前存储的物理位置的描述

2）数据格式的组成形式

然后Hive可以让用户定义一段sql，针对上面定义的schema进行，sql的本质是什么，是业务逻辑的描述。然后Hive内部会将这段sql进行编译转化为原生的底层MapReduce操作，通过这种方式，屏蔽底层技术原理，让业务开发人员集中精力在schema和sql业务逻辑上，flink sql平台也正是做同样的事情。

一开始经过跟上海同事的讨论，选择Uber的Athenax作为技术选型，通过翻阅源码，发现还是有很多不完善的地方，比如配置文件采用yaml，如果做多集群调度，平台代码优化，多存储扩展机制，都没有考虑得很清楚，所以代码拿过来之后基本上可以说按照对yarn和flink的理解重新写了一遍。

大致的工作流程如图所示：

简单解释一下：

1)业务定义job

2)提交到web服务器,存到mysql中

3)flink平台进程定时扫描mysql,探测到udf变化，按需实时编译class,class常驻内存

4)同时打包推送到hdfs

5)flink平台进程定时扫描mysql,探测到job定义，并从yarn集群获取当前运行状态的job的report

比较时间戳，决定哪些任务要杀死，启动

6)flink提交到yarn集群的任务，yarn会从hdfs拉取job描述里的jar包，启动这个flink job

然后步骤3,4,5,6 重复执行

下面是平台代码的思路

1）通过springboot提供HTTP API，提供多集群定义，存储在mysql里

一个集群需要定义的信息点如下：

2）提供HTTP API让业务进行Job定义

这里的Job定义包含3个方面：job的输出输出的schema定义，job的业务逻辑定义（sql）,job需要的yarn资源定义，具体来说如下所示：

Job定义

文中的sql定义

SELECT SUM(nested.number) as nestedNumber,
hundredFunction(SUM(CAST(`value` AS DOUBLE))) as `sum`,
COUNT(`value`) as `count`,
AVG(CAST(`value` AS DOUBLE)) as `avg`,
MAX(CAST(`value` AS DOUBLE)) as `max`,
MIN(CAST(`value` AS DOUBLE)) as `min`,
TUMBLE_END(`time`, INTERVAL '3' SECOND) as `time` 
FROM input.`ymm-appmetric-dev-self1` 
WHERE metric IS NOT NULL AND `value` IS NOT NULL 
and `time` IS NOT NULL
GROUP BY metric,TUMBLE(`time`, INTERVAL '3' SECOND)

输入/输出schema定义，以kafka为例，输入和输出格式差不多

{
"brokerAddress":"略",
"topic":"dev-metric",
"schemas":[
 {"key":"sum","type":"double"},
 {"key":"count","type":"int"},
 {"key":"avg","type":"double"},
 {"key":"max","type":"double"},
 {"key":"min","type":"double"},
 {"key":"time","type":"timestamp"},
 {"key":"nestedNumber","type":"int"}
 ]
}

对于业务来说，“打开IDE->了解flink语法写java代码->打包成jar->提交到yarn集群”这一环节省去了，直接打开界面，点击按钮定义sql，写一段业务逻辑sql,提交此业务到mysql，关闭浏览器即可.由平台进行调度(秒级),永远不用担心这个任务某一天挂了怎么办，平台会自动发现自动拉起.提交一次永远不需要再人工干预，除非逻辑发生变化，在逻辑发生变化时也简单，打开任务修改再提交，关闭浏览器，结束，平台会发现job变化杀死老任务拉起新任务.

写到这里给大数据推荐一个大数据学习群：774 666 256 ，里面有大数据学习资料，学习录屏，视频教程

下面讲一下平台内部是如何实现的

3）集群自动发现

如果平台维护方想增加一个集群，通过界面直接定义一个存在mysql即可，后台线程会自动发现，为每个集群创建一个线程，多节点情况下，整个环境中某个特定集群的多个线程通过ZK进行抢占决定哪个线程当前为这个集群服务.

增加JVM关闭钩子，在JVM退出时，主动关闭ZK客户端，释放ZK上的临时节点.

4）UDF的支持&自动发现

平台支持平台级UDF的定义，由平台人员进行维护，平台人员编写脚本，通过base64编码存在mysql里，归属到某个集群，这个集群的扫描线程发现有必要进行编译时，实时编译成class常驻内存，同时，打包成jar包上传到远程HDFS，后面会将此路径放入到具体job的classpath路径下. job就可以正确发现UDF.

当UDF没有发生变化时，线程不会编译，而是复用上一次的编译结果.

5)程序可以任意部署，不依赖大数据环境

程序本身不依赖大数据环境的配置，具体是指不需要依赖当前宿主机.../etc/hadoop/*.xml文件

通过读取cluster的配置，动态生成XML配置，再生成HDFS/YARN的客户端client,这样，平台代码可以任意部署到物理机/容器中，只要环境可以通过TCP连接到对应域名/ip即可.

6)如何做任务调度-任务的自动发现

这里的任务调度是指:哪些任务需要下线，哪些任务需要第一次上线，哪些任务需要重新上线，

这里的业务逻辑就是比较mysql里job的时间戳和yarn集群里任务的时间戳

yarn集群里任务的时间戳是通过提交时打上Tag标记，就是为了下一次比较用。

这里有一个细节，就是Athenax的做法是先算出所有要杀死的任务，杀死，再拉起所有要拉起的任务，个人认为这里不妥，优化之后的做法是：按照任务级别，算出(killaction,startaction),对于单个job来说，二者至少存在1个action,然后以任务为级别进行调度，不再是之前的大一统提交方式，这样就算单个任务调度异常，也不影响其它任务，做到了任务之间做隔离.

通过时间戳的方式，就不难理解业务一旦修改任务，平台发现时间戳有变化，就可以自动杀死老任务，拉起新任务，不需要人工操作.

7)拉起任务中的编译工作

一个job需要拉起时，会实时结合(输入schema,SQL业务逻辑，输出schema)进行编译，

正如hive会翻译成原生的mapreduce操作，flink sql编译工作会翻译成原生的flink jobgraph

这部分是抽取了athenax里的编译工作做2开

代码如下：

private JobCompilerResult compile(Map inputs, String originSql,
 ExternalCatalog output, ResourceDTO resourceDTO,
 ClusterDTO athenaxCluster,
 Configuration flinkConf) throws Exception {
 // 解析sql
 LoggerUtil.info("to be compiled sql : [{}]", originSql);
 SqlNodeList stmts = (SqlNodeList) new CalciteSqlParser().parse(originSql);
 Validator validator = new Validator();
 validator.validateQuery(stmts);
 HashMap udfMap = validator.getUserDefinedFunctions();
 String selectSql = validator.getStatement().toString();
 List additionalResources = validator.getAdditionalResources();
 LoggerUtil.info("succeed to parse sql,result is : [{}]", stmts);
 LoggerUtil.info("udf {}", udfMap);
 LoggerUtil.info("statement {}", selectSql);
 LoggerUtil.info("additionalResources {}", additionalResources);
 // 准备编译,输出Flink的JobGraph
 LoggerUtil.info("begin to create execution environment");
 StreamExecutionEnvironment localExecEnv = StreamExecutionEnvironment
 .createLocalEnvironment();
 //非常重要
 setFeature(localExecEnv,
 resourceDTO.getTaskManagerCount() * resourceDTO.getSlotPerTaskManager(), flinkConf);
 StreamTableEnvironment tableEnv = StreamTableEnvironment.getTableEnvironment(localExecEnv);
 LoggerUtil.info("tableEnv : {} ", tableEnv);
 // 注册UDF,收归到平台了,也就是说,只支持平台开发人员预定义,暂时不支持业务自定义
 for (Map.Entry e : udfMap.entrySet()) {
 final String name = e.getKey();
 String clazzName = e.getValue();
 LoggerUtil.info("used udf specified by business : {}", name);
 }
 registerSDF(athenaxCluster, tableEnv);
 LoggerUtil.info("all udf registerd , bingo");
 // 开始注册所有的input相关的schema
 for (Map.Entry e : inputs.entrySet()) {
 LoggerUtil.info("Registering input catalog {}", e.getKey());
 tableEnv.registerExternalCatalog(e.getKey(), e.getValue());
 }
 LoggerUtil.info("all input catalog registerd , bingo");
 Table table = tableEnv.sqlQuery(selectSql);
 LoggerUtil.info("succeed to execute tableEnv.sqlQuery(...)");
 LoggerUtil.info("table {}", table);
 LoggerUtil.info("bingo! input work done completely,let us handle output work now!!!");
 // 开始注册output
 List outputTables = output.listTables();
 for (String t : outputTables) {
 table.writeToSink(getOutputTable(output.getTable(t)));
 }
 LoggerUtil.info("handle output ok");
 // 生成JobGraph
 StreamGraph streamGraph = localExecEnv.getStreamGraph();
 JobGraph jobGraph = streamGraph.getJobGraph();
 // this is required because the slots are allocated lazily
 //如果为true就会报错,然后flink内部就是一直重启,所以设置为false
 jobGraph.setAllowQueuedScheduling(false);
 LoggerUtil.info("create flink job ok {}", jobGraph);
 JobGraphTool.analyze(jobGraph);
 // 生成返回结果
 JobCompilerResult jobCompilerResult = new JobCompilerResult();
 jobCompilerResult.setJobGraph(jobGraph);
 ArrayList paths = new ArrayList();
 Collection values = udfMap.values();
 for (String value : values) {
 paths.add(value);
 }
 jobCompilerResult.setAdditionalJars(paths);
 return jobCompilerResult;
 }

这部分工作要理解，需要对Calcite有基础

8)多存储的支持

平台在一开始编写的时候，就考虑到了多存储支持，虽然很多任务是从kafka->计算->Kafka

但是平台并不只满足于这一点，因为写到kafka之后，可能还需要业务再去维护一段代码取读取kafka的消息进行消费，如果有的业务希望直接能把结果写到mysql,这个时候就是需要对多存储进行扩展

通过设计和扩展机制，平台开发人员只需要定义储存相关的类，针对schema定义的解析工作已经再父类中完成，所有存储类共用，这样可以灵活支持多存储，平台开发人员只需要把重点放在特定存储性质的支撑即可.

PS:编写此类存储类需要对fink job内部的运行机制，否则会造成资源泄露和浪费.

平台内部已经针对每种类型进行了定义

 // 存储类型
 //排名不分先后 
 public static int STORAGE_REDIS = 1 << 0; //1
 public static int STORAGE_MYSQL = 1 << 1; //2
 public static int STORAGE_ROCKETMQ = 1 << 2; //4
 public static int STORAGE_KAFKA = 1 << 3; //8
 public static int STORAGE_PULSAR = 1 << 4; //16
 public static int STORAGE_OTHER0 = 1 << 5; //32
 public static int STORAGE_OTHER1 = 1 << 6; //64
 public static int STORAGE_OTHER2 = 1 << 7; //128
 public static int STORAGE_RABBITMQ = 1 << 8; //256
 public static int STORAGE_HBASE = 1 << 9; //512
 public static int STORAGE_ES = 1 << 10;//1024
 public static int STORAGE_HDFS = 1 << 11;//2048

目前支持的情况如下：

输入:Kafka

输出:Kafka/Mysql

PS:输出mysql是基于flink官方的提供类实现的第一版，经过分析源码，mysql sink官方这部分代码写得太随意，差评.

后续当业务有需求时，需要结合zebra做2次开发.毕竟运维不会提供生产环境的ip和端口等信息，只会提供一个数据源字符串标识.这样更贴合公司内部的运行环境

9)任务提交

一旦生成flink原生的job,就可以准备提交工作

这部分需要对yarn的运行机制比较清楚，比如任务提交到RM上经过哪些状态变化，ApplicationMaster如何申请资源启动TaskManager, 具体的job是如何提交给JobManager的，平台开发人员需要对此有基本的原理掌握，当初也是0基础开始学习，通过快速翻阅源代码掌握一些运行机制，方可安心进行平台开发.

10)其它优化

针对yarn client的参数优化，保证可在一定时间内返回，否则可能一直卡死

针对flink job的平台级优化，比如禁止缓存，让信息立刻传输到下一个环节(默认100毫秒延迟)

定义flink job的重启次数，当发生异常时可自行恢复等

11)压测结果

输入：本地启动7个线程，发送速度

每秒发送到kafka 十几万条

接收topic描述

ymm-appmetric-dev-self1 开发环境 partitions 6 replication 1

flink任务描述

2个TaskManager进程每个进程800M内存每个进程3个线程，

并行度 2*3=6

flink计算任务所用sql

SELECT SUM(nested.number) as nestedNumber,
hundredFunction(SUM(CAST(`value` AS DOUBLE))) as `sum`,
COUNT(`value`) as `count`,
AVG(CAST(`value` AS DOUBLE)) as `avg`,
MAX(CAST(`value` AS DOUBLE)) as `max`,
MIN(CAST(`value` AS DOUBLE)) as `min`,
TUMBLE_END(`time`, INTERVAL '3' SECOND) as `time` 
FROM input.`ymm-appmetric-dev-self1` 
WHERE metric IS NOT NULL AND `value` IS NOT NULL and `time` IS NOT NULL 
GROUP BY metric, TUMBLE(`time`, INTERVAL '3' SECOND)

输出topic

ymm-appmetric-dev-result partitions 3

观察flink consumer端的消费速度

每个线程的消费速度在24000上下浮动，并发度6，每秒可消费kafka消息14万+，应该说目前不会碰到性能瓶颈.

其它

本次测试发送数据条数：4.3 亿条

耗时：56分钟

对于业务开发人员来说，我觉得好处就是

1)不需要懂flink语法(你真的想知道flink的玩法？好吧我承认你很好学)

2)不需要打开IDE写java代码(你真的想写Java代码？好吧我承认你对Java是真爱)

3)提交一次，不再需要人工介入(你真的想在假期/晚上/过节/过年担心任务挂掉？好吧我承认你很敬业)

只需要

1)界面点击操作,定义你的schema

2)写一段你所擅长的sql

3)点击提交按钮

4)关闭浏览器

5)关闭电脑

其它的就交给平台吧!

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
如何自学软件编程？零基础自学编程入门指南 _pangzi
前言零基础自学编程的动力是什么?在开启学习编程之路的时候必须搞清楚自己为什么要学编程?是因为工资高?还是对编程有浓厚的兴趣？还有自己有一定的编程基础想要继续提升自己？其实对于这个问题需要具体分析，如果是单纯看到程序员工资高，而自己本身并没有什么兴趣，那我不建议自学，可以选择参加培训或者不要进入编程领域不然自己学不会没有获得高薪，反而浪费了大把的时间，如果方法不对，反而会打击自信心。下面小编针对学习
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
程序员如何在AI时代保持核心竞争力 nfgo chatgpt 人工智能
程序员如何在AI时代保持核心竞争力随着AIGC（如ChatGPT、MidJourney、Claude等）大语言模型的相继涌现，AI辅助编程工具逐渐普及，程序员的工作方式正在发生深刻的变革。AI不仅能够自动生成代码，还能优化、调试、甚至提出解决方案。这一趋势让许多人担心：AI会不会最终取代部分编程工作？然而，也有人认为AI是提升效率的得力助手。那么，程序员在这个AI崛起的时代该如何应对？是专注某个领
程序员架构师主要是做什么_程序员架构师：职责、技能与挑战绿色小猪
免费备考资料（2024年11月软考）：历年试题+视频课合集+电子讲义点击领取>>>免费刷题：2024年11月软考备考刷题点此进入>>>程序员架构师的角色定位在软件开发领域，程序员架构师是一个至关重要的角色。他们不仅需要深入理解业务需求，还要将其转化为技术上的解决方案。程序员架构师是项目中的技术领航者，负责制定和维护软件系统的整体架构，确保系统的可扩展性、可维护性和性能。他们的工作涉及从概念化到实现
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
2020年最新程序员职业发展路线指南，超详细！编程流川枫 11 编程语言程序员互联网 IT 职业
【文章来源微信公众号：每天学编程】01、程序员的特性技术出身的职场人特性很明显，与做市场、业务出身的职场人区别尤其明显。IT行业中常见的一些职场角色：老板、项目经理、产品经理、需求分析师、设计师、开发工程师、运维工程师等。开发工程师具有如下特征：1、逻辑思维清晰、严谨和细腻；但是有时不容易转弯，有些程序员容易较劲、钻牛角尖。2、性格偏内向、不善于沟通、表达和交际；但是在网络聊天工具上，有些显为幽默
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
40岁的java程序员，还有出路吗？ cesske java 开发语言
目录前言一、现状与挑战二、出路与机遇三、案例分析与启示四、结语前言40岁Java程序员的出路：挑战与机遇并存在科技日新月异的今天，IT行业始终保持着高速的发展态势，而Java作为其中的重要一员，其地位依然稳固且充满挑战。对于一位40岁的Java程序员而言，面对职业生涯的“中年危机”，是否还有出路？本文将从多个维度探讨这一问题，旨在为这一群体提供思考和启示。一、现状与挑战职场竞争加剧随着技术的不断发
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

年薪50万前阿里工程师分享如何构建flink sql平台

你可能感兴趣的:(程序员,机器学习,深度学习,大数据)