weixin_33801856

【Spark深入学习 -10】基于spark构建企业级流处理系统

----本节内容-------

1.流式处理系统背景

1.1 技术背景

1.2 Spark技术很火

2.流式处理技术介绍

2.1流式处理技术概念

2.2流式处理应用场景

2.3流式处理系统分类

3.流式处理技术关键技术

3.1流式处理系统管道构建

3.2流式处理系统关键技术

3.3用户行为分析系统介绍

4.问题答疑

5.参考资料

---------------------

1、流式处理技术

1.1 技术背景

业务驱动技术发展，脱了了业务的技术，最多就是一个研究性的东西，流式处理技术的火爆源于业内对计算速度的需求。目前互联网公司、运营商、物联网公司等对流式处理技术的需求来源是多方面的，一是企业确实每分每秒都在产生海量数据，二是管理层对数据的价值有更高的认识，三是技术的发展，尤其是Hadoop等技术，让数据变现成为可能【个人想法：关于大数据如何变现，其实是一个大大的课题】。

通过大数据技术，分析挖掘，产生有价值的结论，或者支撑公司日常运营，或者卖个用户或者第三方，完成数据到信息到利润的转变，而流式处理技术是大数据技术的一个非常重要的技术方向。流式处理技术被越来越多的企业应用到实践中，根据行业的不同，流式数据的来源也不一样，有如下几大类：

· 用户点击日志

在App或者网页中嵌入日志采集程序，埋点，跟踪用户的点击行为，这种以互联网公司为典型代表，有BAT等，比如京东购买东西，点击搜索的时候就产生一条日志，ip，浏览器，关键字等。

·机器日志

机器产生的日志信息，如CPU、内存日志等，（个人想法：这个也只有巨无霸公司才有这样的需求，一般的公司服务器不会产生如此多的数据，要用到Hadoop技术，一个不大不小的集群硬件、人才、运维也是不小的投资）

· 终端设备产生的数据

比如物联网和摄像头，确实物联网传感设备是能够产生海量数据的，尤其是做智慧城市项目的物联网公司，在各个城市部署窄带基站，通过传感设备，每分每秒都在产生数据，确实惊人。但是对于摄像头这块，还是有很多问题的，传统的摄像头采集到的数据都是非结构化数据，想利用大数据技术做分析，难度和成本都非常大，新型摄像头能采集结构化数据，比较容易做数据分析，但是成本昂贵。

1.2 Spark技术很火

1）Spark技术非常火

Spark火起来，第一是发展越来越成熟，并且不仅仅局限于做计算框架，第二是有一帮人在推Spark，时不时的去推，去组织峰会，举办论坛，好的技术很多，但是能被大家广泛知道的好技术并不多，背后有一只手在引导大家去认识他，认识之后发现确实还可以，那么久火了。火不火用数据说话，下面是谷歌12年至今关于spark和hadoop关键字的搜所量。

2）Spark组件谁更火

这个排名可以，董给出的这个可以调整自己的学习精力，先学哪个后学哪个，有个侧重，搜索量

saprk sql >spark streaming >mllib，而对于SparkR，GraphX这些就相对小众一些。

3）大数据人才的需求

这个就没有啥说的，鬼知道是神马行情，而且薪资和能力有关，招聘行情和季节有关，想切身了解，海投一轮简历就知道水深水浅了。下面的数据仅供参考。

2.流式处理应用场景

2.1流式处理技术概念

董先生将主要介绍是关于流式处理技术概念性的东西，不做介绍具体技术细节，用最简单的话将抽象、专业的东西表达出来。根据我的笔记，大意如下：

企业都有海量的数据，数据是怎么来的，如何形成海量的数据的？其实和流水是一样，都是通过日积月累，将数据慢慢积累，一点点跟流水一样积少成多，跟流水一样流进企业的数据库。

学院派一点描述流式数据：流式数据是大数据环境下的一种数据形态，其理论诞生于20世纪末，并在云计算和物联网发展下逐步成为当前的研究热点。流式数据与传统的数据是相对的。与静态、批处理和持久化的数据库相比，流式计算以连续、无边界和瞬时性为特征，适合高速并发和大规模数据实时处理的场景。

大数据环境下，流式数据作为一种新型的数据类型，是实时数据处理所面向的数据类型，其相关研究发展迅速。这种实时的流式数据，存在如下几个特征：

实时、高速：数据能以高并发的方式迅速到达，业务计算要求快速连续相应。数据处理的速度至少能够匹配数据到达的速度。
无边界：数据到达、处理和向后传递均是持续不断的。
瞬时性和有限持久性：通常情况下，原始数据在单遍扫描，处理后丢弃，并不进行保存；只有计算结果和部分中间数据在有限时间内被保存和向后传递。
价值的时间偏倚性：随着时间的流逝，数据中所蕴含的知识价值往往也在衰减，也即流中数据项的重要程度是不同的，最近到达的数据往往比早先到达的数据更有价值。

2.2 流式处理应用场景

在实际生产中，有哪些场景带来实际价值，董先生介绍了以下几个方面：

1）. 社交网络趋势追踪

趋势追中，微信、微博数据，搜索量，点击量的追踪，某个时间段达到了顶峰，达到热门 ->新闻搞

2）.实时推荐系统

淘宝购买的时候的推荐，优酷土豆等中看完视频后，会列出视频中还有哪些人浏览了这个视频，哪些视频和你观看的视频相似等等，

3）网络指标实时统计

4）广告系统

5）信用卡欺诈

2.3 流式处理系统分类

我觉的这个图非常好，简单明了，结合董先生讲的东西，加上我自己的理解进一步阐述一下。流式处理系统主要分为三类：1）批处理，2）微批处理，3)流式处理

1).批处理

一次性处理，一批一批，高吞吐量，牺牲延迟，面向静态数据集，分钟或者小时级别，MR,SPARK都是批处理。

2).流式处理

面向行的和面向微批处理的 ,来一条处理一条，面向行级别，延迟低，毫秒级，如storm(毫秒级),Apache samza（亚秒级）.

3).微处理

介于1和2之间，处理每一批都足够快，模式上将批处理改成流处理，但是处理数据的粒度没有流处理那么小，流处理是行级别，微处理，是多行，一系列行积攒起来后处理，以spark streaming做为典型代表。link也是，来一条积攒一会再来处理。

其实对于实时性能要求非常非常高的需求场景，应该有但是不多，董先生介绍微处理，既能解决批处理解决的问题，又能解决流式处理的问题，在大部分企业就已经足够用了。所以融合了批处理和流式计算的引擎逐渐流行，充分结合批处理和流式计算殷勤的优势，而且更容易构建Lambda 架构。这种混合类型的计算引擎比较流行的有Apache Spark，Apache Flink，Apache Apex，后面2个不甚了解。

3.流式处理技术关键技术

3.1 流式处理系统管道构建

1) 流式处理思想

数据源：源源不断的产生数据。

数据缓存：数据源写数据到缓存系统，数据缓存作为缓冲层，完成数据初步汇聚。

流式引擎：引擎从缓存系统取数据，流式引擎实时分析。

结果存储：数据被引擎处理之后，存入特定数据库。

整个过程就是：数据源->数据缓存->流式引擎->结果存储。

为什么不直接写流式引擎呢？

原因数据源产生的数据量非常大，直接写入，流式引擎可能扛不住，若果数据源同时10万条数据，如果引擎只处理10条，分分钟冲跨掉，而有了数据缓存，先接纳数据，后处理，会比较靠谱。

这是一个伟大的指导思想，而这种指导思想从古到今被人广泛使用。军事上战略缓冲区就是这个指导思想，非接触作战。

上面这张图是从具体实现的角度来描述的。

数据源：数据的生产者，主要有APP，网站和物联网设备。这里想说一下我对物联网大数据的理解，因为物联网和手机终端设备不一样，终端通讯有专门的物联网通讯协议，并且会充分考要耗能问题、数据传输、窄带网络、设备与网关通讯等问题，因此需要有专门的物联网平台来处理高并发的设备连接和消息通讯，并且实际业务场景中，还有大量的设备相关指令的上报和下发，这种专门的物联网平台目前业内也有很多公司在做，但是成熟度，比如华为，浙江天地人科技等等，他们都有经过多年生产的物联网消息透传平台。因此，仅仅只用kafka这类的消息队列组件是有局限性的，通常在这之前还有一层物联网数据和消息接入平台来做预处理和解析，处理之后再交给kafka。（个人观点，仅供参考）

kafka：分布式消息队列，不断从消息队列取数据，根据数量的不同，选择不同的数据存储数据，关系型，内存，分布式的kv数据库等等。

Spark Streaming：微处理技术组件，介于流处理和批处理之间的组件。

Mysql/hbase/redis:数据结果存放，什么场景下选什么数据库，根据业务场景来选择。

mysql：不会很多的，要做进一步聚集

hbase：数据量非常大的，指标数据，仅仅做直观展示。

redis：少量的结果，使用内存，大内存就放不小，可以高效获取，如推荐系统，给其他模块获取

3.2 流式处理系统关键技术

1.流式处理管道的构建

1)流式数据收集

实时手机数据、网站数据、客户端生产数据，kafka集群做大数据的缓存，用户使用各种产品产生数据，各种视频产生的日志数据发到loadbalance(负载均衡器，软件或者硬件实现) ，负载均衡器将数据发到httpserver，简单的汇总，写入到kafka的汇总。

2）KAFKA

Kafka有三个组件produce、roker，consumer，采用生产者和消费者模式，是一款分布式数据缓存队列，可通过zk协调，以主题的方式组织在broker上（一般文件系统时采用目录或文件进行组织）

以topic来组织，consumer读完就删掉（也可以设置缓存几天），broker可以有多个副本

HttpServer相当于kafak的produecer,而Spark streaming相当于consumer，从broker上存放数据

3) Spark Streaming

将流式计算转为一批很小的、确定的批处理作业，以秒为单位将数据流切分成离散的作业，将每批数据看作RDD，使用RDD操作符处理，最终结果以RDD为单位返回，写入HDFS或者其他系统。

SparkStreaming将流式计算转为批处理问题，每一批都足够小，看上去像流式处理，将数据流切分成一段一段，切分成秒级，足够小，小到几秒钟就计算完了。另外Spark Streming优势提供了丰富的函数，表达丰富的表达算法。安装窗口10秒规约一次，还有带有状态的算子，非常多的算子，实现比storm要好很多很多，storm表达，groupbykey，reducebykey非常复杂。

4）数据存储

Mysql/hbase/redis:数据结果存放，什么场景下选什么数据库，根据业务场景来选择。

mysql：不会很多的，要做进一步聚集

hbase：数据量非常大的，指标数据，仅仅做直观展示。

redis：少量的结果，使用内存，大内存就放不小，可以高效获取，如推荐系统，给其他模块获取

3.3流式处理系统关键技术

1）.计算方式

关键技术，面试常用到，有几种计算方式和计算类型

（1）固定窗口

每隔一分钟统计一次，1分钟内最火的关键字

（2）滑动窗口

每隔5分钟统计一次，窗口之间有交叉，窗口内部的指标

（3）会话计算

董先生举例说明什么是会话：app，ofo，首先打开app，从输入到使用自行车，到结束，这就是一个会话，在会话中进行一系列的动作，登录，搜索，购买，评论，退出，一段时间没访问，就自动退出。用会话为单位，进行分析，一系列的行为，行为有先后关系，按时序进行分析。

新版本的spark全都支持。

2）一致性语义

有且仅有一次：发一条接收一条，不多接收，也不少接收，假设有问题，spark streaming 任务挂掉了，重算，那也是保存了2次，推测执行，2个任务计算同一次结果，空间换时间，结果累加2次，会产生副作用。

最多一次：发一条，最多一次，发了，就不发了

最少一次：发一条，收到了2次，有冗余数据发过去，比较容易实现，kafka，可能写2次，消息保留2次，主键允许冲虚，如银行的，有些被处理2次，后果严重，

监控和报警：至少一次，保证所有实现的函数都是无状态的，幂等的（执行1,2,3次结果都是一样的，累加就不是幂等的）。有些操作是，kv结果的存储，给定的主键唯一，将结果保存，key相同，后面会覆盖前面的计算结果。

累加转为幂等，将batch做一个和，在外部写一个sql，对某时间内的进行累加

3）乱序和延迟到达

乱序和延迟到达：各种日志数据到达系统的时间不一样，网络问题导致，到达的顺序都是不一样的，流式计算统计某段时间内访问量，乱序，延迟等，（1）延迟到达：5点半的，10点多到达，这就是延迟到达，（2）乱序问题：相同的时间，访问的服务到达顺序不一样，就是乱序问题。1点可能晚于1:05，产生的问题，这个问题就不好解决。

Spark2.0新版本，对此作了很好的解决。Apache beam，也作了很好的解决，乱序和到达的问题

3.4 用户行为分析系统

每个时间段，用户产生付费的量，营收等实时看到

1.嵌入代码，收集用户行为，放入kafka

2.spark streaming收集

3.写入redis

4.可视化

为什么用spark streaming和kafka来做，

· 如果数据量很大，分布式资源做高并发计算

· 如果目前数据量不大，但将来很大，提前上，可扩展性好

4.问题答疑总结

记录了一些具有参考价值的问题和回答

1）.先学习scala，是一个趋势，java是入行大数据的基本语言

2）.flume优势提供了各种嵌入式的数据源，kafka看做是消息总线

3）传统的.OLAP,spark sql可以做

4).spark R也比较小众，grahx比较小众，

5).实时去重如何做？

只能做某个时间窗口内的去重，实时去重还是比较难做的，把历史数据都放到kv库里面，来一条查一条。

6).hbase替代方案，尝试Cassandra

7).kafka如何做有序处理，

8)spark语言基础:java，提倡多谢scala

9)Spark2.0稳定版？

企业生产可以用 2.1.0

10).flink 比较小众

11)学习spark，只会python也可以，不会java的人，还是学习下

12).Spark立足于hdfs，spark只是计算引擎，比如说kafaka，hdfs等等

13）datafrme,dataset用的最多，spark core，rdd简单，效率高

14).随机存取修改，可用mongdb之类的

15）Spark sql调优，比较简单，暴露的东西并不多，Spark sql就是为简化用户调优而实现

16）内存越来越少原因？内存一直增长，可能资源有泄露，如插入到map一直不释放

17）关系型到spark sql的关键问题是什么？将关系型数据库迁移到 SparkSQL 的关键是什么？

sql重写，特殊的语法，写法要变动

18）.如果在spark streaming实时计算中需要读取关系型数据库中的历史数据，如何实现？

jdbc之类的东西，单机程序并行化来，odbc

19）kafka数据持久化到哪儿？hdfs?

会写到本地磁盘，自己处理分布式容错

20)spark支持四种语言： java，scala，python和r

21）kafka会存在磁盘上，kafka一般设计个副本，kafka 2个，一般保留1~3天的数据

22）hadoop生产集群搭建如何考虑磁盘raid，raid0和jbod如何选择，Hadoop生产集群系统盘分区如何规划的，以及周边配套服务器角色都有哪些，如何规划？【我的问题，董先生可能没看到，没有回答】

23）yarn：2.6.2.7,2.3.2.4都可以，spark都支持，

24）spark stream read kafka 如何存储offset，使用checkpoint？还是用额外的ZK或者RDB？那种比较好？，大部分在zookeeper里面

25）spark和hadoop哪个代码更好

spark更简洁，hadoop冗余

26）spark不一定非要运行在yarn，也可以mesos

27）streaming 是否必须要设置checkpoint？什么时候应该强制设置？

mapv的states时，就必须要，看场景，checkpoint大大降低性能

28）Druid在企业中应用的多么？应用的一般

29）kafka的partition怎么调优，kafka的partition会影响spark streaming的数据读取

会影响，尽可能的，调优也没有很多方法，将并发度提高，

30）不适合spark处理的尝尽

OLAP，sql在线实时分析，sparksql不是很适合，

31）apache上下载可以用与生产环境么？

可以，Spark用2.1.0

5.参考资料

1.http://blog.csdn.net/tagst/article/details/49642787-流式计算的理论与技术

2.http://blog.csdn.net/zhangzhaokun/article/details/8821385

实时计算、流式处理系统简介与简单分析

3.http://www.cnblogs.com/panfeng412/archive/2011/10/28/2227195.html对互联网海量数据实时计算的理解

4.https://wenku.baidu.com/view/fd91e734cd7931b765ce0508763231126fdb775f.html流式处理框架storm-spark和samza的对比

5.董西成ppt

转载于:https://www.cnblogs.com/licheng/p/6822386.html

你可能感兴趣的:(【Spark深入学习 -10】基于spark构建企业级流处理系统)

guava loadingCache代码示例 IM 胡鹏飞 Java 工具类介绍
publicclassTest2{publicstaticvoidmain(String[]args)throwsException{LoadingCachecache=CacheBuilder.newBuilder()//设置并发级别为8，并发级别是指可以同时写缓存的线程数.concurrencyLevel(8)//设置缓存容器的初始容量为10.initialCapacity(10)//设置缓存
系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
有必要获得WHQL测试认证吗，有什么好处？
什么是WHQL认证？WHQL是MicrosoftWindowsHardwareQualityLab的缩写，中文意思是Windows硬件设备质量实验室，主要是对Windows操作系统的兼容性测试，检验硬件产品和驱动程序在windows系统下的兼容性和稳定性。当某一硬件或软件通过WHQL测试时，制造商可以在其产品包装和广告上使用“DesignedforWindows”标志。该标志可以证明硬件或软件已经
驱动程序为什么要做 WHQL 认证? GDCA SSL证书网络协议网络
驱动程序进行WHQL（WindowsHardwareQualityLabs）认证的核心价值在于解决兼容性、安全性和市场准入三大关键问题，具体必要性如下：️‌一、规避系统拦截，保障驱动可用性‌消除安装警告‌未认证的驱动在安装时会触发Windows的‌红色安全警告‌（如“无法验证发布者”），甚至被系统强制拦截。通过WHQL认证的驱动获得微软数字签名，用户可无阻安装‌。满足系统强制要求‌Windows1
WHQL签名怎么申请 GDCA SSL证书 windows
WHQL（WindowsHardwareQualityLabs）签名是微软对硬件和驱动程序进行认证的一种方式，以确保它们与Windows操作系统的兼容性和稳定性。以下是申请WHQL签名的基本步骤，供您参考：1.准备阶段准备硬件设备和驱动程序：确保您的硬件设备已经准备好，并且对应的驱动程序已经经过充分的测试，能够在各种配置和环境下正常工作。获取EV代码签名证书：根据微软的要求，驱动程序进行WHQL认
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
k8s:安装 Helm 私有仓库ChartMuseum、helm-push插件并上传、安装Zookeeper 云游 docker helm helm-push
ChartMuseum是Kubernetes生态中用于存储、管理和发布HelmCharts的开源系统，主要用于扩展Helm包管理器的功能核心功能‌集中存储‌：提供中央化仓库存储Charts，支持版本管理和权限控制。‌‌跨集群部署‌：支持多集群环境下共享Charts，简化部署流程。‌‌离线部署‌：适配无网络环境，可将Charts存储在本地或局域网内。‌‌HTTP接口‌：通过HTTP协议提供服务，用户
上位机知识篇---SD卡&U盘镜像
常用的镜像烧录软件balenaEtcherbalenaEtcher是一个开源的、跨平台的工具，用于将操作系统镜像文件（如ISO和IMG文件）烧录到SD卡和USB驱动器中。以下是其使用方法、使用场景和使用注意事项的介绍：使用方法下载安装：根据自己的操作系统，从官方网站下载对应的安装包。Windows系统下载.exe文件后双击安装；Linux系统若下载的是.deb文件，可在终端执行“sudodpkg-
【LeetCode 热题 100】24. 两两交换链表中的节点——（解法一）迭代+哨兵 xumistore LeetCode leetcode 链表算法 java
Problem:24.两两交换链表中的节点题目：给你一个链表，两两交换其中相邻的节点，并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题（即，只能进行节点交换）。文章目录整体思路完整代码时空复杂度时间复杂度：O(N)空间复杂度：O(1)整体思路这段代码旨在解决一个经典的链表操作问题：两两交换链表中的节点(SwapNodesinPairs)。问题要求将链表中每两个相邻的节点进行交换
Guava LoadingCache sqyaa. java并发编程 Java知识 jvm 缓存 guava
LoadingCache是GoogleGuava库提供的一个高级缓存实现，它通过自动加载机制简化了缓存使用模式。核心特性自动加载机制当缓存未命中时，自动调用指定的CacheLoader加载数据线程安全：并发请求下，相同key只会加载一次灵活的过期策略支持基于写入时间(expireAfterWrite)和访问时间(expireAfterAccess)的过期可设置最大缓存大小，基于LRU策略淘汰丰富的
基于定制开发开源AI智能名片S2B2C商城小程序的社群游戏定制策略研究说私域人工智能小程序游戏
摘要：本文聚焦社群游戏定制领域，深入探讨以社群文化和用户偏好为导向的定制策略。通过分析互动游戏活动、社群文化塑造等关键要素，结合定制开发开源AI智能名片S2B2C商城小程序的技术特性，提出针对性游戏定制方案。研究旨在提升社群用户参与度与游戏体验，为社群游戏发展提供理论支持与实践指导。关键词：社群游戏定制；定制开发开源AI智能名片S2B2C商城小程序；社群文化；用户偏好一、引言在数字化社交蓬勃发展的
前端项目架构设计要领
1.架构设计的核心目标在设计前端项目架构时，核心目标是模块化、可维护、可扩展、可测试，以及开发效率的最大化。这些目标可以通过以下几个方面来实现：组件化：将UI功能封装为可复用的组件。模块化：将业务逻辑分解为独立的模块或服务。自动化构建与部署：实现自动化构建、测试和部署流程，减少人为操作的错误。代码规范化与检查：确保团队协作时，代码风格和质量一致。2.项目目录结构设计一个清晰合理的目录结构对大型项目
嵌入式系统LCD显示模块编程实践
本文还有配套的精品资源，点击获取简介：本文档提供了一个具有800x480分辨率的3.5英寸液晶显示模块LW350AC9001的驱动程序代码，以及嵌入式系统中使用C/C++语言进行硬件编程的实践指南。该模块的2mm厚度使其适用于空间受限的便携式设备。内容包括驱动程序源代码、硬件控制接口使用方法，以及如何在嵌入式系统中进行图形处理、电源管理与性能优化。1.嵌入式系统原理1.1嵌入式系统概念嵌入式系统是
22、文档：Google Docs的强大与易用性 pear55 探索云技术的无限可能 Google Docs 云端文档语音输入
文档：GoogleDocs的强大与易用性1.GoogleDocs简介GoogleDocs是Google提供的在线办公套件的一部分，它是一个基于云端的文字处
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
ARM嵌入式可编程控制器技术开发拉勾科研工作室 arm开发
PLC自动化设计|毕业设计指导|工业自动化解决方案✨专业领域：PLC程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列PLC编程三菱/欧姆龙PLC应用触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：PLC控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
2025代码块种类以及作用 2501_92758067 intellij-idea phpstorm idea jupyter
https://www.bilibili.com/opus/1088624478422827030https://www.bilibili.com/opus/1088624529930977287https://t.bilibili.com/1088633635294150662https://www.bilibili.com/opus/1088633635294150662https://t.b
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
基于开源AI智能名片链动2+1模式与S2B2C商城小程序的渠道选择策略研究说私域人工智能小程序
摘要：在数字化商业环境下，品牌与产品的渠道选择对其市场推广和运营成功至关重要。本文聚焦于如何依据自身品牌和产品特性，结合开源AI智能名片链动2+1模式与S2B2C商城小程序，运用科学的渠道选择方法，慎重挑选1-2个适宜平台，集中资源发力并取得成绩后再拓展其他渠道。通过理论分析与案例研究，探讨该策略的有效性和可行性，为企业渠道布局提供参考。关键词：渠道选择；开源AI智能名片；链动2+1模式；S2B2
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
基于架构的软件设计（Architecture-Based Software Design，ABSD）是一种以架构为核心的软件开发方法
ABSD方法与生命周期基于架构的软件设计（Architecture-BasedSoftwareDesign，ABSD）是一种以架构为核心的软件开发方法，强调在开发的各个阶段都要以架构为中心，确保系统的整体结构和质量属性得到有效管理。ABSD方法是一个自顶向下、递归细化的过程，软件系统的架构通过该方法得到细化，直到能产生软件构件和类。ABSD方法的三个基础功能的分解：使用基于模块的内聚和耦合技术，将
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
洛谷 P11120 [ROIR 2024 Day 1] 登机题解殇之夜洛谷 c++c语言算法
Part0前言这种题一看就是签到题，也是特水，建议评红或橙。Part1思路就是先将已有位置先填对称，然后将剩余还未添加的乘客以对称方式填入。首先可以特判掉需要的位置大于空位的情况，直接输出Impossible。然后用数组记录.和X的位置，先遍历所有X的位置，然后看他的对称位置是否为空，若为空，则填入X，然后m--。最后若musingnamespacestd;chara[1010][10];stru
php SPOF 贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.什么是单点故障（SPOF）？单点故障指的是系统中某个组件一旦失效，整个系统或服务就会不可用。常见的单点有：数据库、缓存、Web服务器、负载均衡、网络设备等。2.常见单点故障场景只有一台数据库服务器，宕机后所有业务不可用只有一台Redis缓存，挂掉后缓存全部失效只有一台Web服务器，挂掉后网站无法访问只有一个负载均衡节点，挂掉后流量无法分发只有一条网络链路，断开后所有服务失联3.消除单点故障的主
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class