laogooooog

大数据架构师之路

1、同时拥有实时和离线处理的架构，既保证低延迟，又保障正确性。这个方法被称作 Lambda 架构，它通过批量 MapReduce作业提供了虽有些延迟但是结果准确的计算，同时通过flink/Storm将最新数据的计算结果初步展示出来。
双路生产会存在一些问题，比如加工逻辑double，开发运维也会double，资源同样会变成两个资源链路。因为存在以上问题，所以又演进了一个Kappa架构。
Kappa架构从架构设计来讲比较简单，生产统一，一套逻辑同时生产离线和实时。但是在实际应用场景有比较大的局限性，在业内直接用Kappa架构生产落地的案例不多见，且场景比较单一
2、Doris也是一种OLAP框架，主要用于实时数据仓库，自带存储的实时计算引擎。
MPP架构的SQL查询引擎，如Impala,presto等能够高效地支持SQL查询，但是仍然需要依赖Kudu, HDFS, Hive Metastore等组件, 运维成本依然比较高，同时，由于计算存储分离，查询引擎不能很好地及时感知存储层的数据变化，就无法做更细致的查询优化，如想在SQL层做缓存就无法保证查询的结果是最新的。因此，我们的目标是寻求一款【计算存储一体】的MPP数据库来替代我们目前的存储计算层的组件。
Doris是百度开源到Apache社区的基于 MPP 的交互式 SQL 数据仓库，主要用于解决报表和多维分析，像flink，storm就是只有计算没有存储的。
3、大数据架构分为数据源层、数据加工层、数据服务层、数据应用层。

数据源层：包含接入的原始数据，包括客户端日志、服务端日志、业务库、集团数据、外部数据等。
数据加工层：使用Spark、Hive 构建离线数仓、使用Storm、 Flink实时数仓。在数仓之上针对服务对象建设各种数据集市
数据服务层：主要包括存储介质的使用和数据服务的方式。存储：主要使用开源组件，如 Mysql, HDFS, HBase, Kylin, Doris, Druid, ES等。数据服务：对外数据查询、接口以及报表服务
数据应用层：主要包括主题报表、自助取数工具、增值产品、数据分析等支撑业务开展，同时依赖公司平台提供的一些工具建设整体数据应用。

4、MPP是一种实时海量数据分析架构。MapReduce是一种离线海量数据分析架构。其实MPP架构的关系型数据库与Hadoop的理论基础是很相似的，都是将运算分布到节点中独立运算后进行结果合并。只不过MPP底层跑的是SQL,而Hadoop底层执行的是MR。
ES也是一种MPP架构的数据库，Presto、Impala等都是MPP engine，各节点不共享资源，每个executor可以独自完成数据的读取和计算，缺点在于怕stragglers，即所谓木桶的短板。与hadoop相比，MPP更加强调的实时计算。
5、MPP架构和批处理架构（MR,SPARK）区别：mpp架构每次计算是所有节点都参与计算。批处理架构并不需要所有的节点都参与运算，它在一个任务事件下发以后，控制节点会分配给一些集群中的节点，而这些节点各自完成自己的计算，然后把计算结果写到磁盘里，再交给下一个计算的节点去写入，每次不需要所有的节点去参与运算。
批处理架构需要节点和任务去进行解耦，解耦的代价是，需要共享资源，势必会带来写磁盘，不管是读磁盘还是写磁盘，相比MPP的通信方式来说显然会更慢。
可以将两者进行互补：MPP on Hadoop就不得不提一下，如Impala，presto，在这里就把他们归类为MPP on Hadoop技术。这些技术大部分没有自己的存储，是一个类MPP的架构，需要控制节点把任务下发到对应的MPP的任务节点上，而在MPP节点的底层是HDFS，等于是这两者的一个结合，实际运用起来查询会比Hive更快一些。
总结：MPP会将任务下发到每个节点，每个节点完成所有计算。而MR/spark是将任务下发到某些节点，由于资源共享涉及shuffle，所以较慢
6、市面上的OLAP分为两种：
通过加并发的方式来解决问题：MPP架构和批处理架构
通过预计算来解决问题，如麒麟，druid
10、分类学习之召回率和准确率
假设我们手上有60个正样本，40个负样本，我们要找出所有的正样本，系统查找出50个，其中只有40个是真正的正样本，计算上述各指标。
TP: 将正类预测为正类数 40
FN: 将正类预测为负类数 20
FP: 将负类预测为正类数 10
TN: 将负类预测为负类数 30
精确率(precision) = 40/50 = 80% 精确率是针对我们预测结果而言的，它表示的是预测为正的样本中有多少是真正的正样本
召回率(recall) = 40/60 = 2/3 召回率是针对我们原来的样本而言的，它表示的是样本中的正例有多少被预测正确了
预测正确了就称为召回

14、G1回收器的缺点：需要用记忆集（卡表）来记录新生代和老年代之间的引用关系。这种数据结构需要占用大量的内存，带来高负载
15、对于文件存储而言，有两种主流的方式，即按行存储以及按列存储。所谓按行存储就是把每一行数据依次存储在一起，即先存储第一行的数据再存储第二行的数据，以此类推。按列存储就是把表中的数据按照列存储在一起，先存储第一列的数据，再存储第二列的数据。而在大数据场景之下，往往只需要获取部分列的数据，那么使用列存就可以只读取少量数据，这样可以节省大量磁盘和网络 I/O 的消耗。此外，因为相同列的数据属性非常相似，冗余度非常高，列式存储可以增大数据压缩率，进而大大节省磁盘空间
16、orc优化：https://www.infoq.cn/article/spRaKpgIGyNQAdUwmRiT

异步预读：传统读文件的方式一般是从底层文件系统先拿到原始数据，然后进行解压和解码。这两步操作分别是 I/O 密集型和 CPU密集型的任务，并且两者没有任何并行性，因此就加长了整体的端到端时间。AliORC这样就将所有的读盘操作变成了异步的操作，实现了从文件系统读数据和解压解码操作的并行处理
消除小IO：在 ORC 文件中，而每次读取都是以列为单位进行的。这样对于数据量比较小的列而言，读取时的网络 I/O 开销非常大。而 ORC文件中有许多这样数据量很小的列，从而造成了大量小 I/O 的产生。为了消除这些小 I/O 开销，AliORC 在 Writer写数据时，针对不同列的数据压缩后大小进行了排序，将数据量少的列放在一起写
内存管理：在开源版本的 ORC 实现中，Writer 的每列数据都使用了一个很大的 Buffer 去保存压缩后的数据，默认大小为1M。Buffer 设置得越大，压缩率越高。但是不同列的数据量不同，某些列根本用不到 1M 大小的Buffer，因此就会造成极大的内存浪费。避免内存浪费的简单方法就是在一开始的时候只给很小的数据块作为 Buffer，并且按需分配

17、orc和parquet对比：相同压缩算法下，Parquet 和 ORC 存储性能非常相近。orc压缩率更高点。
关于读表性能的对比，相同压缩算法的 ORC 文件读起来比 Parquet 要更快一些。
嵌套结构支持：Parquet 能够很完美的支持嵌套式结构，而在这一点上 ORC 支持的并不好，表达起来复杂且性能和空间都损耗较大。比如某个字段的数据嵌套了多层，那parquet可以很完美的存储这样的字段，orc存储起来就比较吃力
18、ORC基于数据类型的块模式压缩：

integer类型的列用行程长度编码(run-length encoding);
String类型的列用字典编码(dictionary encoding)；

19、ORC将整个表数据先划分为多个strip，每个strip包含多行数据。在strip内部是列式存储。但是从整个表的存储角度，orc并不是完整的列式存储。即orc并不是纯粹的列式存储，也是先基于行对数据表进行分组（行组），然后对行组进行列式存储。
20、Hive的ORC文件格式，它不但有着很高的压缩比，节省存储和计算资源之外，还通过一个内置的轻量级索引，提升查询的性能。这个内置的轻量级索引，就是下面所说的Row Group Index。
其实ORC支持的索引不止这一种，还有一种BloomFilter索引，两者结合起来，更加提升了Hive中基于ORC的查询性能。
在建立ORC格式表时，指定表参数’orc.create.index’=’true’之后，便会建立Row Group Index，需要注意的是，为了使Row Group Index有效利用，向表中加载数据时，必须对需要使用索引的字段进行排序，否则，min/max会失去意义。另外，这种索引通常用于数值型字段的查询过滤优化上。

21、hadoop archive 存档过程实际是一个MapReduce过程
/* 归档命令：
hadoop archive -archiveName 0825.har -p /test/in/ small mapjoin /test/in/har

-archiveName 0825.har : 指定归档后的文件名
-p /test/in/ : 被归档文件所在的父目录。这里也可以写多个需要归档的文件
small mapjoin : 要被归档的目录,一至多个(small和mapjoin)
/test/in/har : 生成的归档文件存储目录
*/

归档可以解决namenode内存占用问题。但无法解决小文件造成的spark或者MR输入多个map的问题。因为它仍然允许对归档文件中小文件进行透明的访问。归档有如下问题：
存档文件的源文件及目录都不会自动删除，需要手动删除
使用 HAR 作为MR的输入，MR可以访问其中所有的文件。但是由于InputFormat不会意识到这是个归档文件，也就不会有意识的将多个文件划分到单独的Input-Split中，所以依然是按照多个小文件来进行处理，效率依然不高

22、YARN 是一个资源管理系统。主要由 ResourceManager、NodeManager、ApplicationMaster 和 Container 等组件构成。而hadoop的架构是namenode,datanode,Seconddary NameNode。运行的hadoop任务，需要向yarn申请资源。所以不要把NodeManager和DataNode等搞混了
（1）NameNode与ResourceManager分开部署（都是老大）
（2）datanode 与NodeManager ，一般保存在同一个节点上。DataNode与NodeManager部署在一起是为了可以就近拿数据，而不是通过网络去别的节点上取数据。
23、mr为什么要进行排序？
mapper 对每段数据先做排序，reducer的shuffle 对排好序的每段数据做归并。也就是map先对每段数据排序，排好序的数据会比较好处理。下游处理起来会很快。比如reduce做归并时，对map输出的一段一段的有序数据做归并排序时会很快。所以map输出的有序数据能极大缓解下游reduce处理时的压力。
在Map任务和Reduce任务的过程中，一共发生了3次排序
1）当map函数产生输出时，会首先写入内存的环形缓冲区，当达到设定的阀值，在刷写磁盘之前，后台线程会将缓冲区的数据划分成相应的分区。在每个分区中，后台线程按键（key）进行内排序（内存排序）
2）在Map任务完成之前，磁盘上存在多个已经分好区，并排好序的，大小和缓冲区一样的溢写文件，这时溢写文件将被合并成一个已分区（每个分区有序，将所有分区数据合并，很适合用归并排序，将各分区有序数据合并成一个全序数据）且已排序的输出文件。由于溢写文件已经经过第一次排序，所以合并文件只需要再做一次排序即可使输出文件整体有序。合并文件，归并排序。
3）在reduce阶段，需要将多个Map任务的输出文件copy到ReduceTask中后合并，由于经过第二次排序，所以合并文件时只需再做一次排序即可使输出文件整体有序。合并文件，归并排序。
在这3次排序中第一次是内存缓冲区做的内排序，使用的算法使快速排序，第二次排序和第三次排序都是在文件合并阶段发生的，使用的是归并排序。
mr的输出数据是有序的，为许多应用和后续应用开发带来很多好处。虽然也有并不关心数据是否局部有序的应用场景，但在数据访问和计算中，保证数据有序性是一个必要功能。反正就是一个排好序的数据，后面不管是做合并还是其他开发，都会好处理的多
24、MR中map数据在写入磁盘之前，线程首先根据reduce任务的数目将数据划分为相同数目的分区，也就是一个reduce任务对应一个分区的数据
25、flume hdfs sink产生小文件：# 将这几个字段的值设置为0可减少小文件
hdfs.rollInterval 30 每隔30秒截断一个文件。设置为0表示不会因为时间间隔截断文件
hdfs.rollSize 1024 文件字节数超过1024截断一个文件。设置为0就不因为文件大小截断文件
hdfs.rollCount 10 每10个event截断一个文件。设置为0就不因为event数量截断文件
26、kafka零拷贝：指不需要将文件内容拷贝到用户空间（User Space）。而直接在内核空间（Kernel Space）中传输到网络的方式，减少了内核和用户模式之间的上下文切换。零拷贝并不是不需要拷贝，而是减少不必要的拷贝次数。通常是说在 IO 读写过程中。实现零拷贝的API有： Memory Mapped Files 和 sendfile。
传统方式，读取磁盘文件并进行网络发送需要多次copy：

1、第一次：将磁盘文件，读取到内核态的read buffer；
2、第二次：将read buffer的数据，copy到用户态的application buffer；
3、第三步：将application buffer的数据，copy到内核态的socket buffer
4、第四次：将socket buffer的数据，copy到网卡，由网卡进行网络传输。

sendfile 是将读到内核空间的数据，转到socket buffer，进行网络发送；mmap将磁盘文件映射到内存，支持读和写，对内存的操作会反映在磁盘文件上。数据直接在内核完成输入和输出，不需要拷贝到用户空间再写出去。也就是省略了上面的2,3步。
kafka里面对零拷贝的引用：

Producer生产的数据持久化到broker，采用mmap文件映射，实现顺序的快速写入；
Customer从broker读取数据，采用sendfile，将磁盘文件读到OS内核缓冲区后，直接转到socket
buffer进行网络发送。

28、spark streaming写hdfs小文件
使用 Spark Streaming 时，如果实时计算结果要写入到 HDFS，那么不可避免的会遇到一个问题，那就是在默认情况下会产生非常多的小文件，这是由 Spark Streaming 的微批处理模式和 DStream(RDD) 的分布式(partition)特性导致的，Spark Streaming 为每个 Partition 启动一个独立的线程（一个 task/partition 一个线程）来处理数据，一旦文件输出到 HDFS，那么这个文件流就关闭了，再来一个 batch 的 parttition 任务，就再使用一个新的文件流。
解决：1、增加 batch 大小 2、重分区：Coalesce大法好
29、sdk埋点：将sdk代码集成到APP程序里面，当我们使用app的时候，就可以将一些操作行为数据记录下来，发送到sdk服务器，采集下来
30、一致性hash和hash槽
一致性hash

1）先声明一个环空间，顺时针方向：环上数据依次增大0,1,2,3,4…2^32-1
2）将服务器节点分配到环上：将服务器的ip或主机名作为关键字进行哈希取值，映射到圆环上
3）将数据分配到节点上：将数据key进行哈希取值，映射到数组圆环上，从映射位置沿环顺时针“行走”，第一台遇到的服务器就是其应该定位到的服务器。
4）当在环上增加节点时，新增节点映射到的环上的点，周围一小部分数据需要重新分配

hash槽

1）先声明一个槽空间：一共有16384个槽，每个槽可以理解为一个分区。集群使用公式 CRC16(key) % 16384来计算redis的key属于哪个槽。CRC16算法计算出来的也是一种hash值。
当前集群有3个节点,槽默认是平均分的:
1、节点 A （6381）包含 0 到 5499号哈希槽.
2、节点 B （6382）包含5500 到 10999 号哈希槽.
3、节点 C （6383）包含11000 到 16383号哈希槽.
这种结构很容易添加或者删除节点.。比如如果我想新添加个节点D, 我需要从节点 A, B, C中的部分槽到D上。如果我想移除节点A,需要将A中得槽移到B和C节点上。然后将没有任何槽的A节点从集群中移除即可.。由于从一个节点将哈希槽移动到另一个节点并不会停止服务，所以无论添加删除或者改变某个节点的哈希槽的数量都不会造成集群不可用的状态。
当新增或删除master节点时，需要对槽进行重分配，而不是直接对数据进行分配。对于hash槽的转移和分配，redis不会自动进行，需要人工辅助，即通过人工输入命令重新分配。
2)当增加节点时，只需要对槽重新分配，不需要直接对数据分配。槽的量相对来说是比较少的。所以重分配成本较低

31、hdfs存储冷备：将数据存储到廉价的机器或者介质上，比如阿里云oss。阿里云oss存储相比自建机房，会便宜很多
32、生命周期管理也是存储优化的重点
33、副本策略和纠删码是存储领域常见的两种数据冗余（容错）技术
多副本策略即将数据存储多个副本（一般是三副本，比如HDFS），当某个副本丢失时，可以通过其他副本复制回来。三副本的磁盘利用率为1/3。
纠删码技术主要是通过纠删码算法将原始的数据进行编码得到冗余，并将数据和冗余一并存储起来，以达到容错的目的。当数据丢失时，可通过重构算法将冗余恢复成相应的数据
34、hdfs冷数据集群：搭建一个新的hadoop 3.x集群，集群不用三副本策略，而用的是EC码存储。
hdfs3和hdfs2.x相比，增加了基于纠删码（erasure encoding）的容错方式。也就是安装好hadoop 3集群后，hadoop就提供了ec相关命令及api，调用这些api就可以写入ec存储的数据

在 Hive 新表上开启 EC：
hdfs ec -setPolicy -policy RS-3-2-1024k -path <table_location>
EC默认使用的策略为 RS-6-3-1024k，即文件被分割成 6 个数据单元（data cells）和 3 个奇偶校验单元（parity cells），总共占用 9 个磁盘数据块。
RS - 编解码器 指定用于编码和解码的编解码器。RS 代表 Reed Solomon。这是目前唯一支持的编解码器类型。
6 - 数据单元（data cells）的数量 设置数据被分割成多少块(数据单元)。在本例中，每个 stripe 中有 6 个数据单元格。
3 - 奇偶校验单元（parity cells）的数量 设置计算和存储多少奇偶校验单元。奇偶校验单元用于数据恢复。当数据丢失或损坏时，奇偶校验单元用于解码和重构丢失的数据。在本例中，每个条带中有三个奇偶校验单元。
1024k - 每个单元格的大小

35、广告名词

品牌广告：追求长远的品牌形象塑造，追求占领用户心智
效果广告：追求即可转化，追求让消费者所见即所购；比如社交广告，信息流广告，电商广告等，“99元9件”
代理商：广告主的业务代理人，负责对接广告主需求，并代表广告主寻找媒体渠道进行合作。
DSP：Demand-Side Platform，为需求方（广告主或代理商）提供实时竞价投放的平台。
TD：Trading Desk 需求方可以在TD上统一管理多个DSP平台的投放，包括分配投放预算、制定和调整投放策略、查看数据报告等
SSP：Supply-Side Platform 供应方平台对接媒体和Ad Exchange，目前SSP的功能和Ad
Exchange一致了，因此把Ad Exchange和SSP一起，统称为广告交易平台。 AdX：Ad Exchange
其实DSP就是买方平台，想买东西的人就上这来。SSP就是卖方平台，能提供广告位的人就上这来，比如浏览器有广告位出售，就挂到SSP的摊位上统一管理。SSP上有多家广告商提供的广告位
CPM：Cost Per Mille/Cost Per Thousand Impressions 广告被展示1000次对应的价格。CPM=(成本/总展示量) * 1000
eCPM ：Effective Cost Per Mille，有效千人成本是指从1000次广告展示量中实际产生的广告收入。其公式是：eCPM = (收入 / 总展示量) * 1000
CPM是对广告主说的词，你要花多少钱，买一千次广告展示机会；eCPM是对媒体说的词，你每展示一千次广告，能赚多少钱
CTR ：Click Through Rate 广告点击率广告点击次数占广告展示次数的百分比。CTR =
(Click/Impression) * 100%
pCTR：predicted CTR 预估点击率
自然下载=总下载-CPD下载自然下载就是没有产生计费的下载，跟产生计费的下载CPD相对

36、dqc：数据质量中心，对数据仓库表的数据变化进行监控。根据用户设定采集项配置、规则项配置、预警规则设置（枚举值），对用户指定的表进行每日定时数据采集、计算，并与历史数据或维表进行比对验证。最终将触发预警规则的异常数据以短信、邮件、App 等方式及时通知给用户。并处理问题，优化任务，形成闭环
37、分而治之和动态规划很像，都是将大任务拆分成许多小任务。但是分治的小任务之间是相互独立的。动态规划的小任务之间是有联系的，后面的任务依赖于前面的任务
38、hadoop最后一个reduce个数就是输出文件数。如果没有reduce就是最后一个map数
39、hadoop从读文件，到map输出，到最后输出都涉及压缩，各环节的压缩算法都不一样。比如最后输出的肯定是压缩比最高的，而中间map输出可以用压缩速度快的
40、大数据不会用三范式，因为这样会产生许多小表，需要很多join，大数据里面效率极低
41、hive不是数据仓库。只是实现数仓的一种技术
42、幂等性能保证单分区单会话不重复，加事务可以保证全局不重复，但是会影响效率因为每条数据进来都会判断一下。所以大部分情况下不用，数据重就重了问题不大
43、kafka producer端开启压缩，只需要在配置中添加一项：
kafkaProperties.setProperty(“compression.type”, “gzip”) // 开启压缩
为什么不在集群层面统一开启压缩？
因为broker端与producer端指定的压缩方式可能不一致。举个例子，producer端指定了压缩算法为gzip，broker端指定了压缩算法为snappy，在这种情况下broker接收到gzip压缩的消息后，只能先解压缩然后使用snappy重新压缩一遍，无疑增大了开销。
而且batch size过小的情况下开启压缩，反而事倍功半。所以只有batch.size设置得较大的时候，压缩的效果才会更好
kafkaProperties.setProperty(“batch.size”, “10240”) // 每个批次大小的上限
kafkaProperties.setProperty(“linger.ms”, “5”) // 批次等待发送的最大时长
kafkaProperties.setProperty(“compression.type”, “gzip”) // 开启压缩
44、Eden的内存太小会频繁的进行minor gc，导致有些短生命周期对象没有被回收掉（比如正常10s进行一次minorGC，然后短生命周期对象存活时间是7s，正常a会在被minorGC回收，而频繁GC的话，如1s一次，a可能就不会被minorGC回收，进而被放到老年代了），年龄变大放到老年代了，导致full gc。所以如果进行了多次 minorGC，分配更多的内存给Eden也许会有帮助
46、现有的标签数据几乎都是基于规则类的标签，偏好挖掘类的标签较少。在做用户偏好标签的时候，实现需要确定标签体系，如将用户的偏好标签分为几十个标签，比如：科幻、搞笑、历史 … 等。确定好偏好标签体系之后，该问题就转化成一个文本分类问题。常用的文本分类算法主要有：朴素贝叶斯、支持向量机、卷积神经网络、循环神经网络、FastText等。
47、FastText是一种文本分类器，具有预测精度高且效率快的特点。
基于FastText的用户偏好预测技术架构分为三层：特征层、模型层及应用层；
（1）特征层：将文本分词、去停用词、清除特殊符号、根据TFIDF模型去掉影响力较低的词，提取文本的N-gram信息。去掉特殊字符以及繁体字。采用词语分词和单字分词两种数据去训练模型，结果发现分词去掉影响力较低的词语，然后再将分词后的结果拆成单字作为特征训练模型的效果比较好
（2）模型层：模型层的主要作用是利用特征层的特征（处理好后，分好词后的文本）训练模型，然后使用测试样本评估模型的优劣，当模型达到最优的时候持久化模型到存储介质，然后利用该模型去预测待预测的样本。
（3）应用层：数据经过模型层后，是已经打上标签的文本数据和文本对应的ID，如下：
0009 基多拉竟然成工具人 {“label_篮球”: 0.06, “label_电影”: 0.05, “label_音乐”: 0.01, …}
在应用层根据用户对文本的点击次数、曝光次数、阅读时长等行为加权得到用户最关心的top3的文本数据，此时文本数据已经打上标签。对文本数据分类标签分数求和，然后做sigmoid归一化操作，最终产出用户对应每个标签的分值。
48、利用hive数据做机器学习的过程：ods-dw-dm，然后利用pyspark读取dm或者dw表文本数据，调用模型对数据预测，最后将预测结果（标签）写到hive，最后下游服务就去拿这个标签使用
50、hive数据同步到redis，es方案

1）hive jdbc，可以用java代码实现复杂逻辑
2）spark读取hive写到redis，或者es

51、mongo联合索引：如果给A,B两个字段建立了联合索引（A在前面），如果查询的时候A,B两个字段都用上了查询，那么会走索引。如果只查询A字段，那么也会走索引。如果只查询B字段，那么不会走索引，那就会很慢。
如果查询慢，就用explain看查询计划，可以看到查询是否走索引，“stage”: “IXSCAN” 表示走索引扫描， “stage” : "COLLSCAN"表示全表扫描。
spark读取mongo，貌似不会走索引。所以还是不要用spark去读mongo了。用spark读取mongo，不会走索引。所以对于索引字段的查询，还是用Python或者java单机去跑就很快了
52、查看剩余磁盘空间：df -h
53、redis集群模式有多个主节点A,B,C，用集群模式连接A，写入某条数据的时候，这条数据只会写到某个主节点（不一定是连接的那台主节点）
54、加密技术可以分为对称与非对称两种
对称加密，即加密与解密用的是同一把秘钥，常用的对称加密技术有DES,AES等。而非对称技术,加密与解密用的是不同的秘钥（私钥和公钥都称为秘钥）,常用的非对称加密技术有RSA等。
RSA加解密会同时生成一个公钥和一个私钥，一般都是用公钥加密，私钥解密。RSA加解密速度慢，不适合大量数据文件加密；
AES加密方和解密方适用同一个秘钥。密解密的速度比较快，适合数据比较长时使用。
AES+RSA：使用AES对称密码对传输数据加密，同时使用RSA不对称密码来传送AES的密钥。比如请求接口的时候，对请求参数进行AES加密（传入AES秘钥，偏移量，请求参数（加密的内容）），对请求参数解密的时候，需要用到AES秘钥，所以除了传请求参数过去，还要单独把AES秘钥传过去。但是AES秘钥不能明文传输，所以需要用RSA对AES秘钥进行加密（传入RSA秘钥，AES秘钥（加密的内容））
55、base64在加密过程中很重要，比如得到加密的byte[]类型的数据后，还要对这个byte类型进行base64加密得到base64加密字符串，传输的时候就传输这个base64加密后的字符串
56、Nginx的日志格式是固定的
1、从web ui日志查看倾斜的是哪一段sql：一般一个复杂sql都会涉及多个表，比如map端日志出现“reading from 某个表路径”，就可以定位到倾斜在哪个表上，也就是读这个表的分组操作或者count distinct等操作倾斜了
2、group by通过随机数优化
原sql: select id,age,count(0) from test group by id, age
假设age这个字段倾斜了，则对age这个字段加随机数：
第一步：加随机数group by，相当于预聚合
select id, concat(age, “", floor(1000+rand()*8999)) as age_tmp, count(0) as cnt as age_tmp from test group by id, concat(age, floor(1000+rand()*8999))
1, 20_1001, 2
1, 20_1002, 1
第二步：去掉随机数，进行最终的group by —跟原sql的区别是count(0)变成了sum
select id, substr(t.age_tmp, 1, length(t.age_tmp)-5), sum(t.cnt) from
(select id, concat(age, "”, floor(1000+rand()*8999)) as age_tmp, count(0) as cnt as age_tmp from test group by id, concat(age, floor(1000+rand()8999))) t
group by id, substr(t.age_tmp, 1, length(t.age_tmp)-5)
3、count distinct优化
select count(distinct sid) from sc;
用group by去掉distinct: groupby之后select出来只会出现一次。如果groupby产生倾斜，还可以用上面的随机数
select count() from (select sid from sc group by sid) a;
3、队列(queue)是一种常用的数据结构，但是Queue是一个接口，不能直接new，而LinkedList类实现了Queue接口，所以可以new
Queue queue = new LinkedList<>();
queue.offer(“aa”);
queue.offer(“bb”);
Deque接口继承了queue接口，所以它也是一种队列。但是它还自己实现了栈。所以Deque接口既可以实现队列，也可以实现栈。是一种双向队列
Deque stack = new LinkedList<>();
//调用push方法就是栈
stack.push(“aa”);
stack.push(“bb”);
//调用offer方法就是对队列
stack.offer(“aa”);
stack.offer(“bb”);
4、A a = (A)Class.forName(“pacage.A”).newInstance();这和 A a =new A();是一样的效果。
java里面任何class都要装载在虚拟机上才能运行。forName这句话就是装载类用的(new是根据加载到内存中的类创建一个实例，要分清楚)。
5、scala和java中的反射
反射调用，执行Foo类的hello方法：
java实现：
Class class = Class.forName(“Foo”);
Object foo = class.newInstance(); //注意这里的foo不要声明为Foo类型，声明为Object即可，Object是所有类的父类
Method method = class.getMethod(“hello”, String.class);
method.invoke(foo, “Walter”);
scala实现：
val foo = Class.forName(“Foo”).newInstance.asInstanceOf[{ def hello(name: String): String }]
foo.hello(“Walter”)
6、via reflect create singleton
public class test {
private test() {
}
private static test instance = new test();
public static test getInstance() {
return instance;
}

public String parseLine(String str) {
...
}
}

Class c0 = Class.forName(“test”);
Method m0 = c0.getMethod(“getInstance”);
Object instance0 = m0.invoke(new Object()); //调用getInstance()方法，得到单例对象
Method method1 = c0.getMethod(“parseLine”,String.class);
Object result = method1.invoke(instance0, aa); //解析aa字符串，得到解析结果result
7、java反射
对于任意一个类，只要知道类名，就能够通过反射得到这个类的所有属性和方法
反射优点：可以通过配置文件来动态配置和加载类，比如多个任务都会运行主程序，每个任务在主程序里面都要创建不同的解析对象，如果要用new来创建解析对象，必须在主程序里面引用解析类的包，并直接new出解析对象，这样相当于在主程序里面写死解析类。
而用反射就很灵活，不同的任务在配置文件配置不同的解析类名，即可在主程序里面动态地调用解析类及其解析方法。
反射的三种方式：
第一种：　　Class clz = Class.forName(“com.entity.Book”);
第二种：　　Class clz = Book.class;
第三种： Book book = new Book(); Class clz = book.getClass();
上面只是得到Class对象（包含类的相关信息：方法，属性），要想得到类的实例，需要Object o = clz.newInstance()
在java世界里，一切皆对象。从某种意义上来说，java有两种对象：实例对象和Class对象。每个类的运行时的类型信息就是用Class对象表示的。它包含了与类有关的信息。其实我们的实例对象就通过Class对象来创建的
8、什么时候将java类加载到内存中？
1）编译器，编译代码（calss文件）
2）当你某一个类执行的时候，被调用到了(何种方式调用这里不做考虑)，那就是加载内存当中的时候！
而只有真正运行代码时候new类才会初始化对象
9、mysql脏页：当内存数据页和磁盘数据页上的内容不一致时，我们称这个内存页为脏页；
10、innodb存储结构–磁盘结构
表空间：在 InnoDB 存储引擎下，表相关的所有数据（比如业务数据和索引数据）都储存在表空间（tablespace）中。每张表都有一个自己的文件（.ibd）去储存相关数据。表空间又可以细分为segment，extent，page，row。
段：表空间又包含多个段（segment），常见的数据段有：数据段，存储当前表中的数据；索引段，存储当前表中的索引
区：段包含很多个区，每个区始终为 1MB 。区由多个连续连续的页组成，页的大小通常是 16KB，所以一个区可以有 64 （1024/16=64）个连续页。
页：页是 InnoDB 与磁盘交互的最小单位。从磁盘上读取数据，一次性是读取一页数据。将内存中的数据落盘到硬盘上，也是操作一页数据。
行：每页存放一行一行的数据。
11、并发编程的时候经常遇到三个问题：可见性，原子性，有序性问题。也就是并发编程的时候可能这三个性质无法得到保证
用synchronized能保证可见性，原子性，有序性。
volatile只能保证可见性，有序性，不能保证原子性。
CAS能保证原子性，一般都不说CAS能保证可见性和有序性
volatile通常被比喻成"轻量级的synchronized"，但是它实际上是不加锁的，不会阻塞线程，和synchronized不同，volatile是一个变量修饰符，只能用来修饰变量。无法修饰方法及代码块等。
volatile的用法比较简单，只需要在声明一个可能被多线程同时访问的变量时，使用volatile修饰就可以了，如下：
volatile int inc = 0;
private volatile static Singleton singleton;
代码书写的顺序与实际执行的顺序不同，指令重排序是编译器或处理器为了提高程序性能而做的优化，但是这就会破坏有序性，有序性即程序执行的顺序按照代码的先后顺序执行。
volatile可以禁止指令重排，这就保证了代码的程序会严格按照代码的先后顺序执行。这就保证了有序性。被volatile修饰的变量的操作，会严格按照代码顺序执行。
synchronized是无法禁止指令重排和处理器优化的。那么他是如何保证的有序性呢？
synchronized保证的有序性是多个线程之间的有序性，即被加锁的内容要按照顺序被多个线程执行。但是单线程其内部的同步代码还是会发生重排序。所以这里的有序性跟volatile有序性是有差别的。
所以有些情况下，比如单例里面，即使用了synchronized，也要结合volatile修饰变量
volatile不能保证变量的复合操作的原子性，比如
volatile int number = 0
number++、count = count*5等操作无法保证原子性
volatile保证可见性：
（1）修改volatile变量时会强制将修改后的值刷新的主内存中。
（2）修改volatile变量后会导致其他线程工作内存中对应的变量值失效（总线嗅探）。因此，再读取该变量值的时候就需要重新从读取主内存中的值。
12、Kimball和Inmon是两种主流的数据仓库方法论
Kimball提出了维度建模方法，将表分为事实表和维度表
kimball模式：适合快速迭代，实施成本低，能够较快交付任务
常见维度模型：星型和雪花。
维度建模4个步骤：选择业务过程或主题（dw是业务过程，dm表是主题），声明粒度，确定维度，确定事实
13、dm分为轻度汇总和高度汇总：主要是为了提高表复用性，高度汇总只需要根据轻度汇总写一些简单sql就可以实现，且方便定位问题。
dm为什么分为dma和dmt：方便加工统计。如果只有一层dm，数据量太大，资源压力太大，任务跑太久。不好一口气将所有统计都完成
轻度汇总：以DW为基础，按天进行轻度汇总，一行信息代表一个主题对象一天的汇总行为，例如一个用户一天下单次数。宽表化处理：多业务过程融合（如曝光点击宽表），单业务过程聚合
高度汇总：以轻度汇总或DW为基础，对数据进行累积汇总，一行信息代表一个主题对象的累积行为，例如一个用户从注册那天开始至今一共下了多少次单
14、数据完整性保证：包括条数不能有缺失，以及每条数据里面单个字段不能有缺失。保障机制：1）数据量波动监控—数据量正常了才将任务置为成功。2）关键字段null值监控 3）任务加锁，同一时间只能一个任务执行，任务执行完加依赖，没有依赖下一次执行时将hive表当前分区删除
15、checkpoint的意思就是建立检查点,类似于快照,例如在spark计算里面，计算流程DAG特别长,服务器需要将整个DAG计算完成得出结果,但是如果在这很长的计算流程中突然中间算出的数据丢失了,spark又会根据RDD的依赖关系从头到尾计算一遍,这样子就很费性能,
当然我们可以将中间的计算结果通过cache或者persist放到内存或者磁盘中,但是这样也不能保证数据完全不会丢失,存储的这个内存出问题了或者磁盘坏了,也会导致spark从头再根据RDD计算一遍。
所以就有了checkpoint,其中checkpoint的作用就是将DAG中比较重要的中间数据做一个检查点将结果存储到一个高可用的地方(通常这个地方就是HDFS里面)
spark checkpoint操作需要有action操作激活。checkpoint也是个transformation的算子。
checkpoint原理：等到 Job(第一次计算的Job)结束后另外启动专门的job（第二次）去完成checkpoint。也就是说需要checkpoint的RDD会被计算两次。因此，在使用rdd.checkpoint() 的时候，建议加上rdd.cache()
用法：
sc.setCheckpointDir(“hdfs://…”)
rdd1.cache()
rdd1.checkpoint
rdd1.count() //触发job，完成第一次计算，此时的计算并不包括checkpoint，等计算完成了，会再起一个job去专门跑checkpoint
16、rdd存放的详细内容：业务数据data、sparkcontext、分区信息、storageLevel（内存or磁盘）、checkpoint信息
17、spark容错机制：
集群容错：Spark会启动多个StandBy Master；
RDD的容错机制：RDD Lineage血统层容错即Lineage重算和checkpoint
18、Checkpoint与持久化的不同：
（1）前者单独存放在高容错的HDFS文件系统，后者放在内存中/磁盘
（2）前者改变了被调用RDD的lineage，后者没有
19、checkpoint保存的就是整个rdd数据
当使用了checkpoint后，数据被保存到HDFS，此RDD的依赖关系也会丢掉，因为数据已经持久化到硬盘，不需要重新计算。
强烈推荐先将数据持久化到内存中（cache操作），否则直接使用checkpoint会开启一个计算，浪费资源。
dd.persist(StorageLevel.DISK_ONLY)与checkpoint区别的:一旦driver program 执行结束,被cache到磁盘上的RDD也会被清空，checkpoint将RDD持久化到HDFS或本地文件夹。如果不手动删除，会一直存在
20、mr优化
map优化

小文件合并：通过参数（mapred.min.split.size，mapred.max.split.size）控制分片大小
增大环形缓冲区大小：io.sort.mb，map数据写磁盘之前，先写到缓冲区BUFFER
设置map端输出压缩：mapred.compress.map.output

reduce优化（包含shuffle）

每一个map都会根据reduce(n)数将map输出结果分成n个partition。为了优化reduce的执行时间，hadoop中等第一个map结束后，所有的reduce就开始尝试从完成的map中下载该reduce对应的partition部分数据。在这个shuffle过程中，由于map的数量通常是很多个的，而每个map中又都有可能包含每个reduce所需要的数据，所以对于每个reduce来说，去各个map中COPY数据也是并行的，可以通过mapred.reduce.parallel.copies这个参数来调整，默认为5。当map数量很多的时候，就可以适当调大这个值，减少shuffle过程使用的时间
和map一样，reduce copy过来的数据也是存入一个buffer中而不是马上写磁盘的，所以我们可以控制这个值来减少IO开销。参数为：mapred.job.shuffle.input.buffer.percent，默认0.7，这是一个百分比，意思是reduce的可用内存中拿出70%作为buffer存放数据

你可能感兴趣的:(大数据架构师之路)

（阳：算法霸权 / 阴：数据确权）→当GDPR类法规覆盖53%经济体量时，催生出隐私计算新范式百态老人人工智能机器学习深度学习算法
当GDPR类法规覆盖53%经济体量时，隐私计算新范式的兴起可归因于以下多维度因素的相互作用：一、算法霸权与数据确权的矛盾激化算法霸权的危害大型科技公司通过算法歧视、大数据杀熟等手段形成垄断优势，利用数据优势操控用户行为，导致消费者权益受损。这种"算法黑箱"不仅加剧市场不公平，还阻碍数据要素的自由流动。例如，算法框架的底层逻辑掌握在少数企业手中，产生"数据黑箱"问题。数据确权的立法需求数据权属不明确
解析大数据领域结构化数据的管理模式大数据洞察大数据 ai
解码结构化数据：大数据时代的高效管理模式与实践指南关键词结构化数据、大数据管理、数据建模、分布式数据库、数据仓库、数据治理、性能优化摘要在大数据的洪流中，结构化数据犹如隐藏在波涛之下的磐石，虽然不如非结构化数据那般引人注目，却是企业决策的基石。本文深入剖析了大数据环境下结构化数据的管理模式，从传统关系型数据库到现代分布式系统，从数据建模到存储架构，全面解读了结构化数据管理的核心技术与实践方法。通过
ClickHouse【理论篇】01：什么是ClickHouse
ClickHouse是一款开源的列式数据库管理系统（Column-OrientedDBMS），专为高性能实时数据分析（OLAP,OnlineAnalyticalProcessing）场景设计。它由俄罗斯搜索引擎公司Yandex开发（2016年开源），目前由独立基金会ClickHouse,Inc.维护，广泛应用于大数据分析、日志处理、用户行为洞察等领域。一、核心定位：OLAP场景的“性能标杆”传统关
【大数据入门核心技术-DolphinScheduler】（二）DolphinScheduler安装部署-集群模式 forest_long 大数据技术入门到21天通关大数据 spark hive hadoop 交互 flink mapreduce
目录一、部署模式1、单机模式2、伪集群模式3、集群模式二、部署安装1、下载2、创建mysql元数据库3、配置一键部署脚本4、初始化数据库5、一键部署DolphinScheduler6、访问DolphinSchedulerUI三、启停命令一、部署模式DolphinScheduler支持多种部署模式，包括单机模式（Standalone）、伪集群模式（PseudoCluster）、集群模式（Cluste
利用已有的 PostgreSQL 和 ZooKeeper 服务，启动dolphinscheduler-standalone-server3.1.9 镜像云游大数据平台 zookeeper docker postgresql 工作流任务调度
ApacheDolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景，提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。ApacheDolphinScheduler旨在解决复杂的大数据任务依赖关系，并为应用程序提供数据和各种OPS编排中的关系。解决数据研发ETL依赖错综复杂，无法监控任务健康状态的问题。DolphinSchedule
Alpha系统联结大数据、GPT两大功能，助力律所管理降本增效资讯分享周大数据 gpt
如何通过AI工具实现法律服务的提质增效,是每一位法律人都积极关注和学习的课题。但从AI技术火爆一下,法律人一直缺乏系统、实用的学习资料,来掌握在法律场景下AI的使用技巧。今年5月,iCourt携手贵阳律协大数据与人工智能专业委员会,联合举办了《人工智能助力律师行业高质量发展巡回讲座》,超过100家律所的律师参与活动。讲座上,iCourtAIGC研究员、AlphaGPT产品研发负责人兰洋,为贵州律协
电商API性能优化：策略体系与实施要点 Joe13265449558 性能优化电商返回值淘宝 API 接口京东
电商API性能优化策略介绍在电商领域，API（应用程序编程接口）作为连接电商平台与外部系统、服务或应用的关键桥梁，其性能直接关系到用户体验、业务效率以及系统的整体稳定性。随着电商业务的快速发展，API接口面临着高并发、大数据量处理等挑战，因此，对电商API进行性能优化显得尤为重要。本文将从多个维度探讨电商API性能优化的策略。一、数据库优化策略数据库是电商API接口的核心组件之一，其性能直接影响A
ECharts 智慧医疗大屏制作实例详解
在大数据时代，数据可视化已成为信息传递和决策支持的重要手段。ECharts作为一款功能强大、易于上手的开源可视化库，凭借其丰富的图表类型、灵活的配置项和良好的跨平台兼容性，广泛应用于企业级数据大屏、BI报表、实时监控等场景。本教程以“智慧医疗大屏”为例，完整演示了从页面搭建、图表配置到动态交互与响应式适配的全过程。通过循序渐进的讲解，读者将掌握如何使用ECharts构建专业、美观、可交互的数据可视
大数据 ETL 工具 Sqoop 深度解析与实战指南
一、Sqoop核心理论与应用场景1.1设计思想与技术定位Sqoop是Apache旗下的开源数据传输工具，核心设计基于MapReduce分布式计算框架，通过并行化的Map任务实现高效的数据批量迁移。其特点包括：批处理特性：基于MapReduce作业实现导入/导出，适合大规模离线数据迁移，不支持实时数据同步。异构数据源连接：支持关系型数据库（如MySQL、Oracle）与Hadoop生态（HDFS、H
Python（28）Python循环语句指南：从语法糖到CPython字节码的底层探秘一个天蝎座白勺程序猿 Python爬虫入门到高阶实战 python 开发语言
目录引言一、推导式家族全解析1.1基础语法对比1.2性能对比测试二、CPython实现揭秘2.1字节码层面的秘密2.2临时变量机制三、高级特性实现3.1嵌套推导式优化3.2条件表达式处理四、性能优化指南4.1内存使用对比4.2执行时间优化技巧五、最佳实践建议六、总结Python爬虫相关文章（推荐）引言在Python编程中，循环语句是控制流程的核心工具。传统for循环虽然直观，但在处理大数据时往往面
大数据分析技术的学习路径，不是绝对的，仅供参考水云桐程序员学习大数据数据分析学习方法
阶段一：基础筑基（1-3个月）1.编程语言：Python：掌握基础语法、数据结构、流程控制、函数、面向对象编程、常用库（NumPy,Pandas）。SQL：精通SELECT语句（过滤、排序、分组、聚合、连接）、DDL/DML基础。理解关系型数据库概念（表、主键、外键、索引）。MySQL或PostgreSQL是很好的起点。Java/Scala：深入理解Hadoop/Spark等框架会更有优势。初学者
React金融数据分析应用性能优化实战：借助AI辅助解决18万数据量栈溢出Bug 马特说 REACT react.js 金融数据分析
React金融数据分析应用性能优化实战：借助AI辅助解决18万数据量栈溢出Bug前言在现代前端开发中，处理大数据量的实时金融应用已成为常态。最近我在开发一个React-based金融数据分析应用时，遇到了典型的"Maximumcallstacksizeexceeded"错误。通过AI辅助分析和系统性优化，最终成功解决了这个复杂的性能问题。这篇文章将分享从问题发现到最终解决的完整过程。项目背景这是一
python模拟内置函数reversed_Python内置函数reversed weixin_39594895
{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里技术人对外发布原创技术内容的最大平台；社区覆盖了云计算、大数据、人工智能、IoT、云原生、数据库、微服务、安全、开发与运维9大技术领域。","link1":
RabbitMQ消息队列在大数据系统中的实战应用案例 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据 rabbitmq 分布式 ai
RabbitMQ消息队列在大数据系统中的实战应用案例关键词：RabbitMQ、消息队列、大数据系统、实战案例、高并发处理、分布式架构、数据管道摘要：本文深入探讨RabbitMQ消息队列在大数据系统中的核心应用场景，结合具体技术实现和实战案例，详细解析其在数据采集、实时处理、异步解耦等关键环节的技术优势。通过架构设计原理、核心算法实现、数学模型分析和项目实战，展示如何利用RabbitMQ构建高可靠、
大数据开发高频面试题：Spark与MapReduce解析
被招网约司机的盯上了好几天实习了六个月，到期被通知不能转正。外包裁员让我去友商我该去吗？offer比较华为状态码浏览器插件嵌入式项目推荐2019秋招总结+云从语音算法面经+银行群面面经科大讯飞语音算法面经语音算法美团一面已挂科大讯飞智能语音方向值得去吗？语音算法oc科大讯飞语音算法二面荣耀一面语音算法面经，已挂荣耀_语音算法工程一面科大讯飞语音一面凉经8.18携程机器学习（语音方向）一面【vivo
HTML表格导出为Excel文件的实现方案 ~风清扬~ 前端技术 html excel 前端
1、前端javascript可通过mime类型、blob对象或专业库（如sheetjs）实现html表格导出excel，适用于中小型数据量；2、服务器端方案利用后端语言（如python的openpyxl、java的apachepoi）处理复杂报表和大数据，确保安全性与格式控制；3、常见问题包括数据类型识别错误、样式丢失、大文件卡顿、浏览器兼容性及乱码，需通过设置单元格类型、使用后端样式api、分页
数据库锁等待时间过长问题的深度解析与大数据解决方案百态老人数据库大数据
一、锁等待问题的核心原因与日志特征锁等待超时是数据库高并发场景下的典型瓶颈问题，其根本原因与日志特征可归纳为以下维度：事务管理缺陷原因：未提交的长事务（如代码分支遗漏提交）、隐式事务（自动提交关闭）导致锁持有时间过长。日志特征：information_schema.innodb_trx表中存在trx_started时间早于当前时间数分钟的事务。错误日志中频繁出现Lockwaittimeoutexc
科学的第五范式：人工智能如何重塑发现之疆田园Coder 人工智能科普人工智能科普
在人类探索未知的壮阔史诗中，科学方法的演进如同照亮迷雾的灯塔。从基于经验的第一范式（描述自然现象），到以理论推演为核心的第二范式（牛顿定律、麦克斯韦方程），再到以计算机模拟为标志的第三范式（气候模型、分子动力学），直至以大数据挖掘为驱动的第四范式（基因组学、高能物理），每一次范式跃迁都极大地拓展了认知的疆界。如今，我们正站在一个更恢弘转折的门槛上——第五范式：人工智能驱动的科学（AIforScie
数据结构与算法中外部排序的详细剖析数据结构与算法学习网络 ai
数据结构与算法中外部排序的详细剖析关键词：外部排序、归并排序、多路归并、置换选择排序、败者树、磁盘I/O优化、大数据处理摘要：本文将深入探讨外部排序技术，这是处理大规模数据时不可或缺的算法。我们将从基本概念出发，逐步解析多路归并、置换选择排序等核心技术，并通过实际代码示例展示如何实现高效的外部排序。文章还将分析外部排序在现代大数据处理中的应用场景和优化策略。背景介绍目的和范围本文旨在全面介绍外部排
阿里云Flink：开启大数据实时处理新时代云资源服务商阿里云大数据云计算
走进阿里云Flink在大数据处理的广袤领域中，阿里云Flink犹如一颗璀璨的明星，占据着举足轻重的地位。随着数据量呈指数级增长，企业对数据处理的实时性、高效性和准确性提出了前所未有的挑战。传统的数据处理方式逐渐难以满足这些严苛的需求，而阿里云Flink凭借其卓越的特性和强大的功能，成为众多企业实现数据价值挖掘与业务创新的关键技术。它不仅继承了开源Flink的优秀基因，还融入了阿里云自主研发的创新技
java毕业设计-基于java的电商网购平台，网购商城管理系统(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥 spring boot vue jave java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
Python机器学习实战——逻辑回归（附完整代码和结果）小白熊XBX 机器学习机器学习 python 逻辑回归
Python机器学习实战——逻辑回归（附完整代码和结果）关于作者作者：小白熊作者简介：精通c#、Halcon、Python、Matlab，擅长机器视觉、机器学习、深度学习、数字图像处理、工业检测识别定位、用户界面设计、目标检测、图像分类、姿态识别、人脸识别、语义分割、路径规划、智能优化算法、大数据分析、各类算法融合创新等等。联系邮箱：[email protected]科研辅导、知识付费答疑、个性化定制
计算机毕业设计Python知识图谱中华古诗词可视化古诗词情感分析古诗词智能问答系统 AI大模型自动写诗大数据毕业设计(源码+LW文档+PPT+讲解) B站计算机毕业设计大学大数据毕业设计人工智能课程设计知识图谱 python 大数据深度学习爬虫
温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！信息安全/网络安全大模型、大数据、深度学习领域中科院硕士在读，所有源码均一手开发！感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人介绍资料《Python知识图谱中华古诗
计算机毕业设计Python知识图谱中华古诗词可视化古诗词情感分析古诗词智能问答系统 AI大模型自动写诗大数据毕业设计(源码+LW文档+PPT+讲解)
温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！信息安全/网络安全大模型、大数据、深度学习领域中科院硕士在读，所有源码均一手开发！感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人介绍资料Python知识图谱中华古诗词
自动驾驶技术研发适用Infortrend普安存储IEC平台
Infortrend普安存储IEC私有云平台，轻松高效应用无人驾驶技术自动驾驶汽车（例如自动驾驶出租车、无人驾驶公交）和无人驾驶飞行器（UAV）依靠摄像头、物联网传感器、雷达、GPS采集的实时数据瞬间做出决策。自动驾驶系统作为核心部分，不间断分析环境条件，应对潜在风险，确保乘客和货物运输安全。Autopilot应用程序在开发和模拟中，大数据、AI（人工智能）、ML（机器学习）等技术能否高速发挥作用
大数据系列 | 日志数据采集工具Filebeat的架构分析及应用降世神童大数据技术专栏大数据架构
大数据系列|日志数据采集工具Filebeat的架构分析及应用1.Filebeat的由来2.Filebeat原理架构分析3.Filebeat的应用3.1.安装Filebeat3.2.实战采集应用程序日志1.Filebeat的由来在介绍Filebeat之前，先介绍一下Beats。Beats是一个家族的统称，Beats家族有8个成员，早期的ELK架构中使用Logstash收集、解析日志，但是Logs
基于SpringBoot+Vue+大学校园图书管理系统设计和实现(源码+LW+部署讲解) 阿勇学长大数据项目实战案例 Java精品毕业设计实例微信小程序项目实战案例 spring boot vue.js 后端大学校园图书管理系统 Java毕业设计
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
Java爬虫技术详解：原理、实现与优势 cyc&阿灿 Java 多线程 java 爬虫开发语言
一、什么是网络爬虫？网络爬虫（WebCrawler），又称网络蜘蛛或网络机器人，是一种自动化程序，能够按照一定的规则自动浏览和抓取互联网上的信息。爬虫技术是大数据时代获取网络数据的重要手段，广泛应用于搜索引擎、数据分析、价格监控等领域。Java作为一种稳定、高效的编程语言，凭借其强大的网络编程能力和丰富的生态库，成为开发网络爬虫的热门选择。二、Java爬虫核心组件一个完整的Java爬虫通常包含以下
如何学习才能更好地理解人工智能工程技术专业和其他信息技术专业的关联性？人工智能教学实践 python编程实践人工智能学习人工智能
要深入理解人工智能工程技术专业与其他信息技术专业的关联性，需要跳出单一专业的学习框架，通过“理论筑基-实践串联-跨学科整合”的路径构建系统性认知。以下是分阶段、可落地的学习方法：一、建立“专业关联”的理论认知框架绘制知识关联图谱操作方法：用XMind或Notion绘制思维导图，以AI为中心，辐射关联专业的核心技术节点。例如：AI（机器学习）├─数据支撑：大数据技术（Hadoop/Spark）+数据
Anconda环境下Vscode安装Python Java后时代程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name