mousever

大数据架构及行业大数据应用

今天要和大家分享一些南大通用CTO武新所总结的底层数据处理技术的发展趋势和正在经历的巨大变革。这个领域过去5年发展很快、热度很高，目前还在起步阶段。

1.数据价值的发现与使用

先不说什么是大数据，这个争议很多，我也说不清楚。不过我个人认为在大数据的4个V中，最显著的特征应该是Value（价值），其他几个V都很模糊。也就是说，不管数据多大，是什么结构，来源如何，能给使用者带来价值的数据是最重要的数据。

我们都知道对数据价值的挖掘一直是用户在做的事情，这个在IT出现之前古人已经在实践了，而且有不少成功案例。“眼观六路，耳听八方”可能是最形象的数据采集方法。我跟数据打了20多年的交道，从来没感觉到搞数据的地位有今天这么高。

那么到底什么变了，让我们这么热衷“大数据”？我感觉是整个社会对数据的认知变了，开玩笑说大数据是什么很难说清楚，但它目前最大的贡献至少是让社会各个层面开始认识到数据的重要性，包括最高领导和底层的老百姓。奥巴马搞了个“Big DataInitiative”，有点类似布什当年的“InformationHighway”（这个推动了互联网的发展），让世界发现美国人在动真格了。

目前大家基本达成共识：数据象石油、煤一样是宝贵的资产，其内在的价值非常巨大。另外一个显著的贡献无疑是互联网企业对于数据的巧妙使用和价值体现，这里面的案例就很多了。

2. 数据处理技术的回顾

互联网的数据“大”是不争的事实，现在分析一下数据处理技术面临的挑战。目前除了互联网企业外，数据处理领域还是传统关系型数据库（RDBMS）的天下。传统RDBMS的核心设计思想基本上是30年前形成的。过去30年脱颖而出的无疑是Oracle公司。全世界数据库市场基本上被Oracle，IBM／DB2，Microsoft／SQL Server 垄断，其他几家市场份额都比较小。SAP去年收购了Sybase，也想成为数据库厂商。有份量的独立数据库厂商现在就剩下Oracle和Teradata。开源数据库主要是MySQL，PostgreSQL，除了互联网领域外，其他行业用的很少。

这些数据库当年主要是面向OLTP交易型需求设计、开发的，是用来开发人机会话应用为主的。这些传统数据库底层的物理存储格式都是行存储，比较适合数据频繁的增删改操作，但对于统计分析类的查询，行存储其实效率很低。在这些成熟的数据库产品中，有2个典型特例：一个是Teradata，一个是Sybase IQ（卢总是专家）。

Teradata一开始就使用MPP（MassiveParallel Processing）架构，以软硬一体机的产品方式提供给客户，其定位是高端客户的数据仓库和决策分析系统，Teradata在全世界的客户只有几千个。在这个数据分析高端市场上，Teradata一直是老大，在数据分析技术上Oracle和IBM打不过Teradata。Sybase IQ是一款最早基于列存储的关系型数据库产品，其定位跟Teradata类似，不过是以软件方式销售的。Teradata和Sybase IQ在数据分析应用上的性能其实都比Oracle，DB2等要普遍好。

图1 数据库发展历史

3.数据增长加速，数据多样化，大数据时代来临
现在看看为什么数据的量突然在快速增长。如果说现在是大数据时代了，其实是数据来源发生了质的变化。在互联网出现之前，数据主要是人机会话方式产生的，以结构化数据为主。所以大家都需要传统的RDBMS来管理这些数据和应用系统。那时候的数据增长缓慢、系统都比较孤立，用传统数据库基本可以满足各类应用开发。

互联网的出现和快速发展，尤其是移动互联网的发展，加上数码设备的大规模使用（CCD，CMOS技术的大规模产业化），今天数据的主要来源已经不是人机会话了，而是通过设备、服务器、应用自动产生的。传统行业的数据同时也多起来了，这些数据以非结构、半结构化为主，而真正的交易数据量并不大，增长并不快。机器产生的数据正在几何级增长，比如基因数据、各种用户行为数据、定位数据、图片、视频、气象、地震、医疗等等。

另外，我们每个人也在不知不觉中不断产生着大量的数据（比如这个论坛，除了我正在写的内容，后台可以产生10倍以上的数据和衍生的信息：谁在关注、在哪里、关注的这些人有哪些共性、用的是什么终端。系统甚至可以实时分析出大家对我讲的内容情绪是什么，可以预测最终给打多少分等。如果我有这类实时的系统反馈，那么可以实时调整要讲的内容，等等，想象空间可以很大）。

所谓的“大数据应用”主要是对各类数据进行整理、交叉分析、比对，对数据进行深度挖掘，对用户提供自助的即席、迭代分析能力。还有一类就是对非结构化数据的特征提取（指纹、图像、语音自动识别、基因数据比对等），以及半结构化数据的内容检索（搜索）、理解（语义分析）等。

传统数据库对这类需求和应用无论在技术上还是功能上都几乎束手无策。这样其实就给类似Hadoop的技术和平台提供了很好的发展机会和空间。互联网公司自然就选择能支撑自己业务的开源技术了，反过来又推动了开源技术的快速发展。
4.新的数据处理技术、产品和创新
为了应对数据处理的压力，过去十年间在数据处理技术领域有了很多的创新和发展。除了面向高并发、短事务的OLTP内存数据库外（Altibase，Timesten），其他的技术创新和产品都是面向数据分析的，而且是大规模数据分析的，也可以说是大数据分析的。

在这些面向数据分析的创新和产品中，除了基于Hadoop环境下的各种NoSQL外，还有一类是基于Shared Nothing架构的面向结构化数据分析的新型数据库产品（可以叫做NewSQL），如：Greenplum（EMC收购），Vertica（HP 收购），Asterdata（TD 收购），以及我们在国内开发的GBase 8a MPP Cluster等。目前可以看到的类似开源和商用产品达到几十个，而且还有新的产品不断涌出。一个有趣的现象是这些新的数据库厂商多数都还没有10年历史，而且发展好的基本都被收购了。收购这些新型数据库厂商的公司，比如EMC、HP，都希望通过收购新技术和产品进入大数据处理市场，是新的玩家。SAP除了收购Sybase外，自己开发了一款叫HANA的新产品，这是一款基于内存、面向数据分析的内存数据库产品。

这类新的分析型数据库产品的共性主要是：
* 架构基于大规模分布式计算（MPP）
* 硬件基于X86 PC 服务器
* 存储基于服务器自带的本地硬盘
* 操作系统主要是Linux
* 拥有极高的横向扩展能力（scale out）和内在的故障容错能力和数据高可用保障机制

* 能大大降低每TB数据的处理成本，为“大数据”处理提供技术和性价比支撑。

总的来看，数据处理技术进入了一个新的创新和发展高潮，机会很多。这里的主要原因是一直沿用了30年的传统数据库技术遇到了技术瓶颈，而市场和用户的需求在推动着技术的创新，并为此创造了很多机会。在大数据面前，越来越多的用户愿意尝试新技术和新产品，不那么保守了，因为大家开始清晰地看到传统技术的瓶颈，选择新的技术才有可能解决他们面临的新问题。

现在的总体趋势是在数据量快速增长、多类数据分析并存的需求压力下，数据处理技术朝着细分方向发展，过去30年一种平台满足所有应用需求的时代已经过去。我们必须开始根据应用需求和数据量选择最适合的产品和技术来支撑应用。世界数据处理市场格局正在发生革命性的变化，传统数据库（OldSQL）一统天下变成了OldSQL＋NewSQL＋NoSQL＋其他新技术（流、实时、内存等）共同支撑多类应用的局面。在大数据时代，需要的是“八仙过海”，是数据驱动最优平台和产品的选择。

图2 数据处理的市场格局变化

5. MPP关系型数据库（New SQL）与Hadoop的非关系型数据库（NoSQL）
新的技术主要是MPP架构的新型数据库和Hadoop生态环境，我对MPP比较熟悉，Hadoop略知一点，主要谈谈MPP的优势。

大数据存储技术路线最典型的共有三种：

第一种是采用MPP架构的新型数据库集群，重点面向行业大数据，采用Share Nothing架构，通过列存储、粗粒度索引等多项大数据处理技术，再结合MPP架构高效的分布式计算模式，完成对分析类应用的支撑，运行环境多为低成本PCServer，具有高性能和高扩展性的特点，在企业分析类应用领域获得极其广泛的应用。

这类MPP产品可以有效支撑PB级别的结构化数据分析，这是传统数据库技术无法胜任的。对于企业新一代的数据仓库和结构化数据分析，目前最佳选择是MPP数据库。

图3 MPP架构图

第二种是基于Hadoop的技术扩展和封装，围绕Hadoop衍生出相关的大数据技术，应对传统关系型数据库较难处理的数据和场景，例如针对非结构化数据的存储和计算等，充分利用Hadoop开源的优势，伴随相关技术的不断进步，其应用场景也将逐步扩大，目前最为典型的应用场景就是通过扩展和封装Hadoop来实现对互联网大数据存储、分析的支撑。这里面有几十种NoSQL技术，也在进一步的细分。对于非结构、半结构化数据处理、复杂的ETL流程、复杂的数据挖掘和计算模型，Hadoop平台更擅长。

第三种是大数据一体机，这是一种专为大数据的分析处理而设计的软、硬件结合的产品，由一组集成的服务器、存储设备、操作系统、数据库管理系统以及为数据查询、处理、分析用途而特别预先安装及优化的软件组成，高性能大数据一体机具有良好的稳定性和纵向扩展性。
6.数据仓库的案例
个人对数据仓库比较熟悉，所以可讲讲。我们拿大家熟悉的数据仓库（Data Warehouse＝DW）来看看数据分析的价值。

在互联网高速发展之前，无论是电信运营商，还是大银行，保险公司等都花费了巨额资金建立了自己的企业级数据仓库。这些仓库主要是为企业决策者生成企业的一些关键指标（KPI），有的企业有几千张、甚至上万张KPI报表，有日表，周表，月表等等。这些系统有几个主要特征：

技术架构主要基于传统RDBMS ＋小型机＋高端阵列（就是大家说的IOE），当然数据库有部分DB2，Teradata等。
报表基本都是固定的静态报表，产生的方式是T+1 （无法即时产生）。
数据量增长相对缓慢，DW的环境变化很少。
最终用户只能看汇总的报表，很少能够基于汇总数据做动态drilldown （钻取）。
多数领导基本上认为花了很多钱，但看不出是否值得做，有鸡肋的感觉。最后大家对大量的报表都视而不见了。
这类系统属于“高富帅”，是有钱的企业给领导用的。

目前多数企业和部门根本就没有数据仓库。其实大家对传统数据的分析还没做得太好、还没有普及，现在又遇上了大数据。

用3个案例，讲讲数据分析能力和分析结果的巧妙使用比数据大更重要。

第一个案例：
在90年代后期，法国电信决定建立自己的核心数据仓库（项目的名字很有诗意，叫“Symphony”），把当时法国用户全部的话单数据（固网电话，那时还没有现在的移动手机）汇集到一个数据库中，用话单数据跟用户的其他属性做交叉统计，看看有什么消费行为和规律。项目需求是负责Marketing的部门提出的，技术部门负责实施。

这个项目当时在世界上是最大的民用数据库，30TB数据规模，光磁盘阵列就占了很大的一个机房。经过大量的投资和艰苦的建设（第一期使用的是Oracle 7, 刚开始有分区功能），第一批统计数据终于跑出来了。我记得最清楚的一个是通话时长的分布。大家惊奇的发现有很大一部分通话不超过1分钟（大概是30%以上，不记得准确的数字了），而且跟用户其他特征关联不大。

随后，为了推动消费，Marketing部门想出了一招，很快法国电信推出广告，大致是“为了给大家提供更好的社交便利，我们决定从xx日起降低电话通讯费用30%，大家可以多打电话，可多跟家人、朋友聊天了……”。

从广告发布的第二个月开始，统计显示大家打电话的次数增加了，这给法电带来了更多的收入。这里面的猫腻是第一分钟的话费没有降，是从第二分钟开始降低30%，而大家觉得打电话便宜了，自然打的次数就多了。
第二个案例是个相反的案例：
说明技术平台对需求的满足有时很难。这个案例不是自己经历过的，是听比较靠谱的朋友讲的。
大家每年过春节都发很多短信。运营商因此挣很多钱。中国早就是世界上短信第一大国。据说有一年的春节期间，某电信运营商的老大突然问IT部门老大要每个小时一共发了多少短信的实时统计数据。IT老大找底下的运营部门要，居然没有人能把这个简单的数据按时统计出来。大家可想像那个电信运营商老大是什么反应：投资了上百亿的系统，竟然连个这么简单的问题都回答不了。

我分析当时的原因可能有2个：一是运营商是按省份建立数据仓库的，而全国的数据需要汇总所有省份的统计，很难；二是在每个省的数据仓库里统计这个数据没有可用的报表，临时用SQL统计可能要跑很长时间（虽然是个简单的select count（＊），但要全表扫描肯定不会快的）。这是个典型的技术拖了需求后腿的案例。
第三个案例
这是法国一家著名超市集团在90年代就通过A／B试验和数据分析总结出的一个商品在超市最佳摆放位置的案例。这个案例肯定没有比大家都知道的“尿布与啤酒”那么经典，但实用性很强，今天仍然在使用，大家不信下次可以去超市买东西时验证下。

问题的起源是“针对同一类型中不同品牌、不同价格、不同利润的商品，摆在货架的什么位置最容易销售出去？”。为了科学的回答这个问题，这家超市组织了真实试验以获得真实数据。试验很简单，比如把1个商品先摆在货架高处，然后摆在中间、最后摆在底下的位置，每次摆放的时间一样长。试验期间不断收集不同商场的销售数据，最后的统计结果发现当把商品摆放在跟多数人视野水平高度接近的位置时，商品卖的最好。据说后来还咨询了心里学专家解释这个现象，原因好像大家无意中关注的重点就是视野的水平方向。

大家可以试验下，今天多数超市都把最贵或者利润最高的商品放在跟多数人视野水平高度接近的位置，而最便宜的同类商品放在最底层，其他的放在最高层。当然，这个规律可以进一步细化，比如给小孩的糖果都摆的比较低、在结帐台附近等等。知道了这个规律，大家可以省些钱的，哈哈！

从这3个案例可以看出，在没有“大数据”概念之前，大家已经在用不同手段从数据中获得有价值的信息并推动了企业的业务发展。今天的“大数据”可能是把数据挖掘方法、用数据思维的方式更广泛的使用而已。 7.数据处理技术的核心问题到底是什么？
其实我们一直面临着数据处理中最核心、最大的问题，那就是性能问题。性能不好的技术和产品是没有生命力的。数据处理性能问题不是因为大数据才出现，也不会有了大数据技术而消失。这是个“道高一尺，魔高一丈”的问题：处理性能的提升将促进对数据价值的挖掘和使用，而数据价值挖掘的越多、越深入，对处理技术要求就越高。

上面的案例其实已经说明了因为性能问题，目前的数据仓库只能满足一些静态统计需求，而且是T+1模式；也是因为性能问题，运营商无法有效构造超过PB级别的大数据仓库，无法提供即席查询、自助分析、复杂模型迭代分析的能力，更无法让大量一线人员使用数据分析手段。

今天如果做“大数据”数据仓库，运营商面临的挑战比上个10年要大的多。目前没有单一技术和平台能够满足类似运营商的数据分析需求。可选的方案只能是混搭架构，用不同的分布式技术来支撑一个超越PB级的数据仓库系统。这个混搭架构主要的核心是新一代的MPP并行数据库集群＋ Hadoop集群，再加上一些内存计算、甚至流计算技术等。

为什么今天的挑战更大，主要是下面几个原因：
第一个原因是数据量已经是上一代的一个数量级了，1个省份级运营商1年就可超越1PB结构化数据，其中尤其是数据业务产生的日志数据在智能终端普及下爆炸式增长，而这些数据其实跟互联网企业采集到的移动数据完全一样，运营商可以获得甚至比互联网企业更多的数据。这些数据还属于正常业务产生的数据。如果把交换机、基站等产生的数据（部分非结构化）加进来（关注网络服务质量），把内容数据也加进来（关注用户访问的内容），最终的数据量可能还要上一个数量级。明天何鸿陵会详细介绍运营商面临的数据和技术挑战，我也是班门弄斧了。

第二个原因是“大数据”关注的更多是用户行为、群体趋势、事件之间的相关性等，而不仅仅是过去的KPI，说穿了就是开始关注最终用户的行为，为精细化营销、优化企业流程、降低运营成本等做支撑。这就对数据分析平台对数据的分析能力和性能提出了新的要求和挑战。这些要求跟上一代数据仓库相比不仅仅是量的改变，而是质的改变。比如对大表之间的关联、复杂的OLAP函数、复杂的数据挖掘函数等。

所以我想讲的是我们需要多元化的技术来支撑大数据了。

图4 未来大数据处理的核心技术

这个图可能就是未来几年大数据处理的核心技术所在。当然互联网公司另论了。

下面是招标书中对业务需求的描述：

“模型必须包含用户轨迹模型和用户交往圈模型。用户轨迹模型是指记录用户在通信网络中的xxx等信息，分析用户的移动路径，了解用户的生活轨迹，以更好地为精确营销类应用提升数据支撑，同时为网络可管理的科学选址奠定位置基础。用户交往圈分析是指对CDR清单数据中蕴含的用户之间的社会关系进行分析挖掘，得出基于用户通话行为的社交网络交往圈，同时结合用户位置轨迹信息，发掘交往圈中经常处于同一位置范围内的用户，并对交往圈中的用户进行分群，从而以交往圈的角度，深入了解客户，提升客户价值，为用户维系挽留，离网预警，精确营销提供支撑”

而招标书中对数据挖掘的需求更是关系型数据很难解决的：

“大数据平台具备非结构化数据处理能力（文本分词），支持多维社交网络分析、路径分析等大数据深度分析功能，支持经典数据挖掘算法，包括：逻辑回归、聚类、决策树。”

从上面标书内容可以看出，无论是对数据处理平台的技术，还是业务需求都跟上一代数据分析平台有了巨大的差别。比如需要MPP与Hadoop Map Reduce的融合，需要分析用户的交往圈、移动路径等等。这些互联网企业在做的大数据分析，传统企业也开始做了。

8. 总结－新型MPP数据库的价值
技术：基于列存储＋MPP架构的新型数据库在核心技术上跟传统数据库有巨大差别，是为面向结构化数据分析设计开发的，能够有效处理PB级别的数据量。在技术上为很多行业用户解决了数据处理性能问题。

用户价值：新型数据库是运行在x-86PC服务器之上的，可以大大降低数据处理的成本（1个数量级）。

未来趋势：新型数据库将逐步与Hadoop生态系统结合混搭使用，用MPP处理PB级别的、高质量的结构化数据，同时为应用提供丰富的SQL和事务支持能力；用Hadoop实现半结构化、非结构化数据处理。这样可同时满足结构化、半结构化和非结构化数据的处理需求。

下面这个图是我们正在做的产品架构图，将逐步把MPP与Hadoop技术融合在一起，为用户提供透明的数据管理平台。

图5 MPP与Hadoop技术融合的产品架构图

有必要获得WHQL测试认证吗，有什么好处？
什么是WHQL认证？WHQL是MicrosoftWindowsHardwareQualityLab的缩写，中文意思是Windows硬件设备质量实验室，主要是对Windows操作系统的兼容性测试，检验硬件产品和驱动程序在windows系统下的兼容性和稳定性。当某一硬件或软件通过WHQL测试时，制造商可以在其产品包装和广告上使用“DesignedforWindows”标志。该标志可以证明硬件或软件已经
驱动程序为什么要做 WHQL 认证? GDCA SSL证书网络协议网络
驱动程序进行WHQL（WindowsHardwareQualityLabs）认证的核心价值在于解决兼容性、安全性和市场准入三大关键问题，具体必要性如下：️‌一、规避系统拦截，保障驱动可用性‌消除安装警告‌未认证的驱动在安装时会触发Windows的‌红色安全警告‌（如“无法验证发布者”），甚至被系统强制拦截。通过WHQL认证的驱动获得微软数字签名，用户可无阻安装‌。满足系统强制要求‌Windows1
WHQL签名怎么申请 GDCA SSL证书 windows
WHQL（WindowsHardwareQualityLabs）签名是微软对硬件和驱动程序进行认证的一种方式，以确保它们与Windows操作系统的兼容性和稳定性。以下是申请WHQL签名的基本步骤，供您参考：1.准备阶段准备硬件设备和驱动程序：确保您的硬件设备已经准备好，并且对应的驱动程序已经经过充分的测试，能够在各种配置和环境下正常工作。获取EV代码签名证书：根据微软的要求，驱动程序进行WHQL认
JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
前端项目架构设计要领
1.架构设计的核心目标在设计前端项目架构时，核心目标是模块化、可维护、可扩展、可测试，以及开发效率的最大化。这些目标可以通过以下几个方面来实现：组件化：将UI功能封装为可复用的组件。模块化：将业务逻辑分解为独立的模块或服务。自动化构建与部署：实现自动化构建、测试和部署流程，减少人为操作的错误。代码规范化与检查：确保团队协作时，代码风格和质量一致。2.项目目录结构设计一个清晰合理的目录结构对大型项目
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
基于架构的软件设计（Architecture-Based Software Design，ABSD）是一种以架构为核心的软件开发方法
ABSD方法与生命周期基于架构的软件设计（Architecture-BasedSoftwareDesign，ABSD）是一种以架构为核心的软件开发方法，强调在开发的各个阶段都要以架构为中心，确保系统的整体结构和质量属性得到有效管理。ABSD方法是一个自顶向下、递归细化的过程，软件系统的架构通过该方法得到细化，直到能产生软件构件和类。ABSD方法的三个基础功能的分解：使用基于模块的内聚和耦合技术，将
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
EasyCwmp源码分析与接口实现详解：深入理解源码架构，掌握核心接口
EasyCwmp源码分析与接口实现详解：深入理解源码架构，掌握核心接口去发现同类优质开源项目:https://gitcode.com/在开源项目中，寻找一款能够提升开发效率、简化流程的工具是每个开发者的追求。今天，我们要介绍的这款开源项目EasyCwmp，正是为了帮助开发者深入了解源码架构，掌握核心接口实现，从而加速项目开发进程。以下是关于EasyCwmp源码分析与接口实现详解的项目推荐文章。项目
RocketMQ 基础教程-应用篇-死信队列码炫课堂-码哥 rocketmq专题 rocketmq java
作者简介：大家好，我是smart哥，前中兴通讯、美团架构师，现某互联网公司CTO联系qq：184480602，加我进群，大家一起学习，一起进步，一起对抗互联网寒冬学习必须往深处挖，挖的越深，基础越扎实！阶段1、深入多线程阶段2、深入多线程设计模式阶段3、深入juc源码解析阶段4、深入jdk其余源码解析
零信任落地难题：安全性与用户体验如何两全？粤海科技君安全零信任终端安全网络安全 iOA
在零信任架构的实施过程中，平衡安全性与用户体验是企业数字化转型的核心命题。这一挑战的本质在于：既要通过「永不信任，持续验证」的安全机制抵御新型攻击，又要避免过度验证导致的效率损耗。一、矛盾根源：安全与体验的天然张力零信任的“永不信任”原则，本质上要求对每一次访问都进行动态评估，但这与用户对“便捷、流畅”的诉求存在天然冲突。例如：频繁的身份验证（如每次登录都需短信验证码）会打断工作节奏，某制造企业统
Kimi Chat 1.5 与 2.0 架构升级对比 charles666666 人工智能 transformer 深度学习产品经理 chatgpt
1.5版的MoE架构优化KimiChat1.5采用了优化后的MoE架构，其核心在于“专家网络动态路由”。这一机制类似于快递系统智能选择最优路径，能够根据输入数据的特性动态分配计算资源。这种优化显著提升了模型的计算效率，同时降低了硬件资源的浪费。在实际应用中，这意味着开发者可以在相同的硬件配置下处理更复杂的任务，或者在有限的资源下实现更高的性能。2.0的混合专家系统创新点与1.5版相比，KimiCh
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
[特殊字符] 实时数据洪流突围战：Flink+Paimon实现毫秒级分析的架构革命（附压测报告）——日均百亿级数据处理成本降低60%的工业级方案 Lucas55555555 flink 大数据
引言：流批一体的时代拐点据阿里云2025白皮书显示，实时数据处理需求年增速达240%，但传统Lambda架构资源消耗占比超运维成本的70%。某电商平台借助Flink+Paimon重构实时数仓后，端到端延迟从分钟级压缩至800ms，计算资源节省5.6万核/月。技术红利窗口期：2025年ApachePaimon1.0正式发布，支持秒级快照与湖仓一体，成为替代Iceberg的新范式一、痛点深挖：实时数仓
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
《Java前端开发全栈指南：从Servlet到现代框架实战》
前言在当今Web开发领域，Java依然是后端开发的主力语言，而随着前后端分离架构的普及，Java开发者也需要掌握前端技术栈。本文将全面介绍JavaWeb前端开发的核心技术，包括传统Servlet/JSP体系、现代前端框架集成方案，以及全栈开发的最佳实践。通过本文，您将了解如何构建现代化的JavaWeb应用前端界面。一、JavaWeb前端技术演进1.1传统技术栈Servlet：JavaWeb基础，处
[Vue warn]: onUnmounted is called when there is no active component instance to be associated with 扬帆起航&d vue.js javascript 前端 ecmascript 前端框架
[Vuewarn]:onUnmountediscalledwhenthereisnoactivecomponentinstancetobeassociatedwith.LifecycleinjectionAPIscanonlybeusedduringexecutionofsetup().Ifyouareusingasyncsetup(),makesuretoregisterlifecyclehoo
AI 图像编辑提示词参考之：背景替换
在AI图像编辑中（以FluxKontext为例），“替换背景”（BackgroundReplacement）是提升图像表现力的关键手段之一。但背景更换不仅仅是简单的视觉置换，更重要的是：确保人物主体外观不变，并与新背景在色温、色调、光影等方面自然融合。只有这样，最终图像才会呈现出“原本拍摄于该背景环境”的真实感。建议使用以下结构组织提示词：Replacethebackgroundwith[新背景]
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法深度学习人工智能
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？在大语言模型（LLM）中，最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息，这是由LLM的核心架构（以Transformer为基础）决定的，具体可以从以下角度理解：1.核心机制：自注意力（Self-Attention）的作用现代LLM（如GPT系列、Qwen等）均基于Transformer架构，其核心是自注意力机制。在
flutter redux状态管理 liao277218962 Flutter flutter state redux
Flutter状态管理系列文章目录Flutter状态管理(setState、InheritedWidget、Provider、Riverpod、BLoC/Cubit、GetX、MobX、Redux)setState()使用详解：原理及注意事项InheritedWidget组件使用及原理Flutter中Provider的使用、注意事项与原理解析（含代码实战）GetX用法详细解析以及注意事项Flutt
JVM与Spring Boot核心解析 AIHacksCash Java场景面试宝典 Java JVM Spring Boot
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
Flutter——数据库Drift开发详细教程之迁移(九) 怀君 flutter flutter 数据库
迁移入门引导式迁移配置用法例子切换到make-migrations开发过程中手动迁移迁移后回调导出模式导出架构下一步是什么？调试导出架构的问题修复这个问题架构迁移助手自定义分步迁移转向逐步迁移手动生成测试迁移编写测试验证数据完整性在运行时验证数据库模式迁移器API一般提示迁移视图、触发器和索引复杂的迁移更改列的类型更改列约束删除列重命名列合并列添加新列入门Drift通过严格的架构确保查询类型安全。
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
Kubernetes自动扩缩容方案对比与实践指南浅沫云归后端技术栈小结 kubernetes autoscaling devops
Kubernetes自动扩缩容方案对比与实践指南随着微服务架构和容器化的广泛采用，Kubernetes自动扩缩容（Autoscaling）成为保障生产环境性能稳定与资源高效利用的关键技术。面对水平Pod扩缩容、垂直资源调整、集群节点扩缩容以及事件驱动扩缩容等多种需求，社区提供了HPA、VPA、ClusterAutoscaler、KEDA等多种方案。本篇文章将从业务背景、方案对比、优缺点分析、选型建
2025年渗透测试面试题总结-2025年HW(护网面试) 43（题目+回答）独行soc 2025年护网面试职场和发展 linux 科技渗透测试安全护网
安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录2025年HW(护网面试)431.自我介绍与职业规划2.Webshell源码级检测方案3.2025年新型Web漏洞TOP54.渗透中的高价值攻击点5.智能Fuzz平台架构设计6.堆栈溢出攻防演进7.插桩技术实战应用8.二进制安全能力矩阵9.C语言内存管理精要10.Pyth
Tomcat：Java Web应用的幕后英雄互联网动态分析 tomcat
在当今数字化浪潮中，Java作为一门成熟且广泛应用的编程语言，支撑着无数企业级应用和互联网服务的稳定运行。而在JavaWeb开发领域，Tomcat无疑是一个举足轻重的存在，它宛如一位默默耕耘的幕后英雄，为众多Web应用提供了可靠的运行环境。Tomcat的起源与发展Tomcat的故事始于1999年，当时SunMicrosystems（后被Oracle收购）与Apache软件基金会合作，旨在为Java
ZooKeeper架构及应用场景详解走过冬季学习笔记 zookeeper 架构分布式
ZooKeeper是一个开源的分布式协调服务，由Apache软件基金会维护。它旨在为分布式应用提供高性能、高可用、强一致性的基础服务，解决分布式系统中常见的协调难题（如配置管理、命名服务、分布式锁、服务发现、领导者选举等）。核心软件架构ZooKeeper的架构设计围绕其核心目标（协调）而优化，主要包含以下关键组件：集群模式(Ensemble):ZooKeeper通常部署为集群（称为ensemble
zookeeper etcd区别 sun007700 zookeeper etcd 分布式
ZooKeeper与etcd的核心区别体现在设计理念、数据模型、一致性协议及适用场景等方面。‌ZooKeeper基于ZAB协议实现分布式协调，采用树形数据结构和临时节点特性，适合传统分布式系统；而etcd基于Raft协议，以高性能键值对存储为核心，专为云原生场景优化，是Kubernetes等容器编排系统的默认存储组件。‌‌1‌‌2‌架构与设计目标差异‌‌ZooKeeper‌。‌设计定位‌:专注于分
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，

大数据架构及行业大数据应用

你可能感兴趣的:(DW,架构,互联网)