七仙女很忙

（上）挖掘传统行业日志大数据的无限价值

8 月 27 日晚上八点，七牛云高级解决方案架构师程雪松在 IT 大咖说进行了题为《挖掘传统行业日志大数据的无限价值》的直播，对传统行业运维常见困境和统一日志管理的必要性进行了深入解析，并通过 Pandora 的一些真实用户案例和大家详细阐述了如何挖掘传统行业日志大数据的无限价值。
 

本文是对直播内容的整理，共分为上下两篇，上篇主要介绍传统行业运维常见困境和统一日志管理的必要性，以及日志分析几个典型场景。

什么是运维

首先我们谈一谈什么是运维。
 

 
很多人对运维有自己的理解，他们认为运维是一件特别简单的事情。当我们企业购买了一些信息化的产品，硬件、软件等，我们需要有一个团队让它正常的运转。但是在运转的过程当中，不可避免的会出现各种问题，这就需要有一个专门的团队来做保障。如果你只是把运维简单的理解为一个平台，我觉得这种认识可能比较肤浅。到底什么是运维呢？网上有很多理解，关于运维工作的划分，包括网站的运维、系统的运维、网络的运维、数据库的运维、IT 的运维，运维开发、运维安全。从这些分工来看，运维其实是一个复杂、系统的一个工程。
 

运维的价值

 

· 运维要知道准确的系统瓶颈点，进而知道系统准确的容量；在系统出现瓶颈前，知道如何快速提供容量。
 
· 知道系统的风险点，可以协调风险点上下相关关联模块，做出冗余策略；相比集中解决单点模块稳定性，更合理。
 
· 长期从事相关工作，积累较多的架构设计经验，可以指导新架构设计和审核。
 
· 从公司不同业务角度看，运维可以从中抽象相同的模块，进行统一管理，去形成企业内部的能力平台、基础设施平台，包括我们可以共用的一些微服务，那么形成这样有效的平台和自动化的管理方法。
 

现有运维的普遍现状以及运维人员的挑战

 
从运维的价值来看，我们了解到运维是一个复杂、系统的工程。对运维工程师来说，日常需要处理非常多的工作，如何帮助运维工程师做好日常的运维工作，至关重要。但是现在运维工程师在日常运维里遇到很多问题，最主要的原因是现在的 IT 环境越来越复杂。因为信息化建设不是一蹴而就的，公司会在不同的阶段建设不同的业务系统、不同的应用支撑、采购不同的硬件设备。但是由于采购周期的互相递进、堆叠，其实会造成内部有众多不同型号的网络设备、海量不同型号的服务器、各种各样的虚拟化方案、不同的操作系统、多样化的应用软件和数据库。
 
其实现在很多数据库是由应用软件的开发商来决定的，有些开发商更熟悉 MySQL，他可能用 MySQL 作为应用支撑的数据库，有一些开发商原来一直都在用 Oracle，他可能就会用 Oracle 来做应用支撑。各种不同的业务软件、不同的业务系统都会有不同的业务架构和底层的不同平台，每个平台又会带来不同的监控系统、自己内部相关的一些工具，这会导致一个企业整体的 IT 部门环境变得很复杂，从而带来很多问题：
 
· 监控软件纷繁复杂众多监控软件，无法统一管理；
 
· 监控告警杂乱无章监控方式存在各种不足，在问题发生时无法及时感知；
 
· 排错时间长系统复杂，排查问题流程漫长，在发生问题后无法快速准确的定位问题原因；
 
· 全局性弱无法对全局情况有一个全面的掌控，从而无法有效预测问题的发生；
 
· 安全挑战大无法高效发现安全性问题，比如×××侵入和违规操作；
 
· 管理员管理难度大面对众多异构的监控软件，管理员需要承担极大的心智负担；
 

通过日志进行运维管理

 
现在大量的运维团队都是通过日志来进行运维管理。原因是什么呢？
 
日志系统将我们系统运行的每一个状况信息都使用文字或者日志的方式记录下来。这些信息我们可以理解为设备或是普通人在虚拟世界的行为的记录和投影。这些信息有助我们观察系统运行过程中的正常状态和系统运行错误时快速定位错误位置的途径等。
 
日志的类型很多，主要包括系统日志、应用程序日志和安全日志还包括很多数据库的日志，等等。每条日志都记载着时间戳、相关设备名称、使用者及操作行为等相关的描述，系统运维和开发人员可以通过日志了解服务器软硬件信息、检查配置过程中的错误及错误发生的原因。经常分析日志可以了解服务器的负荷，性能安全性，及时分析相关问题、追查错误根源纠正错误。
 
下面我们举了几个相关的例子，大家在日常工作中也会遇到一些这样的监控或是安全的日志。
 

 
日常对日志的分析主要是应对以下几个场景：
 

机房集中化监控

 

第一个是机房集中化监控，特别是现在很多机房的建设都会存在大量的不同品牌的服务器、网络设备，特别是大型的企业，他们往往不愿采购单一品牌的服务器，为了避免出现一些厂商依赖的风险，所以会出现机房里存在不同品牌甚至异构的一些设备，运维人员需要对机房有一个管控平台。将交换机、服务器等相关的一些硬件设备，包括你可能涉及到的一些软件上的日志，以及保安系统的日志、业务的日志、用户访问行为的日志等等。将这些日志统一的收集整理起来，形成一个机房的日常的运行状态的一个监控。
 
上图的示例图是我们在一个案例里面给客户做的展示大屏，他可以反映整个机房的运行状况，运维人员能够很直观的通过大屏知道机房整体的日常运行状态。下面是我们设计的架构图，我们通过交换机、服务器上采集到相关的硬件、软件的一些监控指标，然后读取到我们的日志管理系统里，对日志进行统一的存储、分析、监控、告警，最终形成这样一个大屏的展示。这个是现在很多运维同学在日志使用中最经典的场景。
 

应用质量管理

 

第二个是应用质量管理，也就是 APM。因为所有的业务系统在运行过程当中也会产生一些业务系统的日志，我们通过采集业务系统日志，能够快速的去分析整个应用针对最终用户的服务质量是怎么样的。
 
比如说企业有一个 OA 系统，大家平时去 OA 系统查询企业的组织架构人员、日常的一些电子流的流转，包括一些业务申请审批，都会产生大量的日志。我们去分析这些日志可以看到服务平均的响应时长是多少，或者大家平均多久会去使用这个平台一次，我们就能够全面的对这个应用质量进行管理和追踪。一旦我们发现大家都在吐槽我的 OA 打开的很慢，我的整个数据查询反馈结果很慢。到底问题是什么？我们通过应用质量管理的模块去查询到对应的故障点然后对这个应用质量进行优化，为最终的用户去提供更优质的体验。不仅在互联网企业会用到应用质量管理，我们在日常的很多传统企业也会有这样一个需求。
 

统一日志管理平台

 

 
第三个叫做统一日志管理平台，这个其实是把场景 1 和场景 2 做了一个更深层次的延伸。大家最开始可能只是针对机房设备做一个监控，后来希望能够针对更上层的业务系统、应用系统进行监控。那现在我们希望能够把企业里面只要能产生日志地方的日志都收集起来。包括开发团队在开发过程中产生的日志，包括业务运行过程中产生的日志，包括机房运维的日志，等等。把这些日志统一的收集在一起，形成统一的日志仓库，这跟我们传统理解的数据仓库类似。
 
数据仓库是把所有的业务数据、结构化的数据存在一起，来做后续的数据分析。统一的日志管理平台是把所有企业产生的日志收集在一起，然后你来做实时或离线的数据分析，然后把分析出来的结果通过接口输出的方式或是通过消息队列的方式去支撑具体的业务应用。相关人员可以对这些日志进行检索与分析，从而更快的定位问题，并且持续挖掘数据价值。现在很多企业在逐步发展，不仅建设企业内部统一的数据管理平台，也在建设内部统一的日志管理平台。
 

物联网数据分析和监控

 

 
第四个结合了现在国家在大力推动的工业 4.0 或是中国制造 2025，其实是希望能够以物联网的手段更好的支撑制造业的发展。现在很多制造业企业会在自己的生产线上去增设很多物联网的探头或是传感器，收集整个生产线在运转过程中产生的各种收据。比如说车间的温度、湿度，包括机器的转速、压力、流量等等。然后把这些数据以数据流的方式采集回我的数据平台，实时的对数据进行汇聚和分析，例如进行数据的上卷统计或者实时数据的监控，一旦出现温湿度的异常，转速的异常，压力的异常，流量的异常，系统需要及时报警，车间管理人员能够及时解决出现的问题。
 
除此之外，也需要及时的监控一段时间内我的整个生产线上生产的运行情况，甚至和我的品控、质量管理等等结合在一起，能够去找出生产线上的温湿度指标和实际的生产质量之间的一些因果关系。这是很多企业现在在做的物联网方面的一些尝试。这四个我认为是现在传统行业、新兴行业遇到的一些日志运维方面的场景和问题。
 

统一日志管理的必要性

 
所以我们很明显感觉到统一日志管理对于传统行业来讲是一个非常重要的事情，不仅能够解决传统行业运维上面的问题，甚至能够去提升一些企业业务层面的能力，包括能够支撑未来很多业务方面的决策和发展。过去，日志被分散的储存在各台服务器上，没有集中管理，难以做关联分析，甚至被删除。
 
举个简单的例子，传统的防火墙 IPS 等等很多安全数据都存在各自的日志系统里，现在去做安全日志关联分析的企业还很少，像这样的数据很多时候是被大大的浪费掉了。如果你管理数十上百台服务器，你还在使用依次登录每台机器的传统方法查阅日志。这样感觉很繁琐和效率低下。当务之急我们需要使用集中化的日志管理，将所有服务器上的日志收集汇总。在大数据时代，日志数量巨大，种类多样化，企业数据就如同一座亟待开发的金矿，但是随着日志的统一集中，日志的统计和检索的难度也会加大，传统上一般我们使用 grep、awk 和wc 等 Linux 命令来实现日志的检索和统计，但是对于要求更高的查询、排序和统计等要求和庞大的机器数量依然使用这样的方法难免有点力不从心。
 

日志管理的技术选择

 
针对日志管理，现在有非常多的技术选择，最传统简单的就是使用 grep/sed/awk 等脚本工具，无需额外工具支持，而且很多运维工程师都有独立写脚本的能力，但效率低下，容易出错。后来也可以把数据采集到 MySQL 里，进行统一数据汇聚和一些简单的计算，虽然使用方便，但是由于 MySQL 本身性能问题，对于数据量的支撑不会很大，所以能力有限。有些企业会采用 NoSQL 数据库来支持大数据量的存储，但它不支持交叉查询与全文检索，去查具体的某一条日志信息的时候，使用负担就会变得很大。
 
后来出现了很多大数据方面的技术，比如说 Hadoop/Spark/Storm，他们都能很方便的以离线的方式、实时的方式、或者数据流的方式把数据采集进来，但是使用比较繁杂，对于我们的运维团队、IT 部门来说要求会比较高，而且不支持全文检索。所以现在使用 Hadoop/Spark 来做日志管理的公司也不多。现在绝大多数做日志管理的都会使用 ELK，你可以很方便的在网上下载安装来使用，但是 ELK 产品化及体验层面优化做得远远不足，在一些小批量的数据想试用功能的时候，是没有问题的。但如果想把整个机房或是整个企业所有的日志采用 ELK 来做一个统一日志仓库或者企业日志中心的话，他的稳定性和易用性都会受到很大挑战。特别是如果你的数据量达到百TB 级数据的时候，使用 ELK 就会遇到很多的问题。
 

日志管理系统建设关注要点

 
那么我们到底如何去选择日志管理系统来支撑我们内部的运维或者支撑我们日志分析呢？我认为可能需要通过八个角度去思考日志管理平台建设的要点，也就是说数据的采集、清洗、存储、搜索、监控告警、分析、报表、开放这八个环节。

 

数据采集

 
数据采集看起来是一个很简单的概念。但是细分下来，还可以再分为四个功能点：数据的收集、解析、转换、发送。
 

 
数据采集需要日志管理平台支持各种各样的数据源，这是作为一个优秀的数据采集平台必须具备的功能。包括关系型数据库比如说 MySQL、Oracle，甚至可能像 SQL server 等。以及非关系型数据库、消息队列、 ES 这样的搜索平台，还包括 Hadoop 的服务，将这些数据源的数据准确无误的采集进来是一个数据管理平台在数据采集这块必须支持的功能。另外最好还有针对硬件指标的采集，比如说服务器的 CPU, 服务器的内存使用率，存储的使用率，还包括网络设备的网络流量。这些指标可能不会以日志的形式呈现出来，但是你需要有一个相关的采集工具，能够部署在服务器上，或是部署在网络设备上去采集这些底层硬件的监控指标。这也是数据采集平台在采集这块功能需要去体现的一些能力。
 
很多的日志其实都是以文本的形式来做数据记录的，如果想做深层次的日志分析、统计、计算的时候，就需要对日志的内容进行提取和切片。例如说安全设备的一条日志需要拆分成具体的时间、日志来源设备、安全事件名，具体描述等若干个字段。日志管理平台需要考虑的第一个功能就是支持非常丰富的预定义的解析规则，不管以什么日志格式进来，都可以很方便的把这些数据解析成相关的字段。
 
第二个针对个性化的日志格式，能够支持自定义日志解析规则，原因是日志一定是每一个应用开发商在做系统开发的过程当中自己定义的，包含日志相关的格式、内容、规则。所以这个就会造成百花齐放，各个公司日志都不一样的情况发生。那么不同系统的不同日志我们都只用同一套的解析规则去解析的话，一定会出现水土不服的情况。所以如果用户能够非常方便的自定义的对这些日志的解析规则，比如说关于一条样本的日志，能够以划词的方式把切分成若干个字段，系统自动生成相关的解析的规则，这样的话对运维日常的使用来说，就会非常方便易用。
 
收集、解析之后还有数据转换，为什么还会有转换的工作呢？是因为针对日志中的某些字段，我们希望它的可读性更好一些。比如内网的某个用户访问了某一个业务系统，日志系统一定会记录访问的源 IP 地址，但是当我后续想要对这条日志进行分析的时候，我其实并不关心这个 IP 地址是多少，我关心的其实是这个 IP 地址对应的账号或者是具体的哪个人，所以我们这个时候就需要一个转换的过程，把 IP 地址转换为对应的实体。而通过这样一些转换规则运维人员可以对于后续数据的分析和对数据的统计做到更精准，而且使用过程更易用。
 
所以说收集、解析、转化都是一个非常重要的工作，这些环节缺一不可。最后处理完的数据，我们需要发送到一个存储里面去进行持久化的存储或者进行后续的分析。那么收集、解析、转化、发送就是数据采集这个功能点里面细分的四个小的需要思考的方面。
 

数据处理

 

 
数据采集完成之后，可能还需要对数据进行一些深层次加工处理。对于一些简单的数据可以不处理直接拿来做分析或是搜索。那针对一些复杂的业务场景，例如有大量的数据采集进来后，需要每五分钟或是每十分钟去对数据进行一个简单的计算统计，或者针对一些实时性要求比较高的业务应用，需要数据实时的采集进来之后，跟已有的业务模型或安全模型进行匹配，去实现业务服务或者安全态势监控，在这些场景下，单纯通过数据采集平台是无法满足需求的。这时候需要的是一个强大的数据处理的平台，最好可能是类似于 Hadoop、Spark 这样的大数据计算引擎，能够针对不同种类的数据源进行实时的或者离线的计算，并且支持任务的定时执行、循环执行等周期性调度，最终能够把计算分析的结果，导出到对象存储、日志分析，或者导出到业务数据库去直接支撑后续的实际生产业务。
 

数据分析

 
数据采集处理过后就可以进入数据分析的阶段，在这个环节里面，我们需要对收集到的日志进行全方位的快速分析并对结果进行展示，那么首先需要对日志进行统一存储，这个存储至少需要支持 TB 级，甚至 PB 级的数据量，并且能够支持对这些数据进行快速搜索，形成相关的图表以及支撑相关的监控、告警或者分析预测，日志管理平台同时也需要提供相关的 API 接口，能够去对接第三方的监控平台、监控工具或者直接去支撑类似精准营销，用户画像这样的业务系统，以上都是数据分析在这个过程中需要支撑的功能。我日常跟很多用户在沟通的过程当中，我也会发现他们或多或少都会遇到一些日志分析业务的痛点，我总结了四点如下： 
 

 

自动字段分析
在日志采集阶段已经完成了日志解析，把一条标准的文本型日志解析成了若干个字段，那么能不能对这些字段做一些自动的统计和分析，运维人员不需要自己再去通过写脚本的方式，编辑任务的方式去做数据的计算。比如说系统能够自动的告诉你网络中平均流量是多少，你的流量的峰值和最低值是多少，如果有一些错误的日志，我们统计出来，你的 TOP10 的错误是哪些错误，他来自于哪一个用户或是哪一台设备，针对这样的一些字段分析能大大的降低用户在使用这个平台过程当中去做的一些计算或是任务配置方面的一些工作或难度。
 

联合搜索
顾名思义就是通过一个条件去同时搜索多个日志仓库，这个场景就比如说防火墙、IPS、杀毒软件、访问日志可能是存在不同地方，统一采集到日志管理平台上以后一般也是放在不同的日志仓库中，当有一个安全事件发生的时候，安全事件会包含来自哪个 IP 地址的×××，或是来自哪个用户名的×××，那我需要通过这个 IP 地址或是用户名能够检索到所有安全设备的日志，然后把相关内容统一的展现出来，那么这个时候就有一个联合搜索的场景。这个时候需要有这样一个功能，能够搜索所有能看到的在这个日志仓库里的内容。
 

划词分析
大家在日常使用日志分析功能的时候，并不是所有任务都是固化的，有时候需要根据业务要求灵活变动。比如今天我需要分析一个设备或是某一个用户的日常访问行为，那我会搜索这个用户的用户名，日志管理平台会把符合条件对应的所有内容列出来。但当你仔细去看时，搜索出来的内容会非常多，可能是成百甚至上千条相关的日志，若是传感器类的日志可能会更多。仅仅通过一个搜索条件，往往无法满足你对于日志分析的需求的。这个时候，你可以选择在搜索框里增加一个 and 搜索条件去对日志进行更深层次的结果的筛选。
 
但能不能有一种更简单的方式？例如既然已经找出了跟这个用户名相关的所有日志，那么是不是能够搜索结果中的某条日志里再划一段词出来，自动的填充到我的搜索框里面，去对数据的搜索结果进行二次过滤，或者我可以在搜索结果里面排除掉划出来的这些词所对应的日志内容，如果这个功能可以实现的话是可以大大提高平台的易用性，去解决日常很多令人崩溃的事情。这是划词分析的一个痛点。
 

实时搜索
系统中产生的所有日志都会以数据流的方式不停的采集到日志平台上，对日志进行搜索的时候希望新进来的日志也能实时的展现出来。这样当我去对一个业务进行变更，或对故障进行恢复的时候，我能看到最新进来的日志情况，可以很方便地看到业务是否恢复正常。这有点像我们日常使用的 tail -f 数据实时滚动的场景。这也是很多用户在对数据分析的过程当中会遇到的一个痛点。如果有一个产品能够去解决用户的这些痛点，降低平台的使用负担，这能够大大降低大家日常运维的压力，提升整个工作效率。
 

牛人说
 
「牛人说」专栏致力于技术人思想的发现，其中包括技术实践、技术干货、技术见解、成长心得，还有一切值得被发现的内容。我们希望集合最优秀的技术人，挖掘独到、犀利、具有时代感的声音。
 

大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
大数据点燃智能制造变革之火——从数据到价值的跃迁 Echo_Wish 大数据高阶实战秘籍大数据制造
大数据点燃智能制造变革之火——从数据到价值的跃迁在全球制造业向智能化转型的浪潮中，大数据已然成为点燃变革的关键火种。从车间到供应链，从设备到产品生命周期，制造业正通过大数据分析找到隐形的效率优化机会，打破传统生产模式的桎梏。作为Echo_Wish，今天我将和大家探讨大数据如何融入智能制造，助力实现生产效率和业务价值的双重飞跃。一、智能制造的核心诉求：数据驱动的决策与执行智能制造的目标是通过数据驱动
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
Zynq PL端IP核之AXI DMA Mazy.v fpga开发嵌入式硬件 arm开发单片机
1.AXIDMA简介Zynq提供了两种DMA，一种是PS中的DMA控制器，通过GP口与PL端连接，另一种是PL中的AXIDMAIP核（软核），通过HP口与PS端连接。Zynq有4个HP接口，每一个HP接口都包含控制和数据FIFO，这些FIFO为大数据量突发传输提供缓冲，让HP接口成为理想的高速数据传输接口。AXIDMAIP内核在AXI4内存映射和AXI4StreamIP接口之间提供高带宽直接储存访
揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
LakeHouse湖仓一体成为下一站灯塔，数仓、数据湖架构即将退出群聊科杰科技大数据数据仓库
摘要：当前的大数据技术应用趋势表明，客户对单一的数据湖和数仓架构并不满意。近年来几乎所有的数据仓库都增加了对Parquet和ORC格式的外部表支持，这使数仓用户可以从相同的SQL引擎查询数据湖表，但它不会使数据湖表更易于管理，也不会消除仓库中数据的ETL复杂性、陈旧性和高级分析挑战。KeenDataLakeHouse（湖仓一体）作为新一代大数据技术架构，将逐渐取代单一数据湖和数仓架构，成为大数据架
一键掌控海量文件！Shell的find命令终极指南 + 高阶组合技芯有所享 java 前端 android 经验分享
你是否经历过这些崩溃瞬间？想清理3个月前的日志却无从下手要在10万张图片里找出某个版本突然发现服务器被临时文件塞爆…今天介绍的Linux三剑客之find命令，就是你的超级救星！不仅能精准定位文件，结合其他命令更能玩出自动化运维的花样！一、Find基础三连击（新手必看）按图索骥-名称搜索查找当前目录所有.txt文件（精准匹配）find.-name“*.txt”忽略大小写找配置文件（模糊匹配）find
【运维的七种武器】搞技术的季运维
最近项目陆续增加，相应的运维方面压力逐步攀升，经常出现打包和发布失败的情况，给交付团队带来困扰。运维技术是随着软件技术的发展同步发展起来的，当前复杂的软件技术架构对运维的稳定和高效带了了很大挑战。一、运维平台发展史：1.第一阶段，以专业化网管工具为代表，包括网络设备、主机、数据库、中间件、存储等进行专业监控管理的各种专业化工具。2.第二阶段，以ITIL流程化管理为代表的综合网管，通过事件、服务、流
数据让农业更聪明——用大数据激活田间地头 Echo_Wish 大数据大数据
数据让农业更聪明——用大数据激活田间地头在农业领域，随着人口增长和气候变化的影响，如何提升生产力始终是个关键话题。大数据，这个曾经只属于科技领域的概念，如今已悄然进入田间地头。今天，我以Echo_Wish的视角，和大家聊聊大数据如何赋能农业生产力，帮农民在阳光下也能掌握“科技的钥匙”。认识农业中的大数据什么是农业中的“大数据”？简单来说，就是收集和分析有关土地、气候、作物、病虫害以及市场需求等方面
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
从 0 到 1 构建 Python 分布式爬虫，实现搜索引擎全攻略七七知享 Python python 分布式爬虫搜索引擎算法程序人生网络爬虫
从0到1构建Python分布式爬虫，实现搜索引擎全攻略在大数据与信息爆炸的时代，搜索引擎已然成为人们获取信息的关键入口。你是否好奇，像百度、谷歌这般强大的搜索引擎，背后是如何精准且高效地抓取海量网页数据的？本文将带你一探究竟，以Python为工具，打造属于自己的分布式爬虫，进而搭建一个简易搜索引擎，完整呈现从底层代码编写到系统搭建的全过程。通过本文的实践，我们成功打造了Python分布式爬虫，并以
第三十篇维度建模：从理论到落地的企业级实践随缘而动，随遇而安数据库 sql 数据仓库大数据数据库架构
目录一、维度建模核心理论体系1.1Kimball方法论四大支柱1.2关键概念对比矩阵二、四步建模法全流程解析2.1选择业务过程（以电商为例）2.2声明原子粒度（订单案例）2.3维度设计规范时间维度（含财年逻辑）SCDType2完整实现（Hudi）2.4事实表类型与设计三、企业级建模实战：电商用户分析3.1业务矩阵分析3.2模型实现代码四、高级建模技巧4.1多星型模式关联4.2大数据场景优化五、性能
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
深陷“大数据杀熟”漩涡的飞猪，庄卓然如何力挽狂澜？财经三剑客大数据
在线旅游市场（OTA）的蓬勃发展为消费者带来了诸多便利，然而，在这股数字化浪潮中，飞猪旅行却因其频繁陷入“大数据杀熟”的争议而备受瞩目。这一行为不仅损害了消费者的合法权益，更让飞猪的品牌形象蒙上了一层阴影。近年来，飞猪平台上关于价格乱象的投诉屡禁不止。在黑猫投诉平台上，与“飞猪”相关的投诉累计已超9万条，其中直接以“飞猪杀熟”为关键词的投诉便达数百条。消费者们纷纷反映，在飞猪平台上预订机票、酒店等
API item_get 在电商平台的核心作用以及如何测试 index_all 数据供应商京东api java 大数据开发语言
在电商行业蓬勃发展的今天，跨平台运营已成为众多商家的必然选择。然而，随之而来的数据孤岛问题却成为了制约电商企业进一步发展的瓶颈。为了解决这一问题，电商大数据平台应运而生，而item_getAPI作为获取商品详情的关键接口，在其中扮演着至关重要的角色。本文将深入探讨item_getAPI在跨平台电商数据整合中的应用与优势，为电商企业在数据驱动的道路上提供有力支持。一、跨平台电商数据整合的挑战在跨平台
helm安装kubernetes-dashboard(2，Linux运维开发技巧 2401_83974783 2024年程序员学习 kubernetes linux 运维开发
当前k8s集群版本1.23.61.1添加repo[root@masterhelm]#helmrepoaddkubernetes-dashboardhttps://kubernetes.github.io/dashboard/[root@masterhelm]#helmsearchrepokubernetes-dashboard/kubernetes-dashboardNAMECHARTVERSIO
嵌入式硬件篇---WIFI模块 Ronin-Lotus 程序代码篇嵌入式硬件篇嵌入式硬件 c WIFI
文章目录前言一、核心工作原理1.物理层（PHY）工作频段2.4GHz5GHz调制技术直接序列扩频正交频分复用高效数据编码2.协议栈架构MAC层Beacon帧4次握手3.核心工作模式二、典型应用场景1.智能家居系统远程控制环境监测视频监测2.工业物联网设备远程运维生产线监控仓储管理3.医疗设备远程诊疗医疗影像药品管理4.消费电子智能音箱游戏设备打印设备三、ESP32开发示例1.环境配置（Platfo
“四预”驱动数字孪生水利：让智慧治水守护山河安澜 GeoSaaS 实景三维智慧城市人工智能 gis 大数据安全
近年来，从黄河秋汛到海河特大洪水，从珠江流域性洪灾到长江罕见骤旱，极端天气频发让水安全问题备受关注。如何实现“治水于未发”？数字孪生水利以“预报、预警、预演、预案”（四预）为核心，正在掀起一场水利治理的智慧革命。一、数字孪生水利：从物理世界到虚拟镜像的跃迁数字孪生水利并非简单的“数字建模”，而是通过高精度传感器、大数据、人工智能等技术，在虚拟空间构建与物理流域完全映射的“数字分身”，实现水情、工情
数智读书笔记系列021《大数据医疗》：探索医疗行业的智能变革 Allen_Lyb 数智读书笔记大数据健康医疗人工智能 python
一、书籍介绍《大数据医疗》由徐曼、沈江、余海燕合著，由机械工业出版社出版。徐曼是南开大学商学院副教授，在大数据驱动的智能决策研究领域颇有建树，尤其在大数据驱动的医疗与健康决策方面有着深入研究，曾获天津优秀博士论文、教育部博士研究生新人奖。沈江等作者也在相关学术和实践领域有着丰富的经验和深厚的专业知识。这本书系统且深入地探讨了大数据技术在医疗领域的应用与变革，对推动医疗行业的智能化发展具有重要的理论
自学网络安全（黑客技术）2025年 —三个月学习计划 csbDD web安全学习安全网络 python
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包前言什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习
OpenEuler kinit报错找不到文件的解决办法久违的太阳其他故障处理服务器运维
客户一套华为大数据集群平台,在一台arm平台openEuler服务器上面安装完集群客户端之后,使用kinit认证出现报错Nosuchfileordirectory:最终定位是操作系统/lib64缺少ld包导致,执行下面的命令恢复：ln-sv/lib/ld-linux-aarch64.so.1/lib64/ld-linux-aarch64.so.1
JAVA学习-练习试用Java实现“对大数据集中的网络日志进行解析和异常行为筛查” 守护者170 java学习 java 学习
问题：编写一个Spark程序，对大数据集中的网络日志进行解析和异常行为筛查。解答思路：下面是一个简单的Spark程序示例，用于解析网络日志并筛查异常行为。这个示例假设日志文件格式如下：timestamp,ip_address,user_id,action,event,extra_info2023-01-0112:00:00,192.168.1.1,123,login,success,none202
JAVA学习-练习试用Java实现“实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选” 守护者170 java学习 java 学习
问题：实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选。解答思路：要实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选，需要按照以下步骤进行：1.环境准备确保的环境中已经安装了ApacheSpark。可以从[ApacheSpark官网](https://spark.apache.org/downloads.html)下载并安装。2.创建Spark应用以下是
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
自学网络安全（黑客技术）2025年 —90天学习计划网安CILLE web安全学习安全网络 linux
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包前言什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习
自学网络安全（黑客技术）2025年 —90天学习计划网安CILLE web安全学习安全网络网络安全
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包前言什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习
2024下半年——【寒假】自学黑客计划（网络安全）网安CILLE web安全网络安全 linux 网络安全密码学 ddos
CSDN大礼包：基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包前言什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod