Juicedata

理想汽车 x JuiceFS：从 Hadoop 到云原生的演进与思考

理想汽车在 Hadoop 时代的技术架构

首先简单回顾下大数据技术的发展，基于我个人的理解，将大数据的发展分了4个时期：

第一个时期： 2006 年到 2008 年。2008 年左右，Hadoop 成为了 Apache 顶级项目，并正式发布了 1.0 版本，它的基础主要是基于谷歌的三驾马车，GFS、MapReduce、BigTable 去定义的。

第二个时期： 2009 年到 2013 年阶段。雅虎、阿里、Facebook 等企业对大数据的应用越来越多。2013 年底 Hadoop 正式发布 2.0 版本。我有幸在 2012 年的时候开始接触大数据，用 Hadoop 1.0 加 Hive 的模式体验了下，当时感觉很神奇的，大数据用几台机器就可以快速解决原来用 SQL Server 或者 MySQL 解决不了的问题。

第三阶段：2014 年到 2019 年，这段时间发展的非常快，期间 Spark、Flink 都成为了 Apache 顶级项目。在这个快速爬升期的过程中，我们还尝试用过 Storm，后来 Storm 就被 Flink 所替代了。

第四阶段：从 2020 年至今，2020 年 Hudi 从 Apache 毕业成为顶级项目之后，我个人理解数据湖进入到整个发展的成熟期，到了大数据的数据湖 2.0 阶段。数据湖主要三个特点，首先是统一、开放式的存储，其次是开放式的格式，以及丰富的计算引擎。

整体的发展过程中，大数据主要是有几个特点，就是大家常说的四个“V”：规模性（Volume）、高速性（Velocity）、多样性（Variety）、价值性（Value）。现在还有第五个“V”（Veracity），数据的准确性和可信赖度。数据的质量是一直被人诟病的，希望行业里能有一套标准把数据湖的质量去做提升，这个可能是数据湖 2.0 出现的标准，因为出现了 Hudi、Iceberg 这些项目，都是想把整个数据湖的管理做好。

个人觉得 Hadoop 是大数据的一个代名词，但是大数据并不只有 Hadoop。大数据是在发展过程中由多个组件整合之后形成的一套解决大量数据加工处理和使用的解决方案。这几年，大家基本上认为 Hadoop 是在走下坡路的，首先是 Hadoop 商业化公司 Cloudera 和 Hortonworks 的合并和退市，原来的商业模式无法延续；也面临着快速增长的云供应商在成本和易用性上的挑战，以及 Hadoop 本身生态系统的日益复杂。

理想汽车大数据平台当前架构

在这个阶段，理想汽车的大数据平台如上图所示。理想汽车用了很多开源的组件。

传输层： Kafka 和 Pulsar 。平台构建初期整体都用的 Kafka，Kafka 的云原生能力比较差，Pulsar 在设计之初就是按照云原生架构设计的，并且有一些非常适合 IoT 场景的能力，和我们的业务场景也比较匹配，所以我们近期引进了 Pulsar。
存储层是 HDFS + JuiceFS。
计算层目前的主要的计算引擎是 Spark 和 Flink，这些计算引都是跑在现在的 Yarn 上。三个计算引擎是通过 Apache Linkis 去管理的，Linkis 是微众银行开源的，目前我们对 Linkis 用的也是比较重的。
右边是三个数据库，第一个 MatrixDB ，它是一个商业版的时序数据库，TiDB 主打做 OLTP 和 OLAP 的混合场景，目前我们主要用它来做 TP 的场景。StarRocks 负责 OLAP 的场景。
ShardingSphere，是想要用它的 Database Plus 的概念去把底下的数据库统一的去做一个网关层的管理。目前还在探索阶段，有很多新增特性我们都很感兴趣。
再往右，Thanos 是一个云原生的监控方案，我们已经将组件、引擎和机器的监控都整合到 Thanos 方案里。
应用层是我们目前的四个主要的中台产品，包括数据应用、数据开发、数据集成和数据治理。

特点

大家通过大数据平台的现状可以发现一些特点：

第一，整个方案的组件是比较多的，用户对这些组件的依赖性强，且组件之间互相的依赖性也比较强。建议大家在未来组件选型的时候尽量选择云原生化比较成熟的组件。
第二，我们的数据是有明确的波峰波谷。出行场景一般都是早高峰晚高峰，周六周日人数会比较多。
第三个特点，我们数据的热度基本上都是最热的，一般只访问最近几天或者最近一周的数据。但是产生了大量的数据，有的时候可能需要大量回溯，因而数据也需要长久的保存，这样对数据的利用率就差了很多。

最后，整个数据体系目前从文件层面看缺少一些有效的管理手段。从建设至今，基本上还是以 HDFS 为主，有大量的无用数据存在，造成了资源的浪费，这是我们亟待解决的问题。

大数据平台的痛点

第一，组件多，部署难度高、效率低。围绕 Hadoop 的大数据组件有 30 多个，常用的也有 10 几个之多。有些组件之间有强依赖和弱依赖，统一的配置和管理变得非常复杂。
第二，机器成本和维护成本比较高。为了业务的稳定运行，离线和实时集群进行了分开部署。但上面提到的业务特点，我们业务波峰波谷现象明显，整体利用率不高。集群组件繁多需要专门人员管理和维护。
第三，跨平台数据共享能力。目前跨集群共享数据只能通过 DistCp 方式同步到其他 Hadoop 集群。无法方便快捷的同步到其他平台和服务器上。
第四，数据的安全和隐私合规。基于不同的数据安全需求，普通用户通过 Ranger 进行管理，特殊安全需求只能通过构建不同集群并设置单独 VPC 策略的方式来满足，造成很多数据孤岛和维护成本。

理想汽车云原生的演进与思考

首先，先简单分享一下我个人理解的云原生：

第一，云原生是在云计算的基础上衍生出来的。现在大家用的如阿里云、 AWS、腾讯云、百度云等云厂商，最开始提供的都是 IaaS 层的技术服务，帮企业把存储、计算、网络这些这些最基础的东西封装好统一管理，企业只需要在上面申请服务器就可以了。申请了服务器之后，这些服务器还是由云厂商来管理的，也就是大家传统的上云操作。

云原生离不开云计算，笼统地说，云原生属于云计算的 PaaS 层服务，主要是面向开发者的一类应用。云原生必须在云上安装，是一种基于云计算的软件开发应用方式。云+原生，云即云计算，原生则是摒弃传统的运维开发框架，通过容器化、DevOps，还有微服务架构实现应用弹性伸缩和自动化部署，充分利用云计算资源实现在最少的空间里做最大的事。也能解决我们目前大数据系统的一些痛点，比如扩展性和维护性都比较差，需要大量人力与时间等。

上图简单列了一下云原生的几个时间点

第一个阶段， AWS 提出了云原生的概念，并且在 2006 年推出了 EC2，这个阶段是服务器阶段，上文提到的云计算阶段。
第二个阶段，云化阶段，主是在开源 Docker 发布和谷歌开源了 Kuberneters 之后。Kubernetes 是一个轻便的和可扩展的开源平台，用于管理容器化应用和服务。通过 Kubernetes 能够进行应用的自动化部署和扩缩容。
第三个阶段，2015 年的时候成立了 CNCF 基金会，在主推云原生概念，帮助云原生整体发展的更好。最后是 Knative 的开源，Knative 一个很重要的目标就是制定云原生、跨平台的 Serverless 编排标准。衍生到现在，已经是云原生 2.0 阶段，即 Serverless 这个阶段。我个人理解大数据的发展应该也是朝着 Serverless 的方向去发展。比如现在 AWS 整个在线的服务基本上都做到了 Serverless。

大数据云原生架构

接下来介绍一下理想汽车大数据平台在云原生化之后组件发生的变化：

存储层，云原生化之后所有的存储基本上都是对象存储了。上面的架构图引出了 Lustre，下文会详细介绍。大家可以理解为「云存储」这一层主要是以 JuiceFS 来管理对象存储和 Lustre 并行分布式文件系统（注：由于 Lustre 的单副本问题，我们目前也在考虑使用云服务商提供的并行文件系统产品）。
容器层，主要是在计算、存储、网络之上，全部都用 Kubernetes 加 Docker 来替代，所有的组件都是在这上面生长出来的。
组件部分，首先是大数据计算框架，我们可能会废弃掉 Hive，直接沿用 Spark 和 Flink，通过 Hudi 去做数据湖 2.0 的底层能力支撑并逐步替换HDFS。
中间件部分，除了 Pulsar 以外还有 Kafka，目前 Kafka 的云原生化做的并不是特别好，我个人更倾向于用 Pulsar 去替换 Kafka。目前线上已经使用Linkis适配了所有Spark引擎，后面会进行Flink的适配和整合。ShardingSphere 在 5.1.2 版本刚刚支持云原生，我们会按计划进行场景验证和能力探索。
数据库层，还是 TiDB、StarRocks、MatrixDB，目前这三个数据库已经有云原生的能力，它们都支持对象存储。但这一块还没有单独去测过，我们目前用的还都是物理机。因为对于数据库来说，当前对象存储提供的IO能力还无法满足数据库的性能要求，会使得数据库的整体性能大打折扣。
运维方面，由 Thanos 方案多加了一个 Loki，主要是做云原生的日志收集。但是 Loki 和 Thanos 只是其中两个，未来我理解应该会朝着阿里开源的SREWorks能力看齐，把整个的质量成本效率和安全全部都封在综合运维能力里边，这样就可以把整个的云原生管理起来。
可观测性，云原生领域最近比较热门的概念。现在大家做的组件，有一些是在有热度之后，才开始发展云原生的，它并不是一开始生在云上，它只是后面希望长在云上。这种情况下它会遇到一些问题，第一个问题，就是没有全面的可见性的监控。我们考虑后续如何把这些组件整体的出一个方案，在所有组件上到云原生后可以有效的监控。

总结一下，我个人觉得大数据未来的云原生基本上就是：

统一使用云原生的存储作为所有组件（包括数据库）的底层存储
所有组件都运行在容器中
使用 Serverless 架构服务上层应用

但是这样也给目前的数据平台产品带来挑战，就是如何设计具备 Serverless能力的产品来给用户使用。

大数据云原生的优势

第一点，存算分离，弹性伸缩。使用物理机部署 Hadoop 之后，如果需要扩容缩容还需要去联系运营商，并且可能会有很长的周期，存算分离很好地解决了这个问题。
其次是按需付费，不用购买闲置资源，目前我们整个的业务场景的数据是有波峰波谷的，波峰的时候需要准备机器，波谷的时候需要撤机器，但现在是做不到的。现在我们基本上是把所有的机器都堆到波峰，波峰的时候能满足需求，稳定不失败，但它在波谷的时候最少 12 个小时左右是闲置的，这种情况下资源也是要付费的。云原生之后我们就可以不用再为此买单了。

第二点，自动化部署和可运维性。Kubernetes 是支持 DevOps 集成化的部署方案的。这样我们的组件整体可以实现快速的部署（比如通过 Helm chart），把组件运维的能力下沉到云原生平台上，这样大数据就不需要考虑组件运维场景了。

第三点，对象存储。对象存储是云计算推出的最核心最主要的产品。对象存储的好处不言而喻了，易扩展，存储空间无上下限，单价比较低，而且对象存储还分为低频存储、归档存储等多种存储类型，进一步降低存储成本，数据就可以存更长时间。同时成本可控，高可靠，操作复杂性低也都是对象存储的优势。

第四点，安全和合规性。云原生之后可以实现专用命名空间，多租户隔离，远程认证。目前我们做到的基本上都是网络层面上的隔离，HDFS的文件管理大家公认的方案是Ranger。通过 Ranger 去管理 HDFS 的目录权限，也能管理如 Hive server、HBase、Kafka 的一些权限，但是相对而言这些权限都会偏弱一些。

还有一个方案是 Kerberos，整个大数据组件的安全性会提高很多，但是它有很多的成本，它任何一个请求都要去验证。这个方案目前我们没有使用过，和我们的集群环境和场景有关系，我们基本上都是内网的，并不对外提供服务。如果大家做的大数据项目需要对外网提供一些服务，还是需要有强认证，不然数据很容易泄露。

大数据云原生的难点

大数据云原生的难点同样也是存在的。

第一，大数据相关的组件是比较多的，同时 Kubernetes 的更新比较快，组件和组件之间交叉之后，兼容性、复杂性和扩展性，都会存在问题。

第二，资源的分配和再分配。Kubernetes 是通用的容器资源调度工具，很难满足不同大数据组件的资源使用场景。大数据场景下资源使用会比较大，请求频率高，每次启动的 pod 的数又会比较多，这种情况下，目前没有什么好的方案。目前我们正在看 Fluid 这个方案，Fluid 也实现了 JuiceFS 的 runtime，这个也是我们后边要去深入调研的，Fluid 目前宣称是可以支持大数据和 AI 的，并不是只有 AI 的场景，因为大数据和 AI 的场景是比较像的，都是数据密集型的操作，Fluid 在计算效率和数据抽象管理方面是有了一些突破性的进展。

第三点，对象存储也是有一些劣势的。对象存储的劣势是元数据操作性能低、和大数据组件兼容性差、最终一致性等问题。

最后一点，就是数据密集型应用。存算分离模式无法满足大数据、AI 等数据密集型应用在计算运行效率、数据抽象管理方面的需求。

JuiceFS 在大数据云原生方案的探索和落地

在 JuiceFS 开源之前我们就已经关注并做了一些落地的测试，开源版上线之后，我们就马上上线使用了。上线的时候也遇到了一些权限的问题和几个小的 bug，社区非常给力，快速地帮我们都解决了。

要下线 HDFS 是因为它的扩展性差，同时我们的数据量比较大，HDFS 的存储成本比较高。在存储了几批数据后，物理机的空间就不够了，而且需要的计算非常多。当时我们的业务发展还在初期，为了尽可能从数据中获得价值，我们要保留尽可能多的数据。而且 HDFS 需要三副本，我们后来改成两副本，但是两副本还是有风险的。

在这个基础上，我们深度测试了 JuiceFS，测试完成之后，我们很快就把 JuiceFS 引到我们的线上环境。把一些比较大的表从 HDFS 迁移到 JuiceFS 里，缓解了我们的燃眉之急。

我们对 JuiceFS 比较看重的三点：

第一， JuiceFS 是多协议兼容。完全兼容 POSIX、HDFS 和 S3 协议，目前用下来都是百分百兼容的，没有遇到任何问题。
第二，跨云的能力。当企业有一定规模之后，为了避免系统性风险，都不会只使用一个云服务商。不会绑在一个云上，都会是多云操作的。这种情况下，JuiceFS 的跨云数据同步的能力就起到了作用。
第三，云原生的场景。JuiceFS 支持 CSI，目前 CSI 这个场景我们还没有用，我们基本上都是用 POSIX 去挂载的，但是使用 CSI 的方式会更简单更兼容，我们现在也正在往云原生上去发展，但整个的组件还没有真正上到 Kubernetes。

JuiceFS 在理想汽车的应用

从 HDFS 将数据持久化到对象存储

JuiceFS 开源之后，我们就开始尝试把 HDFS 上的数据同步到 JuiceFS。开始同步的时候是使用 DistCp，结合 JuiceFS 的 Hadoop SDK 同步非常方便，整体迁移比较顺利。之所以要把数据从 HDFS 迁移到 JuiceFS 上，是因为遇到了一些问题。

第一就是 HDFS 的存算耦合设计扩展性差，这个是没有办法解决的。我个人从一开始接触大数据的认知就是大数据是必须要部署在物理机上的，而不是在云主机。包括后来云厂商推出的各类 EMR 系统，其实是在对 Hadoop 进行封装，最近一两年这些 EMR 系统都在逐渐去 Hadoop 化。

第二是 HDFS 难以适配云原生化。现在的 HDFS 很难适配云原生，因为它比较重，虽然社区一直在着重发力去做云原生，但是我个人认为 Hadoop 的发展趋势在走下坡路，未来应该以对象存储为主。

第三，对象存储也有一些弊病，它不能很好的适配 HDFS API，由于网络等原因性能跟本地盘比也相差很多，另外 list 目录等元数据操作也很慢。我们通过 JuiceFS 做一些加速，测下来性能非常可观，在有缓存的情况下基本上可以媲美本地盘，基于此我们快速地将当前的场景直接切换到 JuiceFS 上。

平台级别的文件共享

第二个场景平台级别的文件共享。我们目前的整个调度系统、实时系统、开发平台的共享文件的数据全部都是存在 HDFS 上的，后续如果要是停止使用HDFS ，需要把这些数据迁移走。目前的方案是用 JuiceFS 对接对象存储，通过应用层的服务，全部以 POSIX 的方式挂载上去，大家就可以无感地去请求 JuiceFS 里的文件。

JuiceFS 在这个场景满足了我们大部分的应用需求，但还有些小场景存在问题。最初的设想是会把 Python 环境之类的都放进去，后来发现实操难度太大，因为 Python 环境里边有大量的小文件，加载的时候还是会有问题。类似 Python 环境这种包含大量碎文件的场景还是需要存储在本地盘来操作。后续我们准备挂一块块存储，专门来做这件事。

分享几个我们之前使用 HDFS 遇到的问题：

第一个，当 NameNode 压力大或 Full GC 时会有下载失败的情况，目前暂时没有一个完美的方案解决。我们的方案是尽量加内存，或者在下载包的时候加一些重试，避一避它的高峰期，但是这种情况下很难完全解决 HDFS 的问题，因为它终究是 Java 写的，GC 的场景是没有办法避免的。

第二个，在跨系统里面去使用 HDFS 的时候，比如我们有两个集群，现在要用一个集群去共享文件，基本上是不现实的，因为需要开通网络，来把两个集群之间打通或者应用上打通，这样安全性是没有办法保证的。目前我们基本上就是两个集群是独立各自维护自己的共享文件。现在实时平台（如 Flink 平台）已经切换到 JuiceFS 上了，目前还是非常顺利，没有遇到什么问题。

第三个，目前我们有大量的物理机部署，物理机部署都是单集群的，没有容灾的策略，如果哪天机房出了一些灾难性的问题，我们整个服务就不可用了。但是对象存储它本身是跨机房，是同一个 region 里面，应该都是有最少三个副本，云厂商帮我们做到了备份。后续，我们可能会发展多云，希望通过 JuiceFS 去共享一些高级别的文件、核心的数据库，包括一些核心的备份文件，在多云里面去做备份。这样就实现了多云、多 region、多地域，就可以解决现在单点容灾的问题。

海量数据跨平台使用

另外一个场景，平台和平台之间全部都是通过 JuiceFS 去共享海量数据。我们这边的共享的数据中第一类是路试车的数据，路试车会有大量的视频语音图像数据上传，这些数据上传了之后会直接进到 JuiceFS 里，方便下游去做一些同步和共享，包括一些数据的筛查，再拿到 PFS 就是并行文件系统，其下面挂载的是 SSD。这样可以让 GPU 利用率更高一些，因为对象存储的能力是相对比较弱的，不然 GPU 的能力就会有大量浪费。

剩下的数据类型包括车辆上报的一些用于分析的日志，埋点数据，还有一些国家平台需要的车辆相关的信号数据，这些数据都会进到数仓里面去做一些分析。也会对这些数据做一些特征数据提取，给算法团队去做模型训练，或者做一些 NLP 的检索和其他的更多场景。

云原生存储加速 - Lustre 作为读缓存（测试中）

现在我们正在测的是另外一个场景是在对象存储层挂一个 Lustre 去给 JuiceFS 去做读缓存，通过 Lustre 的缓存来帮助 JuiceFS 来提高读取速度和缓存命中率。

这样可以有一个好处是我们现在用的都是物理机，它是有物理盘的，物理盘可以用来缓存数据。但是因为计算任务在多个节点执行，缓存的命中率不太高。这是因为社区版 JuiceFS 目前还不支持 P2P 的分布式缓存，只支持单节点的本地缓存，每一个节点可能会读很多数据。这种情况下也给计算节点造成了一些磁盘的压力，因为缓存会占用一定的磁盘空间。

目前我们的方案是通过 Lustre 来作为 JuiceFS 的读缓存。具体来说是根据需要缓存的数据大小，将一个容量大概是 20~30TB 的 Lustre 文件系统挂载到计算节点本地，然后将这个 Lustre 挂载点作为 JuiceFS 的缓存目录。这种情况下 JuiceFS 读完数据之后，可以异步缓存到 Lustre 里。这个方案可以有效解决缓存命中率不高的问题，大幅度提高读取性能。

如果我们在 Spark 场景往对象存储里直接写数据的时候，会有带宽和 QPS 的限制，如果写入得太慢，上游的任务可能会发生抖动，在这种情况下可以通过 JuiceFS 的写缓存功能把数据先写到 Lustre 里，再异步写到对象存储，这个方案在某些场景下是适用的。但是有一个问题是 Lustre 并不是一个云原生的方案，它对于用户来说是有感知的，用户在启动 pod 的时候需要显式写一个命令把它挂载上去。因此后面我们也希望对 JuiceFS 做一些改造，自动去识别对象存储和 Lustre，然后自动实现一些缓存的机制，这样就不需要用户来感知 Lustre 的存在。

目前这个方案的 PoC 已经完成，通过了基础测试，接下来我们会在生产环境做大量的压测，预计今年 Q3 应该可以正式上线覆盖一些边缘业务。

JuiceFS 在大数据云原生的整体方案

从整体方案的架构图可以看到，目前 JuiceFS 客户端提供的三种方式我们都有用到。

如上图左半部分所示，我们会有独立的 Spark、Flink 集群，我们通过 CSI Driver 的方式将 JuiceFS 直接挂载到整个集群上，这样用户启动 Spark 和 Flink 的时候，就完全感知不到 JuiceFS 到存在了，计算任务的读写都是通过对象存储来完成。

这部分目前有一个有关 shuffle 的问题。因为 Spark 任务在计算过程中的 shuffle 阶段需要大量的数据落盘，这其间产生的大量文件读写请求对于底层存储的性能要求较高。Flink 相对来说好一些，因为它是流式的，不需要大量的落盘。未来我们希望 JuiceFS 可以直接写到 Lustre 里，但是这样就需要在 JuiceFS 里做一些改造，通过客户端集成的方式，让 JuiceFS 直接读写 Lustre，这对于用户来说就无感知了，也能提升 shuffle 阶段的读写性能。

上图右半部分的应用有两个场景。一个是简单查询一下 JuiceFS 的数据，例如通过HiveJDBC来进行数据预览，这个场景可以通过 S3 网关访问 JuiceFS。

第二个是大数据平台和 AI 平台联动的场景。比方说 AI 平台的同事在日常工作中需要经常读取样本数据、特征数据等，而这些数据通常是由大数据平台上的 Spark 或者 Flink 任务产生的，并且已经存储到了 JuiceFS 里。为了不同的平台之间能够共享数据，在 AI 平台的 pod 启动时，会通过 FUSE 的方式将 JuiceFS 直接挂载到 pod 里，这样 AI 平台的同事就可以通过 Jupyter 直接访问 JuiceFS 里的数据做一些模型的训练，而不用像传统的架构那样在不同平台之间重复拷贝数据，提高了跨团队的协作效率。

因为 JuiceFS 使用 POSIX 标准的用户、用户组进行权限控制，同时容器启动默认是 root 用户，导致权限不好管控。因此我们对 JuiceFS 做了一个改造，通过一个认证 token 来挂载文件系统，这个 token 里面包含元数据引擎的连接信息和其他一些权限控制信息。
在某些需要同时访问多个 JuiceFS 文件系统的场景，我们使用 JuiceFS S3 网关并结合 IAM 策略做统一的权限管理。

目前使用 JuiceFS 遇到的一些难题

第一点，基于用户和用户组的权限管理功能比较简单，在某些场景容器启动默认为 root 用户，权限不好管控。

第二点，关于 JuiceFS Hadoop SDK 的配置优化。目前我们对 JuiceFS Hadoop SDK 进行优化的手段主要有三个配置：juicefs.prefetch、juicefs.max-uploads 和 juicefs.memory-size。其中在调优 juicefs.memory-size 配置的过程中遇到了一些问题，这个配置的默认值是 300MB，官方的建议是
设置默认值 4 倍大小的堆外内存，也就是 1.2GB。目前我们大部分任务都是配置到 2GB 的堆外内存，但是有些任务即使配置了超过 2GB 的内存也偶尔会写入失败（HDFS 可以稳定写入）。不过这个并不一定是 JuiceFS 的问题，也有可能是 Spark 或者对象存储的原因导致。因此目前我们也在计划把 Spark 和 JuiceFS 深度适配以后，再一步一步来找原因，争取把这些坑都趟过去，在保证任务稳定的情况下把内存降下来。

第三点，由于整体架构（JuiceFS + 对象存储 + Lustre）变得复杂，可能的故障点变多，任务的稳定性可能会有一些下降，需要其它容错机制保障。例如 Spark 任务在 shuffle write 阶段可能会有类似「lost task」这样的报错，目前还没有定位到具体的错误原因。

前面提到的 JuiceFS + 对象存储 + Lustre 的架构组合一定程度上提升了读写性能，但同时也使得架构更加复杂，相应地增加了一些可能的故障点。比如说 Lustre 没有很强的容灾副本能力，如果 Lustre 突然挂了一个节点，正在运行的任务到底能不能稳定地继续读写 Lustre 里面的数据，或者 Lustre 里的数据意外丢失了，是否还能稳定的去 JuiceFS 里通过对象存储重新拉出来，这个目前是不确定的，目前我们在也在做这种灾难性的测试。

未来和展望

基于 Flink + Hudi + JuiceFS 的实时数据湖方案

近期我们要做的一个是 Flink+ Hudi + JuiceFS 的实时数据湖方案。上图中左边是数据源，通过 Flink 、Kafka/Pulsar，把数据实时地写到 Hudi 里，同时 Hudi 的数据会落到 JuiceFS 里替换我们目前的实时数仓。

大数据云原生的远期规划

最后，介绍一下理想汽车大数据云原生的远期规划，也是一个展望。

第一点是统一的数据管理和治理系统。我们认为数据湖 2.0 时代，最大的需要解决的问题就是把数据湖 1.0 场景中的数据沼泽的问题解决掉。但现在好像并没有一个比较好的统一元数据管理、数据目录管理、数据安全管控的开源产品，类似 AWS Glue、AWS Lake Formation。目前我们在做一个「起源系统」的项目，这个系统第一步就是把上面的数据库、对象存储里边所有的元数据做统一的目录管理，统一的安全管控，以及统一的数据管理，这块儿我们正摸索着往前走。

第二点是更快、更稳定、更低成本的底层存储能力。目前所有的场景最大的难点是在对象存储上，对象存储的优势是稳定、低成本，同时对象存储也在持续迭代。就目前而言我觉得如果大数据云原生要发展，对象存储必须是要在确保稳定的前提下提供更好的性能。

同时 S3 可能宣称支持强一致性了，但是目前我理解基于对象存储的架构设计，可能很难能实现强一致性，或者说它为了实现强一致性，势必要牺牲一些东西，这可能是一个需要权衡的问题。JuiceFS 原生支持强一致性，这个功能对于大数据平台来说非常友好。

第三点，更智能、更高效、更易用的查询引擎。引申一下前面提到的对湖仓一体的思考，目前湖仓一体还是在发展初期，可能还需要经历 5~10 年的发展过程。Databricks、微软都在尝试做数据湖上的向量化 MPP 引擎，希望能把湖仓一体架构推起来。这可能是一个未来的发展方向，但是短时间内好像并没有办法用一个引擎来满足所有场景的需求。

我们目前的架构基本上是配备了所有的查询引擎，比如 Spark、Flink、关系型数据库（面向 OLTP 的场景）、时序数据库、OLAP 数据库。原则上还是谁优用谁，我们上层再通过统一的中间件去做管理。再比如 Snowflake，它现在虽然已经支持了同时查询结构化和半结构化的数据，但是未来像人工智能涉及的的非结构化数据（如图片、语音、视频）到底应该怎么支持，目前还是不太清楚。不过我认为这肯定是以后的一个发展方向，理想汽车也有类似的人工智能场景，所以我们会与各个业务方一起去探索和共建。

最后，整个大数据发展的最终目标还是要以最低的成本、最高的性能完成数据分析，从而实现真正的商业价值。

如有帮助的话欢迎关注我们项目 Juicedata/JuiceFS 哟！ (0ᴗ0✿)

你可能感兴趣的:(hadoop,云原生,大数据,分布式,开源)

践行乡村支教，助力乡村振兴 bc1bd9748b57
在大数据时代，大量农村青年进城寻求机遇，在工资待遇环境各个方面追求改善，导致大批留守儿童与孤寡老人，教育环境差，师资力量薄弱，这些孩子的教育问题受到大众关注。同时，大学毕业生在求职时也更加倾向于留在大城市，发展较快的地方寻求更大的发展机遇。当然也不乏大学生回乡为新一代的成长奉献自己，通过支教或者直接就业的形式，为乡村孩子的成长奉献自己的力量。有一些有才华的人放弃自己在大城市继续深造的机会，专心于这
时序数据库：数据库领域的未来之星数据库管理艺术数据库专家之路大数据AI人工智能 MCP&Agent SQL实战数据库时序数据库 ai
时序数据库：数据库领域的未来之星关键词：时序数据库、时间序列数据、物联网、大数据分析、数据库优化、TSDB、实时数据处理摘要：本文深入探讨了时序数据库(TimeSeriesDatabase,TSDB)这一新兴数据库技术。我们将从基本概念入手，分析时序数据库的核心原理和架构设计，详细讲解其特有的数据模型和存储机制。通过实际代码示例展示如何使用主流时序数据库处理时间序列数据，并探讨其在物联网、金融科技
PyCharm 高效入门指南：从安装到进阶，解锁 Python 开发全流程
作为Python开发者的利器，PyCharm的安装与配置是开启高效编程之旅的第一步。面对Community和Professional两个版本，该如何选择呢？Community版是免费开源的，适合初学者和简单项目开发，包含基础的Python开发功能；而Professional版虽收费，但功能更强大，支持Web开发、数据库连接等高级功能，适合专业开发者和复杂项目。1.安装与配置下载与安装下载PyCha
服务化架构、SOA 与微服务：关系、演进与实战落地全解析要阿尔卑斯吗. 架构微服务云原生
在分布式系统架构面试中，面试官常常会问到一个核心问题：“你能说说服务化架构、SOA和微服务之间到底是什么关系吗？有什么区别？”这并不是一个单纯的理论问题，而是对开发者系统认知和实践经验的综合考察。今天，我们将系统梳理这个话题，结合架构演进历史、核心设计理念、技术实现路径及落地经验，帮助大家理清服务化架构的发展脉络，走好系统设计之路。一、什么是服务化架构？它与SOA、微服务是什么关系？首先需要明确一
MySQL 大数据量分页查询优化实战：从 90秒到 965毫秒的性能飞跃要阿尔卑斯吗. mysql 数据库分布式架构 java
在日常开发中，我们经常需要对数据库中的数据进行分页展示。特别是当表数据量达到几十万甚至上百万级时，传统的LIMIT分页方式会面临严重的性能瓶颈。今天，我将分享一个真实的性能优化案例，通过模拟大页码查询的现场，从90秒缩短到965毫秒，显著提升了查询效率。本篇文章将从问题出现的原因、索引原理、优化思路和最终实战效果等方面，为你全面讲解如何高效处理MySQL大数据分页查询问题。一、问题背景：大页码分页
全面解析阿里巴巴 Seata：微服务架构下的分布式事务解决方案(AT模式) 要阿尔卑斯吗. 架构微服务分布式
在微服务架构盛行的今天，系统被拆解成多个独立服务，每个服务对应独立的数据库。这种“服务自治”的设计虽然提高了系统可维护性和扩展性，却带来了新的难题——分布式事务一致性问题。为了保障跨服务、跨库操作的原子性，阿里巴巴开源了一个优秀的解决方案：Seata（SimpleExtensibleAutonomousTransactionArchitecture）。本文将从背景动因、整体架构、核心原理、事务模型
微电网系列之规划和运行控制云纳星辰怀自在微电网规划微电网运行控制
个人主页：云纳星辰怀自在座右铭：“所谓坚持，就是觉得还有希望！”微电网规划设计与经济运行微电网规划需紧密结合运行策略，基于当地资源优化配置分布式发电单元并设计网络结构，以实现可靠、安全、经济、环保的目标；其运行则依赖能量管理系统，通过灵活调度分布式电源、储能和负荷来实现动态优化分配，最终达成经济高效、绿色优质的供电。微电网规划设计的核心目标与内容目标：实现可靠性、安全性、经济性和环境友好性的多目标
.NET CORE 分布式事务(四) CAP实现最终一致性精神小伙就是猛 .netcore 分布式架构微服务
目录引言：1.0最终一致性介绍2.0CAP2.0架构预览3.0.NETCORE结合CAP实现最终一致性分布式事务3.1准备工作(数据库，本文使用的是MySql)3.1.1数据模型3.1.2DbContext3.1.3数据库最终生成3.2Nuget引入3.3appsettings.json3.4docker启动一个RabbitMQ3.5Program.cs3.6用户1API控制器3.7用户2API控
老码农和你一起学AI：Python系列-Pandas大数据处理 chilavert318 熬之滴水穿石 pandas python
今天开始梳理一下pandas的大数据处理，在数据处理领域，Pandas凭借简洁的API和强大的功能成为Python开发者的首选工具。但当面对GB级甚至更大的数据集时，直接读取数据往往会触发“内存不足”的错误——这是因为Pandas默认将数据全部加载到内存中进行处理。此时，分块处理（Out-of-Core）技术就成为解决问题的关键。它通过将大文件拆分为小块，逐块加载并处理，最终整合结果，实现“用有限
XC7A75T‑2FGG484I Xilinx Artix‑7 FPGA AMD
XC7A75T‑2FGG484I属于Xilinx28 nmArtix‑7FPGA内部包含约75,000个查找表（LUT）及相应触发器，对应数十万级组合逻辑和状态存储；它还集成了4.9 Mb的分布式BlockRAM，满足高速缓存与FIFO需求；240个DSP48E1乘加单元为数字信号处理、滤波器及乘法累加运算提供硬件加速。超网格（super‑net）布局与高效的路由交换矩阵，确保了内部时钟域频率可达
关于线上技术学习的一点学习心得 GuangHui
我是**五期学员,和你分享一下我的学习心得,希望能够帮助到你.这是自己对于学习的思考和想法,因为我还在不断的学习和调整中,所以并不能说自己的所想都是正确的.我想即使我实现了成功的转行,也并不代表我说的我所选择的方式都是适合所有人的.每个人还需结合自己的实际情况,找到适合自己的最佳方法.我们一起努力.一.目标篇因为大数据需要学习的内容很多,所以学习过程中,一定要对进行定位,要做到有所取舍.针对自己的
贝融助手是什么？贝融助手是专业的大数据信用查询平台无忧达人
贝融助手是一个可以快速了解自己信用的工具，是一个生活中非常实用的小助手，信用是现在最重要的一个生活场景，人人都想有一个好的信用，贝融助手就是帮助我们查询自己信用的平台。贝融助手是一个非常专业的平台，贝融助手18年就上线了，到现在已经有很多年的历史了，在信用行业一直都是行业前三的平台，用户量也是非常的大，身边朋友都在用的平台。贝融助手查询入口放在文末了，划到文章结尾就可以看到查询入口贝融助手大数据信
从AWS MySQL数据库下载备份到S3的完整解决方案 AWS官方合作商数据库 aws mysql
本文将介绍两种主流方法将AWSRDSMySQL数据库备份下载到S3，适用于生产环境需求。方法一：通过RDS快照导出（AWS原生方案）适用场景：全量备份、大数据量、无需额外计算资源流程：创建数据库快照进入AWSRDS控制台→选择目标MySQL实例→点击"操作"→"拍摄快照"输入快照名称（如my-db-snapshot-2024）配置S3导出任务在RDS控制台左侧菜单选择快照→选择刚创建的快照点击"操
基于STM32的语音播报小项目课程设计程序开源看，是大狗 stm32 开源嵌入式硬件
目录单片机毕业设计论文前言单片机毕业设计功能介绍设计视频演示单片机课程设计设计论文前言随着科技的飞速发展和智能化时代的到来，人们对环境监测的需求日益增加，尤其是在温度监测方面，精准、实时的温度数据对于工业生产、农业生产以及日常生活都具有重要意义。传统的温度监测系统往往功能单一，缺乏实时反馈和智能化处理能力，难以满足现代应用场景的需求。近年来，嵌入式系统、传感器技术和语音交互技术的快速发展，为温度监
java毕业设计-基于Javaweb的家常小菜烹饪学习管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿刘 vue spring boot 毕业设计 java 课程设计学习
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费开题报告、任务书、全bao定制+
java毕业设计源码案例-基于ssm+协同过滤的个性化小说推荐系统设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 项目帮 springboot java 计算机毕设 java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
碳中和碳交易骗局揭晓！第七届内部操盘群伍戈被骗黑幕曝光!血泪事迹令人惊心! 昌龙律法
如今大家生活好了，手里或多或少有点闲钱了。就开始想着怎么赚更多的钱！这也使得各种投资市场很火爆，无孔不入的骗子们又暗戳戳上线了，利用人们对赚钱的渴望，打着网络投资的旗号实施诈骗。随着“互联网+”的发展，万物皆可“数字经济”的“数字大数据”投资项目走入现实生活中。但是有不法分子就利用了这一“商机”，将数字投资变为新型找形式，并且利用洗脑话术，核心骗术仍然是高额返利，让人不知不觉掉进提前布局的“陷阱”
pyautocad 的项目扩展与二次开发
pyautocad的项目扩展与二次开发1.项目的基础介绍pyautocad是一个开源项目，它提供了一个Python库，用于与AutoCAD进行交互。通过这个库，开发者可以在Python脚本中调用AutoCAD的功能，实现自动化的绘图、修改和管理等功能。该项目的目标是让开发者能够更加便捷地控制AutoCAD，提高工作效率。2.项目的核心功能pyautocad的核心功能包括：与AutoCAD的COM接
大模型日报10月21日大模型空间站人工智能
资讯篇资讯01清华开源混合精度推理系统MixQ量化权重与激活：MixQ同时量化权重和激活，使用INT8/INT4张量核心进行推理加速，并通过FP16张量核心处理少量激活中的离群值，既保持精度又提升吞吐量。其混合精度量化策略使推理精度几乎无损，精度下降不到0.1%。等价变换优化计算图：MixQ基于离群点的局部性，优化了混合精度推理的计算图，避免了重复检查离群点的开销。通过量化系数中的amax值判断矩
计算机专业大数据毕业设计-基于 Spark 的音乐数据分析项目(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥数据可视化计算机毕设 spark 大数据课程设计 spark
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
筑牢网络安全防线：DDoS/CC 攻击全链路防护技术解析上海云盾-高防顾问 web安全 ddos 安全
在数字化时代，DDoS（分布式拒绝服务攻击）和CC（ChallengeCollapsar）攻击已成为威胁网络服务稳定性的“头号杀手”。DDoS通过海量流量淹没目标服务器，CC则通过模拟合法请求耗尽应用资源。本文将深入解析这两种攻击的防护技术，构建从网络层到应用层的全链路防御体系。一、DDoS/CC攻击原理与威胁1.DDoS攻击：流量洪泛的“数字洪水”原理：利用僵尸网络向目标发送大量数据包（如UDP
ZooKeeper学习专栏（三）：ACL权限控制与Zab协议核心原理
文章目录前言一、ACL访问控制列表二、原子广播协议（Zab协议）总结前言在分布式系统中，安全访问控制和一致性保证是两大核心需求。本文将深入探讨Zookeeper的ACL权限控制机制和Zab协议的核心原理，帮助读者理解Zookeeper如何保障数据安全性和系统一致性。一、ACL访问控制列表ACL(AccessControlLists)是Zookeeper保护ZNode数据安全的关键机制，它定义了哪些
【laravel+redis】分布式锁的实现起灵人 php laravel redis laravel redis php
laravel官方支持“原子锁”，并且说“要使用这个功能，应用必须使用memcached、dynamodb、redis、database或array缓存驱动作为应用默认的缓存驱动，此外，所有服务器必须和同一台中央缓存服务器进行通信”。前半句不多解释，后半句也强调了laravel的原子锁不负责在集群架构中保障故障转移期间的数据安全性。我贴一下laravel的源码看一下它是怎样用redis实现的分布式
PHP 性能优化全攻略：提升 Web 应用速度的关键来恩1003 PHP 从入门到精通 php 性能优化前端
PHP学习资料PHP学习资料PHP学习资料在Web开发领域，PHP凭借其简单易用、开源免费等特性，成为众多开发者构建网站和应用的首选语言。然而，随着业务的发展和用户量的增加，PHP应用的性能问题逐渐凸显。性能不佳不仅会导致用户体验下降，还可能影响业务的发展。因此，对PHP代码进行性能优化至关重要。本文将深入探讨PHP性能优化的各个方面，包括缓存的使用、代码优化策略以及服务器配置优化等，帮助开发者打
智慧水库信息化系统建设产品需求文档V2.0 小赖同学啊 test Technology Precious 物联网
智慧水库信息化系统建设产品需求文档1.引言1.1文档目的本文档旨在明确智慧水库信息化系统的建设需求，为系统设计、开发和实施提供全面依据，确保系统功能满足水库管理业务需求，提升水库管理的智能化水平和决策效率。1.2背景介绍传统水库管理面临数据采集不及时、分析手段有限、决策依赖经验等问题，难以应对复杂多变的水文情势和日益增长的管理需求。随着物联网、大数据、人工智能等技术的发展，智慧水库建设成为必然趋势
从零开始学 Linux：循序渐进的学习指南我爱学嵌入式 Linux基础 linux 服务器
Linux作为一款开源、稳定且安全的操作系统，在服务器领域、嵌入式开发、云计算等场景中占据着举足轻重的地位。对于程序员、运维工程师或IT爱好者而言，掌握Linux技能已成为一项核心竞争力。但面对命令行界面和复杂的系统架构，很多初学者往往感到无从下手。本文将为你梳理一条清晰的Linux学习路径，助你从入门到精通。一、明确学习目标：为什么学Linux？学习Linux前需明确目标，不同目标对应不同的学习
9.20其二道左无人
做一家服务公司，为下面的公司提供一些事务性的管理、财务管理、风险管理的服务，粘住一个大圈子的HR，通过下面的公司做掉项目，为HR提供一个稳定的资源变现的渠道；做一家科技公司，提供线上的平台运营，大数据采集，以及基于这个基础上的卖货、信贷等服务做一家连锁企业，每一家门店都是独立的企业，提供招聘、引流以及终端服务所以外部通过众筹绑定大批量的HR，就会有稳定的订单，通过服务公司提供服务，通过终端门店保证
黄仁勋链博会演讲实录：脱掉皮衣，穿上唐装，中文开场
黄仁勋一度尝试用中文开场，他说，“我在美国长大，学到了很多汉语。”他表示，像DeepSeek、阿里巴巴、MiniMax、百度，他们开发的产品都是世界级的，推动了全球人工智能的发展。中国的开源AI是全球进步的催化剂，以至于全世界各个行业都有机会加入到AI革命当中。7月16日，黄仁勋身着唐装出席了第三届链博会，在此之前，他身着标志性皮衣出席多个场合活动。在此之前，英伟达官宣获得H20芯片对华的出口许可
只靠可视化大屏，做不了数字化，数据总监总结3点，你做到了几个大数据的那些事
企业数字化是很多企业热衷的话题。本文的数字化指各行业头的头部企业的端到端数字化解决方案，常见部署于华为专有云、阿里私有云、亚马逊云，项目金额一般百万起步，上不封顶。很多企业投人、投钱数字化，都希望有个酷炫的数据大脑，政府、合作伙伴来参观时，用酷炫的数据大脑让来宾们啧啧称赞。热闹散去后，企业内部的各部门，天天围着数据挖宝，大数据快告诉我，下个月能卖多少，哪几个渠道卖得不好，哪条生产线有问题，哪些货压
hive底层原理 sql执行过程_Hive原理总结（完整版）
目录课程大纲(HIVE增强)31.Hive基本概念41.1Hive简介41.1.1什么是Hive41.1.2为什么使用Hive41.1.3Hive的特点41.2Hive架构51.2.1架构图51.2.2基本组成51.2.3各组件的基本功能51.3Hive与Hadoop的关系61.4Hive与传统数据库对比61.5Hive的数据存储62.Hive基本操作72.1DDL操作72.1.1创建表72.1.
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class