嗷嗷的特Man

Spark基础之：rdd的特性，DAG，Stage的理解

rdd的特性，DAG，Stage的理解

RDD
结构化理解
RDD的数据集与Partitions
Partitioner
Dependencies与Lineage
NarrowDependency与ShuffleDependency
为什么区分窄依赖和宽依赖？
Stage
Checkpoint
Iterator和Compute
StorageLevel
PreferredLocation
Sparkcontext
sparkconf
transformations
actions

RDD

RDD(Resilient Distributed Datasets,弹性分布式数据集)，是Spark最为核心的概念，自然也是理解Apache Spark 工作原理的最佳入口之一。

RDD的特点：

是一个分区的只读记录的集合；
一个具有容错机制的特殊集；
只能通过在稳定的存储器或其他RDD上的确定性操作（转换）来创建；
可以分布在集群的节点上，以函数式操作集合的方式，进行各种并行操作

RDD之所以为“弹性”的特点

基于Lineage的高效容错（第n个节点出错，会从第n-1个节点恢复，血统容错）；
Task如果失败会自动进行特定次数的重试（默认4次）；
Stage如果失败会自动进行特定次数的重试（可以值运行计算失败的阶段），只计算失败的数据分片；
数据调度弹性：DAG TASK 和资源管理无关；
checkpoint；
自动的进行内存和磁盘数据存储的切换；

结构化理解

查阅了很多资料基本都没有介绍RDD长什么样子的，什么样的结构，都说里面有依赖、有分区，但是长什么样呢？对它没有一点头绪，我想初学者一定是和我一样的。

没有结构图，怎么理解RDD？上图！（自己瞎做的图，基本借鉴这位博主，不准确的地方请指正）

RDD的数据集与Partitions

具体参考分区的具体分析+源代码分析
RDD是一个只读的有属性的数据集。属性用来描述当前数据集的状态，数据集是由数据的分区（partition）组成。
RDD 内部的数据集合在逻辑上和物理上被划分成多个小子集合，这样的每一个子集合我们将其称为分区（partitions），分区的个数会决定并行计算的粒度，而每一个分区数值的计算都是在一个单独的任务中进行，因此并行任务的个数，也是由 RDD分区的个数决定的。

但事实上，RDD 只是数据集的抽象，分区内部并不会存储具体的数据。Partition 类内包含一个 index 成员，表示该分区在 RDD 内的编号，通过 RDD 编号 + 分区编号可以唯一确定该分区对应的块编号，利用底层数据存储层提供的接口，就能从存储介质（如：HDFS、Memory）中提取出分区对应的数据。下面是Partition 类的代码：

trait Partition extends Serializable {
  /**
   * Get the partition's index within its parent RDD
   */
  def index: Int
  // A better default implementation of HashCode
  override def hashCode(): Int = index
}

Partitioner

Partitioner决定RDD的分区方式。
RDD的分区方式主要包含两种（HashPartitioner和RangePartitioner），这两种分区类型都是针对Key-Value类型的数据。如是非Key-Value类型，则分区为None。 Hash是以key作为分区条件的散列分布，分区数据不连续，极端情况也可能散列到少数几个分区上，导致数据不均等；Range按Key的排序平衡分布，分区内数据连续，大小也相对均等。

Dependencies与Lineage

图中最显眼的一定是Dependencies（依赖），它扩展出了一个箭头到前面一个块。Parents在很多面向对象的计算机语言可以知道它表示“继承”，在RDD中的Dependencies意思略有不同。看一段实际操作的Spark代码：

lines = spark.textFile("hdfs://...")
errors = lines.filter(_.startsWith("ERROR"))
errors.cache()// Count errors mentioning MySQL:
errors.filter(_.contains("MySQL")).count()
// Return the time fields of errors mentioning
// HDFS as an array (assuming time is field
// number 3 in a tab-separated format):
errors.filter(_.contains("HDFS"))
    .map(_.split('\t')(3))
    .collect()

这段代码可以化为如下图的流程（图和代码都是盗来的）：

在每次transformations操作时，都是重新创建了一个新的RDD2，这个RDD2时基于原有的RDD1，RDD1是RDD2的Parents，也就是说这个RDD2依赖于RDD1。这些依赖描述了RDD的Lineage（血统）。

NarrowDependency与ShuffleDependency

如果父RDD的每个分区最多只能被子RDD的一个分区使用，我们称之为（narrow dependency）窄依赖；
若一个父RDD的每个分区可以被子RDD的多个分区使用，我们称之为（wide dependency）宽依赖，在源代码中方法名为ShuffleDependency，顾名思义这之中还需要Shuffle操作。

窄依赖每个child RDD 的partition的生成操作都是可以并行的，而宽依赖则需要所有的parent partition shuffle结果得到后再进行。

NarrowDependency也还有两个子类，一个是 OneToOneDependency，一个是 RangeDependency

OneToOneDependency，可以看到getParents实现很简单，就是传进一个partitionId: Int，再把partitionId放在List里面传出去，即去parent RDD 中取与该RDD 相同 partitionID的数据

RangeDependency，用于union。与上面不同的是，这里我们要算出该位置，设某个parent RDD 从 inStart 开始的partition，逐个生成了 child RDD 从outStart 开始的partition，则计算方式为： partitionId - outStart + inStart

那么为什么要把依赖分为窄依赖和宽依赖呢？

为什么区分窄依赖和宽依赖？

来源：https://www.jianshu.com/p/dd7c7243e7f9?from=singlemessage
首先，从计算过程来看，窄依赖是数据以管道方式经一系列计算操作可以运行在了一个集群节点上，如（map、filter等），宽依赖则可能需要将数据通过跨节点传递后运行（如groupByKey），有点类似于MR的shuffle过程。
其次，从失败恢复来看，窄依赖的失败恢复起来更高效，因为它只需找到父RDD的一个对应分区即可，而且可以在不同节点上并行计算做恢复；宽依赖则牵涉到父RDD的多个分区，恢复起来相对复杂些。

Stage

Stage可以简单理解为是由一组RDD组成的可进行优化的执行计划。如果RDD的衍生关系都是窄依赖，则可放在同一个Stage中运行，若RDD的依赖关系为宽依赖，则要划分到不同的Stage。这样Spark在执行作业时，会按照Stage的划分, 生成一个完整的最优的执行计划。下面引用一张比较流行的图片辅助大家理解Stage，如图RDD-A到RDD-B和RDD-F到RDD-G均属于宽依赖，所以与前面的父RDD划分到了不同的Stage中。

Checkpoint

尽管当一个RDD出现问题可以由它的依赖也就是Lineage信息可以用来故障恢复，但对于那些Lineage链较长的RDD来说，这种恢复可能很耗时。
Checkpoint是Spark提供的一种缓存机制，当需要计算的RDD过多时，为了避免重新计算之前的RDD，可以对RDD做Checkpoint处理，检查RDD是否被物化或计算，并将结果持久化到磁盘或HDFS。

Checkpoint会把当前RDD保存到一个目录中。
Checkpoint的时候，会把所有依赖的父级rdd信息清除掉。
Checkpoint不会马上执行，要触发action操作的时候才会执行。
因为 Checkpoint会清除父级RDD的信息，所以在Checkpoint应该先做persist（持久化）操作，否则就要重新计算一遍。
一般来说，Lineage链较长、宽依赖的RDD需要采用检查点机制。
Checkpoint的好处显而易见，比如做1000次迭代，在第999次时做了Checkpoint，如果第1000次的时候，只要重新计算第1000即可，不用从头到尾再计算一次。
与spark提供的另一种缓存机制cache相比， cache缓存数据由executor管理，当executor消失了，被cache的数据将被清除，RDD重新计算，而checkpoint将数据保存到磁盘或HDFS，job可以从checkpoint点继续计算。

Iterator和Compute

本节参考来源：http://blog.csdn.net/liben2007/article/details/53700399

Iterator和Compute都是来表示该RDD如何通过父RDD计算得到。
Iterator用来查找当前RDD Partition与父RDD中Partition的血缘关系。并通过StorageLevel确定迭代位置，直到确定真实数据的位置。
Iterator函数实现大体是这么个流程:

若标记了有缓存，则取缓存，取不到则进行computeOrReadCheckpoint(计算或读检查点)。完了再存入缓存，以备后续使用。
若未标记有缓存，则直接进行computeOrReadCheckpoint。
“computeOrReadCheckpoint”这个过程也做两个判断：有做过checkpoint，没有做过checkpoint。做过checkpoint则可以读取到检查点数据返回。无则调该RDD的实现类的compute函数计算。compute函数实现方式就是向上递归“获取父RDD分区数据进行计算”，直到遇到检查点RDD获取有缓存的RDD。

StorageLevel

用来记录RDD的存储级别，在官网中可以看到RDD的存储级别表，这里不多解释：

PreferredLocation

它是一个列表，用于存储每个Partition的优先位置的一个列表。对于每个HDFS文件来说，这个列表保存的是每个Partition所在的块的位置，也就是对这个文件的”划分点“。

Sparkcontext

SparkContext为Spark job的入口，由Spark driver创建在client端，包括集群连接，RddID，创建抽样，累加器，广播变量等信息。

sparkconf

配置信息，即sc.conf
Spark参数配置信息
提供三个位置用来配置系统：
Spark api：控制大部分的应用程序参数，可以用SparkConf对象或者Java系统属性设置
环境变量：可以通过每个节点的conf/spark-env.sh脚本设置。例如IP地址、端口等信息
日志配置：可以通过log4j.properties配置

transformations

根据原有的RDD创建一个新的RDD。
注意：
RDD的所有转换操作都是lazy模式，即Spark不会立刻计算结果，而只是简单的记住所有对数据集的转换操作。这些转换只有遇到action操作的时候才会开始计算。这样的设计使得Spark更加的高效。
例如，对一个输入数据做一次map操作后进行reduce操作，只有reduce的结果返回给driver，而不是把数据量更大的map操作后的数据集传递给driver。
*略

actions

对RDD操作后把结果返回给driver
*略

原文链接：https://blog.csdn.net/u011094454/article/details/78992293

你可能感兴趣的:(spark,big,data,hadoop)

CDP中的Hive3之Hive Metastore（HMS）对许 #Hive #Spark hive cdp
CDP中的Hive3之HiveMetastore（HMS）1、CDP中的HMS2、HMS表的存储（转换）3、HWC授权1、CDP中的HMSCDP中的HiveMetastore（HMS）是一种服务，用于在后端RDBMS（例如MySQL或PostgreSQL）中存储与ApacheHive和其他服务相关的元数据。Impala、Spark、Hive和其他服务共享元存储。与HMS的连接包括HiveServe
mindspeed-llm源码解析（一）preprocess_data 人工智能
mindspeed-llm是昇腾模型套件代码仓，原来叫"modelLink"。这篇文章带大家阅读一下数据处理脚本preprocess_data.py（基于1.0.0分支），数据处理是模型训练的第一步，经常会用到。文章中贴的源码加了相关注释，同学们可以把源码和注释结合起来看。首先来看一下main函数defmain():#获取入参，通过后面的代码可以知道有哪些关键参数args=get_args()#参
【YashanDB知识库】Hive 命令工具insert崖山数据库报错数据库
本文内容来自YashanDB官网，原文内容请见https://www.yashandb.com/newsinfo/7919217.html?templateId=171...【问题分类】功能兼容【关键字】spark30041、不兼容【问题描述】本项目的架构是hadoop+hive+yashandb使用崖山数据库，初始化所有的原数据表和数据新建表之后，插入数据时候报错，hadoopcode30041
ProtonBase 荣获 Datafun “数智技术最佳探索奖”
2024年，数智领域迎来技术创新的高峰，尖端技术和用户案例呈现井喷式增长，成为引领时代潮流的关键词。DataFun社区作为数智前沿阵地，汇聚全球数智精英，推动技术革新和知识共享，助力技术加速发展。由DataFun社区颁发的“星空奖-数智技术最佳探索奖”旨在表彰数智技术领域取得显著成就的创新技术，特别是那些具有卓越创新性、实用性和自主知识产权的产品，解决了用户的实际需求，产生了积极的社会和经济效益。
如何在SpringBoot/MySQL事务中并行执行多条SQL？ springboot
在SpringBoot和MySQL事务中并行执行多条SQL语句，可以通过以下步骤实现：1、配置事务管理器在SpringBoot项目中，需要配置事务管理器来管理事务。通常，可以使用DataSourceTransactionManager作为事务管理器。在配置类中添加如下代码：importorg.springframework.context.annotation.Bean;importorg.spr
单例模式的几种实现方式 dlwlrma-IU LeetCode刷题企业面试真题 java 开发语言
单例模式单例模式是一种常见的设计模式，而关于单例模式的实现又有以下几种实现方式：饿汉单例，懒汉单例，双重校验锁，静态内部类等实现饿汉单例该懒汉单例是线程安全的，但是存在资源浪费的情况，在程序启动时就会创建该类的实例。/***@author:dlwlrma*@data2025年01月15日16:34*@Description单例模式之懒汉单例*/publicclassSingleton{//私有静态
linux安装oracl19c
安装OracleDatabase19c（以下简称Oracle19c）在Linux系统上的详细步骤如下。每一步都经过专业分析，确保安装过程顺利且高效。️1.下载安装包首先，从Oracle官方网站下载OracleDatabase19c的安装包。确保选择与您的Linux发行版和系统架构相匹配的版本。#示例命令（实际下载需通过浏览器或Oracle工具进行）wgethttps://download.orac
XSAN数据恢复-数据从XSAN迁移到STORNEXT过程中丢失的数据恢复案例数据恢复
XSAN数据恢复环境：昆腾存储+MACOS操作系统，存储数据主要是视频类数据如MXF、MOV等格式文件。该昆腾存储中有9个数据卷：1个META信息卷和8个DATA信息卷。XSAN故障情况：将存储空间从XSAN架构迁移到STORNEXT架构后，发现存储空间中数据全部丢失。XSAN数据恢复过程：1、将昆腾存储的存储空间以只读方式进行完整镜像，后续的数据分析和数据恢复操作都基于镜像文件进行，避免对原存储
Flutter本地持久化数据工具类ShareLocalDataTool，方便二次开发
在使用前先倒入shared_preferences:^2.0.15import'package:shared_preferences/shared_preferences.dart';//本地持久化存储工具类classShareLocalDataTool{ShareLocalDataTool._();staticFuturesaveStringList(Stringkey,Listvalues)a
js，scss常用的方法 javascriptcss
获取网页参数functiongetExtraDataByKey(key){varparams={},query=window.location.search.substring(1),arr=query.split('&'),rt;if(arr&&Array.isArray(arr)){arr.forEach(function(item,i){vartmp=item.split('='),key=
关于H5复制ios没有效果 CV大师杨某技术分享工作中遇到的问题学习记录 ios
问题场景：今天遇到这样一个问题，需要从后端接口获取到的值进行复制，且不能提现调用获取值，因为是一个数据列表，每个列表元素需要当场点击调用接口获取值进行复制，本来以为很简单的一个需求，当做好之后发布到线上发现ios机型无效api:uni.setClipboardData原因：这是iOS的安全限制，要求复制操作必须是由用户直接触发的同步操作。如果在异步回调中调用复制API，iOS会认为这不是用户直接触
Linux shell 使用 trap 命令优雅处理程序中断： shell 中的回调、锁与事务、以及 debug 调试
来看一个常见的场景假设你正在开发一个数据备份脚本。这个脚本需要执行以下操作：创建临时工作目录将数据复制到临时目录压缩打包清理临时文件#!/bin/bashWORK_DIR="/tmp/backup_$(date+%Y%m%d)"echo"开始备份..."mkdir-p"$WORK_DIR"echo"创建临时目录:$WORK_DIR"echo"复制文件中..."cp-r/path/to/data"$
初学者如何用 Python 写第一个爬虫？王子良. python 经验分享 python 开发语言爬虫
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
python 软件包 petri_常用Petri网模拟软件工具简介 weixin_39881859 python 软件包 petri
常用Petri网模拟软件工具简介首先要介绍的的一个非常有名的Petri网网站--PetriNetsWorld：我这里介绍的软件大部分在该网站中的ToolsandSoftware中的PetriNetsToolDatabase里可以找到相关的链接。Petri网的相关模拟仿真软件现在已经相当成熟了，在国外已经有很多投入商用的案例。但目前每年的国际性Petri网学术会议上都有一个专题就是：PetriNet
Apache PAIMON 学习潇锐killer 学习
参考：ApachePAIMON：实时数据湖技术框架及其实践数据湖不仅仅是一个存储不同类数据的技术手段，更是提高数据分析效率、支持数据驱动决策、加速AI发展的基础设施。新一代实时数据湖技术，ApachePAIMON兼容ApacheFlink、Spark等主流计算引擎，并支持流批一体化处理、快速查询和性能优化，成为加速AI转型的重要工具。ApachePAIMON是一个支持大规模实时数据更新的存储和分析
MongoDB简介张飞光 mongodb 数据库
MongoDB是一个文档型数据库，数据以类似JSON的文档形式存储。MongoDB的设计理念是为了应对大数据量、高性能和灵活性需求。MongoDB使用集合（Collections）来组织文档（Documents），每个文档都是由键值对组成的。数据库（Database）：存储数据的容器，类似于关系型数据库中的数据库。集合（Collection）：数据库中的一个集合，类似于关系型数据库中的表。文档（D
TypeScript新增接口和更新接口传参定义差异的问题
interfaceUser{id?:string;name:string;age:number;}//新增用户时，id不是必须的，name和age必须，如何给data定义呢？exportconstaddUser=(data:User)=>fetch('/api/user/add',{method:'POST',body:JSON.stringify(data)})//更新用户时，id是必须的，na
大数据新视界 --大数据大厂之 DataFusion：超越传统的大数据集成与处理创新工具青云交 DataFusion 之道大数据新视界 DataFusion 大数据处理数据集成查询处理内存管理 PowerCenter Apache Hive 数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
iOS - TLS（线程本地存储） Batac_蝠猫 iOS底层原理 ios objective-c 开发语言
从源码中，详细总结TLS(ThreadLocalStorage)的实现：1.TLS基本结构//TLS的基本结构structtls_data{pthread_key_tkey;//线程本地存储的键void(*destructor)(void*);//清理函数};//自动释放池的TLSclassAutoreleasePoolPage{staticpthread_key_tconstkey=AUTORE
Redis动态热点数据缓存策略设计冰糖心158 redis 缓存 redis spring
Redis动态热点数据缓存策略设计1.热点数据识别机制1.1计数器方式@ServicepublicclassHotDataCounter{@AutowiredprivateRedisTemplateredisTemplate;//访问计数publicvoidincrementCounter(Stringkey){StringcountKey="counter:"+key;redisTemplate
centos使用dpdk库大隐隐于野 #高性能编程 centos linux 运维
yum-yinstalldpdkdpdk-devel在C++中使用DPDK（DataPlaneDevelopmentKit）库通常涉及到以下几个步骤：安装DPDK、配置编译环境、编写C++代码并链接DPDK库。以下是如何在C++中引用和使用DPDK的详细步骤。1.安装DPDK首先，你需要在系统上安装DPDK。可以通过以下方式进行安装：从源代码编译：下载DPDK源代码：gitclonehttps:/
DDR 带宽的计算与监控算法自动驾驶
DDR带宽（DoubleDataRateBandwidth）是指DDR内存在一秒内可以传输的数据量，通常以GB/s（Gigabytespersecond）为单位。它是衡量内存系统性能的重要指标，直接影响系统的数据吞吐能力。1.如何计算DDR带宽计算DDR理论带宽的公式为：DDR主频*位宽=理论带宽其中，位宽（bitwidth）指的是内存总线的位宽，例如64位、128位、16bit、32bit等，b
java race condition_Java多线程Race Condition vs. Data Race 邢仁 java race condition
http://blog.regehr.org/archives/490Araceconditionisaflawthatoccurswhenthetimingororderingofeventsaffectsaprogram’scorrectness.Generallyspeaking,somekindofexternaltimingororderingnon-determinismisneede
《CPython Internals》阅读笔记：p151-p151 python
《CPythonInternals》学习第9天，p151-p1510总结，总计1页。一、技术总结无。二、英语总结(生词：1)1.marshal(1)marshalingMarshallingormarshaling(USspelling)istheprocessoftransformingthememoryrepresentationofanobjectintoadataformsuitablef
配电系统中DTU与FTU的区别贾贾乾杯网络信息与通信自动化能源制造智能硬件经验分享
在配电系统中，DTU（DataTransferUnit，数据传输单元）与FTU（FeederTerminalUnit，馈线终端单元）是两种重要的远程终端设备，它们在功能和应用场景上存在显著的区别。一、功能差异DTU：主要用于配电系统的数据传输。可以将串口数据转换为IP数据或将IP数据转换为串口数据，并通过无线通信网络（如GPRS、3G、4G、NB-IoT等）进行传送。支持自动心跳、保持永久在线，提
Vue 开发者的 React 实战指南：性能优化篇
作为Vue开发者，在迁移到React开发时，性能优化的思路和方法会有所不同。本文将从Vue开发者熟悉的角度出发，详细介绍React中的性能优化策略。渲染优化对比Vue的响应式系统Vue通过响应式系统自动追踪依赖，只有在数据真正变化时才会触发重渲染{{title}}{{description}}点击次数：{{count}}+1exportdefault{data(){return{title:'标题
springBoot整合mongdb 一决威严-雪雪 2024java开发整理 spring boot 后端 java
1.添加依赖首先，在你的pom.xml文件中添加MongoDB的依赖： org.springframework.boot spring-boot-starter-data-mongodb2.配置MongoDB连接在application.properties或application.yml文件中配置MongoDB的连接信息：spring:data:mongodb:uri:mongodb:/
pandas 大哥喝阔落 pandas
pandasPandas内置数据结构我们知道，构建和处理二维、多维数组是一项繁琐的任务。Pandas为解决这一问题，在ndarray数组（NumPy中的数组）的基础上构建出了两种不同的数据结构，分别是Series（一维数据结构）DataFrame（二维数据结构）：Series是带标签的一维数组，这里的标签可以理解为索引，但这个索引并不局限于整数，它也可以是字符类型，比如a、b、c等；DataFra
大数据学习笔记——zookeeper在hadoop集群中的作用鹅鹅鹅呢 java hadoop 大数据学习 tcp/ip tomcat
zookeeper主要是用来搭建高可用的Hadoop集群，即HighAvailability，简称(HA)测试中集群是可以不需要高可用的，即使用一个namenode即可。但是在生产环境中为了提高集群的可靠性，需要增加一个namenode备用，当active的namenode挂了之后，系统会启动standby的namenode。这就需要zookeeper监控namenode的状态。
PyEcharts 基本图表之词云图开不开心少年头哥题目 python 开发语言
第1关：WordCloud：词云图任务描述本关任务：利用所学知识，按要求自行绘制一个词云图。相关知识为了完成本关任务，你需要掌握：1.Python的基本语法，2.PyEcharts词云图的相关内容。编程要求根据以上介绍，在右侧编辑器补充代码，使用给定数据绘制一个词云图，要求：系列名称设置为空，数据项为data，单词字体大小范围设置为20到100，词云图轮廓设置为全局变量中的SymbolType.D
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他