resouer

以NATS为主线的CloudFoundry原理

本文将试图以CloudFoundry中的消息组件NATS为主要线索，以在CF中广泛使用的并发和网络编程框架EventMachine为侧重，来串联整个CF主线功能的工作原理，力求能用简单直接的方式描述出较多的架构细节和系统设计。

需要准备的知识：

EventMachine(EM)的基础知识和使用方法，可以参考不久前的介绍：Research on EventMachine

关于NATS源码级别的介绍，可以参考我们之前的这篇文章：Research on NATS

一、以NATS为线索部署CloudFoundry的更多细节

我们之前曾写过一系列的基于dev_setup的安装与部署文章：

Part 1、单节点安装：

http://blog.csdn.net/resouer/article/details/7939952

Part 2、基于Iaas进行多节点部署：
http://blog.csdn.net/resouer/article/details/8010756

在上述文章的描述中，我们其实已经可以看到NATS在我们部署CF时所扮演的关键角色。没错，是否跟NATS沟通顺畅，也是我们检验各个组件正常工作的重要标准之一。所以，我们在这里着重解决两个问题：

1、如何以模板为基础安装CF集群？

2、如何为这个集群实现LB和Custom Domain？

回忆一下我们之前的工作步骤：

先按照Step A安装单节点CF的VM
使用该VM做模板，克隆出所需数目的VM
用NATS把每一个安装了完整CF的VM连接起来
进行一些其他配置
分别启动所需的组件

好了，在上面文章的基础上，我们这次提供一个更加清晰的部署策略：（后面的版本组件会不断增加，但是这里的思想是确定的）

Nginx Load Balancer：使用Nginx为Router做负载均衡，绑定LB到*yourdomain.com

Router：作为LB的server，3个节点

Cloud Controller：2个节点，共享文件系统和配置数据库

Health Manager：与CC共用2节点

DEA：3个节点，数量根据应用不同而不同，一般根据资源需求动态添加

Service Gateway：1个节点，不支持集群，一种服务需要一个Gateway

Service Node：2个节点，根据需求可动态添加，一般一种服务1~2个节点

NATS：轻量级不支持集群，只能在单节点上

其他：服务工具类组件，打包组件，用户控制组件各1-2节点（图中未画出，具体类似于service_lifecycle的各个节点）

接下我们需要到这些节点中做下面的简单工作：

1、login到每个VM中，比如CloudController

2、找到./devbox/config/cloud_controller.yml中nats://nats:[email protected]:4222

3、修改该IP为NATS的IP，

4、对其它的node做这项工作，然后启动该节点上需要的那几个组件即可（../vcap_dev start xxx xxx ...）

然后是一些额外的配置工作，包括：

1、配置CC的external_url，以及CC和HM的共享文件和数据库（参见Part 2里的说明以及 Step 5. Other things TODO部分）

2、多个service node的编号

3、单独启动nats节点上的nats-server服务

4、Custom Domain、Muti-router与Nginx LB的配置

需要重点补充下4 的操作。在Part 2 里我们提到过：在你的IaaS层的网络功能里把*.yourdomain.com绑定到这个LB上。这样所有对该URL的访问会首先经过该LB（当然该LB也可以是个Nginx集群）。

而在前面的额外配置中，api.yourdomain.com已经分配给CC了。其实CloudFoundry之所以能解析api.yourdomain.com到你的CC，靠的是Router的路由功能，这在后面的原理部分会详细说明。

所以，当你执行vmc targert api.yourdomain.com时，你的request实际上是这样转发的：

vmc target api.yourdomain.com -> LB -> LB选择某一个Router -> Router选择某一个CloudController

二、以NATS和EM为主线的CloudFoundry源码导读

1、NATS

这里我们关注的问题有两个：
1、NATS客户端的生命周期与组件的运行关系如何？
2、NATS是否负责处理CF中所有管理类消息的中转？

首先强烈学习官方的README：https://github.com/derekcollison/nats

阅读源码的话，请重点关注server,connection,sublist这几个部分，动手实验的时候使用nats-server -c "your_config_file"来用自己新写的配置文件启动nats server。具体的参数表在这里：

https://github.com/derekcollison/nats/blob/master/lib/nats/server/options.rb#L10

NATS作为CF的神经网络，负责者组件之间的通讯和交互工作：

• NATS基于 Topic

• 发布者以 Topic 发送消息

• 订阅者订阅特定 Topic 并收到
这种策略下，发布者与订阅者不需要相互知道，只要按照订阅的主题进行发布，订阅者就能收到消息。

每个CF组件的启动，很多都需要启动EventMachine和NAST，并在NATS启动过程中做下面几个事情：

  EM.epoll # EM默认使用select系统调用，所以这里往往使用处理能力更高的epoll调用

  EM.run do 
    ...
    NATS.start(:uri => @config['mbus']) do
      configure_timers # 设置基于EM的定时器

      register_as_component # 向VCAP::Component注册本组件的信息以便监控本组件信息
      
      subscribe_to_messages # 设定订阅列表
    end
    ...
  end

其实，并不是所有的消息传递都是有NATS来做的，NATS在CF中起作用的场景应该是这样描述：

Publisher并不知道也没有必要关心Subscriber的存在和数量，同样后者对前者的存在也无需关心，更重要的是Pub和Sub的工作机制应该是基于“事件“和”响应“的。

所以，对于有一些需要在知晓对方信息的基础上建立通信的场合，CloudFoundry中会采用HttpSever的方式来响应request，比如用户经由Router访问到应用instance，以及Service Gateway与CloudController之间的关系。下面的图示向您展示了这种不同的信息传递方式在CF中的使用场合：

在上图中我们可以清晰地看到，只有蓝色线画出的场景（当然图中给出的只是比较典型的几个场景）才是NATS的主要用武之地。不过，NATS以及EM为我们提供的并不只只是消息的传递，而是基于消息和事件驱动的编程方式以及松耦合和自治式的组件结构。

NATS的通信机制基于EM所提供的TCP连接功能。每次会话起始于NATS客户端发起请求与服务器端建立连接，然后NATS服务器端回复一条自己的INFO信息作为响应，这样简单的过程之后NATS就已经可以工作了。

NATS的消息协议非常简单：所有的消息都由一个操作指令开头，然后各个参数以空格分开跟在操作指令之后。比如，NATS发布消息的一条完整指令为：PUB <TOPIC> <REPLY_TO><MSG_SIZE>，当服务器端收到这条指令之后它会转到“等待数据”的状态，并等待客户发出一条包含消息内容的指令：PUB <PAYLOAD>，然后服务器端收到客户端发来的消息内容：payload。这样publish的工作就完成了。同理，NATS订阅消息的过程也是类似的。我们在这里给出一次订阅和发布交互中TCP数据流的顺序图:

我们可以看到这次sub-pub的交互过程如下：

1. 双方的连接成功建立之后（CONNECT操作成功得到响应之后），客户端首先订阅了主题为foo的消息，SID为1。

2. 服务器端会记录下这主题和SID并响应+OK。

3. 客户端发布了一个主题为foo的消息，长度为12，然后紧接着发来了消息数据“Hello World!”。

4. 服务器端通过主题匹配找到该主题订阅者的SID是1，于是服务器端把这个消息的主题foo，SID值1，还有消息本身携带的数据“Hello World!”一起返回给客户端。

客户端根据SID =1从自己维护的订阅者列表里找到对应的订阅者，然后把服务器端返回来的数据交给订阅者去使用，一次对PUB操作的响应也就完成了。
NATS服务器端负责进行主题匹配的数据结构被称作Sublist，关于这部分数据结构的存储可以参考前面有关NATS原理的文章。

2、Router

Router作为CF的请求访问分配与转发门户，主要承担着以下四种任务：

处理所有来访的HTTP流量
将对URL的访问路由至具体的实例或CF组件
应用实例之间分发流量实现均衡负载
从DEAs获得信息并实时更新路由表

我们这里重点关注的问题是：

1、Router究竟是如何实现了某个域名与IP的绑定功能？

2、Router选择instance的策略是怎样的？

上图展示了Router的工作流程，它的原理其实很容易描述：

组件和应用实例均被注册到某个ULR上
Nginx通过lua脚本把lookup请求发送给一个由ruby代码建立的http server
Server根据URL查询注册信息，选择某一具体的ip:port，转发请求
Session Sticky：将被转发给上次访问的应用实例

所以这里Router订阅的消息无外乎两种：register和unregister

    def setup_listeners
      NATS.subscribe('router.register') { |msg|
        msg_hash = Yajl::Parser.parse(msg, :symbolize_keys => true)
        return unless uris = msg_hash[:uris]
        uris.each { |uri| register_droplet(uri, msg_hash[:host], msg_hash[:port],
                                           msg_hash[:tags], msg_hash[:app]) }
      }
      NATS.subscribe('router.unregister') { |msg|
        msg_hash = Yajl::Parser.parse(msg, :symbolize_keys => true)
        return unless uris = msg_hash[:uris]
        uris.each { |uri| unregister_droplet(uri, msg_hash[:host], msg_hash[:port]) }
      }
    end

而它们对应的回调函数在这里： https://github.com/cloudfoundry/router/blob/master/lib/router/router.rb#L171 代码段中可以看到：

log.info "Registering #{url} at#{host}:#{port}"

log . info " #{ droplets . size } servers available for #{ url } "

这就是我们很熟悉的Router启动时打印出的一系列的register log

Router中app的信息是需要不断轮询着的，所以会有一个check_registered_urls定时被执行。值得注意的是，在此期间会有这样的判断：

 to_drop << droplet if ((start - droplet[:timestamp]) > MAX_AGE_STALE)

然后符合该条件的instance会被unregister掉。这里的“陈旧instance“是通过时间戳来判断的，默认2min内没有被更新时间戳的instance会被抛弃，而负责更新instance时间戳的工作由DEA负责。

在Router的这个部分中有一处EM与NATS的非常典型的用法：

   def setup_sweepers
      @rps_timestamp = Time.now
      @current_num_requests = 0
      EM.add_periodic_timer(RPS_SWEEPER) { calc_rps }
      EM.add_periodic_timer(CHECK_SWEEPER) {
        check_registered_urls
      }
      if @enable_nonprod_apps
        EM.add_periodic_timer(@flush_apps_interval) do
          flush_active_apps
        end
      end
    end

而在flush_active_apps这个方法中，我们看到了EM的一种使用模式：先使用defer将任务放到线程池中进行处理，但是在执行期间，又需要在主线程中通过NATS发布消息，于是使用到了next_tick回到Reactor周期中来执行：

def flush_active_apps
      ... ...

      EM.defer do
        msg = Yajl::Encoder.encode(@flushing_apps.to_a)
        zmsg = Zlib::Deflate.deflate(msg)

        log.info("Flushing active apps, app size: #{@flushing_apps.size}, msg size: #{zmsg.size}")
        EM.next_tick { NATS.publish('router.active_apps', zmsg) }

        @flushing = false
      end

Router的另一个核心部分就是router/ lib/router/router_uls_server.rb，这个文件为Router建立起了负责处理来访URL的一个基于sinatra的HTTPserver （图中的upstream locator svc）。

见：https://github.com/cloudfoundry/router/blob/master/lib/router/router_uls_server.rb#L10

这部分的可读性非常强：

Router首先解析该request body

# Parse request body
    uls_req = JSON.parse(body, :symbolize_keys => true)
    raise ParserError if uls_req.nil? || !uls_req.is_a?(Hash)
    stats, url = uls_req[ULS_STATS_UPDATE], uls_req[ULS_HOST_QUERY]
    sticky = uls_req[ULS_STICKY_SESSION]

如果访问类型是URL的话，直接在这个server上查询URL的注册信息：

      # Lookup a droplet
      unless droplets = Router.lookup_droplet(url)
        Router.log.debug "No droplet registered for #{url}"
        raise Sinatra::NotFound
      end

然后做判断：如果来访的request是带session的，那么直接路由到上一次访问的instance中：

droplet = check_original_droplet(droplets, host, port)

否则的话，从刚刚lookup到的droplet中随机选择一个。最后组装一个response以便client端获取正确的响应：

    uls_response = {
        ULS_STICKY_SESSION => new_sticky,
        ULS_BACKEND_ADDR => "#{droplet[:host]}:#{droplet[:port]}",
        ULS_REQUEST_TAGS => uls_req_tags,
        ULS_ROUTER_IP => Router.inet,
        ULS_APP_ID => droplet[:app] || 0,
      }

这样，你的request 就被转发到目的地了。

需要注意的是：对于Router而言，组件和instance都是一样的，所以在register时，CloudController，uaa，service_broker等组件都会被注册到Router中。比如api.vcap.me其实就是注册到了CC的ip:port上。这样，你的管理类型指令也是由Router进行转发的。

最后有一些问题要说明，这种结构下Router本身需要启动一个HTTPserver ：client -> [ nginx -> lua ->http server ] -> CF。这其实是两次转发，更好的设计是不必再次经过一次server就能够被路由出去。

3、CloudController

用户控制
与stager模块一起对应用进行打包上传和预处理
应用和服务的生命周期管理
应用运行资源管理
通过RESTfulAPI来进行交互

CC就是api.vcap.me对应的节点，是整个集群的管理中枢。CC是一个典型的ROR项目，所以熟悉下ROR的目录结构对于这部分的研究是很有帮助的，这里是篇极好的guide： http://ihower.tw/rails3/firststep.html

在../config/routes.rb里定义了客户端（比如vmc）与CF进行交互的API。熟悉ROR的话，我们就可以在/app目录下很快的定位到对于的controller。

与应有有关具体的业务逻辑由app_manager类负责，这一部分也是最值得钻研的部分，比如启动应用的start_instance(message, index)，寻找DEA的find_dea_for(message)方法等等。而从NATS的角度来看，CC 功能可以这么描述：

根据用户发来的指令，组装所需的信息（MSG），然后使用NATS.publish广播出去，这样订阅了对应主题的组件就能够按照指令的意图完成后续操作。这个例子在一开始NATS的部分就已经提到了。由于在接下来我们会不断涉及到CC的实际工作，所以这里不做单独分析。

4、Stager

CC的一个重要作用就是与Stager合作，制作droplets，并它们部署到合适的DEA运行起来。Stager就是用来接管制作droplets的组件。这里我们关注问题是：

1、打包的过程具体是在所什么？

2、CF到底如何为我们的APP提供运行容器呢？

应用之所以能够运行起来，以java web为例子，用户端上传的只是可执行文件以及外部依赖（war包）而已，而这些可执行文件需要放在容器中才能运行的。所以在staging的过程中，很重要的一点就是制作一个bits+server组成的“可运行起来的Droplet”。CloudFoundry提供的embeded server 是Tomcat。

Stager其实只是一个入口，它通过图示的方式调用staging plugin来执行打包操作，这样的设计方便开发者对CF进行扩展以支持其他的runtime，所以staging plugin也被单独抽象成了gem包。

java_web的plugin主要做两个事情：

1、将war包解压出来后放到Tomcat的ROOT目录下，这样将来直接执行./bin/catalina.sh run就能运行起来这个server并使应用能被访问到

2、配置Tomcat的catalina_opts，使得该Tomcat能够使用到DEA中的runtime。

另外，如果我们看下这个Tomcat的配置文件模板：https://github.com/cloudfoundry/vcap-staging/blob/master/lib/vcap/staging/plugin/java_web/resources/generate_server_xml，我们会发现shutdown的端口被设为dsable：

<Server port="-1">

这是因为CF中的应用访问端口是分配出来的，指定shutdown端口反而会kill掉正常的CF进程。

关于CF中server到底要做哪些修改才能正常运行，推荐阅读 http://cnblog.cloudfoundry.com/?p=382

这篇文章使用standalone方式支持Tomcat7就是模拟staging的工作，把tomcat7+app作为一个整体部署到CF上运行起来的实例。所以在CF中如何支持jetty，weblogic等容器的方法，相信大家也略知一二了。

5、DEA

NOTE：我们这里的DEA略有过时，这个版本还没有warden，不过新版的stable的dea_ng应该已经在github上了。另外，DEA中使用fiber（ruby的一种非抢占式多线程模型）来处理比如下载打包之类的耗时操作，这与其他组件有所不同。

这里我们关注的问题包括：

1、应用到底是如何启动的？

2、执行push的时候，CF如何从几个DEA之间做出选择？

3、DEA怎样获得droplets文件来运行？

4、应用的监控是怎样的？

大家都知道DEA是应用运行的主场，也是整个PaaS中与应用关系最密切的部分，所以我们不妨先通过一个场景来描述其工作方式：

当我们启动一个app instance的时候，DEA节点会从指定位置下载一个Droplet的副本启动起来
如果我们扩展该app到10个instances，那这个Droplet就被会复制十份
CF通过NATS来“发现”DEA，DEA根据自己的“能力”来立即或推迟响应请求，instance会被下载到最先响应的DEA上启动
启动后的instance会被分配PID和响应端口，它会将自己的IP+Port信息注册到Router中对应的URL下
DEA负责把应用实例的运行状态定时报告给HealthManager

整个过程如下图所示：

前面已经提到过，DEA start的时候，在../lib/dea/agent.rb除了初始化各个变量外，还会订阅一系列的消息，最后在向其他组件广播自己启动的消息：

        # Setup our listeners..
        NATS.subscribe('dea.status') { |msg, reply| process_dea_status(msg, reply) }
        NATS.subscribe('droplet.status') { |msg, reply| process_droplet_status(msg, reply) }
        NATS.subscribe('dea.discover') { |msg, reply| process_dea_discover(msg, reply) }
        NATS.subscribe('dea.find.droplet') { |msg, reply| process_dea_find_droplet(msg, reply) }
        NATS.subscribe('dea.update') { |msg| process_dea_update(msg) }
        NATS.subscribe('dea.stop') { |msg| process_dea_stop(msg) }
        NATS.subscribe("dea.#{uuid}.start") { |msg| process_dea_start(msg) }
        NATS.subscribe('router.start') {  |msg| process_router_start(msg) }
        NATS.subscribe('healthmanager.start') { |msg| process_healthmanager_start(msg) }
        NATS.subscribe('dea.locate') { |msg|  process_dea_locate(msg) }

        # Recover existing application state.
        recover_existing_droplets
        delete_untracked_instance_dirs

        EM.add_periodic_timer(@heartbeat_interval) { send_heartbeat }
        EM.add_periodic_timer(@advertise_interval) { send_advertise }
        EM.add_timer(MONITOR_INTERVAL) { monitor_apps }
        EM.add_periodic_timer(CRASHES_REAPER_INTERVAL) { crashes_reaper }
        EM.add_periodic_timer(VARZ_UPDATE_INTERVAL) { snapshot_varz }
        EM.add_periodic_timer(DROPLET_FS_PERCENT_USED_UPDATE_INTERVAL) { update_droplet_fs_usage }

        NATS.publish('dea.start', @hello_message_json)
        send_advertise

这里很多的订阅是带有reply的，这意味着回调方法执行结束后需要使用 NATS.publish(reply, response.to_json) 来返回处理结果。
所以，我们在这一部分按照NATS为主线进行研究是再适合不过的了。

send_heartbeat方法是DEA向HM发送心跳的部分，这个heartbeat是HM监视DEA中instance状态的重要部分，至于HM收到这个心跳之后做什么我们在HM的部分说。

大多数方法都能直接从名字和逻辑中判断个差不多，这里我们单独看几个有意思的地方：

1、process_dea_discover(message, reply)

     ......
        # Pull resource limits and make sure we can accomodate
        limits = message_json['limits']
        mem_needed = limits['mem']
        droplet_id = message_json['droplet'].to_i
        if (@reserved_mem + mem_needed > @max_memory)
          @logger.debug('Ignoring request, not enough resources.')
          return
        end
        delay = calculate_help_taint(droplet_id)
        delay = ([delay, TAINT_MAX_DELAY].min)/1000.0
        EM.add_timer(delay) { NATS.publish(reply, @hello_message_json) }
    ... ...

我们可以看到DEA是如何响应“发现DEA”的：在前面check过空间，runtime等支持后，DEA首先判断DEA的内存是否足够，然后调用calculate_help_taint来计算一个延迟，最后使用根据这个延迟时间来做出响应。而这个计算延迟的部分就更清晰了：

  def calculate_help_taint(droplet_id)
      # Calculate taint based on droplet already running here, then memory and cpu usage, etc.
      taint_ms = 0
      already_running = @droplets[droplet_id]
      taint_ms += (already_running.size * TAINT_MS_PER_APP) if already_running
      mem_percent = @reserved_mem / @max_memory.to_f
      taint_ms += (mem_percent * TAINT_MS_FOR_MEM)
      # TODO, add in CPU as a component..
      taint_ms
    end

计算延迟考虑了两个因素：

1、该DEA上对应droplet已经启动的instance数量 2、该DEA上的资源使用情况。然后两者求和作为延时值。

这里还没有warden，所以这个mem百分比可能会出现超出limit的情况。

由于订阅了xxx.start这样的消息Router启动后DEA向Router注册自己持有的instance，给HM发送heartbeat的过程也是类似的：

    def process_router_start(message)
      return if @shutting_down
      @logger.debug("DEA received router start message: #{message}")
      @droplets.each_value do |instances|
        instances.each_value do |instance|
          register_instance_with_router(instance) if instance[:state] == :RUNNING
        end
      end
    end

在register_instance_with_router，DEA把instance的信息封装成msg_json，然后NATS.publish('router.register', msg)，由Router负责处理。

2、从CC处下载droplet并在DEA建立本地可执行目录的方法：def stage_app_dir(bits_file, bits_uri, sha1, tgz_file, instance_dir, runtime)

在这个方法的一开始就对这个过程的思路做了说明：

      ... ...
      # See if we have bits first..
      # What we do here, in order of preference..
      # 1. Check our own staged directory.
      # 2. Check shared directory from CloudController that could be mounted (bits_file)
      # 3. Pull from http if needed.
      ... ...

DEA首先判断本地是否已经有了应用的可执行目录和所需的文件，如果已经存在，直接使用就好了

    if File.exist?(tgz_file)
        @logger.debug('Found staged bits in local cache.')

如果不存在，首先判断DEA与CC之间建立了共享文件系统的话，我们直接使用文件操作从CC的/var/vcap/shared/下把这些文件cp过来（需支持FUSE）

    else
        # If we have a shared volume from the CloudController we can see the bits
        # directly, just link into our staged version.
        if File.exist?(bits_file) and not @force_http_sharing
          @logger.debug("Sharing cloud controller's staging directories")
          start = Time.now
          FileUtils.cp(bits_file, tgz_file)
          @logger.debug("Took #{Time.now - start} to copy from shared directory")

DEA和CC这部分文件共享在通常情况下是需要手动配置的。简单地说，就是建立一个NFS server和共享目录，然后把CC和DEA都mount这个目录。当然，我们可以使用其他支持FUSE的文件系统来实现HP/HA，毕竟这部分用户应用的存储是十分重要的。

如果共享文件系统没有建立，那我们还有最后一种方式：直接通过HTTP方式下载droplet。

download_app_bits(bits_uri, sha1, tgz_file)

这个方法会通过EM向下载URL发送HttpRequest，并以流的方式把文件解压写入到DEA本地的目录中。

droplet下载并解压后，删除原来的压缩文件，然后还要绑定runtime才能运行：

    def bind_local_runtime(instance_dir, runtime_name)
      ... ...

      startup_contents = File.read(startup)
      new_startup = startup_contents.gsub!('%VCAP_LOCAL_RUNTIME%', runtime['executable'])
      return unless new_startup

      FileUtils.chmod(0600, startup)
      File.open(startup, 'w') { |f| f.write(new_startup) }
      FileUtils.chmod(0500, startup)
    end

上面方法会将VCAP_LOCAL_RUNTIME变量被替换成当前DEA runtime的可执行文件路径（比如这种：../cloudfoundry/.deployments/devbox/deploy/rubies/ruby-1.9.2-p180/bin/ruby）。从某种意义上来说，应用之间共享runtime在CF中是不可避免的；但从另一方面讲，这种对运行环境轻量级的封装不需要用户调用特定的API或导入外部依赖，其实是最大的优点。

上述stage_app_dir的执行过程实际上交给一个fiber（协程）完成的。当stage_app_dir方法发现使用bits_uri下载droplet的工作是在进行中的（说明有其它DEA在download同一个droplet），它会通过Fiber.yield就可以挂起当前的下载直到被resume。同样，在stage_app_dir里负责下载方法download_app_bits中也是如此：

      ... ...

      f = Fiber.current
      @downloads_pending[sha1] = []
      http = EventMachine::HttpRequest.new(bits_uri).get

      ... ...
      
      http.callback {
        file.close
        FileUtils.mv(pending_tgz_file, tgz_file)
        f.resume
      }
      Fiber.yield

      ... ..

当下载的请求发出后，先挂起当前调用自己的Fiber，当请求获得响应后在回调方法中完成剩余的文件操作并resume这个Fiber。

3、最后一个提到的方法是monitor_apps，尽管没有warden的情况下资源监控的作用并不大，但鉴于这一点是我们必然会涉及的部分，还是稍作说明。

实际上负责搜集instance资源信息的是这个方法：monitor_apps_helper，而每个instance对应的进程资源则直接使用`ps axo pid=,ppid=,pcpu=,rss=,user=`来获得。

          metrics.each do |key, value|
              metric = value[instance[key]] ||= {:used_memory => 0, :reserved_memory => 0,
                                                 :used_disk => 0, :used_cpu => 0}
              metric[:used_memory] += mem
              metric[:reserved_memory] += instance[:mem_quota] / 1024
              metric[:used_disk] += disk
              metric[:used_cpu] += cpu
            end
         ... ...
         VCAP::Component.varz[:running_apps] = running_apps
         VCAP::Component.varz[:frameworks] = metrics[:framework]
         VCAP::Component.varz[:runtimes] = metrics[:runtime]

而资源的使用会被保存到metric这个数据结构中，最后所有的监控信息都被注册到VCAP::Component.varz下。至于如何在客户端访问这个../varz变量，cherry_sun之前已经有文章做出了说明。
DEA这一部分的解读其实略过了一个很重要的内容：droplet和instance的状态转化——这对监控来说是一个非常重要的部分，今后补上。

6、HealthManager

HM的功能和作用比较单一，而我们继续以NATS作为线索可以看到HM订阅的消息如下：

    NATS.subscribe('dea.heartbeat') do |message|
      @logger.debug("heartbeat: #{message}")
      process_heartbeat_message(message) # 处理DEA发来的心跳
    end

    NATS.subscribe('droplet.exited') do |message|
      @logger.debug("droplet.exited: #{message}")
      process_exited_message(message) # 处理DEA关闭instance后的消息
    end

    NATS.subscribe('droplet.updated') do |message|
      @logger.debug("droplet.updated: #{message}")
      process_updated_message(message) # 处理更新DEA instance的消息
    end

    NATS.subscribe('healthmanager.status') do |message, reply|
      @logger.debug("healthmanager.status: #{message}")
      process_status_message(message, reply) # 处理查询HM status的消息
    end

    NATS.subscribe('healthmanager.health') do |message, reply|
      @logger.debug("healthmanager.health: #{message}")
      process_health_message(message, reply) # 处理查询HM health的消息
    end

另外HM会定时执行analyze_all_apps来分析应用和instance的状态，该方法中使用了EM.next_tick来更有效率地执行这个分析过程，防止主进程阻塞在这里（参见前面EM扫盲的EM#next_tick部分）。在分析完成之后，应用的信息和状态会被注册到VCAP::Component.varz中。

在分析APP的方法中，HM需要关注的是droplet的状态和instance的状态。

如果发现instance的状态为down，而对应droplet的状态确是started，那HM会认为此instance需要restart，这时该instance的id会被记录到missing_indices中，然后HM调用start_instances(app_id, missing_indices)来启动对应droplet的一个instance。

当然，启动instance的工作是由CC来做的，所以HM只需要组装好start_msg，然后使用NATS来publish一个专门的消息：

@logger.info("Requesting the start of missing instances: #{start_message}")
 NATS.publish('cloudcontrollers.hm.requests', start_message.to_json)

这样，订阅了改主题消息的CC就会根据传来的msg启动一个新的instance。

7、Service

NOTE：Service部分代码更新很多，这里不能全照顾到。Service部分作为CloudFoundry里一个具有相当规模且较为独立的组成部分，我们Lab会有单独的篇幅来专门讲述。所以我们这里尽量High-level一些

这里我们的问题有：

1、我们为什么能访问到CF帮我们建立的数据库等服务？

2、CF建立数据库等服务的机制是怎样的？

3、Gateway与Node的关系是什么样的？

Service部分在CF中涵盖的种类非常多，所以CF把Gateway和Node中的公共代码抽象成了一个gem，即vcap-service-base，然后各种service自己通过重写指定的方法来实现具体的细节。这样，不同种类的service可以有统一的接口来遵循，使得诸如添加自定义service这样的工作才有章可循。

在这一部分，Service Gateway - CC - Service Node这条线上NATS实际上并不是信息传递的最主要方式。下图说明了Service部分组件间的联系：

我们只提一些重要的细节：

在ServiceGateway启动之后，首先应该让CloudController知晓自己的存在，所以在asynchronous_service_gateway.rb中需要向CC发送heartbeat

心跳的作用是向CC发送一个注册请求，实际上是一个create（POST）请求，而这个请求的目的URL是：

@offering_uri = "#{@cld_ctrl_uri}/services/v1/offerings"

cld_ctrl_url就是CC的URL，即我们熟知的api.vcap.me。最后，gateway会查看CC的响应是不是200。

对照CC的routers.rb文件，我们可以知道在接收到上述请求后CC的工作实际上是向数据库中插入一条（如果没有的话）这个gateway的信息，这样注册就生效了。

好了，剩余的CC与Service Gateway的交互工作也都是通过这条handler途径来进行的，您可以参考我们的这篇文章深入学习：Cloud Foundry Service Gateway源码分析

现在回到我们基于NATS的gateway与service node的交互过程上来。

以NATS为主线，我们首先看一下Service Node的公共部分.../vcap-service-base/lib/base/node.rb的订阅，非常简单：

   %w[provision unprovision bind unbind restore disable_instance
      enable_instance import_instance update_instance cleanupnfs_instance purge_orphan
    ].each do |op|
      eval %[@node_nats.subscribe("#{service_name}.#{op}.#{@node_id}") { |msg, reply| EM.defer{ on_#{op}(msg, reply) } }]
    end
    %w[discover check_orphan].each do |op|
      eval %[@node_nats.subscribe("#{service_name}.#{op}") { |msg, reply| EM.defer{ on_#{op}(msg, reply) } }]
    end

第一个订阅需要node_id参数，订阅主题是在本node上进行的操作。而第二个订阅则只针对discover操作和check_orphan操作，这两个操作都是针对所有node的，所以没有id的区别。

按照老规矩，每个Service Node节点在启动后，都要使用NATS向外publish自己的信息。以MySQL为例，它需要发布的信息包括自己的id，支持的版本，service plan，还有这个node的capacity等。当然在Service Gateway中一定订阅了它需要的消息（文件位置：.../vcap-service-base/lib/base/provisioner.rb）：

    %w[announce node_handles handles update_service_handle].each do |op|
      eval %[@node_nats.subscribe("#{service_name}.#{op}") { |msg, reply| on_#{op}(msg, reply) }]
    end

好了，现在provisioner的作用应该能了解了：如果说前面asynchronous_service_gateway.rb是Gateway与CC进行交互的部分，那么Provisioner就是Gateway与Service Node交互的部分了。这里的设计分层很清楚。

这样通过announce操作，ServiceGateway就能记录下所有Service Node的有用信息了。

说完了sending announcement，我们现在简单回顾下create service操作到底是怎么执行的：

CC把一个provsion request交给Service Gateway
Gateway调用provisioner#provision_service(req) 来执行整个provision操作

所以provisioner#provision_service(request, prov_handle=nil, &blk)方法就是创建service实例的核心部分：

首先，我们要从目前维护的nodes列表里挑选best_node

然后在这个node上执行provsion操作，这里才是我们关注的重点，请看这个方法：

subscription = 
 @node_nats.request("#{service_name}.provision.#{best_node}", prov_req.encode) do |msg|
   ... ... 
end

在这一段方法中，prov_req 是我们刚刚新建出来的 ProvisionRequest对象，它被通过NATS#request方法交给best_node，而当这个node完成了provision操作之后，返回的reply就传递给request代码段的msg参数进行解析，并在最后把成功provsion生成的credentials等一些列服务相关的信息会打印出来。

这一定要注意的是NATS的通信是异步操作，我们千万不能先NATS#request然后在接下来的代码里再使用返回来的msg。所有的工作都应该在do ... end这一部分回调的代码段里执行完。

那么Service Node究竟做了哪些操作完成了provision呢？

在公共的.../vcap-service-base/lib/base/node.rb中，我们会看到on_provision(msg, reply)方法主要的工作，其实就是负责在service node上生成出credencial信息出来，包括数据库名，用户名，密码等，同时修改该node的capacity等信息，最后把这些信息都返回给gateway的provisioner。

当然具体的操作会根据数据库不同而不同，这也是除了上面公共部分之外各个Service Node需要自己实现的provision方法，以MySQL为例，在../vcap/services/mysql/lib/mysql_service.rb中，我们可以看到其中的provision方法：

1、生成上述的credencial信息

2、按照生成的database name在这个service node上创建数据库

3、返回上述信息

前面的create-service操作为我们创建了数据库，同时也生成了user，password信息，而bind-service操作实际上就是在之前创建的数据库中为我们之前生成的用户分配权限：

"GRANT ALL ON #{name}.* to #{user}@'%' IDENTIFIED BY '#{password}' WITH MAX_USER_CONNECTIONS #{@max_user_conns}"

这样子持有这些credencial信息的应用实例就可以像普通的应用那样访问这个数据库了。

三、总结

基于NATS和EventMachine的CloudFoundry原理分析就写到这里，文章的作用一方面是补充之前的CF部署细节，另一方面也是为了作为CF源码导读供Lab使用。由于CF代码更新非常快，我们这篇文章的内容实际上已经过时很多了。我们会在接下来的时间里有计划地开展新的工作，包括CC_ng，DEA_ng，warden，HMv2的研究，以及基于BOSH的大规模部署等等。

你可能感兴趣的:(以NATS为主线的CloudFoundry原理)

NB-IoT协议深度解析与应用实践.zip 豪欧巴
本文还有配套的精品资源，点击获取简介：NB-IoT（窄带物联网）是针对LPWAN（低功耗广域网络）领域设计的物联网技术，其特点是覆盖广泛、功耗低、设备连接能力强。技术概述包括了NB-IoT的技术目标和特点，如深度覆盖、高效节能、大连接能力及低成本。核心特性涵盖了物理层、媒介接入控制层、网络层、会话层以及应用层的协议栈分析。此外，还介绍了NB-IoT的部署模式，以及在智慧城市、智能表计、资产追踪、农
MySQL与SQL Server的差异及测试手法 ke0hly web安全安全网络安全
SQL注入漏洞分析：MySQL与SQLServer的差异及测试手法引言如果系统使用的是SQLServer数据库，则可以实现写入Webshell，而MySQL则不行。本文将深入探讨这两种数据库在SQL注入场景下的差异，以及SQLServer如何利用SQL注入写入Webshell，并介绍其他常见的SQL注入攻击手法。MySQL与SQLServer在SQL注入写入Webshell上的差异SQL注入的本质
什么是IDS IPS以及IDS，IPS的区别 ke0hly 应急响应网络系统安全安全
目录IDS入侵检测系统定义工作原理主要功能主要类型：主动被动局限性：IPS入侵检测系统定义为什么会有IPS？功能主要类型主动被动IDS，IPS区别，选择IDS入侵检测系统定义入侵检测即通过从网络系统中的若干关键节点收集并分析信息，监控网络中是否有违反安全策略的行为或者是否存在入侵行为。入侵检测系统通常包含3个必要的功能组件：信息来源、分析引擎和响应组件。工作原理信息收集：信息收集包括收集系统，网络
IP证书在网络安全中的作用 qwerdfwc_ 安全 web安全网络
IP证书（IPSSL证书）是SSL/TLS证书的一种，与传统的域名SSL证书不同，它直接绑定到服务器的IP地址而非域名，在网络安全中发挥着多方面的重要作用，以下是详细介绍：身份验证作用机制：IP证书由受信任的证书颁发机构（CA）颁发。在申请过程中，CA会对申请者的IP地址进行严格的身份验证，确保申请者对该IP地址拥有合法的控制权。只有通过验证的IP地址才能获得相应的证书。重要性：这种身份验证机制可
办公IT问题管理平台（含移动端和PC端的问题提报与工单跟踪）避坑 Alex艾力的IT数字空间微服务 vscode 安全 tomcat spring boot 功能测试 ux
一、核心功能模块设计1.问题提报模块多渠道接入支持Web端、移动端（APP/小程序）、邮件、电话、企业微信/钉钉集成等多种提交方式，用户可快速描述问题并上传截图或附件。智能表单：根据用户角色（如员工、部门管理员）动态展示字段（如部门、设备类型、影响范围）。自动分类与优先级：通过关键词识别（如“网络中断”“系统崩溃”）自动分配问题分类，结合预设规则（如影响用户数）设定优先级。用户界面优化移动端：简化
OA门户网站方案，含经典必要功能 Alex艾力的IT数字空间 jenkins 运维架构数据库微服务 java 单元测试
一、核心功能模块设计新手引导系统功能设计：分步引导：采用蒙层+气泡提示形式，按用户角色（如新员工、管理员）动态展示核心功能路径（如流程提交、知识检索）。场景化教学：嵌入交互式流程演示（如审批流程模拟），支持用户实时操作练习。进度跟踪：记录用户完成状态，未完成引导时在首页置顶提示。技术实现：基于Vue3的动态路由配置，结合用户行为分析（如点击热区）优化引导路径。统一应用入口功能设计：智能导航栏：根据
Flink项目基础配置指南 Edingbrugh.南空 flink 大数据 flink 大数据
在大数据处理领域，ApacheFlink凭借强大的实时流处理和批处理能力，成为众多开发者的首选工具。在日常工作中，开发FlinkJar任务是常见需求，但每次都需重复配置日志、梳理pom依赖、设置打包插件等，流程繁琐且易出错。为提升开发效率，减少重复劳动，将这些基础配置进行整理归纳十分必要。本文将围绕Flink项目的本地日志配置、pom依赖及插件配置展开详细介绍，为开发者提供一套可直接复用的基础配置
计算机组成原理 DRAM的集中刷新，分散刷新，异步刷新 blacksheep107 笔记
3.用16K×8位的DRAM芯片构成64K×32位存储器，设存储器读/写周期为0.5μs，CPU在1μs内至少要访问一次。试问采用哪种刷新方式比较合理？两次刷新的最大时间间隔是多少？对全部存储单元刷新一遍所需的实际刷新时间是多少？先求存储单元是几行几列的（按芯片算），16K=214B=(27)2B=(128×128)B。得存储单元是128×128。DRAM最大刷新周期：2ms，8ms，16ms等（
目标追踪数据标注 sethrsinine 目标跟踪
在将YOLO（目标检测）和DeepSORT（目标追踪）结合时，数据标注需要同时满足检测和追踪的需求。以下是具体的分阶段标注策略和操作指南：一、标注的核心要求检测标注：每帧中目标的边界框（BoundingBox）和类别标签（如行人、车辆）。追踪标注：跨帧的目标ID（TrackID），确保同一目标在不同帧中ID一致。二、分阶段标注流程阶段1：视频预处理•目标：将视频转换为可标注的帧序列。•操作：使用F
SeaTunnel2.1.1源码解析 Adobee Chen 大数据知识点 seaTunnel 大数据
目录一：启动脚本解析二：源码解析入口2.execute()核心方法1.其中BaseSource、BaseTransform、BaseSink都是接口、都实现Plugin接口。他们的实现类就是对应的插件类型2.execute()方法向下走，创建一个执行环境。3.调用plugin.prepare(env)4.最后启动execution.start(sources,transforms,sinks);5
PYTHON从入门到实践9-类和实例
#【1】面向对象编程classStudent(object):#可以帮属性值绑定到对象上，self相当于JAVA的thisdef__init__(self,name,age):self.name=nameself.age=agedefspeak(self):print(self.name,'说：老师好')if__name__=='__main__':new_student1=Student('球球
E IO流.java 是紫焅呢 26字母学习：java入门篇 java 开发语言学习方法 visual studio code 后端
前言：I/O（输入/输出）操作是构建各类应用程序的基石之一。Java提供了功能强大且灵活的I/O流机制，用于处理数据的读取与写入，无论是简单的文本文件操作，还是复杂的网络数据传输，都离不开I/O流的支持。目录一、初识JavaI/O流数据的“传送带”二、字节流操作从读取到写入的实战1.读取文件（字节流）2.写入文件（字节流）三、字符流操作读写文本文件的简便之道1.读取文件（字符流）2.写入文件（字符
Python | 期末复习具体知识点(hbut 邵光普）我推是大富翁 python python
Python复习具体知识点1、表达式not3or6的值:在Python中，not3or6这个表达式的含义可以分解为以下步骤来理解：not3：not是一个逻辑运算符，用于对一个布尔值进行取反。但在这里，它作用于一个整数值3。在Python中，任何非零数值都被视为True，因此not3会被转换为False。Falseor6：接下来，or运算符会检查其左侧的值。如果左侧为False（或任何被视为Fals
图片元数据与防篡改技术指南
图片元数据与防篡改技术指南——从修改EXIF到数字签名，掌控图片的真实性—引言：数字世界的“隐形指纹”每张图片都携带元数据（EXIF），像数字世界的“隐形日记”，记录拍摄时间、设备甚至GPS位置。但这也带来隐私和篡改风险。本文将带你探索：如何编辑/删除EXIF（保护隐私或修正信息）如何用数字签名/区块链“锁定”图片（防伪、法律存证）开源工具vs商业方案（从命令行到一键操作）第一部分：EXIF修改术
探秘 SELinux Notebook：安全增强的利器与实践指南纪亚钧
探秘SELinuxNotebook：安全增强的利器与实践指南去发现同类优质开源项目:https://gitcode.com/在网络安全日益重要的今天，SELinux（Security-EnhancedLinux）作为Linux内核的安全模块，提供了强制访问控制机制，极大地增强了系统的安全性。而SELinuxNotebook则是为了帮助用户更好地理解和使用SELinux的一款交互式教程平台。它将复杂
SELinux 从理论到实践：深入解析与实战指南智驾 Linux SELinux TEE Linux 安全启动
文章目录引言：为什么需要SELinux？第一部分：SELinux核心理论1.1SELinux的三大核心模型1.2安全上下文（SecurityContext）1.3策略语言与模块化第二部分：实战操作指南2.1SELinux状态管理2.2文件上下文管理2.3服务配置与排错第三部分：高级技巧与最佳实践3.1自定义策略模块开发3.2常见问题与解决方案总结：SELinux的价值与学习路径参考引言：为什么需要
保护生产中 Node.js 应用程序安全的 15 项最佳实践梦玄海 node.js 安全人工智能分布式音视频 AI编程低代码
为什么应该构建安全的Node.js应用程序？构建安全的Node.js应用程序非常重要，至少有以下三个原因：保护用户数据：您的应用程序可能会处理敏感的用户信息，如个人信息、登录凭证、支付数据或机密的业务见解。如果不能保护这些数据，您可能会被隐私监管机构处以数百万美元的罚款。通过实施强大的安全措施，您可以保护用户数据并避免法律问题。保护应用程序功能：安全漏洞可能会损害后端提供的功能。攻击者可能会利用弱
「Ant Design 组件库探索」一：整体结构+工程化设置梦玄海 elasticsearch 大数据搜索引擎
本篇文章是学习了整体结构以及工程化配置后的总结，所以内容很长，不用从头读到尾，请结合实际项目和兴趣点进行分节点阅读。AIIDE设置这里的IDE设置主要是针对cursor的，看得出来，cursor是非常的火，这个库也支持了；这个cursor的目录结构是这样的：.cursor/└──rules/├──demo.mdc├──docs.mdc├──git.mdc├──locale.mdc├──naming
3天狂揽2.8k星！manus 开源替代又又又又又又又来啦！逆天AI助理Suna开源！免费替你搞定一切，效率飙升！梦玄海人工智能开源编辑器 stable diffusion golang
今天给大家挖来一个超级宝藏！你是不是也曾幻想过拥有一个钢铁侠的贾维斯那样，能帮你处理各种繁琐任务的AI伙伴？能在你忙得焦头烂额时，优雅地帮你完成研究、分析数据、甚至处理各种日常挑战？别再幻想了！今天的主角——Suna，就是这样一个为你而生的开源通用AI智能体！它不仅仅是一个聊天机器人，更是一个能代表你行动、解决现实世界问题的得力干（工）助（具）手（人）！在GitHub上，光发布几天的Suna项目已
AI生成代码安全审计：从AST逆向到对抗样本生成梦玄海人工智能安全
引言随着Codex、Copilot等AI代码生成工具的普及，开发效率显著提升的同时，也引入了新型安全风险：模型生成的代码可能隐含漏洞（如SQL注入、XSS）、逻辑错误，或被恶意样本“投毒”。传统的静态扫描工具（如SonarQube）难以覆盖AI模型的上下文语义逻辑，亟需结合程序分析与AI对抗技术进行深度审计。本文将从AST逆向工程切入，深入探讨如何通过对抗样本检测AI生成代码的脆弱性。一、核心挑战
深入解析微信协议逆向：基于Go语言的手机号绑定功能实现梦玄海微信 golang java
引言在即时通讯系统开发领域，微信协议的逆向工程一直是一个充满挑战的技术方向。本文将基于一段真实的Go语言实现代码，深入剖析微信客户端绑定手机号功能的核心实现机制，解密其通信协议、数据序列化及安全传输等关键技术细节。一、功能概述与模块架构该代码片段实现了微信客户端的手机号绑定功能（BindOpMobile），主要包含以下技术模块：用户凭证管理：通过comm.GetLoginata获取会话密钥、设备信
揭秘MySQL索引下推（ICP）的底层原理与高并发场景性能调优 Minxinbb 数据库 mysql 数据库 dba
引言在千万级数据量的OLTP场景中，索引下推（IndexConditionPushdown,ICP）作为MySQL5.6引入的核心优化技术，可将特定场景的查询性能提升10倍以上。本文将从InnoDB存储引擎的索引结构出发，结合B+树遍历原理，深入解析ICP的工作机制，并通过压力测试对比验证优化效果。一、索引下推的核心原理剖析1.1传统索引查询的瓶颈未启用ICP时的查询流程（以复合索引(a,b,c)
Apache SeaTunnel Flink引擎执行流程源码分析 Code Monkey’s Lab 源码分析 Flink flink 大数据架构 seatunnel
目录1.任务启动入口2.任务执行命令类：FlinkTaskExecuteCommand3.FlinkExecution的创建与初始化3.1核心组件初始化3.2关键对象说明4.任务执行：FlinkExecution.execute()5.Source处理流程5.1插件初始化5.2数据流生成6.Transform处理流程6.1插件初始化6.2转换执行7.Sink处理流程7.1插件初始化7.2数据输出执
计算机组成原理超详细DRAM集中刷新、分散刷新，异步刷新
在一个存取周期内，我们可以只进行读写操作，也可以只进行刷新操作；同样也可以前半段读写后半段刷新。但是对于如何设置DRAM刷新，那么就引入了下面的三种刷新方式1.集中刷新：统一分配时间来刷新DRAM，对于刷新间隔为2ms，内部储存单元为128*128的DRAM。若存取周期是0.5us，那么需要分配128*0.5也就是64us的时间来统一刷新每一行。这部分的时间称为死时间，此时不能进行读写操作。我们把
第27篇：SELinux安全增强机制深度解析与OpenEuler实践指南
SELinux安全增强机制深度解析与OpenEuler实践指南一、SELinux核心概念与安全体系架构1.1访问控制机制演进与SELinux定位在计算机系统安全领域，访问控制机制经历了从简单到复杂的发展历程。传统的自主访问控制（DAC）以文件所有者权限为核心，如Linux中的UID/GID权限体系，允许所有者自由分配权限，但这种机制在面对多用户复杂环境时存在安全隐患——一旦用户账户被入侵，攻击者可
【数据标注师】目标跟踪标注试着数据标注师目标跟踪人工智能计算机视觉数据标注师目标跟踪标注
目录一、**目标跟踪标注的四大核心挑战**二、**五阶能力培养体系**▶**阶段1：基础规则内化（1-2周）**▶**阶段2：复杂场景处理技能**▶**阶段3：专业工具mastery**▶**阶段4：领域深度专精▶**阶段5：效率突破方案三、**精度控制五大核心技术**四、**质检与错误防御体系**1.**四维质检法**：2.**高频错误防御表**：五、**持续进阶体系**1.**复杂场景专项**
车联网网络安全渗透测试：深度解析与实践 ke0hly web安全网络安全物联网安全架构安全威胁分析
引言随着汽车智能化、网联化程度的不断深入，车联网（IoV）已成为连接人、车、路、云的关键枢纽。然而，技术进步的同时也带来了前所未有的网络安全挑战。从车载系统到云端平台，从车内通信到V2X通信，车联网的每一个环节都可能成为潜在的攻击面，一旦被恶意利用，将直接威胁到驾乘人员的生命财产安全，甚至影响国家安全和公共秩序。因此，构建一套全面、深入、实战化的车联网网络安全渗透测试流程和方法，对于保障车联网的健
从Python到数据结构：为什么这是每个自学者必经的进阶之路流水煮香茗 python 数据结构 mooc
当你熟练掌握Python语法后，下一步应该学什么？答案是数据结构。本文将深入分析为什么数据结构是编程进阶的关键，以及如何选择合适的学习资源。一、Python学会了，然后呢？如果你正在读这篇文章，很可能你已经：用Python写过小工具，能解决工作和生活中的一些小需求做过数据分析，会用pandas处理Excel表格但是，当你想要进一步提升时，却发现了一些困惑：困惑1：代码能跑，但总觉得"不够优雅"你的
并发基础7（守护线程）浅水壁虎多线程 java 服务器开发语言
目录1：什么守护线程2：守护线程使用3：守护线程案例1：什么守护线程守护线程是Java中的一种特殊的线程类型，它为其他线程（非守护线程）提供后台支持服务。在Java多线程编程中，有两种特殊类型的线程：后台线程和守护线程。这两种线程在一些特定的场景下非常有用，但也需要谨慎使用。本文将详细介绍后台线程和守护线程的概念、特性、用法，以及注意事项。守护线程的特点服务性质：守护线程通常用于执行后台任务，如J
【项目实战】Redis使用场景之基于Redis实现分布式限流本本本添哥 002 -进阶开发能力 003 -数据库 redis 分布式数据库
一、技术概览1.1定义分布式限流是指在分布式系统中限制请求的速率，以保护后端服务不被过多的请求压垮。它可以帮助我们控制系统的负载，保证服务的稳定性。Redis是一个高性能的键值存储系统，常用于缓存、消息队列和实时分析等场景。由于其支持丰富的数据结构和原子操作，非常适合用来实现分布式限流。专业术语:令牌桶算法(TokenBucket):一种流量整形算法，允许突发流量但不超过平均速度。漏桶算法(Lea
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option