popsuper1982

深入解析DC/OS 1.8 – 高可靠的微服务及大数据管理平台

深入解析DC/OS 1.8

– 高可靠的微服务及大数据管理平台

大家好，欢迎大家参加这次DC/OS的技术分享。

先做个自我介绍，刘超，Linker Networks首席架构师，Open DC/OS社区贡献者，长期专注于OpenStack, Docker, Mesos等开源软件的企业级应用与产品化。

从事容器方面工作的朋友可能已经听说过DC/OS，往往大家误解DC/OS就是marathon + mesos，其实DC/OS包含很多的组件，DC/OS 1.8九月份发布了，此次分享给大家做一个介绍。

一、DC/OS的基本思想

所谓的DC/OS，全称为数据中心操作系统，其基本的思想就是使得运维人员操作整个数据中如操作一台电脑一样。

DC/OS使用了哪些技术可以做到这一点呢？

如图，左面是普通的Linux操作系统，右面是DC/OS，在这里做了一个对比。

无论是哪种操作系统，都需要管理外部的硬件设备，最重要的四种硬件资源即CPU，内存，存储，网络。

最初使用汇编语言写程序的前辈，还是需要指定使用那些硬件资源的，例如指定使用哪个寄存器，放在内存的哪个位置，写入或者读取那个串口等，对于这些资源的使用，需要程序员自己心里非常的清楚，要不然一旦JUMP错了位置，程序就无法运行。这就像运维数据中心的一台台物理机的前辈一样，那个程序放在了哪台机器上，使用多少内存，多少硬盘，都需要心里非常的清楚。

为了将程序员从对硬件的直接操作中解放出来，提升程序设计的效率，从而有了操作系统这一层，实现对于硬件资源的统一管理。某个程序使用哪个CPU，哪部分内存，哪部分硬盘，程序只需要调用API就可以了，由操作系统自行分配和管理，其实操作系统只做了一件事情，就是调度。对应到数据中心，也需要一个调度器，将运维人员从指定物理机或者虚拟机的痛苦中解放出来，这就是Mesos。Mesos即使数据中心操作系统的内核。

在使用操作系统的时候，我们可以开发驱动程序来识别新的硬件资源，可以开发内核模块(例如openvswitch.ko)来干预对于硬件资源的使用，对于Mesos，同样可以开发isolator来识别新的硬件资源例如GPU，也可以开发Executor来干预资源的使用。

在内核之上，就是系统服务，例如systemd，是用来维护进程运行的，如果systemctl enable xxx，则保证服务挂掉后自动重启。对于DC/OS，保持服务long run的是marathon，但是仅仅只有marathon还不够，因为服务是启动在多台机器上的，而且服务之间是有依赖关系的，一个服务挂掉了，在另外一台机器启动起来，如何保持服务之间的调用不需要人工干预呢？这需要另外的技术，称为服务发现，多是通过DNS，负载均衡，虚拟机IP等技术实现的。

使用操作系统，需要安装一些软件，于是需要yum之类的包管理系统，使得软件的使用者和软件的编译者分隔开来，软件的编译者需要知道这个软件需要安装哪些包，包之间的依赖关系是什么，软件安装到什么地方，而软件的使用者仅仅需要yum install就可以了。DC/OS就有这样一套包管理软件，和其他的容器管理平台需要自己编译Docker镜像，自己写yml，自己管理依赖不同，DC/OS的软件使用者只需要dcos package install就可以安装好软件了，软件的配置，节点数目，依赖关系都是有软件编译者设置。

在最外层，DC/OS像普通的操作系统一样，有统一的界面和命令行。通过它们，可以管理安装包，管理节点，运行任务等。DC/OS不仅仅是运行容器的平台，如果仅仅运行容器，就是容器管理平台，而非数据中心操作系统。通过DC/OS，你可以在每台机器上运行一个命令来进行统一的配置，而无需登录到每台机器上去。你可以运行容器应用和大数据分析应用并共享资源，并且可以相互发现，这更加符合现代互联网应用，微服务和大数据不可分割。而且Mesos的架构非常开放，你可以通过开发Framework, Executor, Modules, Hooks等，轻松干预微服务或者大数据任务的执行过程，来定制化你的应用。这也符合操作系统微内核的概念。

二、DC/OS的内核模块Mesos

Mesos架构如下

这个图比较的著名了，也有很多文章介绍这个图，详情可以看文章http://mesos.apache.org/documentation/latest/architecture/，这里不做过多的介绍。

从图中可以看到，Mesos有Framework(Framework里面有Scheduler), Master(Master里面有allocator), Agent, Executor, Task几部分组成。这里面有两层的Scheduler，一层在Master里面，allocator会将资源公平的分给每一个Framework，二层在Framework里面，Framework的scheduler将资源按规则分配给Task。

Mesos的这几个角色在一个任务运行的生命周期中，相互关系如下：

Agent会将资源汇报给Master，Master会根据allocator的策略将资源offer给framework的scheduler。Scheduler 可以accept这个资源，运行一个Task，Master将Task交给Agent，Agent交给Executor去真正的运行这个Task。

这个图相对比较的简略，真正详细的过程比这个复杂很多，大家可以参考这篇博客http://www.cnblogs.com/popsuper1982/p/5926724.html，在代码级别分析了整个任务运行的过程，还画了一个泳道图http://images2015.cnblogs.com/blog/635909/201608/635909-20160806163718778-1628977219.png。

要研究Mesos，熟悉整个过程非常重要，这样一个任务运行出现问题的时候，才能比较好的定位问题在哪里，如果解决。Mesos将一个简单的任务的运行过程，分成如此多的层次，如此多的角色来做，是为了双层调度和灵活配置，这是一个内核应该做的事情。

我们如何干预一个Task的运行过程呢？

第一、写一个Framework

如果你想完全自己控制Task的运行，而非让Marathon来运行并保持一个无状态的Task长运行，就需要自己写一个Framework，在你的Framework里面，三个Task之间的关系你可以自己定义，而非像Marathon一样，Task * 3，3个任务不分彼此，你的Framework可以控制这三个Task一主两备，可以控制三个Task的启动顺序，可以将一个先启动的Task的IP，位置等通过环境变量告知另外两个Task。

写一个Framework需要写一个Scheduler，实现一些接口，如文档http://mesos.apache.org/documentation/latest/app-framework-development-guide/中所述。

然后使用使用MesosSchedulerDriver来运行这个Scheduler。

其实Mesos这些模块之间的通信都是通过Protocol Buffer定义消息来交互的，然而如果让Framework的开发人员还要学会如何使用Protocol Buffer消息和Mesos Master通信，是很痛苦的事情，所以MesosSchedulerDriver帮助你做了这个事情，你只需要实现Scheduler定义的接口就可以了，不需要了解这些接口是谁调用的，调用了接口之后，消息如何传给Mesos Master。

所有的接口里面，最重要的是resourceOffers函数，根据得到的offers(每个slave都有多少资源)，创建一系列tasks，然后调用MesosSchedulerDriver的launchTasks函数，MesosSchedulerDriver会将这些tasks封装为LaunchTasksMessage发送给Mesos Master。

第二、写一个Allocator

通过上面的描述，Mesos有两层调度，第一层就是Allocator，将资源分配给Framework。

Mesos允许用户通过自己写Module的方式，写一个so，然后启动的时候加载进去，然后在命令行里面指定使用so中的哪个Module。

当然写Allocator的不多，因为Mesos的DRF算法是Mesos的核心，如果不用这个算法，还不如不用mesos。

Mesos源码中默认的Allocator，即HierarchicalDRFAllocator的位置在$MESOS_HOME/src/master/allocator/mesos/hierarchical.hpp，而DRF中对每个Framework排序的Sorter位于$MESOS_HOME/src/master/allocator/sorter/drf/sorter.cpp，可以查看其源码了解它的工作原理。

HierarchicalDRF的基本原理

如何作出offer分配的决定是由资源分配模块Allocator实现的，该模块存在于Master之中。资源分配模块确定Framework接受offer的顺序，与此同时，确保在资源利用最大化的条件下公平地共享资源。

由于Mesos为跨数据中心调度资源并且是异构的资源需求时，资源分配相比普通调度将会更加困难。因此Mesos采用了DRF（主导资源公平算法 Dominant Resource Fairness）

Framework拥有的全部资源类型份额中占最高百分比的就是Framework的主导份额。DRF算法会使用所有已注册的Framework来计算主导份额，以确保每个Framework能接收到其主导资源的公平份额。

举个例子

考虑一个9CPU，18GBRAM的系统，拥有两个用户，其中用户A运行的任务的需求向量为{1CPU, 4GB}，用户B运行的任务的需求向量为{3CPU，1GB}，用户可以执行尽量多的任务来使用系统的资源。

在上述方案中，A的每个任务消耗总cpu的1/9和总内存的2/9，所以A的dominant resource是内存；B的每个任务消耗总cpu的1/3和总内存的1/18，所以B的dominant resource为CPU。DRF会均衡用户的dominant shares，执行3个用户A的任务，执行2个用户B的任务。三个用户A的任务总共消耗了{3CPU，12GB}，两个用户B的任务总共消耗了{6CPU，2GB}；在这个分配中，每一个用户的dominant share是相等的，用户A获得了2/3的RAM，而用户B获得了2/3的CPU。

以上的这个分配可以用如下方式计算出来：x和y分别是用户A和用户B的分配任务的数目，那么用户A消耗了{xCPU，4xGB}，用户B消耗了{3yCPU，yGB}，在图三中用户A和用户B消耗了同等dominant resource；用户A的dominant share为4x/18，用户B的dominant share为3y/9。所以DRF分配可以通过求解以下的优化问题来得到：

max(x,y) #(Maximize allocations)

subject to

x + 3y <= 9 #(CPU constraint)

4x + y <= 18 #(Memory Constraint)

2x/9 = y/3 #(Equalize dominant shares)

最后解出x=3以及y=2，因而用户A获得{3CPU，12GB}，B得到{6CPU， 2GB}。

HierarchicalDRF核心算法实现在Src/main/allocator/mesos/hierarchical.cpp中HierarchicalAllocatorProcess::allocate函数中。

概况来说调用了三个Sorter(quotaRoleSorter, roleSorter, frameworkSorter)，对所有的Framework进行排序，哪个先得到资源，哪个后得到资源。

总的来说分两大步：先保证有quota的role，调用quotaRoleSorter，然后其他的资源没有quota的再分，调用roleSorter。

对于每一个大步分两个层次排序：一层是按照role排序，第二层是相同的role的不同Framework排序，调用frameworkSorter。

每一层的排序都是按照计算的share进行排序来先给谁，再给谁。

这里有几个概念容易混淆：Quota, Reservation, Role, Weight

每个Framework可以有Role，既用于权限，也用于资源分配
可以给某个role在offerResources的时候回复Offer::Operation::RESERVE,来预订某台slave上面的资源。Reservation是很具体的，具体到哪台机器的多少资源属于哪个Role
Quota是每个Role的最小保证量，但是不具体到某个节点，而是在整个集群中保证有这么多就行了。
Reserved资源也算在Quota里面。
不同的Role之间可以有Weight

在allocator算法结束之后，便调用Master::Offer，最终调用Framework的Scheduler的resourceOffers，让Framework进行二次调度。同上面的逻辑就串联起来。

第三、写一个Hook

你可以写hook模块，讲代码插在很多关键的步骤，从而改写整个Executor或者Docker或者Task的启动的整个过程。

可以干预的hook的地方定义在mesos/hook.hpp中。

Class hook定义如下：

其中比较常用的是slavePrelaunchDockerHook，可以在Docker启动之前做一些事情，比如准备工作。

还有slaveRemoveExecutorHook，这个可以在executor结束的时候，做一些事情，比如清理工作。

第四、创建Isolator

当你有一种新的资源需要管理，并且每个Task需要针对这个资源进行隔离的时候，写一个Isolator就是有必要的了。

例如默认的容器并不能动态指定并限制任务硬盘使用的大小，所以mesos-containerizer就有了"disk/du"来定时查看任务使用的硬盘大小，当超出限制的时候采取操作。

Src/slave/containerizer/mesos/containerizer.cpp里面列出了当前支持的isolator，你也可以实现自己的isolator，并且通过modules参数load进去。

Isolator定义了以下函数

在运行一个容器的最后，会调用每一个isolator的isolate函数，通过这个函数，可以对资源进行一定的限制，例如写入cgroup文件等，但是对于硬盘使用量，其实没有cgroup可以设置，需要过一段时间du一些，这就需要实现watch函数，过一段时间查看一下硬盘使用量，超过后做一定的操作。

第五、写一个Executor

如果运行一个普通的容器，或者命令行，则不需要实现Executor，仅仅Mesos默认的Executor就能够实现这个功能。如果你需要在Executor里面做很多自己定制化的工作，则需要自己写Executor。

写一个Executor需要实现一些接口，最重要的就是launchTask接口，然后MesosExecutorDriver将这个Executor运行起来。

就像Framework一样，Executor也是通过protocol buffer协议和Mesos-Agent进行沟通，通过MesosExecutorDriver，你不需要关心协议的事情，仅仅需要实现接口即可。

三、DC/OS的核心模块

下面的图描述了DC/OS的部署架构图：

在DC/OS看来，所有的节点分为三个区域，一个是管理区域，主要处理对于服务的管理方面的操作，如增删查改，启停扩缩等。为了高可用，Master节点可以是多个，在多个Master节点之前，需要有一个负载均衡器。第二个是对外服务区域，也即外界能够访问DC/OS内部的服务的区域，这个区域里面的服务多为对外的Nginx之类的，也会有marathon-lb来做外部的负载均衡器，所有对外服务区域的节点之外还需要一个负载均衡器。第三个区域是内部服务区域，用于部署内部服务，如数据库，消息总线等，这些内部节点不能对外访问。

第一、Admin Router

AdminRouter是一个反向代理，正是它将对外的区域和对内的区域完全隔离开来，在admin router之外，可以通过公网访问，在admin router之内全部是私网地址，这样提供了安全的统一访问机制。

安装完毕Open DC/OS之后，安装一个dcos的命令行工具，通过这个工具可以ssh到master的节点上。

eval `ssh-agent -s`
ssh-add .ssh/aws01.pem
dcos node ssh --master-proxy --leader

在这个节点上/etc/systemd/system路径下面有三个systemd的service，Open DC/OS的所有组件都是用systemd进行管理的。

ip-10-0-7-1 system # ls -l | grep adminrouter
lrwxrwxrwx. 1 root root 135 Oct 3 08:00 dcos-adminrouter-reload.service -> /opt/mesosphere/packages/adminrouter--cee9a2abb16c28d1ca6c74af1aff6bc4aac3f134/dcos.target.wants_master/dcos-adminrouter-reload.service
lrwxrwxrwx. 1 root root 133 Oct 3 08:00 dcos-adminrouter-reload.timer -> /opt/mesosphere/packages/adminrouter--cee9a2abb16c28d1ca6c74af1aff6bc4aac3f134/dcos.target.wants_master/dcos-adminrouter-reload.timer
lrwxrwxrwx. 1 root root 128 Oct 3 08:00 dcos-adminrouter.service -> /opt/mesosphere/packages/adminrouter--cee9a2abb16c28d1ca6c74af1aff6bc4aac3f134/dcos.target.wants_master/dcos-adminrouter.service

可以看到dcos-adminrouter.service是指向/opt/mesosphere/packages下面的一个路径，Open DC/OS的所有组件都是安装在这个路径下面的。

在/opt/mesosphere/packages/adminrouter--cee9a2abb16c28d1ca6c74af1aff6bc4aac3f134/nginx/conf这个路径下面，有一个文件nginx.master.conf，打开这个文件，就能看到熟悉的对于nginx的配置。

upstream mesos {
server leader.mesos:5050;
}
upstream marathon {
server master.mesos:8080;
}
location /mesos/ {
access_by_lua 'auth.validate_jwt_or_exit()';
proxy_set_header Host $http_host;
proxy_pass http://mesos/;
}
location /marathon/ {
# Enforce access restriction. Auth-wise, treat /marathon*
# equivalently to /service/marathon*.
access_by_lua 'auth.validate_jwt_or_exit()';
proxy_set_header Host $http_host;
proxy_pass http://marathon/;
}

从这个配置文件可以看出，所有对内的访问marathon的页面，访问mesos的页面，都是通过leader.mesos进行，这个域名是mesos-dns给出的，对应的是内部的IP地址，如果从外部访问marathon或者mesos的页面，则必须通过admin router，通过http://admin-router-external-ip/marathon或者http://admin-router-external-ip/mesos来访问。

第二、Mesos-DNS

对于数据中心操作系统来讲，服务发现和负载均衡是最最核心的功能，只有有了这些功能，才能使得服务的物理布局，服务之间的依赖关系，服务挂掉之后的自动修复不需要用户关心，才能使得用户像用一台电脑一样使用整个数据中心。

如果服务之间的相互调用不使用IP地址，而使用域名的话，问题会简单很多。

如图所示，对于Mesos上运行的每一个Task，Mesos-DNS都可以通过调用Mesos-Master的API得到，并且为每个Task分配一个域名和IP的对应项。如果一个Task需要访问另一个Task，则需要配置域名即可，无论Task如何挂掉，如何分配到其他的节点上运行，域名都不会变，当然Task的IP可能会变，但是不用担心，Mesos-DNS会更新它。每个Mesos-Agent只需要配置/etc/resolv.conf指向mesos-dns就可以了。

当一个Task运行的时候，Mesos-DNS会创建一个域名..mesos对应：

Mesos-Agent的IP地址
如果是Mesos Containerizer的话，返回的是Task内部容器的IP

另外..slave.mesos还会提供所在的物理机的IP地址。这样通过hostport和Mesos-DNS所给的域名，可以实现服务的发现。

第三：marathon-lb

使用DNS虽然可以实现服务的自发现，但是不容易实现服务的负载均衡和弹性伸缩，而marathon-lb实现了这些功能。

Marathon-lb是一个基于haproxy的负载均衡器，但是它会监听marathon event bus，每当注册到marathon-lb上的服务数目变化的时候，marathon-lb也会自动更新haproxy的配置文件，从而实现负载均衡。Marathon-lb可以如图中实现对外的负载均衡，也可以实现对内的服务之间相互调用的负载均衡。

Marathon的安装可以在界面中universe里面搜索marathon-lb安装，也可以通过命令行执行dcos package install Marathon-LB进行安装，默认安装的对外的负载均衡器。

我们在服务里面创建如下的应用：

{
"id": "nginx",
"container": {
"type": "DOCKER",
"docker": {
"image": "nginx:1.7.7",
"network": "BRIDGE",
"portMappings": [
{ "hostPort": 0, "containerPort": 80, "servicePort": 10000 }
],
"forcePullImage":true
}
},
"instances": 1,
"cpus": 0.1,
"mem": 65,
"healthChecks": [{
"protocol": "HTTP",
"path": "/",
"portIndex": 0,
"timeoutSeconds": 10,
"gracePeriodSeconds": 10,
"intervalSeconds": 2,
"maxConsecutiveFailures": 10
}],
"labels":{
"HAPROXY_GROUP":"external"
}
}

在这个应用里面，servicePort为10000则说明我们注册到marathon-lb上的外部端口为10000, labels里面写的是external，也即注册到外部的负载均衡器上。

这个时候，我们访问public slave上的10000端口，就能看到启动的nginx的页面http://54.254.148.129:10000/，内部其他的应用可以通过http://marathon-lb.marathon.mesos:10000来访问这个nginx

如果我们访问public slave上的haproxy的配置页面http://54.254.148.129:9090/haproxy?stats，可以看到如下的映射关系。

对外marathon-lb监听10000端口，对内映射为10.0.1.78上的20215端口，如果我们从服务页面上查看，的确启动的nginx是监听20215端口的。

接下来我们部署marathon-lb-autoscale，它监控haproxy，发现RPS(request per seconds)超过一定的数目，就对应用进行弹性扩展。

{
"id": "marathon-lb-autoscale",
"args":[
"--marathon", "http://leader.mesos:8080",
"--haproxy", "http://marathon-lb.marathon.mesos:9090",
"--target-rps", "100",
"--apps", "nginx_10000"
],
"cpus": 0.1,
"mem": 16.0,
"instances": 1,
"container": {
"type": "DOCKER",
"docker": {
"image": "brndnmtthws/marathon-lb-autoscale",
"network": "HOST",
"forcePullImage": true
}
}
}

接下来，我们部署应用siege向nginx发送请求

{
"id": "siege",
"args":[
"-d1",
"-r1000",
"-c100",
"http://marathon-lb.marathon.mesos:10000/"
],
"cpus": 0.5,
"mem": 16.0,
"instances": 1,
"container": {
"type": "DOCKER",
"volumes": [],
"docker": {
"image": "yokogawa/siege",
"network": "HOST",
"privileged": false,
"parameters": [],
"forcePullImage": false
}
}
}

如果我们看haproxy的stats页面，发现已经有请求发过来了。这个时候我们增加siege到10，给nginx加压。

过一段时间就会发现marathon-lb-autoscale已经有动作了。

将一个nginx变成8个nginx

当我们将siege从10个变回0个的时候。

第四、Minuteman

Minuteman是一个内部的东西向的负载均衡器，可用于设置VIP，多个实例使用同一个VIP来进行负载均衡。

在创建服务的时候，选择Load Balanced，则下面会出现一行地址：nginxdocker.marathon.l4lb.thisdcos.directory:80，这个就是minuteman分配的VIP。

当服务创建好了之后，通过curl http://nginxdocker.marathon.l4lb.thisdcos.directory:80就可以访问这个服务，但是我们如果ping这个域名却是不通的，而且对于的IP地址也是很奇怪的IP地址，这个IP就是VIP.

这是怎么做到的呢？minuteman的load balancer是基于Netfilter的，在dcos的slave节点上，我们能看到多出来了四个iptables规则。其中前两个规则是在raw表里面的，后两个规则是在filter表里面的。

-A PREROUTING -p tcp -m set --match-set minuteman dst,dst -m tcp --tcp-flags FIN,SYN,RST,ACK SYN -j NFQUEUE --queue-balance 50:58
-A OUTPUT -p tcp -m set --match-set minuteman dst,dst -m tcp --tcp-flags FIN,SYN,RST,ACK SYN -j NFQUEUE --queue-balance 50:58
-A FORWARD -p tcp -m set --match-set minuteman dst,dst -m tcp --tcp-flags FIN,SYN,RST,ACK SYN -j REJECT --reject-with icmp-port-unreachable
-A OUTPUT -p tcp -m set --match-set minuteman dst,dst -m tcp --tcp-flags FIN,SYN,RST,ACK SYN -j REJECT --reject-with icmp-port-unreachable

根据iptbles的规则raw表中的规则会被先执行，一旦到达了filter表的minuteman的包就都过滤掉了。

NFQUEUE的规则表示将对于包的处理权交给用户态的一个进程。--queue-balance表示会将包发给几个queue，然后用户态进程会使用libnetfilter_queue连接到这些queue中，将包读出来，根据包的内容做决策后放回内核进行发送。

在每一个Mesos-Agent节点上都运行这一个minuteman的进程，监听这些queue，我们可以通过访问API查看VIP的映射关系，curl http://localhost:61421/vips。

我们可以看到VIP的11.112.175.214后面跟着两个节点10.0.1.78:27003和10.0.1.78:4989，正好对应nginx的两个实例。

四、DC/OS的微服务及大数据的管理机制

DC/OS是基于Mesos的，Mesos的灵活框架机制可以使得DC/OS既能够部署容器，也能够部署大数据框架，大数据框架在不运行任务的时候，几乎不占用资源，从而真正实现微服务和大数据框架的资源共享。

前面我们部署容器的时候，都是自己准备marathon的json进行部署的，这就需要使用服务的人和设计服务的人同样的专业。

DC/OS采用了一种package管理机制，将运行一个微服务或者框架所需要的各种配置制作成模板，模板由专业人士制作好上传到package repository，使用者就不需要那么专业，只要运行dcos package install安装即可。

Mesosphere提供了官方的package repository，名为universe，地址为https://universe.mesosphere.com/repo，在github上可以找到对应的代码https://github.com/mesosphere/universe。

对于一个package，往往包含下面的部分：

package.json：这里面保存了一些metadata的数据，例如对于spark

"name": "spark",
"description": "Spark is a fast and general cluster computing system for Big Data. Documentation: https://docs.mesosphere.com/current/usage/service-guides/spark/",
"licenses": [
{
"name": "Apache License Version 2.0",
"url": "https://raw.githubusercontent.com/apache/spark/master/LICENSE"
}
],
"tags": [
"bigdata",
"mapreduce",
"batch",
"analytics"
],

config.json：保存一些配置项，例如对于spark

"name": {
"default": "spark",
"description": "The Spark Dispatcher will register with Mesos with this as a framework name. This service will be available at http:///service//",
"type": "string"
},
"cpus": {
"default": 1,
"description": "CPU shares",
"minimum": 0.0,
"type": "number"
},
"mem": {
"default": 1024.0,
"description": "Memory (MB)",
"minimum": 1024.0,
"type": "number"
},
"role": {
"description": "The Spark Dispatcher will register with Mesos with this role.",
"type": "string",
"default": "*"
},

marathon.json.mustache：是一个模板，里面的一些变量会替换为config.json里面的内容，最终变成可以直接发送给marathon的请求。以spark为例

"id": "{{service.name}}",
"cpus": {{service.cpus}},
"mem": {{service.mem}},
"container": {
"type": "DOCKER",
"docker": {
"image": "{{resource.assets.container.docker.spark_docker}}",
"network": "HOST",
"forcePullImage": true
}
},

resource.json：是一些资源，如image，tar.gz文件等

"assets": {
"container": {
"docker": {
"spark_docker": "mesosphere/spark:1.0.2-2.0.0"
}
}
},

所有的这些配置都像模板一样已经预先写好，安装的时候界面上一点，或者一行命令就安装好了。

当然你如果点击Advanced Installation，则所有的配置都可以定制化

就像yum里面一样，将mysql-server的yum包的制作者和mysql的使用者分开，普通用户作为使用者，不需要了解太多的细节，用就是了。

如果想在数据中心里面使用package管理，可以生成自己的local universe，里面放入自己的应用，只要专业人士设计一次，便可以多次使用。也可以一次安装多个软件形成一个group，里面包含微服务的，也包含大数据的，两者可以通过服务发现相互访问。

我们在这里先安装一个spark的软件

最初安装完毕spark，却发现只有一个docker

Spark不是一个集群计算框架吗，怎么会只有一个Docker呢？这就是mesos对大数据框架管理的特殊之处。在spark不运行任务的时候，就仅仅占用这一个docker，其实是一个框架。

安装过程如图所示：

dcos package install spark会将请求提交给admin router
admin router会将请求提交给cosmos，也即package管理的服务
cosmos将config.json, resource.json, marathon.json组合成为一个marathon请求提交给marathon
marathon将请求交给mesos-master，然后交给mesos-agent
mesos-agent启动一个容器运行spark
启动的spark容器会注册到mesos里面成为一个新的framework

真正运行spark任务的时候，才会有其他占用资源的任务被创建出来。

dcos spark run --submit-args='-Dspark.mesos.coarse=true --driver-cores 1 --driver-memory 1024M --classorg.apache.spark.examples.SparkPi https://downloads.mesosphere.com/spark/assets/spark-examples_2.10-1.4.0-SNAPSHOT.jar 30'

Spark运行过程如图：

dcos spark run将任务提交给admin router
admin router将任务提交给spark framework
spark framework将任务提交给mesos-master
mesos-master将任务分发给mesos-agent进行分别处理
任务运行完毕后，所有mesos-agent上占用的资源又都释放了。

正是这种模式，才实现微服务和大数据框架的共享资源，与此相对应的是使用Docker来部署spark集群，然后集群自管理，不归mesos管理。这样在创建spark集群的时候，就需要指定spark worker占用的资源，比如16G，然而这16G资源则无论spark是否在计算，都会被占用，都不会被其他的框架使用。

五、DC/OS 1.8的新功能

对于最新的DC/OS 1.8，有一个博客https://dcos.io/blog/2016/introducing-dc-os-1-8-ga/index.html描述了最新的功能。

其中第一个重要的功能为Mesos 1.0 and the Universal Container Runtime，也即可以使用mesos-containerizer来运行Docker的镜像了。这也是DC/OS对于容器的管理越来越独立的体现。

我们在mesos-agent所在的机器上可以查看

ip-10-0-1-78 dcos.target.wants_slave # ps aux | grep mesos-agent
root 1824 0.6 0.3 1069204 46948 ? Ssl Oct03 9:57 /opt/mesosphere/packages/mesos--19a545facb66e57dfe2bb905a001a58b7eaf6004/bin/mesos-agent

mesos-agent的配置在路径/opt/mesosphere/packages/mesos--19a545facb66e57dfe2bb905a001a58b7eaf6004下面，在/opt/mesosphere/packages/mesos--19a545facb66e57dfe2bb905a001a58b7eaf6004/dcos.target.wants_slave/dcos-mesos-slave.service里面是mesos-slave的启动参数的设置，通过mesos的文档，我们知道对于mesos的参数可以使用环境变量进行设置。

ip-10-0-1-78 dcos.target.wants_slave # cat dcos-mesos-slave.service
[Unit]
Description=Mesos Agent: DC/OS Mesos Agent Service
[Service]
Restart=always
StartLimitInterval=0
RestartSec=5
KillMode=control-group
Delegate=true
LimitNOFILE=infinity
TasksMax=infinity
EnvironmentFile=/opt/mesosphere/environment
EnvironmentFile=/opt/mesosphere/etc/mesos-slave-common
EnvironmentFile=/opt/mesosphere/etc/mesos-slave
EnvironmentFile=/opt/mesosphere/etc/proxy.env
EnvironmentFile=-/opt/mesosphere/etc/mesos-slave-common-extras
EnvironmentFile=-/var/lib/dcos/mesos-slave-common
EnvironmentFile=-/var/lib/dcos/mesos-resources
EnvironmentFile=-/run/dcos/etc/mesos-slave
ExecStartPre=/bin/ping -c1 ready.spartan
ExecStartPre=/bin/ping -c1 leader.mesos
ExecStartPre=/opt/mesosphere/bin/bootstrap dcos-mesos-slave
ExecStartPre=/opt/mesosphere/bin/make_disk_resources.py /var/lib/dcos/mesos-resources
ExecStartPre=/bin/bash -c 'for i in /proc/sys/net/ipv4/conf/*/rp_filter; do echo 2 > $i; echo -n "$i: "; cat $i; done'
ExecStart=/opt/mesosphere/packages/mesos--19a545facb66e57dfe2bb905a001a58b7eaf6004/bin/mesos-agent

在文件/opt/mesosphere/etc/mesos-slave-common中配置了大量的mesos-agent的参数

MESOS_MASTER=zk://zk-1.zk:2181,zk-2.zk:2181,zk-3.zk:2181,zk-4.zk:2181,zk-5.zk:2181/mesos
MESOS_CONTAINERIZERS=docker,mesos
MESOS_LOG_DIR=/var/log/mesos
MESOS_MODULES_DIR=/opt/mesosphere/etc/mesos-slave-modules
MESOS_CONTAINER_LOGGER=org_apache_mesos_LogrotateContainerLogger
MESOS_ISOLATION=cgroups/cpu,cgroups/mem,disk/du,network/cni,filesystem/linux,docker/runtime,docker/volume
MESOS_DOCKER_VOLUME_CHECKPOINT_DIR=/var/lib/mesos/isolators/docker/volume
MESOS_IMAGE_PROVIDERS=docker
MESOS_NETWORK_CNI_CONFIG_DIR=/opt/mesosphere/etc/dcos/network/cni
MESOS_NETWORK_CNI_PLUGINS_DIR=/opt/mesosphere/active/cni/
MESOS_WORK_DIR=/var/lib/mesos/slave
MESOS_SLAVE_SUBSYSTEMS=cpu,memory
MESOS_EXECUTOR_ENVIRONMENT_VARIABLES=file:///opt/mesosphere/etc/mesos-executor-environment.json
MESOS_EXECUTOR_REGISTRATION_TIMEOUT=10mins
MESOS_CGROUPS_ENABLE_CFS=true
MESOS_CGROUPS_LIMIT_SWAP=false
MESOS_DOCKER_REMOVE_DELAY=1hrs
MESOS_DOCKER_STOP_TIMEOUT=20secs
MESOS_DOCKER_STORE_DIR=/var/lib/mesos/slave/store/docker
MESOS_GC_DELAY=2days
MESOS_HOSTNAME_LOOKUP=false
GLOG_drop_log_memory=false

默认的mesos-containerizer的隔离只包括cpu和memory，然而在最新的mesos版本里面，多了provisioner这一层，在上面的配置里面隔离了MESOS_ISOLATION=cgroups/cpu,cgroups/mem,disk/du,network/cni,filesystem/linux,docker/runtime,docker/volume，从而可以启动docker的镜像了。

第二个最重要的功能是CNI, container network interface。

CNI要工作需要三部分：

首先DC/OS不需要外置的IPAM，而是由mesos-master的replicated_log负责管理分配IP地址，Mesos需要启动的时候，载入overlay network的modules。

在路径/opt/mesosphere/etc/mesos-slave-modules下面有文件overlay_slave_modules.json

ip-10-0-1-78 mesos-slave-modules # cat overlay_slave_modules.json
{
"libraries":
[
{
"file": "/opt/mesosphere/active/mesos-overlay-modules/lib/mesos/libmesos_network_overlay.so",
"modules":
[
{
"name": "com_mesosphere_mesos_OverlayAgentManager",
"parameters" :
[
{
"key": "agent_config",
"value" : "/opt/mesosphere/etc/overlay/config/agent.json"
}
]
}
]
}
]
}

其次需要载入CNI isolator，这个在MESOS_ISOLATION这个环境变量里面已经配置了。

最后还需要navstar服务来实现跨节点之间的IP互访问

每个mesos-agent的机器上都有opt/mesosphere/packages/navstar--589afdaef03114a17576ee648ae433a052f7a4b9/，都会运行一个navstar进程。

每个机器上都会创建网卡d-dcos，如果Docker容器使用CNI获取IP的容器都Attach到这个网卡上，而非docker0上。

每个机器上都会创建网卡m-dcos，如果mesos容器使用CNI获取IP的容器都Attach到这个网卡上。

每台机器的d-dcos和m-dcos的网段都不同。

每台机器都会创建一个vtep1024的网卡，作为VTEP，背后是vxlan。

每台机器都会创建默认的路由表，从本节点连接到其他的节点默认走vtep1024这个网卡。

9.0.0.0/24 via 44.128.0.1 dev vtep1024
9.0.1.0/24 via 44.128.0.2 dev vtep1024
9.0.3.0/24 via 44.128.0.4 dev vtep1024

对DC/OS的网络的配置在/opt/mesosphere/etc/dcos/network/cni路径下

为了试验这两个新的功能，我们首先创建一个使用CNI的Mesos容器，但是启动的是Docker的Image nginx

{
"id":"nginxmesos",
"cmd":"env; ip -o addr; sleep 3600",
"cpus":0.10,
"mem":512,
"instances":1,
"ipAddress":{
"networkName":"dcos"
},
"container":{
"type":"MESOS",
"docker":{
"network":"USER",
"image":"nginx",
"portMappings":[
{
"host_port": 0,
"container_port": 80,
"protocol": "tcp"
}
]
}
}
}

在日志里面，打印出来容器的IP地址是m-dcos网段的。

然后我们再启动一个使用CNI的Docker容器

{
"id":"nginxmesos1",
"cmd":"env; ip -o addr; sleep 3600",
"cpus":0.10,
"mem":512,
"instances":1,
"ipAddress":{
"networkName":"dcos"
},
"container":{
"type":"DOCKER",
"docker":{
"network":"USER",
"image":"nginx",
"portMappings":[
{
"host_port": 0,
"container_port": 80,
"protocol": "tcp"
}
]
}
}
}

从日志我们看出，配置的IP是d-dcos网段的，而非docker0网段的。

从Mesos上我们看出这两个容器是在两个节点上的

登入Docker的容器，ping另外一个CNI的mesos的IP是没有问题的。

ip-10-0-1-78 cni # docker ps
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
e7908deb3017 nginx "/bin/sh -c 'env; ip " 28 minutes ago Up 28 minutes 80/tcp, 443/tcp mesos-b3fbe6d9-236a-4856-a986-9babbba9c02c-S2.e3c96fa7-b5ff-4af6-9099-bbed399c7c37
a992929fb0d1 nginx "nginx -g 'daemon off" 6 hours ago Up 6 hours 443/tcp, 0.0.0.0:4989->80/tcp mesos-b3fbe6d9-236a-4856-a986-9babbba9c02c-S2.fca41f8d-816c-49cd-9b19-ba059b95e885
8032756dd66e nginx "nginx -g 'daemon off" 6 hours ago Up 6 hours 443/tcp, 0.0.0.0:27003->80/tcp mesos-b3fbe6d9-236a-4856-a986-9babbba9c02c-S2.c0fdd3db-6f17-41d3-ab05-6f2d4d0bfa13
ip-10-0-1-78 cni # docker exec -it e7908deb3017 bash
root@e7908deb3017:/# ip addr
1: lo: mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
inet 127.0.0.1/8 scope host lo
valid_lft forever preferred_lft forever
inet6 ::1/128 scope host
valid_lft forever preferred_lft forever
51: eth0@if52: mtu 1420 qdisc noqueue state UP group default
link/ether 02:42:09:00:03:82 brd ff:ff:ff:ff:ff:ff
inet 9.0.3.130/25 scope global eth0
valid_lft forever preferred_lft forever
inet6 fe80::42:9ff:fe00:382/64 scope link
valid_lft forever preferred_lft forever
root@e7908deb3017:/# ping 9.0.2.13
PING 9.0.2.13 (9.0.2.13): 56 data bytes
64 bytes from 9.0.2.13: icmp_seq=0 ttl=62 time=0.709 ms
64 bytes from 9.0.2.13: icmp_seq=1 ttl=62 time=0.535 ms

你可能感兴趣的:(DCOS)

DCOS安装 Stay_57c4
安装DCOSCE创建4个CentOS虚拟机（Bootstrap/Master/Slave*2)，如果要安装本地源的话需要至少60GB硬盘选择安装软件-Infrastructionserver-SysAdminTools/PerformanceTools：准备阶段准备所有节点环境修改/etc/sysconfig/network-scripts/ifcfg-ens33使网络生效，pingbaidu.c
python生成十字导杆形平面四杆桃形线老歌老听老掉牙 python numpy
importsympyassy'''OC=BP=dOP=pOB=dcos(fi)'''d,p,fi,k=sy.symbols('d,p,fi,k')#type1xp=d*(1+sy.cos(fi))*sy.cos(fi)yp=d*(1+sy.cos(fi))*sy.sin(fi)xp_c=xp.subs({d:600})yp_c=yp.subs({d:600})sy.plot_parametric
亚马逊AWS 服务自动扣款9.15美元(63人民币)申请退款成功经历吉凶以情迁
查询入口https://www.amazon.cn/gp/help/customer/contact-us%3FinitialIssue%3Dcos-us%26skip%3Dtrue%26ref%3Dxbs_from_us_cu#bhttps://us-east-2.console.aws.amazon.com/console/home?region=us-east-2https://consol
linux12运维企业实战笔录 -- 02 docker runc漏洞修复 FikL-09-19 企业实战 docker 运维 kubernetes
文章目录一、背景二、目标三、风险操作类型和风险等级四、操作步骤五、测试用例六、回退方案七、yml语言一、背景192.168.11.20存在runc容器逃逸漏洞CVE-2022-365【POC检测原理】。该K8S节点为dcos-jt-01集群的K8S节点，需要对每台节点进行漏洞修复，采用方法为：使用新版本runc二进制文件进行替换，修复runc容器逃逸漏洞，增强主机安全。二、目标192.168.11
基于 K8S 构建数据中心操作系统七牛云存储云计算容器 K8S 云计算容器 K8S 人工智能大数据
在12月22日ECUG的下午场，七牛云容器计算部技术总监袁晓沛为大家带来了主题为《基于K8S的DCOS之路》的精彩分享，向大家介绍了七牛容器云目前K8S的状况和产品思考。同时，他在会上讲述了如何通过七牛公有云业务容器化的操作实践，组建K8S翻译团队，对《KubernetesinAction》这本书进行落地的翻译。以下是演讲内容的实录整理。大家下午好！我是七牛云容器计算部技术总监袁晓沛，我今天想分享
Kubernetes模型设计与控制器模式精要 | 留言送书 Docker_ 分布式 kubernetes 数据库 python java
Kubernetes创建初期，其本身在业界地位并不占优，前有长期占有主流市场的Mesos和基于Mesos的DCOS围追堵截，后有DockerSwarm依托自己的容器事实标准异军突起，反倒是Kubernetes只有谷歌的品牌。Kubernetes为什么能最后胜出，成为容器云的实施标准呢？最根本原因就是其对管理范畴的所有对象进行了抽象，通过模型标准化将容器云平台各个维度的问题解决得非常完美。Kuber
软件基础架构介绍张驰Terry 软件研发编程语言中间件 java linux python
其一，基础平台。包括：冯·诺依曼体系、编程语言、操作系统。其二，桌面开发平台。包括：窗口系统、GDI系统、浏览器与小程序。当然我们也要理解桌面开发背后的架构逻辑，MVC架构。其三，服务端开发平台。包括：负载均衡、各类存储中间件。服务端业务开发的业务逻辑比桌面要简单得多。服务端难在如何形成有效的基础架构，其中大部分是存储中间件。其四，服务治理平台。主要是以容器技术为核心的DCOS（数据中心操作系统）
客服系统mesos/marathon迁移到DC/OS的探索(1) 运维小兵_加油
我们客服系统使用mesos/marathon来管理springboot微服务已经有一年半了，没出现过任何故障，运行十分稳定。在这期间,基于mesos/marathon开发的DCOS又提供了很多新特性还有丰富的framework,e.g.Cassandra,ES,mr-redis,mq等framework，这些framework都实现了高可用，快速扩容缩容。其中mr-redis提供的高可用，主从自动
为什么 kubernetes 天然适合微服务 (1) 网易数帆云计算
此文已由作者刘超授权网易云社区发布。欢迎访问网易云社区，了解更多网易技术产品运营经验最近总在思考，为什么在支撑容器平台和微服务的竞争中，Kubernetes会取得最终的胜出，事实上从很多角度出发三大容器平台从功能方面来看，最后简直是一摸一样。参考Docker,Kubernetes,DCOS不谈信仰谈技术容器平台选型的十大模式：Docker、DC/OS、K8S谁与当先？经过一段时间的思索，以及采访了
Kubernetes 的 HPA 原理详解 NetEaseResearch 云原生 kubernetes 分布式 docker linux golang
1.HPA解决的问题HPA全称是HorizontalPodAutoscaler，也就是对k8s的workload的副本数进行自动水平扩缩容（scale）机制，也是k8s里使用需求最广泛的一种Autoscaler机制，在开始详细介绍HPA之前，先简单梳理下k8sautoscale的整个大背景。k8s被誉为新一代数据中心操作系统（DCOS），说到操作系统我们自然想到其定义：管理计算机的软硬件资源的系统
PPTV之大数据集群容器化研究 weixin_34248487
本文讲的是PPTV之大数据集群容器化研究【编者的话】如何统一调度两个集群的物理资源，有效节约成本？背景PPTV作为国内视频领域的领先者，对于大规模流媒体的存储、处理、分发及应用，有着迫切的要求。容器技术及微服务模式的出现，使大规模的研发交付效率大为提高。因此我们基于Docker技术打造了DCOS。集群物理资源的调度用Mesos，容器编排用Marathon，并以此为核心，结合Docker和Nginx
Scaling ArangoDB to gigabytes per second on Mesosphere’s DCOS GermanWifi 数据库 nosql-分布式 graph arangodb mesos
Inthisblogpost,weexplainhowanArangoDBcluster(ArangoDBonGithub)with640virtualCPUscansustainawriteloadof1.1millionJSONdocumentspersecond,whichamountstoapproximately1GBofdatapersecond.Ittakesasingleshort
用DCOS和marathon-lb实现服务发现和负载均衡：第一部分 Pointer_v Mesos
最近在研究使用Mesos，对marathon-lb和mesos-dns等诸多工具，只是停留在知道和会用的阶段，特别是对于基于marathon-lb的HAProxy的应用分组和使用更是一头雾水。现在资料也少，看了官网上的这篇文章觉得讲得还算是全面。兄弟英文水平差，先用Google翻译了一下，然后再梳理整理，同时，加上了一些自己的理解的说明。因为每个人的经历和经验都不同，以下这些东西对于有些人可能很难
Common questions liuyangcc
Isthedockerdaemonrunningonthishost[cpicapp@CloudSystem!!DT/home/dcos]$dockerps-aCannotconnecttotheDockerdaemon.Isthedockerdaemonrunningonthishost?Answer:Youhavetosu[otheruser]
架构师之路046 服务端开发的总结 ailinyingai 架构师之路
Docker&Kubernetes。毫无疑问，数据中心操作系统（DCOS）是服务端操作系统的发展方向。关于DCOS，我们会在下一章涉及。Go语言。推荐BrianW.Kernighan写的《Go程序设计语言》，本书为传世经典《C程序设计语言》的作者再次动笔所创。LVS&Nginx。两大当前最主流的流量调度软件。其中LVS工作在网络层，Nginx工作在应用层。MySQL&MongoDB。两大当前最主流
从多租户隔离到高可用，谈DaoShip微服务架构演进 DragonWar%
本文根据DCOS联盟第3期线上分享整理而成讲师介绍姜冲DaoCloud高级软件工程师DockerContributor，负责公有云构建服务、DaoShip的设计与研发。对微服务架构设计与实现有着丰富的理论与实践经验。大纲：正确构建镜像的目标和所需资源，以及如何规划和构建服务；基于优良的微服务架构设计及网络层优化，为数十万用户的服务使用提供稳定高速的构建能力；不同运营需求下的技术架构演进；微服务带给
DCOS之k8s的容器监测探针 zou_es
大部分的应用程序我们在部署的时候都会适当的添加监控，对于运行载体容器则更应该如此。kubernetes提供了livenessprobes来检查我们的应用程序。它是由节点上的kubelet定期执行的。首先说一下Pod的整个生命阶段：Pending：表示集群系统正在创建Pod，但是Pod中的container还没有全部被创建，这其中也包含集群为container创建网络，或者下载镜像的时间；Runni
DC/OS-学习地址汇总 gl328518397
一,官方地址类（1）安装包下载地址：dcos.io/releases/（2）github地址：github.com/dcos（3）jira地址：jira.mesosphere.com/projects/DCOS_OSS/summary（4）google论坛：groups.google.com/a/dcos.io/forum/#!forum/users（5）官方文档：dcos.io/docs/1.1
DCOS之k8s的secret zou_es DCOS
作为kubernetes中一个重要的资源secret，它的设计初衷是为了解决container在访问外部网络或外部资源时验证的问题，例如访问一个git仓库，连接一个数据库，设置一些密码配置等，需要额外验证的场景。它被作为一种资源的形式被设计，由kubernetes集群统一管理，从字面意思来看已经表现了敏感，安全等特性，因此集群对待这类资源的管理需要额外的保护，对其内容进行加密是十分有必要的。当前，
容器技术及其应用白皮书--附录介绍 shaonbean 【Cloud Compute】
附录AOCI和CNCF基金会介绍目前行业里针对容器相关的开源技术标准化组织主要有两个：OCI和CNCF。其中OCI由Docker公司倡议发起，旨在定义容器运行引擎和容器应用镜像的相关技术规范；而CNCF由Google发起，目标是推动以容器为基础的云原生应用架构模式以及相关的各项技术，其中Google已经将Google自身的“DCOS”系统Kubernetes捐献给CNCF，Google每年仍会投入
centos7.2上搭建ntp服务器，并实现时间同步 yuanfang_way linux centos7
1.前言对于容器编排系统，前段时间主要研究kubernetes，现在实验室要用dcos，所以在实验室集群上搭建了该系统。搭建dcos集群需要各机器时间同步，而实验室集群并没有联网，这里讲述下怎么搭建ntp服务器并进行时间同步。使用的系统为centos7.2，机器使用情况如下表所示，这里以10.107.18.35为ntpserver，其他的为client对时间进行同步，本文系统使用的是timedat
DCOS应用市场之应用仓库的管理腾讯开发者
上期，我们介绍了DC/OS应用市场里面的开源项目universe，并且介绍了universe的应用文件内容和创建过程，当用户创建了属于自己的universerepository后，如何使用这些repository呢？这期，我们从开始介绍DC/OS的cosmos来逐层剖析应用仓库的管理。在DC/OS系统中，应用仓库管理的后端是通过cosmos提供的服务完成的。首先，我们先简单介绍一下cosmos。C
CentOS系统时间同步ntp 王茗颢
---centos7.2上搭建ntp服务器，并实现时间同步对于容器编排系统，前段时间主要研究kubernetes，现在实验室要用dcos，所以在实验室集群上搭建了该系统。搭建dcos集群需要各机器时间同步，而实验室集群并没有联网，这里讲述下怎么搭建ntp服务器并进行时间同步。使用的系统为centos7.2，机器使用情况如下表所示，这里以10.107.18.35为ntpserver，其他的为clie
中移苏研DCOS实践之路完整篇 zou_es DCOS DCOS
一、实践背景1.1现网生产系统存在的问题在中国移动内部各省市公司，因为技术迭代、设备更新的原因，设备繁杂，有x86服务器、VMware虚拟机、OpenStack虚拟机以及不同厂商的物理机（如IBMPower服务器），设备与系统各异，无法整合。在资源充裕的情况下，却面临着机器不够用，资源利用率低的困境。具体来讲，客户面临的难题有以下几点：①、机器资源利用率低数据中心拥有多套业务系统运行，开发、测试到
python_numpy_方波的傅立叶分解 Kedi
使用最小二乘法可以解决的问题之将一个方波分解为asin(x)+bsin(2x)+...+csin(nx)+dcos(x)+ecos(2x)+...+fcos(nx)产生一个方波：使用周期函数sin产生方波，sinx>0,y=-1,sinx0:#调用sin，cos要使用np.sin，np.cosy.append(-1)else:y.append(1)y=np.array(y)#需要把list转化成a
如何使用Azure Container Service Engine在Azure中国区部署容器服务（二）：Kubernetes篇 weixin_36806758
前言在上个章节中，我们介绍了如何使用AzureContainerServiceEngine部署一个DCOS集群，这篇文章我们主要介绍一下如何使用acsengine在Azure中国区部署一个Kubernetes集群。Kubernetes简介Kubernetes是Google开源的容器集群管理系统。它构建于docker技术之上，为容器化的应用提供资源调度、部署运行、服务发现、扩容缩容等整一套功能。下图
基于 K8S 构建数据中心操作系统 weixin_34378922
在12月22日ECUG的下午场，七牛云容器计算部技术总监袁晓沛为大家带来了主题为《基于K8S的DCOS之路》的精彩分享，向大家介绍了七牛容器云目前K8S的状况和产品思考。同时，他在会上讲述了如何通过七牛公有云业务容器化的操作实践，组建K8S翻译团队，对《KubernetesinAction》这本书进行落地的翻译。以下是演讲内容的实录整理。大家下午好！我是七牛云容器计算部技术总监袁晓沛，我今天想分享
dcos - marathon - 有的时候健康检查不是绿条 LifeSecret dcos
有的时候，运行一段json之后，发现status也是蓝色的Running，但是就是Health就不是绿条，这个时候的状态时unkonwn，因为没有配置健康检查导致。如上图，我们只要配置了状态检查，就不会出现unkonwn的状态了。在配置的时候，有http以及tcp和cmd，这个时候以tcp来说，我们有两种选择：1.portindex,因为docker在启动的时候，docker会随机的分配一个端口给
dcos - 如何运行一个简单的小程序(docker容器) LifeSecret dcos docker
首先，准备一个镜像。我们可以先从docker.io里面搞下来一个#登录docker老巢的registrydockerloginhttps://index.docker.io/v1/输入站点的账号和密码#登录私服registrydockerloginhttps://reg.ops.ac.cn:5000输入站点的账号和密码。私服如果https是自建的httpsSSL证书，那么需要在dockerdaem
dcos下rexray服务的配置 styshoo docker ceph 云计算
在dcos环境下，rexray服务的默认配置文件为/opt/mesosphere/etc/rexray.conf，而其服务文件则是/etc/systemd/system/dcos-rexray.service。#vim/etc/systemd/system/dcos-rexray.service[Unit]Description=REX-Ray:Avendoragnosticstorageorch
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =