宜信技术学院

宜信容器云排错工具集

宜信容器云是一套基于kubernetes的容器管理平台。业务线用户在容器云上部署应用程序时，常常会遇到容器无法启动或者应用程序运行不正常的情况。为了方便用户排查在应用上云过程中的问题，我们在web端集成了一系列的排错方式，如下图：

一、终端信息

终端信息查看的是容器实例运行时的标准输出日志。

效果等同于：kubectl logs PODNAME [-c CONTAINER]

基本原理如下图：

应用部署时，所属节点的kubelet通过grpc调用容器运行时接口(container runtime interface)，来请求docker守护进程创建容器运行时。

此时，docker守护进程会创建一个协程来接收容器运行时的标准输出日志，这个协程最终将STDOUT(标准输出)的日志写到容器运行时所在节点的对应目录下：/var/lib/docker/containers/container_id/{container_id-json.log}

如下图:

在web端查看对应实例的终端信息时，kubelet将接收的Api-server请求转化成docker client来请求docker守护进程。Docker守护进程到相应的目录下读取对应容器的日志文件数据，再由kubelet返回日志数据到Api-server，最终显示到web端，供用户查看。

容器日志的生命周期与容器的生命周期一致，容器销毁后，其相关的日志文件也会销毁。

二、events

events是kubelet用来记录容器启动及运行过程中的事件。

效果等同于：kubectl get events

同样，当使用kubectl describe pod来查看pod时，也一样能看到与该pod相关的events，从这些信息中可以很清楚看到事件的状态变化，从而获知pod启动失败的多种原因。比如：

1）没有可用的node供调度，如调度的节点资源不够；

2）健康状态检查失败；

3）拉取镜像失败，如下图：

events的基本实现如下图：

events中包含事件相关的类型、原因、来源、消息等，会在kubelet和controller manager等组件中生成，广播出去后，经过一系列的函数过滤、聚合等，再发送给Api-server存到etcd中。当web端查看events事件时，请求Api-server读取etcd中相应的事件，并返回显示，供用户查看异常参数、错误状态等。

三、web terminal

web terminal可提供一个交互式的界面shell,可执行各种命令。

效果等同于：kubectl exec -it -c bash

web端显示如图：

实现如下：

web terminal主要是通过websocket技术实现的，前端交互界面使用的是开源项目container-terminal（https://github.com/kubernetes...）,其提供了一个容器的TTY(虚拟终端)。

当查看web terminal时，前端web发起了一个websocket请求，到Api-server。再由所属节点的kubelet响应该Api-server的请求，并与容器运行时建立连接。

之所以kubelet能够与容器运行时建立连接，是因为kubelet 定义了一个 CRI 规范中的 RuntimeServiceClient 接口，而容器运行时中的RuntimeServiceServer（即Streaming Server，提供了streaming API）实现了该接口。

kubelet 和容器运行时建立连接后,kubelet返回请求，Api-server将请求升级为SPDY(SPDY允许在单个的TCP请求中复用独立的STDIN/STDOUT/STDERR),并将WS的流映射到SPDY相应的标准流上,便与目标容器运行时Streaming Server建立了流，Api-server便实现了web与容器运行时的数据交互。

此时，在web端输入命令，下发执行完后，可看到返回的结果，如此便实现了交互。

web terminal提供了进入容器的便利，用户可以执行任何操作，为了安全，我们做了必要的安全措施：

1）记录了用户的操作命令。

待用户输入命令后，记录操作，作为安全审计。

2）生产环境使用普通用户进入容器。

即在exec进入容器时的命令/bin/bash -i更改为/bin/bash –c chmod -R 777 $KUBERNETES_FILELOGS;useradd spider > /dev/null 2>&1;su spider,其中环境变量$KUBERNETES_FILELOGS为在容器创建时需要赋权的文件目录。主要是防止用户误操作，删除存储挂载等。

四、debug容器

debug容器是通过工具容器来对业务容器排障。

在使用web terminal来调试应用程序的过程中，业务线用户经常需要各式各样的命令来调试程序。之前的解决方案要么是给业务线定制他们所需的基础镜像，尽量涵盖多的所需命令，要么就是在业务线用户构建镜像时在Dockerfile中添加命令。

但是，因为业务线众多，定制基础镜像工作量过大；而在构建业务镜像时添加过多命令，又操作繁琐，并可能会带来安全隐患。这些解决方案实际上都不符合容器技术的实践原则--尽可能构建最简容器镜像，而精简后的镜像又极度缺失所需的命令工具。

鉴于存在这样的矛盾，我们集成并改造了kubectl-debug（https://github.com/aylei/kube...）这个插件。容器实质上是由cgroup和namespace限制的一组进程，只要能够加入到这个进程的各项namespace，就可实现交互。因此，debug容器的基本思路是：启动一个包含众多排障工具命令的容器，来加入到业务容器的namespace中，便能够在工具容器中实现对业务容器的排障。

效果类似于：

docker run -it --network=container: --pid=container: --ipc=container : -v /log/container _ID:/debugviewlogs

web端显示如下图：

debug容器原理如下图：

将Debug-agent以DaemonSet的形式部署到kubernetes集群的所有节点中，并挂载了宿主机的/var/docker/docker.sock，实现与docker daemon的通信。如上图的步骤：

1）web端提供pod的cluster、namespace、podname信息，向后端服务Backend server发起websocket请求;

2）后端服务Backend server接收到请求后，向Api-server验证该pod是否存在，并返回pod所在的宿主机Node和pod的容器信息，根据状态判断是否可以debug；

注意：如果pod的状态reason是CrashLoopBackOff，那么Backend server将会请求Api-server让kubelet复制一个pod, 复制的Pod被改写了启动命令（sleep）、去掉了label及健康检查。后续debug操作是对复制后pod进行的。

3）Backend server传递debug的pod信息，发起debug请求（升级的SPDY请求，映射了WS的标准流）。

4）Debug-agent收到请求后，开始拉取debug工具镜像，进而创建一个debug容器，并将debug容器的各个namespace设置为目标业务容器app的namespace。再将宿主Node的目录/log/ 挂载到debug容器的目录/debugviewlogs中，便可实现将debug容器中生成的文件在web端下载。如下两图：

创建完debug容器后，Debug-agent将Backend server的SPDY请求中继到debug容器。debug容器将SPDY的标准流attach到业务容器中。如此，web端便可与debug容器实现交互。在debug操作结束后，Debug-agent便会将debug容器清理回收。同样的，debug的操作也做了安全审计。

因此，我们只要构建一个包含众多排障工具的镜像，不仅实践了业务镜像尽可能最简的原则，还提供了调试应用程序所需的各种命令工具。

总结

终端信息、events、web terminal及debug容器都提供了一个可视化的web，让用户能够方便快速地实现对pods排错和对应用程序的排障。

作者：段德华
来源：宜信技术学院

你可能感兴趣的:(宜信研发实践)

矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。