记一次vpc迁移

记一次vpc迁移

关键词

VPC , Docker network

起因

公司新买了几台服务器当海外服,都是在同一个VPC下的,但因为之前还有一台服务器运行在阿里云的经典网络下,并不在这个VPC内,所以我想把服务器都迁过来,好管理,搭建服务也比较方便.

以防万一,在预约了经典网络迁移到专有网络之前, 我详细地询问了阿里云的工作人员相关迁移事宜,包括停机时间,RDS 数据库访问,vpc迁移网络变化等等一系列问题,结果大概就是停机15分钟左右,RDS 可以正常访问,不会影响该vpc中其他的主机等,也大致看了相关的文档,了解了一下有什么风险点.

迁移

在确保没什么问题之后,我就预约了迁移.大概等了20分钟后,登录! 重新启动了docker server,启动web服务器,在此之前仿佛一切都很顺利.

查看日志,在运行到Hibernate Commons Annotations的时候突然卡着不动了,我仿佛感觉到一个不详的预兆,没过几秒程序就报错了.

Caused by: java.net.UnknownHostException: xxxx-xxxx.mysql.rds.aliyuncs.com
    at java.net.InetAddress.getAllByName0(InetAddress.java:1280)
    at java.net.InetAddress.getAllByName(InetAddress.java:1192)
    at java.net.InetAddress.getAllByName(InetAddress.java:1126)
    at com.mysql.jdbc.StandardSocketFactory.connect(StandardSocketFactory.java:188)
    at com.mysql.jdbc.MysqlIO.(MysqlIO.java:298)
    ... 67 more 

UnknownHostException

看到 UnknownHostException 我的第一个反应就是地址写错了?但又想了想迁移之前明明运行的好好的?带着疑惑,我还是检查了RDS的地址是否正确.嗯,仔细地对照了控制台上的RDS地址,确实没错.

然后又检查了一遍 RDS 的白名单,对照了服务器的公网/内网ip,没错呀.虽然都没错,但是我发现RDS 实例还是经典网络,并不是使用 VPC 的网络.带着疑惑,我检查了一遍以后,决定将 RDS 也迁移到这个 VPC 中来.

RDS 迁移的过程很顺利,并且提示我保留了原来的经典网络地址.在迁移之后,将地址改为迁移之后的内网地址,重新打包上传了代码.重启服务! 结果仍然是 UnknownHostException .我仍然没死心,在本地准备连 RDS 迁移后的外网地址试试, 原本以为会失败,结果没想到成功了.
我越来越不明白了.

重新上传了这份代码,放到服务器上,重启服务.程序运行到一半卡住的时候,我就感觉到这次又失败了.果然一样的 UnknownHostException

难道是域名解析的问题?

在网上搜了下 UnknownHostException ,但是没有什么结果.

想了一会儿,又测试了几次.原有的经典网络地址也没法访问,没法子,就下了个阿里云工单,问问是不是迁移时出了什么问题.

阿里云的工程师让我直接用 迁移后RDS 的ip试试, 我在服务器 ping 了RDS的地址,ping通了, 找到了这个域名的ip .然后重新改了数据库的地址,上传了代码,重启服务.

Caused by: java.net.NoRouteToHostException: No route to host (Host unreachable)
    at java.net.PlainSocketImpl.socketConnect(Native Method)
    at java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:350)
    at java.net.AbstractPlainSocketImpl.connectToAddress(AbstractPlainSocketImpl.java:206)
    at java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:188)
    at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392)
    at java.net.Socket.connect(Socket.java:589)
    at com.mysql.jdbc.StandardSocketFactory.connect(StandardSocketFactory.java:211)
    at com.mysql.jdbc.MysqlIO.(MysqlIO.java:298)
    ... 67 more  

第一次失败!

然后我又尝试在 docker 启动容器时指定 dns 地址

docker run -d --dns 8.8.8.8 -p 8000:8080 -name [容器名] -v xxx:xxx [镜像名]

启动之后,还是连接不上!

看来,也不是域名解析的问题.

折中的办法

在上面的测试中,我开始意识到容器内部的网络好像是出了什么问题.

我继续测试了宿主机(也就是这台迁移的服务器)

telnet [rds地址] 3306
ping [vpc中其他主机 ip] 

连接都成功了

接着,进入了容器的内部:

docker exec -it [容器名] /bin/bash

继续ping了vpc中其他主机

ping [vpc中其他主机 ip] 

连接失败,外网也是如此.看来问题就出在这里了.

在网上搜了搜,docker 容器内使用宿主机网络, 看了半天好像没有什么和我的情况一样的.

为了了解地更深一点,我又大致看了看 docker 的网络管理, 默认docker 使用bridge驱动的. 我想了想,是不是这部分出了问题.于是重新启动了一个镜像.

docker run --net=host -v xxx:xxx -name xxx [镜像名]

启动成功了,数据库也连上了,也明确了确实是docker network bridge驱动的问题,事情就这样解决了么?

尝试重置

查看了下 docker server 的版本是1.12,心想难道是 docker 版本过低了?

在备份了服务器的 docker 日志之后,我决定更新下 docker.

更新重启之后,然而事实还是,使用 docker network bridge 在容器内部仍然连不上宿主机的网络.(这里并没有使用--net=host)

在 google 上搜索了 docker bridge network not working之后, 我极不情愿的使用了StackOverFlow.com: My docker container has no internet 中的方法 -- 重置docker网络. 一来我对这些命令并不是特别熟悉,二来重装docker之后没有成功,让我失去了对这个方法的信心

命令如下

pkill docker
iptables -t nat -F  
ifconfig docker0 down 
brctl delbr docker0
sudo systemctl start docker

查了点资料,具体解释如下

iptables

iptables -t nat -F  

简单的来讲就是: 删除 nat(Network Address Translation) 中所有规则

注 意 : 其实 iptables -F -X 这些命令十分危险,谨慎使用 ! 连远程主机的时候,一不小心就把自己也关在外面了,然后再也进不来了...

ifconfig

ifconfig docker0 down 

关闭名称为 docker0 的网桥

docker0到底是什么呢 ? 它 docker server 在启动时,会创建一个 docker0 的网桥,默认所有的容器都通过它访问宿主机的网络

brctl

需要先安装yum install bridge-utils

brctl delbr docker0

brctl 是一个管理网桥的工具,这个命令的意思是: 删除 docker 默认的网桥

重启docker

最后重新启动 docker server, 启动 web 服务容器,不幸的是, 容器内部依然无法和外部通讯.

最终解决

尝试了各种方法无法成功的我 , 确实有点心灰意冷.

翻着网页上的解决方案 , 翻着翻着, 开始想到这个故事的源头 -- 没错,就是 VPC .

会不会是 VPC 的IP地址段和 docker 内部的IP地址段冲突了呢?

查看了 VPC 的 IP 地址,又看了看 docker0的ip,果然 冲突了!

问题源头找到了, 那就好办了.

修改了 /etc/docker/daemon.josn , 自定义了docker0 默认 ip 段

"bip":"170.26.0.1/24"

重启了 docker server ,启动 web 服务器 , RDS 连接正常!

终于问题解决!

对于折中方法的思考

虽然使用 host 驱动(docker network 有 默认的bridge驱动,host驱动,overlay驱动,null驱动等)解决了上面容器中访问不了网络的问题,但是和宿主机使用了同一个网络栈,但实际没有进行 network namespace隔离,缺乏安全性,容器之间容易相互干扰.

反思

这次的事情也给我提了个醒,迁移之中出现问题是相对大概率的事件,一来我没有好好准备,二来对 docker 内部的原理并没有真正的了解,导致了这个问题花了我相当长的时间才解决这个问题.

说不多说,继续加油吧,毕竟还有那么多血小板等着我养呢 Σ(  ̄□ ̄||)

讨论

最后,对这篇文章有疑问的欢迎来 Github: 记一次vpc迁移 讨论哦

参考

Docker : docker 官网介绍 network bridge

StackOverFlow : My docker container has no internet

StackOverFlow : How to change Docker IP address on Centos 7?

转载事宜

请在转载文章显著位置给出原文出处:

记一次vpc迁移 https://github.com/giraffe-tree/giraffe-tree.github.io/issues/1

你可能感兴趣的:(记一次vpc迁移)