有趣的一次调试

果果小姚 [TesterGC](javascript:void(0);) 1周前

记录下今天的debug

测试过程遇到的问题如下:

创建emr集群,创建失败,cloudbreak里面日志显示如下:

图片

涉及到查到服务端的日志和iaas层日志

未调度到服务层,查询iaas日志,主要涉及controller节点,

图片

日志路径如下

cd /var/lib/docker/volumes/kolla_logs/_data/nova/

cd /var/lib/docker/volumes/kolla_logs/_data/heat

controller01日志如下:

图片

controller02日志如下:

图片

controller03日志如下:

图片

cd /var/lib/docker/volumes/kolla_logs/_data/nova/路径下主要看nova-scheduler.log 和nova-api.log

从controller03的nova-api.log找到cloudbreak里面2ed0d3cb-d4c8-4820-8d7c-35884a998f91的报错

图片

通过grep 2ed0d3cb-d4c8-4820-8d7c-35884a998f91 nova-api.log 可以找到instance的ID,为 cc2bc608-e0f4-4e09-9815-b9a28235744e

图片

去查看cc2bc608-e0f4-4e09-9815-b9a28235744e的日志,

图片

对比创建成功的EME集群的日志:

图片

通过实例分配的ID进行查看,此处ID为c8324f38-1176-4a44-bd05-dc5db8900154,可以看到选择的是compute02.sugon.local节点,而报错的选择的是controller02-ironic节点。(这一点当时未留意)

图片

/var/lib/docker/volumes/kolla_logs/_data/heat日志目录,主要查看heat-engine.log

接着往下找,了解到报错的日志是10:02分,接着去找其它日志

2021-08-23 10:02:11.946 34 INFO nova.api.openstack.compute.server_external_events [req-846a86d2-45e5-4465-9c16-1470b6fb26d7 ea7639ce246f48b5909c9ce3aed9ff96 cb4b3cff7360470fb8b7d2c04d6d85c3 - default default] Creating event network-changed:2ed0d3cb-d4c8-4820-8d7c-35884a998f91 for instance cc2bc608-e0f4-4e09-9815-b9a28235744e on controller02-ironic

查找nova-scheduler.log的日志,发现同样时间点,出现

[req-c5e28bf4-f296-4fec-81b4-15a95ab8d944 90c441c4f6b2422d95dc9b6ef7643c00 8baa91c7394e4bd8afe8b934f317e5a2 - default default] HTTP exception thrown: 云主>机类型 bigdata.tiny 没有找到。

怀疑是此原因导致,接着对比正确的集群的日志,创建成功的时间是8.21号,下午5:34

图片

查找nova-api.log,发现创建成功的也有该报错,故类型找不到跟报的异常没关系

图片

因为创建失败的调用了删除,联系iaas同事对 nova封闭了delete api

再次创建提示:

图片

根据nova instance-action-list 740f4821-6b35-45cc-9b46-c3b13c9041f5,查找相关操作的request id信息

图片

通过nova instance-action 740f4821-6b35-45cc-9b46-c3b13c9041f5 req-5fe079a8-8cff-47e2-b8c6-d355aa573b5b查看调用的节点,调度到了裸机,

图片

查找创建集群所用镜像的id属性:glance image-list

图片

glance image-show 63cc81d4-8a15-4c3e-9740-4beaddd87cd9--查看属性

图片

缺少hypervisor_type ,需要将 hypervisor_type 搞成kvm

图片
图片

通过glance image-update {image_id} --property hypervisor_type=kvm将其属性添加

图片

造成缺少该属性原因是,上传时,openstack image create "cv-sugon-analysis-cluster-20210701-alpha" --file cv-sugon-analysis-cluster-20210701-alpha.raw --disk-format raw --container-format bare --public

应该是openstack image create "cv-sugon-analysis-cluster-20210701-alpha" --file cv-sugon-analysis-cluster-20210701-alpha.raw --disk-format raw --container-format bare --public --property hypervisor_type=kvm

改完后,创建集群实验,创建通过

图片

你可能感兴趣的:(有趣的一次调试)