KDDI株式会社の青松と申します。
OpenStackで発生した障害について質問させて頂きたいことがあり
ご連絡いたしました。
現在、AnsibleというIaCツールを用いて複数台のインスタンスの作成からボリュームの紐付けまで自動生成する対応を進めております。
その対応を進める中で、検証のためAnsibleを何度も実行して生成・削除を繰り返していると、
稀に以下の問題が発生してOpenStackが正常に動作しなくなります。
(1) cinder apiが応答しない。
(2) nova apiのレスポンスが2回に1回程度の頻度で遅くなる。(30-60 sec)
調査してみると、特定のポート(8776, 9696)にゾンビプロセスが存在しており、
それらをkillすることで上記2点は解消されました。
しかし、IaCツールによる連続的なAPIの実行で何故この事象が発生してしまうのか、
根本的な原因が特定できず困っています。
こちらの原因について、もしくはパラメータのチューニング等で未然防止できるような方法をご存じの方はいらっしゃいませんでしょうか。
環境は以下の通りです。
-----------------------------------------
OS: CentOS Stream 8
Kernel: 4.18.0-408.el8.x86_64
OpenStack: Yoga(PackStackにて構築)
Nova: 25.0.1
Neutron: 20.2.0
Cinder: 20.0.1
KeyStone: 21.0.0
-----------------------------------------
また、OSがUbuntu 22.04で構成されたサーバ群にもOpenStackを構築しており、
その環境にもIaCツールを何度も実行しているのですが、現状一度も問題が発生しないため、OS依存の問題なのか疑っているところです。
以上になります。よろしくお願いします。
このメールは Google グループのグループ「日本OpenStackユーザ会」の登録者に送られています。
このグループから退会し、グループからのメールの配信を停止するには openstack-ja...@googlegroups.com にメールを送信してください。
このディスカッションをウェブ上で閲覧するには、https://groups.google.com/d/msgid/openstack-ja/CAH%3DoHtTPu_HmsODVPzjToUYiVFO%2B%3DXfN66a3ec7uDPF8vPWJWQ%40mail.gmail.com にアクセスしてください。