OpenStackの障害に関する質問

117 views
Skip to first unread message

青松 祐亮

unread,
Oct 21, 2022, 3:16:30 AM10/21/22
to openst...@googlegroups.com

KDDI株式会社の青松と申します。

OpenStackで発生した障害について質問させて頂きたいことがあり
ご連絡いたしました。

現在、AnsibleというIaCツールを用いて複数台のインスタンスの作成からボリュームの紐付けまで自動生成する対応を進めております。
その対応を進める中で、検証のためAnsibleを何度も実行して生成・削除を繰り返していると、
稀に以下の問題が発生してOpenStackが正常に動作しなくなります。

(1) cinder apiが応答しない。
(2) nova apiのレスポンスが2回に1回程度の頻度で遅くなる。(30-60 sec)

調査してみると、特定のポート(8776, 9696)にゾンビプロセスが存在しており、
それらをkillすることで上記2点は解消されました。

しかし、IaCツールによる連続的なAPIの実行で何故この事象が発生してしまうのか、
根本的な原因が特定できず困っています。

こちらの原因について、もしくはパラメータのチューニング等で未然防止できるような方法をご存じの方はいらっしゃいませんでしょうか。

環境は以下の通りです。
-----------------------------------------
OS: CentOS Stream 8
Kernel: 4.18.0-408.el8.x86_64
OpenStack: Yoga(PackStackにて構築)
Nova: 25.0.1
Neutron: 20.2.0
Cinder: 20.0.1
KeyStone: 21.0.0
-----------------------------------------

また、OSUbuntu 22.04で構成されたサーバ群にもOpenStackを構築しており、
その環境にもIaCツールを何度も実行しているのですが、現状一度も問題が発生しないため、OS依存の問題なのか疑っているところです。

以上になります。よろしくお願いします。

Hiroshi Tsuji

unread,
Oct 21, 2022, 5:04:32 AM10/21/22
to openst...@googlegroups.com
青松さん

辻です。

packstack-yogaを試したことはないですし、既知のバグというのも私は思い当たらなかったので一般論からのコメントになります。

ポート番号9696は neutron-server、8776がcinder-apiですね。NovaとNeutronやCinderは連携して動作しますので、たとえばCinder/Neutronがリスタートを繰返している等であればNovaがリトライを繰返すことでNovaのAPI応答時間が長くなる可能性はあるかもしれません(当然ほかの要因もあると思います)。

ひとまず cinder / neutronの ログ(たぶん
/var/log/neutron/server.logや/var/log/cinder/api.log)に何か手がかりがないかを確認された方が良いかと思います(バグや設定ミスの場合は大概pythonのスタックトレースがそこに出力されます)。
また、定期的に死んでいるという話であればメモリ不足からのOOM等の可能性もあるかともいますリソース使用量等を確認されたうえで、
/var/log/messages 等のOSのログも確認されるというのもよいと思います。

いただいた情報からは、Packstackをインストールされたサーバのスペックがわかりませんでしたが、参考までに私の手元のPackstack(wallaby)は
8コア32GBのVMですが、ほぼPackstackインストールしただけ+designateを追加でインストールした状態ですでに free
コマンドのusedは13GBiもあります。もし実行しているサーバのサイジングが小さい場合はこの点もご注意いただいたほうが良いかもしれません。

2022年10月21日(金) 16:16 青松 祐亮 <kues...@gmail.com>:
> --
> このメールは Google グループのグループ「日本OpenStackユーザ会」に登録しているユーザーに送られています。
> このグループから退会し、グループからのメールの配信を停止するには openstack-ja...@googlegroups.com にメールを送信してください。
> このディスカッションをウェブ上で閲覧するには https://groups.google.com/d/msgid/openstack-ja/CAKM2XcHHAzWWD3ZbNzZ9nLouHFDvsDCD1ouTeLdt9pS%2BaKe7XA%40mail.gmail.com にアクセスしてください。

青松 祐亮

unread,
Oct 23, 2022, 9:23:43 PM10/23/22
to openst...@googlegroups.com
青松です。
ご連絡ありがとうございます。

情報を伝えきれておらず申し訳ありません。
OpenStackに係る各ログは確認しておりまして、障害後に出力されているログからコードを追う事はできました。
(1) cinder apiが応答しない時(ソケットの受付で止まっていた)
https://github.com/eventlet/eventlet/blob/master/eventlet/wsgi.py#L1002-L1003
(2) nova apiが遅延した時(signalの受取?で時間が掛かっていた)
https://github.com/openstack/oslo.reports/blob/master/oslo_reports/guru_meditation_report.py#L185

発生要因について、加えて辻さんの仰るように何かしらのserviceのリスタートのタイミングも考えられる気がしましたので、
再現時は各serviceの最終更新日時も確認してみます。

> また、定期的に死んでいるという話であればメモリ不足からのOOM等の可能性もあるかともいますリソース使用量等を確認されたうえで、
> /var/log/messages 等のOSのログも確認されるというのもよいと思います。
ありがとうございます。
OSのログまで確認できていなかったので、そちらも調査対象に含めて進めようと思います。

2022年10月21日(金) 18:04 Hiroshi Tsuji <t.j.8...@gmail.com>:
このメールは Google グループのグループ「日本OpenStackユーザ会」の登録者に送られています。
このグループから退会し、グループからのメールの配信を停止するには openstack-ja...@googlegroups.com にメールを送信してください。
このディスカッションをウェブ上で閲覧するには、https://groups.google.com/d/msgid/openstack-ja/CAH%3DoHtTPu_HmsODVPzjToUYiVFO%2B%3DXfN66a3ec7uDPF8vPWJWQ%40mail.gmail.com にアクセスしてください。
Reply all
Reply to author
Forward
0 new messages