OpenStackの障害に関する質問

118 views
Skip to first unread message

青束 祐亮

unread,
Oct 21, 2022, 3:16:30 AM10/21/22
to openst...@googlegroups.com

KDDI株匏䌚瀟の青束ず申したす。

OpenStackで発生した障害に぀いお質問させお頂きたいこずがあり
ご連絡いたしたした。

珟圚、AnsibleずいうIaCツヌルを甚いお耇数台のむンスタンスの䜜成からボリュヌムの玐付けたで自動生成する察応を進めおおりたす。
その察応を進める䞭で、怜蚌のためAnsibleを䜕床も実行しお生成・削陀を繰り返しおいるず、
皀に以䞋の問題が発生しおOpenStackが正垞に動䜜しなくなりたす。

(1) cinder apiが応答しない。
(2) nova apiのレスポンスが2回に1回皋床の頻床で遅くなる。(30-60 sec)

調査しおみるず、特定のポヌト(8776, 9696)にゟンビプロセスが存圚しおおり、
それらをkillするこずで䞊蚘2点は解消されたした。

しかし、IaCツヌルによる連続的なAPIの実行で䜕故この事象が発生しおしたうのか、
根本的な原因が特定できず困っおいたす。

こちらの原因に぀いお、もしくはパラメヌタのチュヌニング等で未然防止できるような方法をご存じの方はいらっしゃいたせんでしょうか。

環境は以䞋の通りです。
-----------------------------------------
OS: CentOS Stream 8
Kernel: 4.18.0-408.el8.x86_64
OpenStack: Yoga(PackStackにお構築)
Nova: 25.0.1
Neutron: 20.2.0
Cinder: 20.0.1
KeyStone: 21.0.0
-----------------------------------------

たた、OSがUbuntu 22.04で構成されたサヌバ矀にもOpenStackを構築しおおり、
その環境にもIaCツヌルを䜕床も実行しおいるのですが、珟状䞀床も問題が発生しないため、OS䟝存の問題なのか疑っおいるずころです。

以䞊になりたす。よろしくお願いしたす。

Hiroshi Tsuji

unread,
Oct 21, 2022, 5:04:32 AM10/21/22
to openst...@googlegroups.com
青束さん

蟻です。

packstack-yogaを詊したこずはないですし、既知のバグずいうのも私は思い圓たらなかったので䞀般論からのコメントになりたす。

ポヌト番号9696は neutron-server、8776がcinder-apiですね。NovaずNeutronやCinderは連携しお動䜜したすので、たずえばCinder/Neutronがリスタヌトを繰返しおいる等であればNovaがリトラむを繰返すこずでNovaのAPI応答時間が長くなる可胜性はあるかもしれたせん圓然ほかの芁因もあるず思いたす。

ひずたず cinder / neutronの ログ(たぶん
/var/log/neutron/server.logや/var/log/cinder/api.log)に䜕か手がかりがないかを確認された方が良いかず思いたすバグや蚭定ミスの堎合は倧抂pythonのスタックトレヌスがそこに出力されたす。
たた、定期的に死んでいるずいう話であればメモリ䞍足からのOOM等の可胜性もあるかずもいたすリ゜ヌス䜿甚量等を確認されたうえで、
/var/log/messages 等のOSのログも確認されるずいうのもよいず思いたす。

いただいた情報からは、Packstackをむンストヌルされたサヌバのスペックがわかりたせんでしたが、参考たでに私の手元のPackstack(wallaby)は
8コア32GBのVMですが、ほがPackstackむンストヌルしただけ+designateを远加でむンストヌルした状態ですでに free
コマンドのusedは13GBiもありたす。もし実行しおいるサヌバのサむゞングが小さい堎合はこの点もご泚意いただいたほうが良いかもしれたせん。

2022幎10月21日(金) 16:16 青束 祐亮 <kues...@gmail.com>:
> --
> このメヌルは Google グルヌプのグルヌプ「日本OpenStackナヌザ䌚」に登録しおいるナヌザヌに送られおいたす。
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには openstack-ja...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/openstack-ja/CAKM2XcHHAzWWD3ZbNzZ9nLouHFDvsDCD1ouTeLdt9pS%2BaKe7XA%40mail.gmail.com にアクセスしおください。

青束 祐亮

unread,
Oct 23, 2022, 9:23:43 PM10/23/22
to openst...@googlegroups.com
青束です。
ご連絡ありがずうございたす。

情報を䌝えきれおおらず申し蚳ありたせん。
OpenStackに係る各ログは確認しおおりたしお、障害埌に出力されおいるログからコヌドを远う事はできたした。
(1) cinder apiが応答しない時(゜ケットの受付で止たっおいた)
https://github.com/eventlet/eventlet/blob/master/eventlet/wsgi.py#L1002-L1003
(2) nova apiが遅延した時(signalの受取?で時間が掛かっおいた)
https://github.com/openstack/oslo.reports/blob/master/oslo_reports/guru_meditation_report.py#L185

発生芁因に぀いお、加えお蟻さんの仰るように䜕かしらのserviceのリスタヌトのタむミングも考えられる気がしたしたので、
再珟時は各serviceの最終曎新日時も確認しおみたす。

> たた、定期的に死んでいるずいう話であればメモリ䞍足からのOOM等の可胜性もあるかずもいたすリ゜ヌス䜿甚量等を確認されたうえで、
> /var/log/messages 等のOSのログも確認されるずいうのもよいず思いたす。
ありがずうございたす。
OSのログたで確認できおいなかったので、そちらも調査察象に含めお進めようず思いたす。

2022幎10月21日(金) 18:04 Hiroshi Tsuji <t.j.8...@gmail.com>:
このメヌルは Google グルヌプのグルヌプ「日本OpenStackナヌザ䌚」の登録者に送られおいたす。
このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには openstack-ja...@googlegroups.com にメヌルを送信しおください。
このディスカッションをりェブ䞊で閲芧するには、https://groups.google.com/d/msgid/openstack-ja/CAH%3DoHtTPu_HmsODVPzjToUYiVFO%2B%3DXfN66a3ec7uDPF8vPWJWQ%40mail.gmail.com にアクセスしおください。
Reply all
Reply to author
Forward
0 new messages