agentでの実行エラーについて

533 views
Skip to first unread message

Ryu

unread,
Jun 10, 2016, 7:25:06 AM6/10/16
to 日本JobSchedulerユーザーグループ(JJUG)
お世話になっております

掲題の問題になります。
しばらくAgentについては触っていなかったのですが、本日Agentでジョブを実行させようとすると

Z-REMOTE-118     [0] [60] [zschimmer::com::object_server::Connection::Connect_operation::async_check_error_]
SCHEDULER-280  Process terminated with exit code 1 (0x1)

というエラーが出て実行できない状態です。
エージェント側のscheduler.outには以下のようなログが出ていました。

{scheduler} Execute <remote_scheduler.start_remote_task kind="process" tcp_port="59999"/>
pthread_create scheduler::Thread_api_process::Com_server_thread
Thread scheduler::Thread_api_process::Com_server_thread starts
{socket.connect} pid=0 connect(196,192.168.0.254:59999) ...
[ERROR ERRNO-113  No route to host [connect] [192.168.0.254:59999]]
{scheduler} ERROR in Com_server_thread: ERRNO-113  No route to host [connect] [192.168.1.254:59999]
Thread scheduler::Thread_api_process::Com_server_thread terminated
 
エラーだけ見るとどうもAgent側からの疎通不可のように見えますが、pingは通っております。
また、ここに出ているアドレスはゲートウェイのためそもそもここと疎通しようとしているのもおかしいように思えます
(Engineは同一ネットワーク内のため)
どなたかこういった事象に心当たりがある方がいましたら教えて下さい
以上よろしくお願いいたします。

Satoru Funai

unread,
Jun 10, 2016, 7:46:46 AM6/10/16
to Ryu, 日本JobSchedulerユーザーグループ(JJUG)
Ryuさん
ちょっとこれではなんとも言えないので、システム構成、バージョン、OS情報なども投げてください
船井

----- 元のメッセージ -----
> 差出人: "Ryu" <ryu.ka...@g.softbank.co.jp>
> 宛先: "日本JobSchedulerユーザーグループ(JJUG)" <jobsche...@googlegroups.com>
> 送信済み: 2016年6月10日, 金曜日 午後 8:25:06
> 件名: agentでの実行エラーについて

> --
> このメールは Google
> グループのグループ「日本JobSchedulerユーザーグループ(JJUG)」に登録しているユーザーに送られています。
> このグループから退会し、グループからのメールの配信を停止するには
> jobscheduler-...@googlegroups.com にメールを送信してください。
> このグループに投稿するには jobsche...@googlegroups.com にメールを送信してください。
> https://groups.google.com/group/jobscheduler-ja からこのグループにアクセスしてください。
> その他のオプションについては https://groups.google.com/d/optout にアクセスしてください。
>

Ryu

unread,
Jun 12, 2016, 8:36:15 PM6/12/16
to 日本JobSchedulerユーザーグループ(JJUG), ryu.ka...@g.softbank.co.jp
船井さん

失礼いたしました。
JobSchedulerのEngine・agent共にバージョンは1.9.11になります。
CentOS 6.7の4台構成で、2台にEngineをインストールし、こちらはDBをマルチマスターでレプリケーションしています。
また、ディレクトリに関してはlsyncdで同期しています。

もう2台にAgentをインストールしてあり、
全てのホストではiptablesは切っている状態です。

2016年6月10日金曜日 20時46分46秒 UTC+9 satoruf:

Satoru Funai

unread,
Jun 14, 2016, 4:25:56 AM6/14/16
to Ryu, 日本JobSchedulerユーザーグループ(JJUG)
Ryuさん
Engineはアクティブスタンバイ(Passive cluster)構成ですか?
Agent2台とも同じエラーが出る状態ですか?
またEngineと同じサーバにAgentを入れても同じ状態になるでしょうか?

船井
----- 元のメッセージ -----
> 差出人: "Ryu" <ryu.ka...@g.softbank.co.jp>
> 宛先: "日本JobSchedulerユーザーグループ(JJUG)" <jobsche...@googlegroups.com>
> Cc: "ryu kawakami" <ryu.ka...@g.softbank.co.jp>
> 送信済み: 2016年6月13日, 月曜日 午前 9:36:14
> 件名: Re: agentでの実行エラーについて
> > {socket.connect} pid=0 connect(196, 192.168.0.254:59999 ) ...

Ryu

unread,
Jun 14, 2016, 9:04:05 PM6/14/16
to 日本JobSchedulerユーザーグループ(JJUG), ryu.ka...@g.softbank.co.jp
船井さん

ありがとうございます。
EngineはActive Clusterで動作させており、Agent2台ともで同じエラーになります。
ただ、船井さんの言った通りにEngineと同じサーバーにAgentをインストールした場合ですと上手くきました。
そのためJobSchedulerの動作というよりルーティングがおかしいような気もするのですが・・・・ほぼ初期状態のためゲートウェイ以外の設定は入っておりません。

試したこと
・正常動作時のスナップショットに4台とも復元⇒NG
・Agent側からEngineの4444ポートにtelnet⇒OK
・Engine側からAgent4444ポートにtelnet⇒OK
・パケットキャプチャ⇒Agent側からゲートウェイ宛てに59999で通信の後refuse
(TCPコネクションまでは上手くいっているが、ジョブの実行結果の返信が返ってこない?)
・SELinux確認⇒OFF
・iptables⇒OFF

現在はネットワーク回りを調査中です・・・・。


2016年6月14日火曜日 17時25分56秒 UTC+9 satoruf:

Ryu

unread,
Jun 20, 2016, 1:07:13 AM6/20/16
to 日本JobSchedulerユーザーグループ(JJUG), ryu.ka...@g.softbank.co.jp
お世話になっています。

掲題の疎通不可の現象ですが、解決いたしました。
結果として仮想化OS起因によるルーティングの不具合でした。

最初に記述した構成はKVM上に仮想化してあったのですが、
KVMの動作として自動的にゲストOS上のルーティングに設定を追加するらしく、
iptablesをリセットすることでこの設定が消えてしまったのが原因だったようです。
現状はKVMで自動的に追加される設定部分をiptabesに追記して対処しています。

過去に質問であったAWSでのAgent疎通不可の現象も恐らく似たケースであると考えられるため、
同じ現象で悩んでいる方は試して見るといいかもしれません。

2016年6月15日水曜日 10時04分05秒 UTC+9 Ryu:
Reply all
Reply to author
Forward
0 new messages