その後、対象サイトからデータクローリングすべく検討を進めておりました。
ところが、先日、対象サイトに障害が発生し、その後、一応は復旧したようなのですが、
手動では通常通り操作できるものの、IDEやPythonスクリプトなどのseleniumによる操作が一切不可能となりました。
seleniumでもサイトへのログインはできるのですが、次の ページ (前回質問時問題となっていたページ)から先に進めなくなりました。
エラーはその時と同じ以下のNoSuchElementException:です。
raise exception_class(message, screen, stacktrace)
selenium.common.exceptions.NoSuchElementException:
前回質問時は、sleepやimplicitly_waitを入れることにより解決しましたので、設定値を60→600と10倍にして試してみましたが、だめでした。
また、前回質問時はIDEでは次ページが開けて、それをそのままPythonのスクリプトで実行するとできないということでしたが、今回はIDEでもできません。
今回、この動作を見ていて一点確認したい点があります。サイト側の設定によりseleniumによるアクセス「のみ」拒否することができるかということです。
データクローリング関係の書籍などには必ず「秒単位などでデータクローリングをすることは、対象サイトに過大な負荷をかける恐れがあるため配慮して」云々といった記述があります。これを防止するため、サイトの側で(通常の手動によるアクセスと違い、seleniumによるアクセスと認識して)seleniumによるアクセス「のみ」拒否することがあるのでしょうか(サーバー側をこのように設定することが可能であるのでしょうか)。
よろしくお願いいたします。