cancel
Showing results for 
Search instead for 
Did you mean: 

BOT対策の対策

KentaroMiura
Level 3
お世話になります。
日本航空の三浦です。

社外webサイトに定期的に情報を取得しに行く超典型的RPAがだんだんと増えてきました。

(想定)
・外部サイトAにアクセスする
・検索条件を入れ、検索
・表示された金額を取得
・検索条件のうち、日付を変更し検索・・・

⇒上記の挙動で1回あたり100パターンの条件を検索し情報を取得する

頻度が低いやパターンが少ない場合は問題ないと思いますが、上記業務を日次や毎時実行する場合、外部サイト側でBOTとして認識されブロックされてしまうのではないかと社内で懸念しています。
他社サイトを攻撃していると思われるのは、たとえ意図していなかったとしても当社としては非常に問題だと認識しています。

皆さまに質問です。
・これまでBOTとして認識されるなどでブロックされた経験はありますか
・(サイトの作り次第なのですが、)どの程度のアクセス量までなら気にしなくても大丈夫だと思いますか
・外部サイトに定期的にアクセスする場合、IPを分散するなど何か対策をとっていますか

どこのサイトにアクセスしているのかや、データ量などによっても変わるところなのですが、皆さまのご知見をいただきたくよろしくお願いいたします。

------------------------------
Kentaro Miura
Supervisor
JapanAirlines
Asia/Tokyo
------------------------------
4 REPLIES 4

YoshioKimura
Level 3
従来同じことを人がされていたのであれば,
全く問題ないのでは・・・と思いましたが,
RPAになって初めてやるようになった作業でしょうか?

ちなみに
月に1回,サイトからデータを持ってくるロボット作りの際に
デバッグ等々で相当な回数,サイトにアクセスすることになるので,
事前に「RPAで作業させようとしているのですが大丈夫ですか?」
と,業務部門の担当者からサイト運営団体に聞いてもらったことがあります.

わずかでもご参考になればと.

------------------------------
Yoshio Kimura
none
Akebono Brake
Saitama
------------------------------

三浦様

ご質問の意図とはずれてしまうので、参考までにとなりますが
弊社の場合には、RPA化ガイドラインに外部サイトにアクセスする場合は
運営元に事前に承諾頂くことを必須にしています。

三浦様のおっしゃるとおり「攻撃」とみなされてしまうリスクを避けるためで
英語サイトなどはかなり苦労をしますが、承諾を得るように徹底してもらっています。

------------------------------
Tsutomu Namba
Project Manager
Toppan Printing co.,ltd.
Asia/Tokyo
------------------------------
Tsutomu Namba Project Manager Toppan Printing co.,ltd. Asia/Tokyo

ToshiakiIwahori
Level 2
ソニーマーケティング岩堀です。
いつもお世話になっております。

本件、RPAによるWebクローリングについて、というよりも一般的なBotの所作に従えばよい
事案だと思いました。

>(1) これまでBOTとして認識されるなどでブロックされた経験はありますか
>(2) (サイトの作り次第なのですが、)どの程度のアクセス量までなら気にしなくても大丈夫だと思いますか
>(3) 外部サイトに定期的にアクセスする場合、IPを分散するなど何か対策をとっていますか

●プロックされた経験

弊社でも外部の(人間向け)サービスサイトに比較的短時間に多数アクセスするプロセスを構築し、
おそらくBotと認識されアクセスが撥ねられるという事案がありました…(1)

●対策

発生当初はIPを変更し、対応したつもりになっておりましたが、Proxy経由で外に持っていったIPが
変わっている保証がなく、結果「ゆっくりアクセスする」という対応とし、その後2台の Runtime Resouce PC 
で交互に稼働させるようにスケジュールを変更したところ「断」は緩和した模様です。…(3)。 

この場合は、社外へ出るProxyが持っていくIPに加え、何かしらの端末情報(UAなど)がチェック対象だった
のかもしれません。(あくまで想像です)

●許されるアクセス量

前述の弊社事案に対して定量的な事例を示すことが出来ませんが、一般論としてRPAプロセスは自身が
対外的にBotと認識されることを前提として、robots.txt で示されたルールに従うことはもちろんの
こと、robots.txt などで明示されず外部からは見えにくい FW / WAF / LB の挙動は、先方に問い合わせるか
察するしかないですし、いずれにせよ未来永劫 同じ値のままであるという保証はありません。

一つだけ確実に言えるのは「人間が操作するようなスピードであれば問題は起きない」ですが…(2)
これでは何の解決にもならないので、あえてPracticeを文字に起こすのであれば、

 IPやUA を頻繁に切り替える手法を用いたときの、「先方からDoSに見えない範囲」を知り、
 その枠内にアクセスをコントロールすること

になると思います。ただ、この「コントロール」がRoboからNW設定を変えたり、UAを変えたりする
事だとすると、これって攻撃ツールと変わらないな、という印象はありますね。

●その他の対策

幸い?先例のサイトではWebUIと同じ結果を返してくれるAPIも準備されてはいたのですが、プロセスをAPI向け
に(大幅に)変更する手間と、結果を得るまでの lead time を天秤にかけた結果、そのままになっております。

変更できるパワーがあれば、APIが準備されているか確認し、APIアクセスに切り替える手はあると思いますが、
APIを多数叩くとなるとRPAでやる意義を冷静に見極めないと「本末転倒」になりかねず、悩ましい領域だと
思います。

また、大技扱いになってしまいますが、「先方に正直に話してしまい」安定稼働のためには
最終的にお金で解決という選択肢も無くはないのかもしれません。。。



蛇足ですが、ちょっと前に robots.txt に関するRFCが今更提出されたと話題になっていました。
https://qiita.com/rana_kualu/items/a5bebcae76fa6257167b

長文失礼

------------------------------
Toshiaki Iwahori
PJ Leader / technical consultant
Sony Marketing Inc.
Asia/Tokyo
------------------------------

KentaroMiura
Level 3
みなさま

ご回答いただきありがとうございます。
このような業務をこれまで人間もやっていた場合でも、ユーザとしては頻度を上げたくなるものなので、そのバランスが懸念点でした。

本来であれば、対象のシステム管理者に対して通知を行うなどの調整があるべき姿だとは思いますが、
例えば競合他社や特に取引関係のない会社などだった場合のふるまいは特に難しいと思います。
ただ許可を得るための連絡だったのに相手側で大規模な調査に発展してしまうなど、藪蛇になってしまうこともありそうで。。

社内向けには、
①真面目に承諾を取ってみる
②(承諾が取れなさそうな場合)稼働頻度を抑えつつ、必要に応じて複数のRRで分散稼働してみる
という選択肢で進めてみようと思います。

今後ともよろしくお願いいたします。

------------------------------
Kentaro Miura
Supervisor
JapanAirlines
Asia/Tokyo
------------------------------