先日、CSVファイルを理解して、その勢いで、APIとスクレイピングも認識できたらとの思いで投稿しました。
CSVの意味と作り方は理解した!次はAPIとスクレイピングを認識しよう!!
そういえば、職場でもこんなことがあったと思い、あらためてスクレイピングについて掘り下げます。
目次
スクレイピングを利用している?
会社で最近、変な営業メールが増えました。
わたしのアドレスは、問い合わせ窓口(求人や取引先との連絡先)として、会社のホームページ上に公開しています。
以前は、まったくと言っていいほどなかった、
知らない企業からの営業メールが来るようになりました。
公開しているから、「突然ですが」で、
あり得るといえばあり得るともとれますが、
その営業メールは、東京の企業だったり、岡山県の企業だったりと、
さまざまです。丁寧な感じのメールではありますが、どこか無機質です。
うちの会社の取引とは関係ないものばかりです。
これらのことから、スクレイピングを疑っています。
うちの会社だけでなく、他の会社のホームページを持っているあらゆる会社のメールアドレスを
・Webスクレイピングで読み取って、
・加工して、
・一覧にして、
・営業の案内をメール文に付与して、
・メールソフトで、
・飛ばしている(プログラミングで自動処理している)のでは?
と予想しています。
実際のスクレイピング作業は、
営業メールを発行している会社ではなくて、
スクレイピングを実際に行っているのは、外注しているIT関連企業ではないのかなと思っています。
たぶんお金を払ってお願いしているのでしょう。
スクレイピングは違法な技術なのか?
ここで問題になってくるのは、
営業メールを受信するわたしたち(会社)は、
迷惑だと感じるということです。
迷惑とすれば、スクレイピングは違法に近いものとも言えます。
相手に無断で送り付けてくるのですから、当然だ!!
(# ゚Д゚)
(# ゚Д゚)
ただ今回のケースはスクレイピングがどうのこうのというよりも、
「特定電子メール法」という法律が適用されそうです。
「原則としてあらかじめ送信の同意を得た者以外の者への送信禁止」
「一定の事項に関する表示義務」
「送信者情報を偽った送信の禁止」
「送信を拒否した者への送信の禁止」
これらの事項にあてはまったら、処罰しちゃうぞ!
という法律なんですが、受信した側が、送信側に苦情を入れて、
送信側が素直に従えば、まず大事にはなりません。
処罰できると言っても本当に悪質な業者だけです。
こういった運用の不備をついて、平気で、
法人登記している会社ともあろうものが、
数打ちゃ当たるで自動メールしてきているのでしょう。
会社という「公器」でありながら嘆かわしいことですね。
(T_T)
「その会社の社長の顔が見てみたい!」
「恥ずかしいとは思わないのか?」
「捕まらなけりゃ何やってもいいの?」
一言モノ申しておきます。
(+_+)
スクレイピングの判例
もとい、本題にもどります。
「スクレイピングという技術自体は、違法ではありません。」
海外の求人会社の起こした裁判でも、
2017年、米国連邦裁判所は、
「ホームページなどに公開している会社の情報は、許可なく自由にスクレイピング等の技術で情報抽出してもいい」
という見解の有名な判例があります。
ただし、スクレイピングで自由にデータを取得してデータベース化した、
その後、
Σ( ̄□ ̄|||)
(@ ̄□ ̄@;)!!
「そのまま、なんの独自の意見やアイデアを取り入れて加工しないで、ただただコピペして公開した場合」
「違法なことの手段として利用する目的だったと判明した場合」
「そのデータベースを利用して実際に違法行為を行った場合」
は、スクレイピングした会社は敗訴という判例や見解もあります。
スクレイピングは違法?まとめ
上記の判例はあくまで海外(米国)のものです。
個人的には、日本では今後は、
データを取ろうとする会社の公開しているホームページが、
「スクレイピングでデータを取得されることを望まない(許容しない)」
ことを、わざわざ明示していて、実際にブロックしている。
セキュリティも強化している。
それでもなお、
スクレイピング技術等で、勝手にデータを剥ぎ取って、データベース化したのであれば、
裁判を起こされたら負ける可能性が高くなるのでは?
という意見です。
スクレイピングしてまでも取りたいデータのある会社は、企業価値が高い大企業がほとんどでしょう。
そういった会社は出し惜しみしないで、
「APIという公式なインターフェースを充実させて欲しいな~」
とも併せて思います。
そうすれば、
「スクレイピングしてデータを取り出してやろう」という輩(やから)もいなくなる
という流れも期待したいですね。
(^◇^)
(^_-)-☆