WebスパイダーとWebクローラの定義
ä¸è¦å²ç¬æåçæ§
目次:
クモは、データを探してWebを介して「クロール」するプログラム(または自動スクリプト)です。クモはWebサイトのURLを介して移動し、EメールアドレスなどのWebページからデータを取得することができます。クモはまたウェブサイトで見つけられた情報を検索エンジンに供給するのにも使われます。
「Webクローラー」とも呼ばれるクモはWebを検索しますが、すべてが意図に反しているわけではありません。
情報を収集するためのスパムスパイダーウェブサイト
グーグル、ヤフー!ウェブサイトのクロールに関心があるのは他の検索エンジンだけではありません - 詐欺師やスパマーもそうです。
スパイダーや他の自動化ツールは、ウェブサイト上で電子メールアドレス(インターネット上でこの行為はしばしば「収穫」と呼ばれます)を見つけるためにスパマーによって使用され、それからスパムリストを作成するために使用されます。
クモはまたあなたのウェブサイトについてのより多くの情報を見つけるために検索エンジンによって使用されるツールですが、あなたのサイトをクロールする方法についての指示(または、「許可」)のないウェブサイトは大きな情報セキュリティリスクを提示することができます。クモはリンクをたどって移動しますが、データベース、プログラムファイル、その他の情報へのリンクを見つけたくない場合があります。
ウェブマスターはログを表示して、スパイダーや他のロボットが自分のサイトを訪問したことを確認できます。この情報は、ウェブマスターが誰が自分のサイトにインデックスを付けているか、そしてどれくらいの頻度であるかを知るのに役立ちます。
この情報は、ウェブマスターがSEOを微調整したり、robot.txtファイルを更新したりして将来特定のロボットが自分のサイトをクロールできないようにするために役立ちます。
不要なロボットクローラからWebサイトを保護するためのヒント
不要なクローラをWebサイトから排除するためのかなり簡単な方法があります。悪意のあるスパイダーがあなたのサイトをクロールすることを心配しなくても(難読化されたEメールアドレスはあなたを大部分のクローラーからあなたを守ることはできません)、あなたはまだ重要な指示をサーチエンジンに提供する必要があります。
すべてのWebサイトで、robots.txtファイルと呼ばれるファイルがルートディレクトリにあります。これらのファイルが検索エンジンである場合は、このファイルを使用して、Webクローラーがインデックスページを探す場所を指定できます(特定のページのメタデータにインデックスがない場合を除く)。
あなたがそれらを閲覧したい場所を望んだクローラーに伝えることができるのと同じように、あなたは彼らが行かないかもしれない場所を彼らに伝えることができ、あなたのウェブサイト全体から特定のクローラーさえブロックすることができます。
よくまとめられたrobots.txtファイルは検索エンジンにとって非常に大きな価値があり、Webサイトのパフォーマンスを向上させるための重要な要素になる可能性もあることに注意することが重要ですが、ロボットクローラによっては指示を無視する人もいます。このため、すべてのソフトウェア、プラグイン、およびアプリを常に最新の状態に保つことが重要です。
関連記事と情報
悪意のある(スパム)目的で使用されていた情報収集の普及により、特定の慣行を違法にするための法律が2003年に可決されました。これらの消費者保護法は2003年のCAN-SPAM法に該当します。
あなたのビジネスが大量の郵送や情報収集に従事しているならば、あなたがCAN-SPAM法を読むために時間をかけることは重要です。
次の記事を読むことで、スパム対策に関する法律やスパマーへの対処方法、そして事業主としてのあなたができないことについてもっと知ることができます。
- CAN-SPAM法2003
- 非営利団体向けのCAN-SPAM法の規則
- 5中小企業のオーナーが理解する必要がある5つのCAN-SPAM規則