自己解凍形式のパッケージ実行ファイルをダブルクリック等で起動すると、 以下のような画面が表示されます。 標準でのインストール先は、C:\Program Files\Spider です。 変更したい場合は、インストール先フォルダーを書き換えるか、参照ボタンで インストール先のフォルダを指定してください。
OK ボタンを押してファイルを展開します。
たとえば、パッケージを C:\Program Files\Spider に展開すると以下のファイルが
作成されます。
Readme.txt | 注意書き、まずこれを読んでください |
Spider.exe | プログラム本体 |
ArachnidASF.exe | ASF 録画プログラム |
conttype.txt | Content-type とファイルの拡張子のマッピング定義 |
spider.ini | 設定ファイル |
ファイルの展開が終わると、以下のような画面が表示されます。はい(Y) ボタンを押すとセットアップが開始されます。 初めてセットアップしたときには、最初に使用許諾条件が表示されます。この内容を よくお読みになり、はいボタンをクリックしてください。はいボタンをクリックしない と Arachmo を使用することはできません。
セットアップが完了すると、デスクトップとスタートメニューに Arachmo のアイコンが作成されます。また、インターネットエクスプローラーの右クリックメニューから Arachmo を起動する設定も行われます。
Windows XP、Windows 2000、Windows NT 4.0 の場合、管理者でないユーザでインストールした場合、アンインストール情報が作成できず、アンインストールの際にコントロールパネルのプログラムの追加と削除が使えないので注意してください。
[目次] [トップページに戻る]コントロールパネルのプログラムの追加と削除から Arachmo をアンインストールしてください。
非管理者ユーザでインストールした場合や、一台のコンピュータで複数ユーザで使用していて、先にほかのユーザがアンインストールした場合には、コントロールパネルのプログラムの追加と削除に Arachmo の項目がない場合があります。
この場合は、Windowsのスタートメニューから、スタート→ファイル名を指定して実行 で Spider.exe に -uninstall をつけて実行します。これでアンインストールが行われます。
インストールディレクトリが C:\Program Files\Spider\Spider.exe の場合以下のように指定します。
アンインストールはインストールを行ったユーザで実行する必要があります。一台のコンピュータで複数ユーザで使用している場合、ユーザ毎にアンインストールを行ってください。
[目次] [トップページに戻る]
Windowsのスタートメニューから スタート→プログラム(Windows XPの場合は、すべてのプログラム)→Arachmo で起動できます。
また、デスクトップの Arachmo アイコンをダブルクリックしても起動します。
インターネットエクスプローラーからウェブページを参照中に起動するには、マウスの右ボタンをクリックします。ここで下のようなメニューが表示されるので、「Arachmo でダウンロード(H)」を選択して起動することもできます。
インターネットエクスプローラーでマウスの右ボタンメニューから Arachmo を起動する機能は、インターネットエクスプローラに Arachmo 起動のためのスクリプト(Arachmoをインストールしたフォルダに作られている SpiderMenu.html)を実行させて、そこからSpider.exeを起動することによって実現されています。
Norton AntiVirus のようなウイルス防止ソフトがインストールされている場合、この種のスクリプトを危険であるとみなして、実行をブロックする場合があります。Norton AntiVirus の場合は以下の例のようになります。
Norton AntiVirus の場合は、処理→このスクリプトを認証する を選択してOKボタンを押すことにより、次回からこの処理はブロックされなくなります。
その他のウイルス防止ソフトに関してはそれぞれの製品のマニュアルを参照してください。
検索の基点となるホームページのアドレスを指定します。
開始アドレスに指定したホームページから最大で何階層までリンクをたどるかを指定します。
目的のファイルのファイルタイプ(拡張子)を指定します。スペースで区切って、複数指定することもできます。"." はつけないでください。ここには全角文字を入力しないでください。
処理スレッドの数を指定します。処理中にスレッド数を変更すると、即時(該当のスレッドがファイルをダウンロード中は、そのファイルのダウンロードが終了してから)反映されます。
検索・ダウンロードを開始します。検索を開始すると、[中断]表示になります。この状態で再度このボタンを押すと、処理を一時的に中断できます。処理中断中は、ボタンの表示は[再開]になります。スレッドがファイルをダウンロード中の場合はそのファイルのダウンロードが完了するまでは処理を中断しません。
検索・ダウンロード実行中はスレッド数以外の項目は変更しても反映されませんが、[中断]、[再開]で処理に反映されます。たとえば、処理を開始したときにファイルサイズを50KB以上と指定していて途中で、80KBに変えたい場合には以下のように行うことができます。
1. ファイルサイズ(KB)≧ を 80 に変更
2. [中断]を押して、処理を一時停止する
3. [再開]を押して、処理を再開させる
実行中の検索処理を停止します。スレッドがファイルをダウンロード中の場合はそのファイルのダウンロードが完了するまでは処理を中断しません。
強制的に停止したい場合、ファイル→終了 または、ウインドウの右上の × ボタンを押してください。
このボタンの下の2行の表示/非表示の切り替えを行います。
検索されたファイルを保存するフォルダを指定します。
存在しないフォルダーを入力するとエラーになります。新規にフォルダーを作成したい場合は、参照...ボタンを押してから、新しいフォルダーを作成ボタンを押すか、マウスの右ボタンメニューの新規作成でフォルダを作成してください。
参照ボタンを押すことにより、マウス操作で出力フォルダを選択することもできます。下の図は Windows XP 上で参照... ボタンを押したときに表示される画面です。マウスの右ボタンメニューから新規フォルダの作成もできます。
目的のファイルのサイズをKB単位で指定します。このサイズ以下のファイルは保存されません。
ファイルを保存する際の形式を指定します。
たとえば、URLが http://aa.bb.cc/dd/ee.jpg のファイルのダウンロードした場合、
それぞれ以下のようになります。
保存フォルダ\aa.bb.cc.dd.ee.jpg
保存フォルダ\aa.bb.cc\dd.ee.jpg
保存フォルダ\aa.bb.cc\dd\ee.jpg
検索の範囲を指定します。
他のサーバへのリンクも検索するようになります。他のサーバへのリンクを多く含んでいるようなホームページを開始アドレスに指定して、それらのリンクを検索したい場合は、これを選択します。
開始アドレスに指定したサーバ内のみに検索の範囲を限定したい場合にチェックします。そのサーバ内に目的のファイルが存在していることがわかっている場合に指定すると、効率良く検索することができます。
開始アドレスに指定したディレクトリ内以下に検索の範囲を限定したい場合にチェックします。そのディレクトリ以下に目的のファイルが存在していることがわかっている場合に指定すると、効率良く検索することができます。
詳細ボタンを押すと、以下の画面が表示され、URL に含まれる文字列を指定して、検索の対象とする URL、または検索の対象としない URL を指定することができます。
文字列を含む URL のみを対象とする、オプションがオンの場合は、詳細ボタンのラベルが [詳細..*] のようにアスタリスクつきで表示されます。
検索の対象とする URL の文字列は一つだけ指定できます。検索の対象としない URL の文字列は複数指定することができます。
たとえば、画像ファイルの検索、ダウンロードの処理を行っている際に、たまたま処理したページが、http://www.yahoo.co.jp のようなリンクを含んでいたとすると、これ以降ユーザの意図とはまったく関係なく、Yahooのホームページに含まれている大量のリンクをたどっていくことになる可能性があります。このような現象を防ぐために、処理対象外の URL 文字列を指定しておきます。
処理対象の URL に含まれる文字列を指定します。
このチェックボックスがオンになっている場合、(f) 処理非対象のURL文字列リスト で指定された、文字列を含む URL を処理しません。ただし、開始アドレスで指定された URL はチェック対象外です。
ここに、処理対象外としたい URL が含む文字列を入力し、(e) 追加ボタンを押すことにより、処理非対象の文字列をリストに追加できます。
このボタンが押されると (d) 処理非対象のURL文字列入力ボックス に入力された文字列を、(f) 処理非対象のURL文字列リスト に追加します。
(c) 文字列を含むURLを除外するチェックボックスがオンの場合、このリスト中にある文字列を含むURLは処理の対象外となります。
このボタンが押されると (f) 処理非対象のURL文字列リスト で選択されていた行をリストから削除します。
処理スレッドの状況を表示します。また、表示→スレッド表示/ログ表示で、ログ表示に切り替えられます。
各列の意味は下の表のとおりです。
ID | スレッド番号を表示します。アイコンはスレッドの状態を示します。 |
状態 | スレッドの状態を表示します。 |
URL | 処理中のURLを表示します。 |
リモートファイル名 | サーバ上でのファイル名です。 | 進捗 | ファイルの何パーセントを受信したか表示します。ファイルのサイズが不明の場合はバイト数で表示します。 |
サイズ | ファイルのサイズを表示します。サイズが不明の場合は ? を表示します。 MMSプロトコルでライブコンテンツを受信している場合は Live と表示されます。 |
ID のアイコンと、状態の意味は以下の表のとおりです。
![]() |
スレッドがスタートした状態です。 |
![]() |
サーバに対して接続を試みている状態です。まだつながっていません。 |
![]() |
サーバとの接続が確立した状態です。 |
![]() |
リモートファイルをチェックしている状態です。 |
![]() |
ターゲットのファイルのデータをサーバから受信しつつ保存している状態です。 |
![]() |
処理対象の URL を待っている状態です。 |
![]() |
中断ボタンを押されたことにより、一時的に停止している状態です。 |
処理スレッドの ID にマウスのポインターを当てて、 マウスの右ボタンをクリックすると、以下のようなメニューが表示されます。
このメニューから特定のスレッドの処理を中止できます。
キャンセル/ファイルは削除 を選択すると、スレッドが保存中のファイルは削除されます。
記録終了/ファイルは保存 を選択すると、スレッドが保存中のファイルはそのまま保存されます。
ログ表示の場合は以下のような表示になります。
ログ表示にしておくと、処理の実行状況が逐一表示されます。
リンクの階層(最初のリンクから何回リンクをたどったか)、URL、サイズ(表示されない場合もあります)、メッセージが表示されます。以下にいくつか例を示します。
この例は、ファイルを見つけて保存した場合です。
この例は、ファイルを見つけたが、保存していない場合です。
この例は、サーバが一定時間レスポンスを返さなかったためエラーとした場合です。
主要なメッセージとその意味を下の表に示します。
また、特定の URL 処理中にエラーが発生した場合その URL はスキップされます。
メッセージ | 意味 |
---|---|
保存しました | ファイルを保存しました。 |
すでに存在します | すでに同じファイル名のファイルが指定されたフォルダーに存在しています。そのファイルに対する処理はスキップされました。 |
サイズ不明 | ファイルタイプが指定された条件と合致したが、サーバから Content-Length が通知されなかったので、ファイルのサイズが不明であったことを示しています。 |
サーバへの接続が失敗しました |
サーバへの接続が一定時間内に完了しなかったためエラーとされました。 原因としては、1) サードがダウンしている、 2) サーバに接続が拒否された、 3) ビジーなためタイムアウトした、等の原因が考えられます。 タイムアウト時間は オプション→環境...→通信パラメータ→無応答のソケットをタイムアウトさせるまでの時間 で調整できます。 |
受信タイムアウトが発生しました |
サーバとの接続済みのソケットから一定時間反応がなかったことを意味します。 タイムアウト時間は オプション→環境...→通信パラメータ→無応答のソケットをタイムアウトさせるまでの時間 で調整できます。 |
サーバによりソケットがクローズされました | 接続されていたソケットがサーバによってクローズされたことを意味します。 |
ソケットの読み込みに失敗しました | ソケットの読み込み中にエラーが発生しました。この後に、OSのエラーメッセージが続けて表示されることもあります。 |
ソケットの書き込みに失敗しました | ソケットの書き込み中にエラーが発生しました。この後に、OSのエラーメッセージが続けて表示されることもあります。 |
サーバは範囲指定のデータ取得要求に対して、データ全体を送信してきました。タイムアウトが頻発するようであれぱ、スレッド数を少なく調整してください。 | 接続確立時点でサーバから範囲指定の転送が可能であると通知があったにもかかわらず、実際には範囲指定の転送要求が無視されたことを意味しています。このようなサーバに対してはタイムアウトエラーが頻発するとダウンロードがなかなか進まないような状況に陥ります。対策としてはスレッド数を少なくしてタイムアウトの発生させないようにしてください。 |
Live コンテンツです。保存されません |
MMSプロトコルで、ライブコンテンツ(放送形式)を受信しようとしたが、ライブコンテンツは扱わない設定になっています。(出荷時の設定) ライブコンテンツを扱う設定に変更する方法はこちらです。 |
10054 接続はサーバによって切断されました | サーバ側で強制的にソケットが切断されました。 |
10061 接続はサーバに拒否されました | サーバに到達できましたが、 HTTP デーモンがいないため要求が処理されなかった場合に発生します。 |
10065 到達できないサーバです | ルーティングの問題等の理由で、相手サーバに到達できない場合に発生します。 |
11001 サーバが見つかりません | URL中のサーバ名がDNSで見つけられませんでした。 |
HTTP/1.x 3xx 〜 (xは任意の数字) | リクエストを完了するためには、さらに動作を行わなければならないことを意味しています。たいていの場合、要求したファイルが別の URL に移動しているときに発生します。この場合サーバのレスポンスヘッダに移動先の URL が指定されていればその URL が処理されます。 |
HTTP/1.x 4xx 〜 (xは任意の数字) | リクエストは間違った構文か、果たす事のできないものを含んでいることを意味します。要求されたファイルがない、あるいはアクセスが禁止されている等の場合に発生します。 |
HTTP/1.x 5xx 〜 (xは任意の数字) | サーバ側の原因でのエラーが発生したことを意味します。 |
その他 | HTML を期待しているときに、Content-Type が text/html 以外のものが返されました。 例としては、application/x-shockwave-flash 、application/x-javascript 等があります。 |
現在の状態が表示されます。
現在の状態を示しています。
状態 | 説明 |
---|---|
実行中 | 処理を実行している状態 |
停止中、お待ちください | STOPまたは中断ボタンが押されて、処理中のスレッドが停止するのを待っている状態。スレッドがファイルのダウンロード中の場合は、それが完了してから停止します。 |
一時停止 | 中断ボタンが押されてすべての処理スレッドが停止している状態 |
停止 | すべての処理スレッドが終了した状態 |
実際にHTMLの読み込み、ファイルのダウンロードを行っているスレッドの数です。待ち状態のスレッドはこの数に含まれません。
GOボタンを押してからの時間です。
処理済のHTMLの数です。
分母の数が発見したファイル数で、分子の数が実際に保存したファイル数です。ファイルサイズ等の条件により、発見したファイルがすべて保存されるわけではありません。
下り方向の平均速度です。単位は Bit per second (1秒間に転送したビット数)です。例えば 563.9Kbps と表示されているときは、一秒間に 563,900 ビット転送していることを示しています。
分母は未処理および処理中のハイパーリンクの数、分子はそのうちの目的とするファイルの数です。
もし分母の数に比べて、分子の数が少ない状態がずっと続いている場合は、検索の能率が悪いということを意味しています。そのような場合は、開始アドレスやファイルサイズ等の条件を見直してみてください。
前回、強制終了時に保存した状態から再開します。
Arachmoを終了します。
実行中に終了しようとする、状態を保存するかどうか問い合わせてきます。ここで保存を選択すると、次回起動時に続きを続行することができます。
画面下部の表示をスレッド表示またはログ表示に切り替えます。
その時の開始アドレスの内容をお気に入りに登録します。
好きな名前で登録できます。
お気に入りの、名前の変更、削除、表示位置の変更が行えます。
ASF 録画/録音用プログラム Arachnid ASF を起動します。
以下のダイアログボックスが表示されます。ここで、各種環境設定を行います。
チェックすると、読み取られたHTMLが出力フォルダに保存されます。
チェックすると、サーバからのレスポンスヘッダがログファイルに出力されます。
チェックすると、出力フォルダにすでに同名のファイルが存在する場合に、上書きされません。通常は、チェックしておくことをお勧めします。
このオプションがオンにすると、MMSで配信されているライブコンテンツを受け入れるようになります。初期値はオフで、ライブコンテンツは保存しないようになっています。
反応がなくなった接続済みのソケットをエラーとするまでの時間です。20秒〜120秒程度の間で指定してください。
一つのファイルを受信する際にエラーが連続して発生した場合に、何回までリトライするか指定します。
プロキシサーバを使用する、がチェックされると、プロキシサーバのアドレスとポートの設定が使われます。
基本認証用の情報と Cookie に関する設定を行います。
チェックすると、対象のURLをアクセスするときに、ユーザ名/パスワードが送信されます。
ユーザ名/パスワード送信対象のURLを指定します。
ユーザ名を指定します。
パスワードを指定します。
入力した、URL、ユーザ名、パスワードがURL/ユーザ名リストに追加されます。
ユーザ名/パスワードリストの選択されていた行が削除されます。
ユーザ名パスワードが設定されている、URL、ユーザ名の一覧を表示します。
チェックすると、あらゆるCookieを受け入れるようになります。Cookie は最大300件保持されます。最大件数を超えそうになると、最も使われていないものが捨てられます。
このボタンを押すと保持している Cookie 情報を削除します。
以下のダイアログボックスが表示されます。ライセンスキーを入力して登録ボタンを押すと、ライセンス登録処理が開始されます。
すでにライセンスが登録済みの場合には、お客様に対して発行されているライセンスキーが表示されます。
Arachmo のバージョン情報が表示されます。
Arachmo の各種設定値は INI ファイルの形式( KEY=値 形式 )で保存されています。INI ファイルには、 以下の4種類があります。
Arachmo のパッケージの中に含まれていて、Arachmo をインストールしたディレクトリ
( C:\Program Files\Spider 等 )に置かれます。
編集しない限り通常は更新されることはありません。
各設定値の初期値が記録されています。
ユーザ固有の設定値を保存するために使用されます。Arachmo を実行することによって、
アプリケーションデータのフォルダ (Windows XP、Windows 2000、Windows NT の場合
は、C:\Document and Setting\ユーザ名\Application Data\BBBear\Spider 、
Windows ME、Windows 98 の場合は、C:\Windows\Application Data\BBBear\Spider
等) に自動的に作成更新されます。
このファイルの中の値は、必ず Spider.ini の値よりも優先されます。したがって設定値を直接エディタ等で書きかえる際は、このファイルの値を変更、あるいは追加してください。
キー | 値 |
---|---|
userAgent |
HTTP プロトコルでサーバに接続する際に、クライアントの種別をサーバに通知するため
の文字列です。サイトによってはこの文字列をチェックしている場合があります。
その場合はこれを変更してください。
たとえば、Windows XP で実行されている IE6.0 の場合では Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1) のようになります。 |
mmsUserAgent | MMS プロトコルでサーバに接続する際に、クライアントの種別をサーバに通知するため の文字列です。サイトによってはこの文字列をチェックしている場合があります。 その場合はこれを変更してください。 たとえば、Windows Media Player 7 の場合は、NSPlayer/7.1.0.3055 になります。 |
link_queue_size |
検索されたリンクの URL をメモリーに保持するキューのサイズのヒント値です。厳密に指定した値どおりになるわけではありません。キューがいっぱいになると、空きができるまで発見されたリンクは捨てられます。値を指定しないと、件数は無制限になります。 一件につき約300Byteメモリーを使用します。 |
link_history_size |
検索されたリンクの履歴をメモリーに何件保持するか指定するヒント値です。厳密に指定した値どおりになるわけではなく、最大で指定した値の 1.2倍程度の履歴が保持されます。
一度処理した URLを重複して処理しないためのチェックに使用されます。
値を指定しないと、件数は無制限になります。 一件につき約150Byteメモリーを使用します。 |
file_history_size |
チェックされたファイルの履歴をメモリーに何件保持するか指定するヒント値です。厳密に指定した値どおりになるわけではなく、最大で指定した値の 1.2倍程度の履歴が保持されます。
一度処理した ファイルを重複して処理しないためのチェックに使用されます。
値を指定しないと、件数は無制限になります。 一件につき約150Byteメモリーを使用します。 既存のファイルを上書きしないモードで動作している場合、ディスク上にターゲットファイルがある場合はダウンロードされないため、この値をそれほど大きくする必要はありません。 |
async_connect | connect を非同期で実行するかどうかを指定します。1 は非同期、0 は同期。0 に 設定すると、connect がエラーになった場合に詳しいエラーコードを取得できます。 ただし、Windows ME、Windows 98 では、必ず 1 に設定してください。 |
お気に入り情報を管理するためのファイルです。
開始アドレスに関連付けられている設定値が保存されます。 アプリケーションデータのフォルダ (Windows XP、Windows 2000、Windows NT の場合 は、C:\Document and Setting\ユーザ名\Application Data\BBBear\Spider 、 Windows ME、Windows 98 の場合は、C:\Windows\Application Data\BBBear\Spider 等) に自動的に作成更新されます。
コンテンツタイプ定義ファイル conttype.txt は Arachmo のパッケージの中に含まれて
いて、Arachmo をインストールしたディレクトリ ( C:\Program Files\Spider 等 ) に
置かれます。
このファイルには、コンテンツタイプとファイルの拡張子のマッピング情報が定義さ
れます。
必要に応じて、追加することも可能です。
カラム | 意味 |
---|---|
Content-type | コンテンツタイプを指定します。 |
Readable | HTML として解釈可能 (1) か解釈不能 (0) どうかのフラグ。 |
Type | 標準のファイルの拡張子 |
Alias | 標準のファイルの拡張子以外の拡張子 |