2009-09-04から1日間の記事一覧

Nutchでクロールした結果を見てみよう

Nutchがクロールして作ったインデックスファイルを見るツールに、Lukeというものがある。手軽に中身を見れて便利

nutch 1.0のクローラーを実行してみよう

nutch 1.0のクローラーを実行する準備として、以下の環境が必要。Java 1.6(nutch 0.9まではJava 1.5で良かったんだけどね。) Tomcat 5.5以上 CygwinクロールするURLを記述したテキストファイル(testurl.txtとでもしておく)を用意する。 www.テスト用のド…

クローラー Nutch 1.0 のインストール

NutchのWEBサイトから、nutch-1.0.tar.gzをダウンロードする。nutch-1.0.tar.gzを解凍する。以下のようなディレクトリ構成が確認できる。C:\直下など、コマンドラインから操作しやすい場所に、解凍してできたnutch-1.0という名前のフォルダをnutchとフォルダ…