Nutch 1.0

nutch 1.0のnutch-1.0.warアプリケーションを手動でEclipseのダイナミックウェブプロジェクトに追加する

Eclipseでnutch-1.0という名前のダイナミックウェブプロジェクトを作成する。nutch-1.0.warファイルを適当なディレクトリに解凍する。

bin/nutchコマンドを使わずにクロールを実行する

org.apache.nutch.crawl.Crawlクラスのmainメソッドを呼び出すことで、クロールを実行することができる。Eclipseから実行する場合、mainメソッドの引数渡すパラメータは、デバグ設定の画面から指定できる。 が、ここで問題が!nutch 0.9までは、Crawlクラス…

Nutchでクロールした結果を見てみよう

Nutchがクロールして作ったインデックスファイルを見るツールに、Lukeというものがある。手軽に中身を見れて便利

nutch 1.0のクローラーを実行してみよう

nutch 1.0のクローラーを実行する準備として、以下の環境が必要。Java 1.6(nutch 0.9まではJava 1.5で良かったんだけどね。) Tomcat 5.5以上 CygwinクロールするURLを記述したテキストファイル(testurl.txtとでもしておく)を用意する。 www.テスト用のド…

クローラー Nutch 1.0 のインストール

NutchのWEBサイトから、nutch-1.0.tar.gzをダウンロードする。nutch-1.0.tar.gzを解凍する。以下のようなディレクトリ構成が確認できる。C:\直下など、コマンドラインから操作しやすい場所に、解凍してできたnutch-1.0という名前のフォルダをnutchとフォルダ…