Nutch 1.0
Eclipseでnutch-1.0という名前のダイナミックウェブプロジェクトを作成する。nutch-1.0.warファイルを適当なディレクトリに解凍する。
org.apache.nutch.crawl.Crawlクラスのmainメソッドを呼び出すことで、クロールを実行することができる。Eclipseから実行する場合、mainメソッドの引数渡すパラメータは、デバグ設定の画面から指定できる。 が、ここで問題が!nutch 0.9までは、Crawlクラス…
Nutchがクロールして作ったインデックスファイルを見るツールに、Lukeというものがある。手軽に中身を見れて便利
nutch 1.0のクローラーを実行する準備として、以下の環境が必要。Java 1.6(nutch 0.9まではJava 1.5で良かったんだけどね。) Tomcat 5.5以上 CygwinクロールするURLを記述したテキストファイル(testurl.txtとでもしておく)を用意する。 www.テスト用のド…
NutchのWEBサイトから、nutch-1.0.tar.gzをダウンロードする。nutch-1.0.tar.gzを解凍する。以下のようなディレクトリ構成が確認できる。C:\直下など、コマンドラインから操作しやすい場所に、解凍してできたnutch-1.0という名前のフォルダをnutchとフォルダ…