bin/nutchコマンドを使わずにクロールを実行する

org.apache.nutch.crawl.Crawlクラスのmainメソッドを呼び出すことで、クロールを実行することができる。

Eclipseから実行する場合、mainメソッドの引数渡すパラメータは、デバグ設定の画面から指定できる。

が、ここで問題が!

nutch 0.9までは、Crawlクラスのmainメソッド実行により作成されたデータベースに対して、Lukeなどを使って、インデクスの内容を問題なく読むことが出来たのに、nutch 1.0になってからは、Lukeを使ってインデクスの内容を読めなくなってしまった。

nutch 1.0のbinディレクトリにあるnutchコマンドを実行して作成されたデータベースは、問題なくLukeを使って内容を見ることができるので、どうゆうことなんだろう?