nutch 0.9
org.apache.lucene.search.Hitオブジェクトのget("title")メソッドで、ホームページのタイトルを取得しようとしたときに、データが文字化けすることがある。どんなページのタイトルが文字化けになるかというと、HTMLのヘッダー上で指定してある文字コードと…
クロールしたURLが以下のようなときhttp://aaa.bb http://ccc.dd http://eee.ffこの2つのサイトに対してだけ検索したいときです。http://aaa.bb http://ccc.dd しばらく悩んであとに、Lukeでインデックスの中身をのぞいているときに、ふと思った。。 urlフィ…
tstampフィールドの値は、Lukeなどを使ってみると、"20090908080249515"のような17桁の数字になっている。この17桁の数値は、Hitオブジェクトのgetメソッドを使って取得することができるので、これを整形できればよい。 ということで、17桁の数値のもとをた…
nutch 0.9のbin/nutchコマンドやorg.apache.nutch.crawl.Crawlクラスのmainメソッド実行によって、作成されたDBでは、tstampフィールドに対してインデクスが付けられない。デフォルト設定のクロールのtstampフィールド インデクスなし トーカナイズなし フィ…