nutch 0.9

org.apache.lucene.search.Hitオブジェクトのget("title")メソッドで、ホームページのタイトルを取得しようとしたときに、データが文字化けすることがある。どんなページのタイトルが文字化けになるかというと、HTMLのヘッダー上で指定してある文字コードと…

urlフィールドが特定の複数ドメインのもののみを取得したい

クロールしたURLが以下のようなときhttp://aaa.bb http://ccc.dd http://eee.ffこの2つのサイトに対してだけ検索したいときです。http://aaa.bb http://ccc.dd しばらく悩んであとに、Lukeでインデックスの中身をのぞいているときに、ふと思った。。 urlフィ…

tstampフィールドの値を"yyyy/MM/dd HH:mm:ss"形式で表示するには

tstampフィールドの値は、Lukeなどを使ってみると、"20090908080249515"のような17桁の数字になっている。この17桁の数値は、Hitオブジェクトのgetメソッドを使って取得することができるので、これを整形できればよい。 ということで、17桁の数値のもとをた…

nutch 0.9でクロールした結果をクロールした日付順にソートしたい

nutch 0.9のbin/nutchコマンドやorg.apache.nutch.crawl.Crawlクラスのmainメソッド実行によって、作成されたDBでは、tstampフィールドに対してインデクスが付けられない。デフォルト設定のクロールのtstampフィールド インデクスなし トーカナイズなし フィ…