2009-09-18 ■ Lucene nutch 0.9 org.apache.lucene.search.Hitオブジェクトのget("title")メソッドで、ホームページのタイトルを取得しようとしたときに、データが文字化けすることがある。どんなページのタイトルが文字化けになるかというと、HTMLのヘッダー上で指定してある文字コードと実際のファイルの文字コードが異なるような場合。ヘッダーの定義は、EUC-JP。 ブラウザは、Shift-JISと認識。