■

Lucene nutch 0.9

org.apache.lucene.search.Hitオブジェクトのget("title")メソッドで、ホームページのタイトルを取得しようとしたときに、データが文字化けすることがある。どんなページのタイトルが文字化けになるかというと、HTMLのヘッダー上で指定してある文字コードと…

2009-09-09

urlフィールドが特定の複数ドメインのもののみを取得したい

nutch 0.9

クロールしたURLが以下のようなときhttp://aaa.bb http://ccc.dd http://eee.ffこの2つのサイトに対してだけ検索したいときです。http://aaa.bb http://ccc.dd しばらく悩んであとに、Lukeでインデックスの中身をのぞいているときに、ふと思った。。 urlフィ…

2009-09-09

tstampフィールドの値を"yyyy/MM/dd HH:mm:ss"形式で表示するには

nutch 0.9

tstampフィールドの値は、Lukeなどを使ってみると、"20090908080249515"のような17桁の数字になっている。この17桁の数値は、Hitオブジェクトのgetメソッドを使って取得することができるので、これを整形できればよい。ということで、17桁の数値のもとをた…

2009-09-08

nutch 0.9でクロールした結果をクロールした日付順にソートしたい

nutch 0.9

nutch 0.9のbin/nutchコマンドやorg.apache.nutch.crawl.Crawlクラスのmainメソッド実行によって、作成されたDBでは、tstampフィールドに対してインデクスが付けられない。デフォルト設定のクロールのtstampフィールドインデクスなしトーカナイズなしフィ…

2009-09-07

nutch 1.0のnutch-1.0.warアプリケーションを手動でEclipseのダイナミックウェブプロジェクトに追加する

Nutch 1.0

Eclipseでnutch-1.0という名前のダイナミックウェブプロジェクトを作成する。nutch-1.0.warファイルを適当なディレクトリに解凍する。

2009-09-07

bin/nutchコマンドを使わずにクロールを実行する

Nutch 1.0

org.apache.nutch.crawl.Crawlクラスのmainメソッドを呼び出すことで、クロールを実行することができる。Eclipseから実行する場合、mainメソッドの引数渡すパラメータは、デバグ設定の画面から指定できる。が、ここで問題が！nutch 0.9までは、Crawlクラス…

2009-09-04

Nutchでクロールした結果を見てみよう

Nutch 1.0

Nutchがクロールして作ったインデックスファイルを見るツールに、Lukeというものがある。手軽に中身を見れて便利

2009-09-04

nutch 1.0のクローラーを実行してみよう

Nutch 1.0

nutch 1.0のクローラーを実行する準備として、以下の環境が必要。Java 1.6（nutch 0.9まではJava 1.5で良かったんだけどね。） Tomcat 5.5以上 CygwinクロールするURLを記述したテキストファイル（testurl.txtとでもしておく）を用意する。 www.テスト用のド…

2009-09-04

クローラー Nutch 1.0 のインストール

Nutch 1.0

NutchのWEBサイトから、nutch-1.0.tar.gzをダウンロードする。nutch-1.0.tar.gzを解凍する。以下のようなディレクトリ構成が確認できる。C:\直下など、コマンドラインから操作しやすい場所に、解凍してできたnutch-1.0という名前のフォルダをnutchとフォルダ…

2009-09-02

■

Hibernate 3

主キーに何も値を入れずに、saveOrUpdateメソッドで永続化しようとしたところ、以下のエラーが発生 javax.servlet.ServletException: org.hibernate.id.IdentifierGenerationException: ids for this class must be manually assigned before calling save()…

2009-09-01

値をインジェクションするノードの指定にXPathを使うときの注意点

Mayaa

下のような書き方で、値をインジェクションしようとしていたところ、警告がいっぱい発生していた。修正前発生していた警告 2009-09-01 11:17:03,703 WARN XPathMatchesInjectionResolver - the injection xpath(div[@class='contentSidemenuAccount']/ul/li…

WEBシステム開発日記

2009-09-01から1ヶ月間の記事一覧

■

urlフィールドが特定の複数ドメインのもののみを取得したい

tstampフィールドの値を"yyyy/MM/dd HH:mm:ss"形式で表示するには

nutch 0.9でクロールした結果をクロールした日付順にソートしたい

nutch 1.0のnutch-1.0.warアプリケーションを手動でEclipseのダイナミックウェブプロジェクトに追加する

bin/nutchコマンドを使わずにクロールを実行する

Nutchでクロールした結果を見てみよう

nutch 1.0のクローラーを実行してみよう

クローラー Nutch 1.0 のインストール

■

値をインジェクションするノードの指定にXPathを使うときの注意点