2011-08-01から1ヶ月間の記事一覧

SolrのAnalyzerについて

Lucene/Solrには、任意の文書をキーワードで検索するための索引(INDEX)を作るための方法として、Analyzerという仕組みを提供しています。INDEXは文書を検索のための文書の最小要素(Token)が登録され、検索の際にはこのTokenと一致することが検索にhitす…

HTML StripCharFilterFactoryの使い方

CharFilterの最後はHTMLStripCharFilterFactoryです。このコンポーネントのHTMLStripCharFilterは、名前の通り、入力からHTMLやXMLなどのタグを除去します。また数値参照や文字参照を、対応する文字の実体へ変換も行います。以下はwikiにも載っている、出来…