2006.01.24

Microsoft IndexServer で PDF検索

Microsoft の Server製品には、IndexServerというコンポーネントがあって、
特に Webのアプリケーション向けにファイルの全文検索の機能が簡単に提供できるようになっている。

この全文検索の対象は、デフォルトでは ~.html / ~.txt / ~.asp / ~.aspx とか、
いかにもテキストエディタなどで読めるファイルが対象になっている。
ついでに面白いことに Officeをインストールしていなくても ~.xlsとか、~.doc なんかも対象になっている。


ただし、~.PDFファイルはデフォルトでは対象になっていない。

PDFも検索対象とするには、Adobeが配賦している IFilter というフィルタが必要になる。
フィルタは単にダウンロードしてインストールするだけで有効になるのだが、
ちょっと組み合わせに難があることに気づいたので、記録しておく。


 1.Adobe日本語サイトで配布している IFilter 5.0 というバージョン(2001/10/19公開)は
PDFのバージョン 1.3以下(Acrobat 4.0以下で作成したPDF)のファイルしか検索対象にならない。

 2.Adobe英語サイトで配布している IFilter 6.0 というバージョン(2004/10/19公開)は
PDFのバージョン 1.6以下(Acrobat 6.0以下で作成したPDF)のファイルが検索対象になるらしい。


苦情1.日本語サイトの情報も更新してほしい。

苦情2.Acrobatのバージョンがあがるたびに IFilterを更新しなくてはいけなくなるのはいかがなものか?

コメントを投稿

(いままで、ここでコメントしたことがないときは、コメントを表示する前にこのブログのオーナーの承認が必要になることがあります。承認されるまではコメントは表示されません。そのときはしばらく待ってください。)

photo
ichikawa