MAKIZOU.COM

WEB系SEのホームページ作成&サーバ構築運用メモ

Namazu(全文検索システム)のインストール(Linux系)

はじめに

Namazuとは?

Namazu は手軽に使えることを第一に目指した日本語全文検索シス テムです。CGI として動作させることにより小中規模の WWW 全文 検索システムを構築することができるほか、コマンドラインや Emacs上から利用するといった個人用途にも使えます。

日本語の全文検索システムとして広く利用されている Namazu をソースからインストールしたときのメモです。
また、当方のインストール先環境は CentOS で、ソースからインストールを行っていますのでLinux系のOSであれば同じ様に進む事が出来るかと思います。
※もし、インストール出来なくても許してね。

Namazu で使用するモジュールのインストール

茶筌(chasen):形態素解析器 のインストール

http://chasen-legacy.sourceforge.jp/ ※最新版を確認して下さいね。

形態素解析器とは、入力文を単語単位に分割し品詞を付与するツールである。
茶筌システムは,広く自然言語処理研究に資するため無償のソフトウェアとして開発されたものである。茶筌の著作権は,奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座(松本研究室)が保持する。

# wget http://iij.dl.sourceforge.jp/chasen-legacy/26168/chasen-2.4.1.tar.gz
# tar zxvf chasen-2.4.1.tar.gz
# cd chasen-2.4.1
# ./configure
# make
# make install

ipadic(茶筌の日本語辞書)のインストール

http://chasen-legacy.sourceforge.jp/ ※最新版を確認して下さいね。

# wget http://iij.dl.sourceforge.jp/ipadic/24435/ipadic-2.7.0.tar.gz
# tar zxvf ipadic-2.7.0.tar.gz
# cd ipadic-2.7.0
# ./configure
# make
# make install

Text::ChaSen のインストール

http://www.daionet.gr.jp/~knok/chasen/ ※最新版を確認して下さいね。

Text::ChaSenは、奈良先端科学技術大学が開発した日本語形態素解析 ソフトウェア 茶筌を、perlから利用するためのモジュールです。

# wget http://www.daionet.gr.jp/~knok/chasen/Text-ChaSen-1.03.tar.gz
# tar zxvf Text-ChaSen-1.03.tar.gz
# cd Text-ChaSen-1.03
# vi Makefile.PL

展開した後、Makefile.PL を編集します。

編集前

use ExtUtils::MakeMaker;

WriteMakefile(
              'NAME' => 'Text::ChaSen',
              'VERSION_FROM' => 'ChaSen.pm',
              ‘LIBS’ => [’-lchasen’]
);

編集後

use ExtUtils::MakeMaker;

WriteMakefile(
              'NAME' => 'Text::ChaSen',
              'VERSION_FROM' => 'ChaSen.pm',
              ‘LIBS’ => [’-L/usr/local/lib -lchasen’]
);

ソースから茶筌をインストールした場合は、/usr/local/lib になります。
設定変更を行っている場合は find や locate コマンドで「libchasen.a」ファイルがあるディレクトリを調べて、そのパスを使用してください。

で、インストールの続き

# perl Makefile.PL
# make
# make install

KAKASI のインストール

http://kakasi.namazu.org/ ※最新版を確認して下さいね。

KAKASI は、 漢字かなまじり文をひらがな文やローマ字文に変換することを目的として 作成したプログラムと辞書の総称です。

“KAKASI” という名称は、”kanji kana simple inverter” の略です。 また、東北大学(現: 京都大学)の佐藤雅彦先生によって開発された SKK - simple kana kanji converter を逆から読んだものでもあります。 KAKASI の辞書のエントリのほとんどは SKK 辞書起源のものです。

# wget http://kakasi.namazu.org/stable/kakasi-2.3.4.tar.gz
# tar zxvf kakasi-2.3.4.tar.gz
# cd kakasi-2.3.4
# ./configure
# make
# make install

Text::Kakasi のインストール

http://www.daionet.gr.jp/~knok/kakasi/ ※最新版を確認して下さいね。

Text::Kakasiは、高橋裕信さんの作成されたソフトウェア KAKASIを perlから利用するためのモジュールです。

# wget http://www.daionet.gr.jp/~knok/kakasi/Text-Kakasi-1.05.tar.gz
# tar zxvf Text-Kakasi-1.05.tar.gz
# cd Text-Kakasi-1.05
# perl Makefile.PL
# make
# make install

NKF(Network Kanji Filter) のインストール

http://sourceforge.jp/projects/nkf/ ※最新版を確認して下さいね。

ものすごく古い漢字コード変換プログラムであるnkfを、 メンテナンスするプロジェクトです。

nkf

# wget http://keihanna.dl.sourceforge.jp/nkf/20770/nkf207.tar.gz
# tar zxvf nkf207.tar.gz
# cd nkf207
# make
# cp nkf /usr/local/bin/
# cp nkf.1 /usr/local/share/man/man1/
# mkdir -p /usr/local/share/man/ja/man1/
# nkf -w nkf.1j > /usr/local/share/man/ja/man1/nkf.1

NKF

# cd /usr/src/nkf207/NKF.mod/
# perl Makefile.PL
# make
# make install

Namazu のインストール

namazu のインストール

http://www.namazu.org/index.html.ja ※最新版を確認して下さいね。

Namazu は手軽に使えることを第一に目指した日本語全文検索シス テムです。CGI として動作させることにより小中規模の WWW 全文 検索システムを構築することができるほか、コマンドラインや Emacs上から利用するといった個人用途にも使えます。

# wget http://www.namazu.org/stable/namazu-2.0.17.tar.gz
# tar zxvf namazu-2.0.17.tar.gz
# cd namazu-2.0.17
# ./configure
# make
# make install

Namazu のインストールが完了すると、以下のようなディレクトリやファイルが作成されます。

実行コマンド
/usr/local/bin/namazu
インデックス作成コマンド
/usr/local/bin/mknmz
インデックス格納ディレクトリ
/usr/local/var/namazu/index/
環境設定ディレクトリ
/usr/local/etc/namazu/
環境設定ファイルのサンプル
/usr/local/etc/namazu/namazu-sample
CGI 実行コマンド
/usr/local/libexec/namazu.cgi

次回予告
namazu の環境設定 を行います。(予定)

  • カテゴリ:Web開発
  • 公開日:
  • 1つ星2つ星3つ星4つ星5つ星
    Loading ... Loading ...
    ↑ 記事評価をお願いします。

コメント&トラックバック

トラックバック用URL

コメント




使用できるXHTMLタグ <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>