MAKIZOU.COM

WEB系SEのホームページ作成&サーバ構築運用メモ

N-gramってニュースにすることなのか?!

ライブドア、ブログ検索をN-gram方式へ–対象は2000万ブログ超(CNet Japanより)

livedoorのブログ検索がN-gramへ。インデックス数は2000万件。
インデックスの数はさすがにすごいですね。

形態素解析と違い、言葉というより2文字ずつで検索をかけるので、網羅的にヒットするかと。
ただ、「愛」とか1文字の場合は登録しておかないとそもそもインデックスに無いのでヒットしません。

Oracleで言えばver.9からの機能でver.10から標準装備になったOracle Textがそれにあたるかと思います。
※解説には…N-gramインデックスを改良したV-gramとか書いてあったような。

日本語の全文検索ってN-gramが多いかと思っていたのですが、これがニュースになっていると言うことは珍しいことなのかな?
それより、今まではどんな検索方式だったのかの方が気になります。
まさか、LIKE検索?!

仕事でWebコンテンツを作っていますが、ニュースリリースしておけば良かった(苦笑)

追記

記載が間違っていました…2文字ずつってのは嘘でした。
一文字ででも検索できました。

以前はパフォーマンスが悪かっただけだったらしい。

  • カテゴリ:徒然なるままに
  • 公開日:
  • 1つ星2つ星3つ星4つ星5つ星
    Loading ... Loading ...
    ↑ 記事評価をお願いします。

コメント&トラックバック

トラックバック用URL

コメント




使用できるXHTMLタグ <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>