やってみる

アウトプットすべく己を導くためのブログ。その試行錯誤すらたれ流す。

SQLite3学習 全文検索FTSを日本語で使う方法を探してみた

 トークナイザを実装する必要がある。

FTS

トークナイザ

 形態素解析などして検索ワードを作る。

組込トークナイザ

トークナイザ 概要
unicode61 デフォルト。Unicode6.1規格に基づく
ascii ASCIIコードポイント中心
porter ポーターステミングアルゴリズムに基づく

 すべて英語用。日本語のテキストに対してはまったく役立たず。

外部トークナイザ

 FTS5はICUを使えない。FTS3/4は使えるらしい。

カスタムトークナイザ

SQLite3 FTS5用Mecabトークナイザ

 ドンピシャ。超感謝!

所感

 次回、やってみよう。

対象環境

$ uname -a
Linux raspberrypi 4.19.42-v7+ #1218 SMP Tue May 14 00:48:17 BST 2019 armv7l GNU/Linux

前回まで