成果物

github

情報源

https://www.sqlite.org/lang_expr.html#like

　正規表現については以下を参照した。感謝。

構文

select '文字列' regexp 'パターン';

select regexp('パターン','文字列');

正規表現

　文字列から指定パターンに一致するか判定する。likeやglobなどのワイルドカードよりも遥かに多く複雑なパターンを指定できる。

　じつは正規表現にはいくつかの種類がある。

標準（単純正規表現）SRE
標準（基本正規表現）BRE
標準（拡張正規表現）ERE
GNU Emacsの正規表現（find）
Perlの正規表現

　SQLite3の公式からは正規表現の文法についての情報を見つけられなかった。まずはネットで正規表現について調べて、それをSQLite3で使えるかどうか試していく。おそらくPerlの正規表現が使えると期待する。

メタ文字

. ^ $ [ ] * + ? | ( )

メタ文字のエスケープ

\（バックスラッシュ）をメタ文字の前につける
\自体のエスケープも\\で可能

メタ文字

隣接パターンの位置指定

メタ文字	意味
`^abc`	前方一致。先頭が`abc`の文字列で始まる
`abc$`	後方一致。末尾が`abc`の文字列で終わる
`^abc$`	完全一致。先頭と末尾の間が`abc`
`.abc.`	部分一致。

特殊エスケープ

特殊エスケープ	意味
`\b`	スペースなどの単語の区切り
`\B`	\b以外の文字
`\cA`	Ctrl-A
`\d`	任意の数値（`[0-9]`と同じ）
`\D`	数値以外の文字（`[^0-9]`と同じ）
`\f`	フォームフィード文字
`\n`	改行文字
`\r`	復帰文字
`\s`	区切り文字（スペース、タブ、改行）（`[ \f\n\r\t\v]`と同じ）
`\S`	`\s`以外の1文字（`[^ \n\r\f\t]`と同じ）
`\t`	タブ文字
`\v`	垂直タブ文字
`\w`	英数文字（`[A-Za-z0-9_]`と同じ）
`\W`	`\w`以外の文字
`\1`	1番目の`(...)`にマッチした文字列
`\o033`	8進数で033にあたる文字
`\x1b`	16進数で1bにあたる文字
`\その他`	その他の文字自身

文字種

メタ文字	意味
`.`	任意の1字
`[abc]`	候補。`a`,`b`,`c`のいずれか1字
`[^abc]`	否定。`a`,`b`,`c`以外のいずれか1字
`[a-z]`	範囲。`a`〜`z`の間にあるいずれか1字

前のパターンのくりかえし数を指定

メタ文字	意味
`?`	0回か1回
`+`	1回以上
`*`	0回以上
`{3}`	きっかり3回
`{3,}`	3回以上
`{3,7}`	3回以上7回以下

グループ化

メタ文字	意味
`(abc)`	`abc`の文字列（各文字でなく文字列）

論理演算

メタ文字	意味
`(abc	def)`\|`OR`。`abc`または`def`
`(?=abc)`	直後に`abc`がある（肯定的先読み）
`(?!abc)`	直後に`abc`がなる（否定的先読み）
`(?<=abc)`	直前に`abc`がある（肯定的後読み）
`(?<!abc)`	直前に`abc`がなる（否定的後読み）

やってみる

select '2000-01-01' regexp '\d{4}-\d{2}-\d{2}';

メタ文字のエスケープ

`.`

select 'etc...' regexp 'etc.\.\.';

select 'etc!!!' regexp 'etc.\.\.';

select 'etc!!!' regexp 'etc...';

`^`

select '2^4=16' regexp '2\^4=16';

select '2^4=16' regexp '2^4=16';

`$`

select '$100' regexp '\$100';

select '$100' regexp '$100';

`[`, `]`

select '[123]' regexp '\[123\]';

select '[123]' regexp '[123]';

`(`, `)`

select '(123)' regexp '\(123\)';

select '(123)' regexp '(123)';

`*`

select '***' regexp '\*\*\*';

select '***' regexp '***';

Error: ICU error: uregex_open(): U_REGEX_RULE_SYNTAX

`+`

select '1+2' regexp '1\+2';

select '1+2' regexp '1+2';

`?`

select 'what?' regexp 'what\?';

select 'what?' regexp 'what?';

`\|`

select 'A|B' regexp 'A\|B';

select 'A|B' regexp 'A|B';

`\`

select '\s' regexp '\\s';

select '\s' regexp '\s';

隣接パターンの位置指定

　前方一致。

select 'abc123' regexp '^abc.*';

　後方一致。

select 'abc123' regexp '.*123$';

　完全一致。

select 'abc123' regexp 'abc123';
select 'abc123' regexp '^abc123$';

1
1

　部分一致。

select 'abc123' regexp '.*abc.*';
select '123abc' regexp '.*abc.*';
select '12abc3' regexp '.*abc.*';

1
1
1

　文字種パターン。

select '12abc3' regexp '.*[a-zA-Z]+.*';

　グループ化

select 'abc2000年01月02日def' regexp '.*(\d{4}年\d{2}月\d{2}日).*';

特殊エスケープ

`\b`

select ' ' regexp '\b';

select '\' regexp '\b';

　どうやら\bは使えないらしい。

`\B`

select 'a' regexp '\b';

select ' ' regexp '\b';

　どうやら\Bは使えないらしい。

`\cA`

　そもそも、Ctrl制御コードをどうやって入力するの？

https://ja.wikipedia.org/wiki/制御文字

　たとえば改行コードは16進数で0x0A、10進数で10。制御コードでは^J、正規表現では^を\cで表す。つまり\cJ。

select char(0x0A) regexp '\cJ';

　もっとも、現代でも使うような制御コードは改行やタブなどであり、それらは\sでまとめて表現できるはず。

`\d`

　数字。[0-9]と同じ。

select '123' regexp '\d+';

select '123a' regexp '\d+';

`\D`

　数字以外。[^0-9]と同じ。

select 'abc' regexp '\D+';

select '123' regexp '\D+';

`\f`

　フォームフィード文字。プリンタでは次のページを給紙する。

select char(0x0C) regexp '\f';

select char(0x0C) regexp '\cL';

`\n`

　改行コード。

select 'A' || char(0x0A) || 'B' regexp 'A\nB';

`\r`

　復帰コード。

select 'A' || char(0x0D) || 'B' regexp 'A\rB';

select 'A' || char(0x0D) || char(0x0A) || 'B' regexp 'A\r\nB';

`\s`

　空白文字（区切り文字（スペース、タブ、改行））。[ \f\n\r\t\v]と同じ。

select 'A B' regexp 'A\sB';
select 'A' || char(0x0C) || 'B' regexp 'A\sB';
select 'A' || char(0x0A) || 'B' regexp 'A\sB';
select 'A' || char(0x0D) || 'B' regexp 'A\sB';
select 'A' || char(0x09) || 'B' regexp 'A\sB';
select 'A' || char(0x0B) || 'B' regexp 'A\sB';

　全角スペースも真になった。

select 'A　B' regexp 'A\sB';

　他は偽。

select 'あ' regexp '\s';

`\S`

　区切り文字（スペース、タブ、改行）以外。[^ \f\n\r\t\v]と同じ。

select 'A B' regexp 'A\SB';
select 'A' || char(0x0C) || 'B' regexp 'A\SB';
select 'A' || char(0x0A) || 'B' regexp 'A\SB';
select 'A' || char(0x0D) || 'B' regexp 'A\SB';
select 'A' || char(0x09) || 'B' regexp 'A\SB';
select 'A' || char(0x0B) || 'B' regexp 'A\SB';

　全角スペースも対象外。

select 'A　B' regexp 'A\SB';

　他は真。

select 'あ' regexp '\S';

`\t`

select 'A' || char(0x09) || 'B' regexp 'A\tB';

`\v`

select 'A' || char(0x0B) || 'B' regexp 'A\vB';

`\w`

　英数字。[0-9A-Za-z_]と同じ。

select 'a' regexp '\w';

select 'Z' regexp '\w';

select '3' regexp '\w';

select '_' regexp '\w';

select '$' regexp '\w';

`\W`

　英数字以外。[^0-9A-Za-z_]と同じ。

select 'a' regexp '\W';

select 'Z' regexp '\W';

select '3' regexp '\W';

select '_' regexp '\W';

select '$' regexp '\W';

`\o`

　8進数。これ、効いてないと思われる。

select 'o001' regexp '\o001';

select '001' regexp '\o001';

select '1' regexp '\o001';

`\x`

　16進数。これ、効いてないと思われる。

select 'x0F' regexp '\x0F';

select '0x0F' regexp '\x0F';

select 'x0F' regexp '\x0F';

select '15' regexp '\x0F';

　何一つヒットさせられなかった。

`\数`（後方参照）

select '11' regexp '(\d)\1';

select '1a1' regexp '(\d)a\1';

`\その他`

　その他の文字自身。

select 'c' regexp '\c';

　\aはなぜか一致せず。特殊な意味があるのか？

select 'a' regexp '\a';

　ネットには^,$の代わりに\A,\zを使うようなことが書いてあった。それか？　でも大文字だし。

select 'a' regexp '\aa';

　やはり違う。\Aとすべき。つまり\aは何か別の特殊な意味になるようだ。情報がない……。

select 'a' regexp '\Aa';

　eでもヒットせず。

select 'e' regexp '\e';

select 'g' regexp '\g';

select 'h' regexp '\h';

select 'i' regexp '\i';

select 'j' regexp '\j';

select 'k' regexp '\k';

Error: ICU error: uregex_open(): U_REGEX_INVALID_CAPTURE_GROUP_NAME

　上記の英字はすべて特殊エスケープ以外だと思うのだが、それぞれ反応が違う……。もうわけわかんない。公式さん仕様ください。

文字種

`.`

　任意の1字。

select 'a' regexp '.';

select 'aa' regexp '.';

　任意の長さをした任意の字。

select 'aaaaa' regexp '.*';

`[]`

　いずれかの1字。

select 'a' regexp '[abc]';

select 'z' regexp '[abc]';

`[^]`

　いずれかの1字以外。

select 'a' regexp '[^abc]';

select 'z' regexp '[^abc]';

`[-]`

　指定した字の範囲にあるいずれかの字。文字コードポイントの範囲指定。

select 'k' regexp '[a-z]';

select 'A' regexp '[a-z]';

前のパターンのくりかえし数を指定

`?`

　0回か1回。

select '' regexp 'a?';
select 'a' regexp 'a?';
select 'b' regexp 'a?';
select 'aaa' regexp 'a?';

select 'k' regexp '[a-z]?';
select 'A' regexp '[a-z]?';

1
0

select '' regexp '(abc)?';
select 'abc' regexp '(abc)?';
select 'def' regexp '(abc)?';

1
1
0

`+`

　1回以上。

select '' regexp 'a+';
select 'a' regexp 'a+';
select 'b' regexp 'a+';
select 'aaa' regexp 'a+';

select 'k' regexp '[a-z]+';
select 'A' regexp '[a-z]+';
select 'kkk' regexp '[a-z]+';

1
0
1

select '' regexp '(abc)+';
select 'abc' regexp '(abc)+';
select 'def' regexp '(abc)+';
select 'abcabc' regexp '(abc)+';
select 'abcdef' regexp '(abc)+';
select 'defabc' regexp '(abc)+';
select 'abcdef' regexp '(abc)+.*';
select 'abcabcdef' regexp '(abc)+.*';

`*`

　0回以上。

select '' regexp 'a*';
select 'a' regexp 'a*';
select 'b' regexp 'a*';
select 'aaa' regexp 'a*';

select 'k' regexp '[a-z]*';
select 'A' regexp '[a-z]*';
select 'kkk' regexp '[a-z]*';

1
0
1

select '' regexp '(abc)*';
select 'abc' regexp '(abc)*';
select 'def' regexp '(abc)*';
select 'abcabc' regexp '(abc)*';
select 'abcdef' regexp '(abc)*';
select 'defabc' regexp '(abc)*';
select 'abcdef' regexp '(abc)*.*';
select 'abcabcdef' regexp '(abc)*.*';

`{N}`

　きっかり指定回数。

select '' regexp 'a{1}';
select 'a' regexp 'a{1}';
select 'b' regexp 'a{1}';
select 'aaa' regexp 'a{1}';
select 'aaa' regexp 'a{3}';

select 'k' regexp '[a-z]{1}';
select 'A' regexp '[a-z]{1}';
select 'ghi' regexp '[a-z]{1}';
select 'ghi' regexp '[a-z]{3}';

select '' regexp '(abc){1}';
select 'abc' regexp '(abc){1}';
select 'abc' regexp '(abc){1}';
select 'def' regexp '(abc){1}';
select 'abcabc' regexp '(abc){1}';
select 'abcdef' regexp '(abc){1}';
select 'defabc' regexp '(abc){1}';
select 'abcdef' regexp '(abc){1}.*';
select 'abcabcdef' regexp '(abc){1}.*';

`{N,}`

　指定回数以上。

select '' regexp 'a{1,}';
select 'a' regexp 'a{1,}';
select 'b' regexp 'a{1,}';
select 'aaa' regexp 'a{1,}';
select 'aaa' regexp 'a{4,}';

`{N,M}`

　指定回数以内。

select '' regexp 'a{1,2}';
select 'a' regexp 'a{1,2}';
select 'b' regexp 'a{1,2}';
select 'aaa' regexp 'a{1,2}';
select 'aaa' regexp 'a{4,7}';
select 'aaa' regexp 'a{3,4}';

`()`

　グループ化。

select 'aabc' regexp 'a(abc)';
select 'adef' regexp 'a(abc)';

1
0

　任意の文字列があったりなかったり。

select 'a' regexp 'a(abc)?';
select 'aabc' regexp 'a(abc)?';
select 'adef' regexp 'a(abc)?';

1
1
0

`(|)`

　いずれかの文字列。

select 'aabc' regexp 'a(abc|def)';
select 'adef' regexp 'a(abc|def)';

1
1

`(?=)`, `(?!)`, `(?<=)`, `(?<!)`

　先読み・後読みは使えないのか？

select 'abc' regexp '(?=abc)';
select 'abc' regexp '(?<=abc)';
select 'abc' regexp '(?!abc)';
select 'abc' regexp '(?<!abc)';

`regexp()`関数

select regexp('\w+','abc');

判定・抽出・置換

　ところで上記まではマッチするかの「判定」のみだった。ほかにもパターン箇所のみ「抽出」したり「置換」したい。それをSQLite3でできるか？

　linuxのgrepコマンドのように「抽出」もしたいのだが、方法が見つからず。

対象環境

2019-09-05
Raspbierry pi 3 Model B+
Raspbian stretch 9.0 2018-11-13
bash 4.4.12(1)-release
SQLite 3.29.0
MeCab 0.996ユーザ辞書

$ uname -a
Linux raspberrypi 4.19.42-v7+ #1218 SMP Tue May 14 00:48:17 BST 2019 armv7l GNU/Linux

成果物

情報源

構文

正規表現

メタ文字

メタ文字のエスケープ

メタ文字

隣接パターンの位置指定

特殊エスケープ

文字種

前のパターンのくりかえし数を指定

グループ化

論理演算

やってみる

メタ文字のエスケープ

.

^

$

[, ]

(, )

*

+

?

\|

\

隣接パターンの位置指定

特殊エスケープ

\b

\B

\cA

\d

\D

\f

\n

\r

\s

\S

\t

\v

\w

\W

\o

\x

\数（後方参照）

\その他

文字種

.

[]

[^]

[-]

前のパターンのくりかえし数を指定

?

+

*

{N}

{N,}

{N,M}

()

(|)

(?=), (?!), (?<=), (?<!)

regexp()関数

判定・抽出・置換

対象環境

前回まで

`.`

`^`

`$`

`[`, `]`

`(`, `)`

`*`

`+`

`?`

`\|`

`\`

`\b`

`\B`

`\cA`

`\d`

`\D`

`\f`

`\n`

`\r`

`\s`

`\S`

`\t`

`\v`

`\w`

`\W`

`\o`

`\x`

`\数`（後方参照）

`\その他`

`.`

`[]`

`[^]`

`[-]`

`?`

`+`

`*`

`{N}`

`{N,}`

`{N,M}`

`()`

`(|)`

`(?=)`, `(?!)`, `(?<=)`, `(?<!)`

`regexp()`関数