サイトアイコン IT NEWS

正規表現のグループ化で不特定の文字列を抽出する方法

regex-extract-words

正規表現で決まった文字列検索抽出するのはそんなに難しくないが、文字列が表示されるパターンは決まっていても、アルファベットや数字、日本語など、どのような文字列が入るかわからない場合に抽出する方法をご紹介します!
今回はJavaScriptでの例ですが、PHPや他の言語でも活用できます。

起点となる文字列の検索

まず、例題となる文字列はこちらです。

var str = 'YYYYMMDDhhmmss Error: hogehoge, ServerName';

文字列の中には必ず[Error]という文字があり、その後にある[hogehoge]の部分が抽出したい可変の文字列があったとします。
そこで、まずは文字列の中に[Error]が含まれるかを検索します。
ここは決まった文字列なので、正規表現でなくても構いません。
今回は、以下を参考に2つの検索方法だけご紹介しておきます。

1. [indexOf]で検索する

[indexOf]は検索して文字列が見つかった最初の場所(先頭は0)を数値で返します。
見つからなければ「-1」を返すので、これを利用して以下のように検索します。

if (str.indexOf('Error') !== -1) {
  ・・・
}

ビット反転演算子を使えば、もっとシンプルに記述できます。

if (~str.indexOf('Error')) {
  ・・・
}

2. [match]の正規表現で検索する

次は、今回のお題でもある文字列抽出する際にも使用する[match]を利用した正規表現で検索します。
[match]は検索して文字列見つかれば配列で返し、見つからなければnullを返します。

if (str.match('/Error/')) {
  ・・・
}

これで、文字列の中に[Error]が含まれているのが確認できましたので、その後ろにある不特定文字列抽出したいと思います。

不特定の文字列を抽出する

それでは、以下の参考サイトを例に文字列に[Error]が含まれているのを確認しましたので、後ろの[hogehoge]のみを抽出してみましょう。

検索でも利用した[match]と、正規表現グループ化を使います。
おさらいですが、[match]は検索で見つかった文字列を配列で返します。
そこで、検索結果を変数に入れて出力してみましょう。
[Error]を起点にしないと何処に[hogehoge]があるかわからないので、このようになりますよね?

var result = str.match('/Error: .*,/');

こちらは「Error: 」の後に「.*」何らかの文字列があり「,」で終わる箇所を抽出しています。
しかし、これをそのまま[result]の結果を出力すると、

Error: hogehoge,

と表示されてしまいます。
[Error]は抽出したい文字列の場所を示すために必要だけれど、出力するのは「hogehoge」だけにしたい!
そんな時に、正規表現グループ化を利用して[match]の結果を配列に入れてあげましょう。
方法は簡単で、正規表現の中で抽出したい文字列の部分を括弧()で囲んであげます。

var result = str.match('/Error: (.*),/');

こちらの出力結果は以下のようになります。

result[0] → Error: hogehoge,
result[1] → hogehoge

これで配列の[1]だけを返せば[hogehoge]が抽出できますね!
この方法を使えば、[Error]の後に例えどんな文字列が入ってきても抽出できます。

var str = 'YYYYMMDDhhmmss Error: azAZ09あんアン安, ServerName';
if (~str.indexOf('Error')) {
  var result = str.match('/Error: (.*),/');
}

結果はもちろんこのようになります。

result[0] → Error: azAZ09あんアン安,
result[1] → azAZ09あんアン安

正規表現とグループ化の応用

最後に、例題の日時(YYYYMMDDhhmmss)やサーバー名(ServerName)も[match]の配列として取得してみましょう!

var str = '20220222222222 Error: fugafuga, ServerName';
var result = str.match('/^([0-9]{14}) Error: (.*), (.*)$/');

こちらの正規表現では3つグループ化していますね。
結果はこのようになります。

result[0] → 20220222222222 Error: fugafuga, ServerName
result[1] → 20220222222222
result[2] → fugafuga
result[3] → ServerName

もう分かりましたね!
以上、正規表現のグループ化を用いた文字列の抽出方法でした!

モバイルバージョンを終了