正規表現の活用

regexp いくつかの関数呼出

0 概要

右図のような、文字列 a について、
- 6 という文字を含むか
- 123 という文字の並びを含むか、
を調べる時は、String#slice、String#indexや String#include? メソッドが使える。ところが、
- （右図のように）「１つ置いて隣」のようなパターンを見つけたいときにはこれは（このままでは）使えない。
（図では○で表した）「何でもいい１文字」を表現する方法（と、それを処理するメソッド）があれば、
検索するときの表現力は増すだろう。（それが「正規表現」です）
文字列 a の中で、「1 □ 3」のような並びを見つけるためには（Rubyでは）
```
a.index(/1.3/)
# または
a =~ /1.3/
```
と書く。
- String#index は前に紹介した時には文字または文字列を渡す使い方だったが、
  
  今回は正規表現（RegExpオブジェクト）を渡している。どちらの使い方もできるメソッド。
- 同様に、引数として正規表現を渡すことができるメソッドがStringクラスに多数あるのでリファレンスで確認しておくこと（右板書図）。

1 基礎

正規表現マッチング

正規表現は、パターンを記述するための表現方法。
何かと何かが、互いに何かの対応関係を持つかどうかを確かめる処理のことを、「マッチング」と呼ぶ。
今回扱うのは、パターン（正規表現で書く）と文字列との間のマッチング。
マッチングを確かめる処理は演算子 =~ で表現される。
- =~ の両辺に、マッチさせたい文字列とパターンを置いて使う。
- なお、この演算子を使う表現は、Perl言語から受け継がれている（L. Wall氏の発明の１つ）。

主なルール限量子

主なルール

文字クラス	`[0-9]` または `\d`

その繰り返し	`[0-9][0-9]*`, `[0-9]+`, 　`\d+` （いずれも同じ意味）

`*`	直前の表現の0回以上の繰り返し
`+`	直前の表現の1回以上の繰り返し
	（これらは量指定子または限量子と呼ばれ、
	直前の表現を修飾する形で使われる；右図参照）

`＾` と `$`		（アンカー）マッチ対象の先頭`^` と末尾 `$`（下図)

`()` で囲んだもの		後で `$1` `$2` などの文字で参照できる（後方参照）

主なメタ文字アンカー
アンカー2

使い方

/ … /	:	スラッシュで囲む
/ … / =~ line	:	演算子 =~ を使って対象文字列とのマッチング

正規表現リテラル文字列と正規表現（で書かれた「パターン」）との間の「マッチング」が試みられる

例：

”alphabet” =~ /ab/
# 文字列の中に ab という文字の並びがあるかどうか

=~ がマッチングの演算子(右辺は文字列左辺はパターンその逆も可)
パターンが見つかれば見つかった場所(何文字目か）を値として返す
見つからなければ nil
スラッシュで囲む代わりに他の文字で囲むための記法（%記法）もある。
パターンの末尾にオプションを指定することもできる。
- 例えば /abc/i と書くと、大文字小文字を区別しない（case-insensitive）マッチが試みられる。

マニュアルのチェックしておくこと。
正規表現リテラル、 %r記法、正規表現、 =~ 演算子（メソッド）

簡単な練習（irbで）

s="abcdefg"
s=~/a/          => 0     a が見つかる（0文字目に）
s=~/ef/          => 4
s=~/x/          => nil     見つからない（マッチしない）

文字の呼び方

niko caret

`^`		キャレット(caret) 山型記号
`$`		ダラー
`~`		チルダ（tilde）にょろ

その他の文字も「特殊記号読み方」などで検索すれば情報が得られます（例えばこのページ）。

2 実習

実習の準備

サンプルデータファイルをダウンロード
(自分がコマンドプロンプトで作業をする予定の場所に保存する
　ファイル名は WORDS.txt とする）
コマンドプロンプトで　irb を起動する
（以下は irb上での作業）

(w=IO.readlines('WORDS.txt').map{|e|e.chop}).size
# これで 配列 w（正確には 変数wが保持するArrayオブジェクト）に
# 2万数千個の英単語(String型)が入っている

または

(w=open('WORDS.txt'){|f|f.gets(nil).split}).size
(w=IO.foreach('WORDS.txt').map &:chop).size
(w=IO.read('WORDS.txt').split).size
# というふうにいくつかの書き方がある

w.grep(/X/) 
w.grep(/abc/)

などでその中からパターンにマッチする単語を抜き出して表示する。
出力されるものが多すぎる（ために画面が流れていってしまう）時は、

w.grep(/a/).size

などでそのマッチした数だけ表示させてみるといい

パターンの練習

以下の条件を満たす単語がいくつあるか調べて見る

10文字の単語（11 12等についても）
or 10文字以上の単語
すべて大文字から成る単語
数字を含む単語
英数字以外の文字を含むもの
e（E) で始まりe(E)で終わるもの（ケースを区別しないマッチ）
最初の文字と最後の文字が同じもの
最後の２文字が最初の２文字の逆転になっているもの
barbar のように同じ並びの繰り返しになっている単語

hint: キャプチャ

(5.) はオプションを使う
(6.～8.) はキャプチャ～後方参照を活用する
（正規表現のページで「キャプチャ」などをページ内検索して下さい。）

解答のページはあとで（しっかり考えてから）見てください。