日本語文字の現状

0 この話の前提

通信を行うにせよ、コンピュータが情報を記憶するにせよ、一対一でなく複数の関係（発信者：受信者、データとアプリケーション等）になってくると、共通の取り決めで混乱を防ぐことが重要になってくる（右図）。
この章では、その取り決めが形成されてきた課程と現状を理解するための一例として、文字データの表現について扱う。
一般的に規格の類のものは、右下図のように２種類の形成過程のいずれかで作られるものであることも意識しておこう。
- 例えば .DOCX、.XLSX といったMS-Officeのファイルは特定の会社の製品の独自規格であることは皆さんご存じだろう（こういったものは他にも多くある。こんな検索をして確かめておこう）。

1 日本語以前

ASCII文字コードを中心に、すでに解説したが、以下に要点のみ再掲する。

ASCII文字コードは7bitコード。ということは2⁷=128個分のコード空間がある。
英文字と数字、それに若干の特殊文字がその中に収容されている。
8bitに拡張して（2⁸=256）広がった128文字分の空間に半角カタカナを入れて使う規格もある（が最近はあまり使われない）。
- その当時の（半角カナに基づく）風習は、何かの申込用紙（銀行口座など）のカナ欄の書き方などに名残をとどめている（右図）。
ASCII文字コードを追認する形で現在は米国ではANSI規格として通用している（名前が違うが同じものと認識していい）。

2 PCの日本語化

前提

日本語で使われる文字数は、カタカナ+ひらがなだと約100文字、漢字を合わせると約１～２万文字というオーダーになる。
この文字数を収容できるコード空間として 16bitあれば足りることは簡単に概算できるだろう（右図；ただし正確には15bit）。

経緯

コンピュータで日本語を扱えるよう、日本語の文字コードがJIS規格として制定された（1970年代）。
- 含まれるのは漢字だけではないのだが「漢字コード」という呼び方もされている。
- 文字コード表 JISコードやJIS X 0208コード表などで確認されたい。
- JISをとりまく事情については文字コード問題早わかり２漢字篇に詳しい。
JISコード表は、第１バイト、第２バイトともに 21₍₁₆₎～7E₍₁₆₎の範囲の値をとる。
- 0₍₁₆₎～20₍₁₆₎の範囲のコードは（ASCIIコード表でも見てきたが）制御文字として使われている。これと衝突する訳にいかないのでこの範囲（と7F₍₁₆₎）はコードとしては使われない。
「JIS」はご存じのように日本工業規格のことであり、これに関する情報を得るために「JIS」とだけ入れて検索すると雑音に埋没してしまうだろう。
- 「JIS 第一水準」などの用語を知っていると的確に絞り込めるだろう。［↑これが、文字コード（or 文字セット文字集合）］

ASCIIと日本語文字の併用

このJISコードは、従来のASCIIとの共存が問題だった。
たとえば「瘁」という漢字がある。区点コードで言えば65₍₁₀₎-65₍₁₀₎、JISコードは6161₍₁₆₎。
一方、ASCIIで ’a’は 61₍₁₆₎で表されている。
テキストファイルの中にJISコードのまま日本語文字を記入した場合、「瘁」は「aa」と区別できないことになる。

エンコーディング

方策１：日本語文字を含む部分の直前と直後に目印を入れて区別する。
```
61 61 61 1b 24 42 61 61 1b 28 42
 a  a  a ESC $  B  a  a ESC (  B
                  ~~~~~~ この部分が日本語（２バイトで「瘁」を表す）
```
上図と右図は「aa瘁」と書いたファイル（をJISエンコーディングで保存したもの）の詳細（ダウンロードして自分で16進ダンプしてみて下さい）。
- ESC（制御文字の一つ;「エスケープ」と読む）から始まる３バイトの並びで、「日本語文字始まり」「日本語文字終わり」を表している（これをエスケープシーケンスと呼ぶ）。
- JISエンコーディング（現在の規格名は ISO-2020-JP）がこの方法に基づいている。
- この方法の場合、エディタ等のプログラムで日本語を扱う時に、「状態」（この部分はどっちのコードなのか）という余分な情報を保持しておくなど、プログラムが複雑になってしまう難点があり、コンピュータ内部でのデータ表現としては好んで使われていない（通信のためのデータ表現としては使われている）。
方策２：文字コードそのものに印をつける
- 具体的には、右図のように8bitのうちの最上位の（7bitコードでは使われていなかったので0になっている）bit（MSBと呼ぶ）を「立てる」（つまり 1にする）、という方法がある。
- Shift_JIS（当初は「MS漢字コード」と称した）やEUCといったエンコーディングがこの方法。これだと日本語部分とASCII文字部分が各バイトのMSBを見るだけで識別できる。
- 実際にはこの２つのエンコーディングではもう少し複雑な印のつけ方をしている（詳細は略す）が、原理的にはこのようなものだと認識して間違いない。
- 実際に Shift_JISで保存されたテキストファイルを16進ダンプさせてみると、日本語部分の各バイトの16進表記の上位桁（つまり左側の数字）が 8～F の間の値になっていることが確認できるだろう。
  
  6 1 <=> e 1
  
  0110 0001 1110 0001
- 「MS漢字コード」を策定したMS（マイクロソフトの日本法人）が自社のOSの内部コードとして使い続けているのが Shift_JISによるエンコーディング方式。Windowsの内部、およびWindowsに標準添付されるアプリケーションが読書きに使う文字表現も（特に明記されることは少ないが）このShift_JIS。
  - ネットで第三者により流通しているいわゆるOSSの類のもの（例えばAtomね）はこの制限を受けない（むしろShift_JISを疎外しているとも言える）。
  - Shift_JISのコード表（ネットに沢山あるが）として、たとえばこの文字コード表のページを活用してください。

要約と余談

上記の解説は一度に読んで覚えるには煩雑すぎるだろうから、参考情報としてとどめておき、
- 様々な会社／グループ／技術者が、（特に、当時は日本を中心として）英語だけの世界であったコンピュータを日本でも（ひいては世界各国で）使えるようにする努力を、個別に行っていたその混沌の歴史を感じとっていただければいいだろう。
もちろん規格を定めるだけでは日本語化は達成できない。

PC（日本独自規格のPC以外のもの）の画面にASCII文字セット以外の文字が表示できない時代が長く続いていた状況を打破する方式として、（IBMの日本法人が開発した）DOS/V という方式が大きなインパクトとなった、という経緯があり、その名前は現在もPCの１カテゴリーを表す名前として残っている。

用語の区別

以上、文字セットと、それに対するエンコーディング方式、という関係を見てきた。
「文字コード」はそのどちらの意味にも使われるやや曖昧な部分のある用語であるが、右図のイメージを頭に入れておいていただき、

3 多国語化

前述のエンコーディングのうち、EUCについては、日本語に限らずいくつかのアジアの文字体系にも適用可能なものとして設計されていたが、
コンピュータの利用が世界に広がるとそれでも不十分であることがわかった。
そこで世界各国で使われる文字を網羅した巨大な文字セットが策定されるようになった。
その結果として作られたのが UCSと呼ばれる規格。
- 正確に言えば Unicodeという規格を大手情報機器ベンダー数社で作り、それをもとにISOの規格としてUCSが決まったという流れだが、まあ同じものだと思ってて間違いはない。
この文字セットをどういう形でファイルに組み込む（かつ従来のASCIIと併用可能にする）か、その方式（つまりエンコーディング）として、UTF-8 などいくつかの方式（「文字符号化スキーム」とも呼ばれるが作られたという経緯。
- 上の図に習って図示すると右図のようになる。
- UTF-8のコード表もある（たとえばここ）。（文字数が多くサイズの大きいページになるのでご注意）。

結語

コード         エンコーディング
（文字セット）

ASCII   ->  _

JIS     ->  7bit JIS
            EUC-jp
            Shift_JIS
Unicode ->  UTF-8
            UTF-16
            ：

文字コード、という（やや曖昧な）用語でShift_JISやUTF-8を漠然と区別して使い分ける、という考え方で、日常の不都合はないだろう。
- が、区別して理解しておくと混乱や混同は少なくなる。
逆に、当初は独自規格だったものがマーケットに受け入れられ普及し、国際規格として認められるに至る過程で（中身はほぼ同じであるのに）名前が変わるという例も見てきた。
- 何と何が同じか、あるいは部分であるか、といった相互関係も認識しておく必要があるだろう。たとえば、
- （文字コードとしての）ASCIIとANSIはほぼ同じ
- UTF-8は、Unicodeと同等の規格のうちの１つのエンコーディング方式（他にもある）、だが同じ意味として使っている人も多い。
といった感じ（けっこう複雑ですよね）。

現状のまとめ

右図のように、我々をとりまく情報システムでは、ざっくり要約すると２種類の文字コード（エンコーディング；Shift_JISとUTF；図では頭文字のみ記した）が拮抗しながら使われている状況。
- Windowsパソコンでは S が標準（でも U も使えなくはないし、Uを標準にしているアプリケーションも存在はする）。
- ネット界ではほぼ U にまとまりつつある。プログラミング言語やソフトウェア開発環境が概してUをベースに動作するのでこの方向は今後加速する。
- また、Windows以外のOSで動作する可搬コンピュータ（スマホも含む）は概ねUにまとまったので、ユーザは文字コードのことは意識せずに暮らせる状況。
Windowsパソコンでネットを使うユーザのうち、ネット上の資源にブラウザ（等の特定のアプリケーション）だけを介してアクセスしている限りは（Windows とブラウザが文字の差異を適切に扱うので）問題ないが、

少し複雑なことをしたいという場面になると、この文字コードの問題が表面化するので、若干の知識は持っておくのが望ましいだろう。

日本語を含むテキスト（実習）

自分でエディタ（メモ帳またはTeraPadを想定します）で作ってみましょう。
- 空のテキストファイルに、日本語文字をいくつか入力してみる。
- 保存のときに文字コードを意識して、ANSI（メモ帳の場合）と UTFを使い分けてみる。
- 文字コード選択の操作の場所は右板書図に示した。
（以下は作成失敗した人のために用意したもの）
- SJIS版
- UTF版
この２つのファイルについて、
1. Atomエディタで開いてみる
2. さらにAtomの16進ダンプ拡張機能で表示させてみる。

6	1	<=>	e	1
0110	0001		1110	0001