コンテンツにスキップ

英文维基 | 中文维基 | 日文维基 | 草榴社区

エスケープ文字

出典: フリー百科事典『ウィキペディア(Wikipedia)』

コンピューティング通信において、エスケープ文字エスケープもじ: escape character)とは、それに続く文字について別の解釈をすることを示す文字である。エスケープ文字は、メタ文字英語版の一種である。通常、何がエスケープ文字であるか、またはそうでないかは、文脈に依存する。

定義

[編集]

エスケープ文字は多くのプログラミング言語、データフォーマット、通信プロトコル文法の一部である。エスケープ文字の目的は、エスケープシーケンスと呼ばれる一連の文字列を開始することである。エスケープ文字に続く文字は、エスケープ文字がない時とは別の解釈をしなければならない。エスケープ文字自体は、単独では意味を持っていない。エスケープシーケンスは、エスケープ文字を含めて2文字以上である。

エスケープシーケンスには2つの機能がある。一つは、アルファベットでは表すことができない構文的な実体、例えば装置へのコマンドや特別なデータをコード化することである。もう一つは、文法上特別な意味を持つ文字を、その文字自体として表現することである。後者の場合、そのエスケープシーケンスは「ダイグラフ」や「トライグラフ」と呼ばれ、エスケープ文字と表示したい文字からなる。

制御文字

[編集]

一般に、エスケープ文字は装置制御文字の一種でなく、逆もまた然りである。制御文字を非図形文字、すなわち出力装置(例えば、プリンタやテキスト端末)にとって特別な意味を持つものとして定義するならば、その装置にとってはあらゆるエスケープ文字は制御文字である。しかし、プログラミングで使用されるエスケープ文字はバックスラッシュ (\)[注釈 1]パーセント記号 (%) などの図形文字なので制御文字ではない。逆に、(全てではないが)ほとんどのアスキー制御文字は、単独で何らかの制御機能を持っているため、エスケープ文字ではない。

多くのプログラミング言語では、エスケープ文字は制御文字を参照するエスケープシーケンスも作る。例えば、改行のエスケープシーケンスは \n である。

[編集]

ASCIIエスケープ文字

[編集]

ASCIIエスケープ文字は制御文字の一種で、十進数で27、十六進数で1B16に割り当てられている。キャレット記法では ^[ と表され、Unicodeでは制御文字の図形表現として ␛ (U+241B) が定義されている。この文字は多くの出力装置で、「コントロールシーケンス」または「エスケープシーケンス」と呼ばれる文字列の開始文字として使われている。一般的に、それに続く文字が通常の文字ではなくコントロールシーケンスとして解釈されるということを装置に伝えるために、エスケープ文字が最初に送られる。エスケープ文字に続けて詳細な動作を指定する1文字以上の文字が送られた後、装置は通常の文字として解釈するモードに戻る。例えば^[と表示可能文字からなる文字列 ^[2;10H は、DEC VT102端末においてカーソルを画面上の2行目10桁目へ移動させる。これは後にANSI X3.64標準が対象とするANSIエスケープコード英語版へと発展した。ヒューレット・パッカードPrinter Command Language (PCL) も各コマンドがエスケープ文字から始まっていた。

「エスケープ文字」という用語が最初に使われたのは、ボブ・バーマーによるIBMの技術書の中である。エスケープシーケンスの仕組みを発明し、ASCII文字コードセットにエスケープ文字を加えることを提案したのも彼である。

Escキー(エスケープキー)は、PCのキーボード上にはあるが、ASCIIによる文字通信を主な目的としていないPDAなどの装置のキーボードには見られない。DEC VT220英語版シリーズは専用のEscキーを備えておらず、その代わりにキーパッドの上のキーの1つを使った。1970年代から1980年代のユーザインタフェースでは、エスケープ文字のためにこのキーを使うことは珍しくなかったが、最新のデスクトップ・コンピュータにおいて、そのような使用はされなくなった。時々、EscキーはAltModeキーと同一視される。Escキーを使用しなくても、コントロールキー[を同時に押下することでもエスケープ文字のコードを発生させることができる。

プログラミングとデータフォーマット

[編集]

現代の多くのプログラミング言語では、文字列リテラル(string literal)の開始および終了を表す区切り文字として、ダブルクォート 2216 (") を使用している。そのため、ダブルクォートそのものを文字列リテラルに含めることはそのままではできないので、バックスラッシュ 5C16 (\) をエスケープ文字として使用する(日本語環境ではオペレーティングシステムおよびフォントによっては5C16円記号として表示されることがあるが、以下では単にバックスラッシュと書く)。文字列リテラルの中で \" と書くと " と解釈される。また、十六進数のASCIIコードを使って \x22 と書くこともできる。またシングルクォート 2716 (') を文字リテラルの区切り文字として使用することもあり、文字リテラルの中でシングルクォートを使用する場合は同様にエスケープが必要となる。

C言語C++JavaC#などでは、上記の2つの方法とも使用できる。PostScriptマイクロソフトRich Text Formatもバックスラッシュによるエスケープを使用する。

C/C++/Javaの文字列リテラルでは八進数のASCIIコードを使って\42\042と書くこともできるが、C#ではサポートされない。

PythonRubyではダブルクォートで囲んだ"x"もシングルクォートで囲んだ'x'も文字列である。C系言語で使われるエスケープシーケンスもサポートする。なお、Pythonでは"\n"'\n'も改行文字からなる長さ1の文字列を意味するが、Rubyでは"\n"は改行文字からなる長さ1の文字列を、'\n'\nからなる長さ2の文字列を意味する。

printfの書式文字列ではパーセント記号%が特殊な意味を持つエスケープ文字であり、%自体を出力するためには%%とする。

quoted-printableでは等号 (=) をエスケープ文字として使用する。

URLURIでは、特別な意味を持つ文字や非ASCIIの文字を表すのにパーセント記号 (%) をエスケープ文字としたパーセントエンコーディングを使用する。アンパサンド (&) は、SGMLやそれから派生したHTMLXMLなどにおいてエスケープ文字として扱われる。

JavaScript

[編集]

JavaScriptでは \ をエスケープ文字として使用する[1][2]

記述 意味
\' シングルクォート
\" ダブルクォート
\\ バックスラッシュ(円記号)
\n 改行
\r キャリッジ・リターン
\t タブ
\b バックスペース
\f 改ページ
\v 垂直タブ(IE9以前では、\v は垂直タブ(\x0B)ではなくラテン文字のv とみなされる。ブラウザ互換性が重要な場合は、\v ではなく \x0B を使用する。)
\0 ヌル文字 (U+0000、NULL)(\0 に続く文字が数字でない場合のみ。数字が続く場合は八進数の数値とみなされる。)

\v\0JSONでは使用できない。

通信プロトコル

[編集]

Point-to-Point Protocol (PPP) では、7D16オクテット(ASCIIでは})をエスケープ文字として使用する。すぐ後に続くオクテットは2016とのXORを取ってから上位のプロトコルへ送られる。これは、7D16自体と、PPPでフレームの開始・終了を表す7E16について、上位のプロトコルからそれらのオクテットをPPPでカプセル化して送信するよう要請があったときに適用される。上位のプロトコルからの要請が7D16の場合、送られるシーケンスは「7D 5D」となり、7E16の場合は「7D 5E」となる。

Bourne Shell

[編集]

Bourne Shell (sh) では、アスタリスク (*) と疑問符 (?) がワイルドカードとして使用される。エスケープ文字を使わないと、*カレントディレクトリの全てのファイルのファイル名に展開される。"*"というファイル名を指したい場合は、バックスラッシュ(\)を前につける。例えば、バックスラッシュをつけない場合とつけた場合で、以下のように動作が変わる。

rm *    # カレントディレクトリの全てのファイルを消去する

rm \*   # * という名前のファイルを消去する

Windowsのコマンドプロンプト

[編集]

Windowsのコマンドプロンプト(cmd.exe)では、特別な意味を持つ文字 (&|()<>^) のためのエスケープ文字としてキャレット (^) を使用する[3]。DOSのコマンドラインインタプリタCOMMAND.COM)はWindowsのコマンドプロンプトと似たような文法を持つが、このエスケープ文字には対応していない。

例えば、コマンドプロンプトで「x<y」と表示させようとして次のように記述しても、意図どおりにはならない。[要説明]

echo x<y

そこで、キャレットでエスケープして次のようにする。

echo x^<y

関連項目

[編集]

エスケープ文字は、以下のものとは異なる。

脚注

[編集]

注釈

[編集]
  1. ^ 日本語環境では、フォントなどによってはバックスラッシュが円記号 (¥) として表示されることがある。

出典

[編集]
  1. ^ JavaScript character escape sequences ¡ Mathias Bynens”. Mathiasbynens.be. 2014年6月30日閲覧。
  2. ^ Special Characters (JavaScript)”. Msdn.microsoft.com (2014年6月20日). 2014年6月30日閲覧。
  3. ^ Tim Hill (1998年). “The Windows NT Command Shell”. MacMillan Technical Publishing. 2010年1月13日閲覧。

外部リンク

[編集]

パブリックドメイン この記事にはパブリックドメインである、アメリカ合衆国連邦政府が作成した次の文書本文を含む。Federal Standard 1037C. 一般調達局.