PC、スマートフォンを扱っている人であれば、一度は「文字コードって何だろう?」と思った経験があるのではないでしょうか。

文字コードには様々なものがありますが、その中でもスタンダードなのがUnicodeの「UTF-8」です。日頃、文字コードを意識している方は少ないかと思いますが、コンピューター上で文字を扱うための重要な要素ですので、基本的なことはぜひ知っておきたいものです。

そこで今回は、「UTF-8」の基本知識から各ブラウザにおいての確認方法までをまとめてご紹介します。

UTF-8(ユーティーエフエイト)とは

utf8.png
 
UTF-8とは、世界的にも最もポピュラーな文字コードで、Unicode用の符号化方式の1つです。ASCIIで定義している文字を、Unicodeでそのまま使用することを目的として制定しています。

世界中の様々な文字を集合体が「文字集合」と言い、文字集合で定義した個々の文字をコンピューター上で表示する数値の振り方が「符号化方式」と言います。UTF-8は、後者に属しています。

UTF-8は、ASCIIコードとの互換性が高いことから、世界中の多くのソフトウェアが用いています。幅広く普及していることを考えると、UTF-8は世界的にもポビュラーな文字コードだと言えるでしょう。

符号化方式にはUTF-8以外にもUTF-16などが有名で様々なシーンで活用されますが、UTF-8ほど対応するソフトウェアは多くありません。
  

UTF-8(ユーティーエフエイト)の仕組みとは

utf8_2.png
画像引用元:UTF-8の冗長なエンコード:本当は怖い文字コードの話

UTF-8は、ASCIIと互換性を持たせた規格となっているため、一部の文字はASCIIと全く同じです。ASCIIと同じ部分は1バイトで表現し、そのほかの部分を2〜6バイトで表現する可変長の符号化方式となっています。漢字、仮名文字は3〜4で表現するため、UTF-16と比較するとデータサイズが大きくなります。

そもそも文字コードとは?

文字コードとは何か.gif

文字コードとは、コンピュータ上で文字を扱うために個々の文字、記号に割り当てられた固有の番号のことです。コンピューターはデータを数値でしか扱えないため、文字も数値で扱わなければなりません。そのため、文字を表示するには文字コードが必要となります。

UTF-8以外の代表的な文字コード

文字コードには数多くの種類がありますが、代表的な文字コードは以下のとおりです。
  

1. JIS(ジス)コード

インターネット上で標準的な文字コードで、特に電子メールでの使用が一般的です。
  

2. Shift_JIS(シフトジス)

Microsoft社が開発したコードで、ASCIIコードの文字に日本語の文字を加えた物です。Windows、Macでも採用しており、PC上のファイルで広く用いられています。
  

3. EUC

Extended Unix Codeを略したもので、日本語UNIXが使用しています。
  

4. Unicode(ユニコード)

Windows、Java、XMLなどで用いられている文字コードです。ここでは文字コードとして説明していますが、「符号化文字集合」と言い、他の文字コードと違います。わかりやすく言うと、日本語、ロシア語、ギリシャ語、記号……など、世界中の文字を集め、それぞれに番号を付けて利用できるようにしている文字集合のことです。
  
Unicodeで管理している文字を実際に使う際には、「文字符号化方式(エンコーディング)」を使い、符号化文字集合をコンピューター上で扱えるように数値変換します。

「文字符号化方式」の代表的なものが、よく耳にするUTF-8やUTF-16です。「Unicode=UTF-16」「Unicode=UTF-8」と誤解してしまいがちですが、「符号化形式」の中にUTF-8やUTF-16を含みます。