Pebble Coding

ソフトウェアエンジニアによるIT技術、数学の備忘録

文字コード入門

文字コード

1) UTF-8

現在、最も一般的になりつつある文字コード

半角英字:1バイト 全角文字:2バイト〜6バイト(日本語の範囲内では3バイト)

2) CP932(別名ShiftJIS)

Windowsで使われている文字コード

半角英字:1バイト 全角文字:2バイト

3) EUC

以前のUNIX環境で使われていた文字コード

半角英字:1バイト 全角文字:2バイト

4) UTF16

Windowsなどで使われている文字コード

半角英字:2バイト 全角文字:2バイト

UTF8との変換は容易。

5)JIS

メールで使われている文字コード。 そのうち消えると思われる。

 

<改行コード>

1) 0x0D0A (CR+LF) Windowsで使われている。

2) 0x0A(LF) UnixMacOSXで使われている。

3) 0x0D(CR) MacOS9以前で使われていた。 現在はほぼ使われていない。

 

<BOM> UTF文字コードの時に、LittleEndianかBigEndianかを指定する ファイルの先頭につける数バイトの印。 これを付けない場合もある。