2010/10/01

コードポイントはU+、チルダはN、セプテット・ノネット、キビ

コードポイントえらい、チルダはN、セプテット・オクテット・ノネット、キビダンゴ などについて。

コードポイントはえらい

Unicodeはコードポイントで考えよう。
何があっても絶対だということになってる(少なくともUnicodeさんの中では)。

表記は U+数 とするので、変に0xなんとかって書かないほうがいいかもね。
数は非負の整数です。なんてシンプル。うつくしい。


チルダはN
チルダは~はNが変化したものなので、左側が山で右側が谷でなくてはならない。鼻濁音を表す。

波ダッシュは Unicode の規格本の編集(?)ミスにより混乱
なんと(事実上の)印刷ミス!!!!!

UTF-8 には BOM はない
UTF-8にはバイトオーダーがないので、BOM(Byte Order Mark)と言われることのあるものは真のBOMではない。

バックスラッシュとyen記号のややこしさは、他国でも存在!Unicodeにも今のところ救いなし!


情報の単位とか
byteって何なのよ?
バイト9bitのシステムもある
1バイトが7ビットのシステムだけでなく、9ビットのシステムもある。
むしろ現役!
UTF-9・UTF-18・36ビットワードマシンなどについて調べられたし。

バイトは本来1文字(欧文)。5ビットから12ビットまであったという伝説もある。詳しくは調べられたし。

octet以外は?
オクテット(octet)はもともと8重奏、8-組というような意味。
RFCにも 7bit = septet, 9bit = nonet という表現は見つけられたので
よって一般に2bit~10bitまでについても、duet, trio, quartet, quintet, sextet, septet, octet, nonet, dectet という表現が使われるのが自然か。11,12は対応する表現を調べられず。


キビ、メビ、ギビ、テビ、など大きい単位
キビ = 1024^1 = 2^10
メビ = 1024^2 = 2^20

kibi = kilo binary = Kio
mebi = mega binary = Mio
gibi = giga binary = Gio
tebi = tera binary = Tio
pebioctet (Pio), exbioctet (Eio), zebioctet (Zio), yobioctet (Yio), …

テラとテビに至っては一割も違う!!! 2010年現在、ハードディスクがちょうど1テラを越えたかどうかという時代で、ストレージ容量表示がなかなか適正化されないのにも合点がいくのだ(納得はいかんが)。
1 tebioctet = 2^40 octets = 1,024 Gio = 1,099,511,627,776 octets
1 teraoctet = 10^12 octets = 1,000 Go = 1,000,000,000,000 octets

ちなみに、キビダンゴ=1024だんご ということになる。

0 件のコメント: