TypingMonkee2:自動四字熟語 001−005TypingMonkee2:自動四字熟語 006−010

2016年09月28日

表音文字と表意文字

僕はTwitterは普段日本語で書くのだが、たまに英語で書くと、140文字で書ける内容の少なさに驚く。

昔は日本語の文字は"2バイト文字"と言って、1バイトである半角英数文字二つ分とカウントされていた。たとえば、英語と日本語のどちらかで入力されることがありうる場合は、「20文字」と言わず、「20バイト(英文字がメインの場合)」あるいは「40バイト(日本語文字がメインの場合)」といっていた。なので、前者(20バイト)に日本語を入力する場合は10文字しか入れられず、後者(40バイト)は日本語は20文字になるが、英文字であれば40文字入れられることになる。

ところが今はUnicodeと言って、あらゆる言語の文字も同じように扱うようになり、その文字が一文字あたり何バイト使うかということを気にしなくてもよくなったため、「◯◯文字」と言えば、英文字/日本語文字にかかわらず◯◯文字である。

そして文字数が言語に関わらず平等に扱われるようになったことはTwitterの140字以内という制限においてはまったく平等でない、ということに気づいた。
 

同じ内容の言葉を英語と日本語で書いてみると、明らかに日本語のほうが少ない文字数で書くことができる。
これはもちろん漢字を使うからである。もし全部をひらがなだけで書くのであれば、英語と同じかもしかしたら英語より多い文字数になるのかもしれない。(やったことがないのでわからない)

アルファベット、ひらがな、カタカナは表音文字である。
ひとつの文字には意味はない。(例外はある。それについてはのちほど)

それに対して表意文字である漢字は文字ごとに意味がある。
表音文字に対して一文字がかなりの情報を持つ。

これによって、140文字の制限の中で何かを書こうとすれば、日本語のほうが英語よりもより多くのことが書ける、というわけである。
これは言い換えれば、「日本語は圧縮された言語である」ということだ。

先日、日本語が話せないコンピューター技術者に、日本語には文字が三種類(漢字、ひらがな、カタカナ)あって、ひとつの文ではそれらが混ざって使われている、という話をしていた。
日本語をまったく知らない人はそれがとても不思議に感じるようなのだが、ソフトウェアを日本語対応にする際には必ず説明しておかなければならないポイントである。
そのときに、「Twitterでは日本語で書くと同じ140文字でも、英語で書くよりもかなり多くのことが書ける」という話をした。
「日本語は新しい圧縮技術として使えるかも知れない」というジョークを飛ばしたら、かなりウケていた。
「ボクにとっては暗号化もできていることになるね」と。

上記で「表音文字においてはひとつの文字に意味はない、というものに例外がある」と書いたが、これはその本来表音文字であるものが表意文字の役割をすることがある、という意味である。
たとえば、プログラマーが「これはCで書かれています」という時の「C」とは、明らかに「C」という名のプログラム言語のことを指している。
このこと自体は、表音文字/表意文字の本質的な違いについて、あまり大きな問題ではない。ただアルファベット一文字だけの単語がある、というだけのことである。

さて、僕の最新作の「TypingMonkee2:自動四字熟語」シリーズであるが、これはその前作の「TypingMonkee」とは逆の性質のものなのかも知れない。
TypingMonkeeはアルファベット(=表音文字)を延々と打ち続ける中から、偶然意味のある言葉が現れるのを待ち続ける、という絶望的なものであった。それに対し、TypingMonkee2:自動四字熟語では、ランダムに選ばれる一文字が漢字(=表意文字)であるため、最初から一文字に意味がある。
そのランダムに選ばれた4つの意味をつなげて僕がそこにさらなる意味づけをする、というものだ。

つまり、「偶然意味が現れるのを待つ」という前者に対して、「偶然並べられた4つの意味からさらに意味を見出す」というものである。

そしてここで重要なことは、4回のタイプだけでかなり複雑な意味をそこに見出す(でっちあげる)ことができる、ということである。

表意文字を使う文化の中に育ったことを幸運に思う。
小学生のころは書き取りテストでかなり苦労したけど。

OLランキングで1位になりたい!賛同していただける方は下記をクリック!
にほんブログ村 OL日記ブログ ドジOLへ

コメントする

名前
 
  絵文字
 
 
TypingMonkee2:自動四字熟語 001−005TypingMonkee2:自動四字熟語 006−010