textproperties



作者:細馬宏通
目的:AppleScriptStudioを使った日本語処理の初歩勉強用
機能:日本語テキストにおけるcharacter, word, paragraphとitemの関係を確認するツール

解説:

(以下はMac OS 10.2, AppleScriptStudioの環境でのみ確認しております。他の環境では異なる可能性があります。)

 AppleScriptのテキスト処理では、「item」の意味に注意する必要があります。「item」の意味はテキストを文字(character)の集まりと見なすか、単語(word)の集まりと見なすか、段落(paragraph)の集まりと見なすかによって、異なります。
 
たとえばデータをcharacter単位で
set data to characters of "I love you"
として作ると、dataの中身は
 {"I", " ", "l", "o", "v", "e", " ", "y", "o", "u"}
となり、item 3 of dataは "l"になります。

いっぽう、データをword単位で
set data to words of "I love you"
として作ると、dataの中身は
 {"I", "love", "you"}
となり、item 3 of dataは "you"になります。

 日本語には分かち書きがありません。AppleScriptは単語をどこで切っているのでしょうか?
 どうやら、日本語のテキスト処理をする場合、句読点やカギカッコ、文字種(ひらがな、カタカナ、漢字、英数字)の変わり目がwordの区切れめと見なされているようです。ただし、漢字やカタカナからひらがなへ移るときは切れ目とみなされません。

 このアプリケーションの上側の上のテキストヴューに、いろいろな文字列を入れて、下の「characters」「words」「paragraphs」のボタンを押したりitemの値を変えて、その効果を試して下さい。

download "textproperties.applescript"