Linuxを中心とした話題を投稿予定。 使用ディストリビューションであるFedoraが中心になると思われます。http://oedipa.wiki.fc2.com/にてTips Wikiを公開してます。
スポンサーサイト
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
[Linux]Anthyを卒業したい
先週末、会社の標準OfficeスィートがOffice2000からOffice2003にアップグレードされました。
その際、IMEも更新された訳ですが、これまでの学習結果を全部吹っ飛ばすんですねアレ。私の名字(珍しい妙寺なので一発で変換できることはまずない)が出なくなってました。まぁ、学習を過剰に設定しておけばすぐ覚えてくれるので困りはしませんがw

ところで、WindowsでIMEと言えば、Microsoftの標準IME、Officeをインストールすることで導入されるIME、そしてATOKなんてのが主流だと思います。ATOK2009なんてのがこないだリリースされてましたね。

かたやLinuxではどうかと言いますと、現在主流なのはAnthyです。ほとんどのディストリビューションが採用しており、標準でAnthy(+SCIM)と言う組み合わせになっております。

が、こいつの変換効率がどうにもよろしくない。と言いますか、話し言葉に対する変換効率が著しく低いんですね。
こうしてBlogに書いているような、ある程度標準語に近いと言いますか、(あまり適当な表現ではないでしょうが)教科書的な文章については十分な変換精度を保っています。今こうして打っている文章も、1発めの変換候補が同音の違う漢字であることはあっても、文節から間違っている事はほとんどありません。

しかし、話し言葉と言うか、砕けた表現をしようとすると一気に破綻します。

Velnirとのチャット中はほんとひどいもんです。おかしな変換はできるだけ直していたんですが、最近は面倒になったのでそのまんま投げていたりします。気にせずついてきてくれるVelnirに感謝(笑)

えげつない誤変換の例としては、
・頭が痛いわ->頭害対話
・何がどう変わるのかね->なにが同化割るのかね
・一家団欒2巻は半分弱読んだ->一家団欒2巻は半分じゃ九余んだ
とまぁこんな感じでしょうか。そこまで砕けた言い方ではないと思うんですけれどね。チャット中は連文節変換なんてまるで期待できません。ほぼ文節ごとに変換してます。その方が、長い文章打って文節を直して変換するよりよっぽど早いんですもの。

だので、LinuxでのAnthyに見切りをつけたいのですが、FedoraのリポジトリにはAnthyくらいしか選択肢がないんですね・・・。正直Cannaの方がマシじゃないのかと思える。

で、途方に暮れていたらなんとかのSocialIMEがUIMから叩けるとかなんとか!

uim/2008/11/07/social-ime - more-functional

まだ本流には取り込まれていないのかな? ってか、UIMのWiki見たら知らない変換エンジンいっぱいあったんですよねぇ。Anthy意外に結構選択肢があったのか、と。

まぁさっそくSocialIMEを試してみたかったんですが、残念ながらビルド方法が分かりませんでしたOrz Fedoraには当然用意されてませんからねぇ。野良ビルドの必要がありますが、ちょっくらハードルが高い・・・。

けどこれ成功すると結構面白そう。あと、yahoo-jpなんてエンジンもあったり。SocialIMEもそうですが、両方とも量にものを言わせた変換を試みます。下手にアルゴリズムをこねくり廻すより、多くの人が使っている変換候補を割り当てた方が正答率高いやろ? ってな考え方ですね。

う~ん、最近はWikiのネタもありませんでしたし、なんとかこれをビルドしてネタにしちゃいますかね。
ちょっくらやってみっか!
関連記事
スポンサーサイト
コメント
この記事へのコメント
>ほぼ文節ごとに変換してます。その方が、長い文章打って文節を直して変換するよりよっぽど早いんですもの。

95時代からの癖で今でもそんな変換してるわ。
おかげで変換終了した部分の文脈を推測してくれないことがあって、変換ミスが後を絶たない(笑
2009/02/08(Sun) 21:28 | URL  | velnir #YG9ONXHE[ 編集]
誤変換コンテストに応募しよー
2009/02/08(Sun) 22:23 | URL  | kaku #-[ 編集]
NaturalInput使えば?
まぁOffice以外でNaturalInputが有効に使われるかは覚えてないんだが^^;
NaturalInputは前の文節を一応見てくれるので、ハマれば実に快適なんだがね。

あと、Offife2003までの(Vistaまでの)IMEは2文節までしか見ないので2文節までで変換すると結果が割とよく、Office2007では3文節まで見るようになったので3文節で変換すると効率よく学習するね。

WineでIME動かないかしらw
2009/02/08(Sun) 23:08 | URL  | code_air_edge #-[ 編集]
uim-social-ime
はじめまして。

uim-social-imeはすでにtrunkに入っておりまして、uim-1.6.0以降でデフォルトで選択可能になる予定です。

今はソースがレポジトリ上にしかありませんので、specファイルを書き換えればすぐrpmbuld出来る、というような状態ではありません。

それと、wimeを使えば、ATOKをwine経由で使用できるようですよ。
2009/02/08(Sun) 23:38 | URL  | いわた #-[ 編集]
このネタにコメントがつくとは思っていなかった
誤変換コンテストとかあったなぁ。
って、あれ今話題の漢検じゃないっけ?w>kaku

お、本流に取り込まれそうなんですか! それは楽しみです。svnでチェックアウトしなきゃいけないみたいでしたので、途方に暮れていたんですよね・・・。

wimeは一応知っていたんですが、まだバギーということで様子を見ています。非常に楽しみなプロジェクトですよね。ATOKが動いてくれるならもうそれでいい気もしますw >いわたさん
2009/02/09(Mon) 20:39 | URL  | code_air_edge #-[ 編集]
そんなあなたにSKKをどうぞ♪
2009/02/11(Wed) 02:16 | URL  | yama #-[ 編集]
SKKはまだ触ったことないんですよねぇ
Fedoraに入ってましたっけ・・・?
今調べたところ、scim-skkは入ってますね。エンジンはskkdicでいいのかな・・・?

ちょっくら調べてみますー。情報ありがとうございます>yamaさん
2009/02/11(Wed) 21:09 | URL  | code_air_edge #-[ 編集]
コメントを投稿
URL:
Comment:
Pass:
秘密: 管理者にだけ表示を許可
 
トラックバック
この記事のトラックバックURL
この記事へのトラックバック
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。