12月7日2006/12/08 02:15

 本日も競馬絡みでビッグニュースが2つほど飛び込んできたんだけど、詳細は後日ってコトで。両方とも急いでネタにするには、もったいない。
 
 本日のネタは、役に立つのかどうか全くわからない「ワザ」の紹介を。役に立ちそうに思えるんだけど、実は案外具体的な用途がないんだよね。まあ、皆様の方で色々工夫してみてください。
 
 口述筆記にチャレンジしたことある人はいるかな?要は「しゃべってる内容を文字に書き写す」ことだ。ダイレクトにとなると速記を覚える必要があるけど、何らかの方法で録音したものなら、何とかなるのでは…と考えたことのある奴は、いるんじゃないかなあ。
 
 ただまあ、世の中そんなに甘くない。やってみるとわかるけど、まずうまくいかない。不可能ではないんだけど、ベラボーに時間がかかる。ド素人ではまず実用にならない。まあ、普通に考えればそうなる。私だってそんな技量はない。
 
 しかし、先日めでたく?その仕事が降ってきた。だからどーしよーもないって言ってるのにぃ…と言える立場じゃないんだな。だって、「私がやるか、法科大学院の教授(どう考えても偉い)御自らやるか」の二択なんだもの。そんなこと言われちゃ、やるしかないでしょ。
 
 コトの始まりは、かなりムシのいいトコロから始まる。「PCの音声認識ソフト使って、授業映像の発言を文字データに変換できないかなあ」って要望があったのだ。何で「どーゆーものか知りたいから、テストして」って話が来たのかと思ったら…
 
 私もこの手の音声認識ソフトは良く知らなかったので、とりあえず職場に導入していじってみた。その結果出た結論は、「このソフトは、そーゆー用途には使えない」である。まず、このソフトは使う奴の声を「登録」する必要がある。ソフトにあらかじめ決められた文章を読み聞かせてやらないと、全く使えない。さらに、複数人物による入力には対応していない。純粋に「キーボードの替わりに口を使え」ってソフトである。
 
 人間のガキでも「他人が何を言ってるのか」理解できるのに、何でPCは駄目なのか?それは、人間の頭脳が優秀だから。当たり前だけど。PCが優秀に見えるのは、PCの得意分野で勝負してるからに過ぎない。それに、CPUの計算能力がどんなに優れていようとも、プログラム作るのはしょせん人間。こういう分野で「人間並み」の能力期待するのは、明らかに間違いだ。
 
 音声認識ソフトは、正直言ってさほど使えるソフトじゃない。認識率は決して低くないけど、それでも手慣れたキーボードに比べたら…それに、文章を考えながら入力する場合、入力が速くてもあまり意味はない。思考の方が追いつかないから。一番向いている用途は、実は「本を読んで、テキストデータに変換する」だったりする。とはいえ、これも「コピー取ってスキャナにかけて、OCRかける」って作業には負けると思うね。無価値とは言わないけど、印象よりは使い道がないと思う。
 
 それでも、念のため試験的に元データを強引に音声データに変換し、認識させてみたところ…まるで駄目。マトモに入力できてる場所の方が少ないので、事実上「キーボードの上を猫が歩いた」のと変わらない。ムシのいい野望は、見事なまでに潰え去った。
 
 私事なら、「ソフト無駄になったかなあ」で終わり。だけど、業務なんだから諦めるわけにはいかない。とはいえ、口述筆記なんて…しかも元データ、2時間近くあるんですけど。その全部をテキストデータにする必要はない(ガヤしか入ってない時間とかあるし)んだけど、ド素人には「膨大な量」である。
 
 仕方ないので、チマチマと地道にキーボード入力…しようとして気がついた。映像データは、音声登録してない多数の人間がしゃべるから入力できない。じゃあ、ユーザー登録した1人の人間が、全く同じコトをしゃべれば?おお、入力できる理屈ではないか。データ形式がマズくてソフトが対応できないのなら、エンコード(データ形式変換)してやればいいのだ。自分自身を使って。
 
 というわけで、「オペレーション人間エンコーダー」を発動させたのだけど…これまたあっさり挫折した。だって、みんな早口なんだもの。いや別にマシンガンのごとくしゃべっているワケじゃないんだけど、長々としゃべってるのを真似するのは大変だ。口はともかく、こっちのアタマが追いつかない。うう、何て使えないエンコーダーだ。自分自身なんだけど。脳内にフリーウェアでもインストールしろってか。
 
 完全にヤケクソになって音楽関連のフリーウェアなんぞ物色してたところ、ここに救いの神がいた。再生速度を自在に調整できる再生ソフトが見つかったのだ。これだよこれ!コレを使って元データをゆっくり再生すればいいんじゃん!そんなもの勝手にダウンロードして職場のPCに入れていいのかって?いいんだよ。私は一応その権限与えられているんだから。じゃなきゃ、こんな仕事降ってくるかぁ!
 
 というわけで仕切り直してみたところ…そこそこうまくいった。確かにすらすら変換できるってレベルじゃないけど、何とか実用にはなる。おまけに数こなして上達すれば、スピードも正確さも向上が見込めるはず。うーむ、素晴らしい。「ズブの素人でもテープ起こしができる」ようになったと言ってもいいかもしれない。実際は「ほとんど不可能」を「頑張れば何とか」に変えた程度かも知れないけど、それでもかなりの前進じゃないかな。
 
 まあ実際は、「イチからキーボードで入力するよりはマシ」ってレベルだとは思う。けど、相当ハードルを下げたんじゃないかなあ。ド素人のテープ起こしなんて、今まではベラボーに時間かかっていたわけで。厳密な正確さを要求されるような用途には向かないと思うけど、それでも「これで充分」ってものは結構あるような気もするんだけど。
 
 とはいえ、具体的に「何に使えるのか」と問われると…単に要点だけ抜き出せばいいのなら、誰でも出来ることだ。かといって、厳密な正確さが必要な用途には使えない。ちょっと中途半端な気もするね。
 
 とりあえず使えそうなのは、教育関連かなあ。元々そのために開発された?手法なんだし。比較的手軽に「先生生徒含めた授業中の発言を、全部テキストデータ化」できるってんなら、色々需要はありそうだ。一般企業でも、「会議の発言を手軽に全部テキスト化」できるんなら、それはそれで使い道ありそうだし。作家とか編集者みたいな人種はプロにテープ起こしさせるのがフツーだろうけど、「重要じゃないモノは手軽に変換」できるんなら便利かもねえ。
 
 個人レベルでは、同人誌作家が喜ぶかな。私の手法を使えば、とりあえずMP3データに変換できるモノはテキストデータ化できる。それなりに手間はかかるけど、ベラボーな時間もプロ頼むカネもない同人レベルなら、他に選択肢がないでしょ。特に、録ってあるTV・ラジオの音声データをテキスト化できるってのは、場合によれば便利なんじゃないかなあ。著作権の問題はあるけど。
 
 用途のあるなしはともかく、この話がネタとしてそこそこ面白いのは間違いないと思うなあ。特に、「人間を使ったエンコード」って部分は、我ながらよく思いついたと感心する。ギャグとしか思えないほどアホなのに、ちゃんと必然性があるんだから。道具ってのは使い方次第ってことだね。その答えが「自分自身を道具に変える」ってのがまたいいギャグだ。
 
 このアイデア、おそらくあまり知れ渡ってはいない。さすがに私が最初とは思わないけど。それはちょっとモッタイナイかなと思い、こうして公開してみました。ま、使い道は皆さんで考えてくださいませ。さーて、私も「午後の紅茶」飲んでエンコードしまくらないとな!(注:「午後のこ~だ」という有名なエンコードソフトがある) 

コメント

コメントをどうぞ

※メールアドレスとURLの入力は必須ではありません。 入力されたメールアドレスは記事に反映されず、ブログの管理者のみが参照できます。

名前:
メールアドレス:
URL:
コメント:

トラックバック

このエントリのトラックバックURL: http://fohpl.asablo.jp/blog/2006/12/08/987887/tb

※なお、送られたトラックバックはブログの管理者が確認するまで公開されません。