機械の知能化の展望

大阪大学大学院
工学研究科電子制御機械工学専攻
教授 白井 良明
http://www-cv.mech.eng.osaka-u.ac.jp/~shirai/index-j.html

 本部門では機械の知能化が1つの課題となっていて,約10年余にわたり,機械の知能化に関する研究会,同分科会,知能メカトロニクス分科会,知能情報メカトロニクス分科会として活動を続けている.
知能は多数の学会が対象としているので,本部会での知能の特徴について考えてみたい.知能化された機械の入力と出力を大雑把に分類すると,

入力: a. 実世界から直接得られる情報(ノイズを含む),
    b. 人を介した情報(自然の会話の文章のような実世界からシンボル化された情報,
    データベースのように人が整理した情報)

出力: a. 人を含む実世界へ直接働きかける,
    b. 情報を伝えるだけで,その場で実世界へ働きかけない.

このうち,b-aの組み合わせはの研究は少ないので,除外しておく.本部門では入出力とも a(a-a と書く)が中心となると思われる.ちなみに,日本人工知能学会の本年度の全国大会での発表論文の分類別の数は以下である.

   a-a:23(ロボット,生活支援など)
   a-b:210(知識獲得,学習,HPや製品のデザイン支援,自然言語,音声)
   b-b:41(情報検索,バイオインフォマティクス,アルゴリズムなど)

なお,a-bのうち約20件がWebを対象として.Webから情報を集めたり,Webを媒介とした活動などである.Webも多様な実世界とみなす研究が活発になっている.実世界に働きかける研究が少ないのは,その必要がないからという理由もあるが,思うように動いてくれないからという人が多い.その場合の出力は,CGによるシミュレーションだけですますことが多い.ところが,CGでは,環境に関する正しい情報が常に得られていて,環境に対して一定の行動を行なうと必ず一定の結果が得られるので,実世界の複雑な問題を扱えない.それでも人工知能の分野では世界的に実世界を対象とする研究が増加しており,われわれの機械の知能化との境界は薄れている.

ところで,従来の機械の知能化は,自動車,コピー機,カメラなどのような従来の機械を使いやすくするための知能化が中心であった.しかし,この知能化は飽和しているともみられている.これ以上の自動化を進めるにはブレークスルーが必要であるものが多い.自動車でも,運転者の負担をこれ以上減らすには相当の努力がいる.このような状況では,新しい機械の進展に期待することがいいかもしれない.コンピュータでも,計算システムとして飽和した後,ワープロ,ゲーム,インターネットなどの計算以外を行なう個人への普及によって,PCの技術の進歩を促し,ひいては企業は生産現場での多様な応用をもたらした.機械の知能化では,別の分野は何に相当するかは明らかでない.いくつかの可能性の一つに,個人が使う新しい機能をもつ機械があると思われる.

その新しい機能の第一歩はペットとして,エンターテインメントとしての機能である.とくに有用な仕事をしてくれるわけでなないので,あまり高い信頼性はいらないが,すぐれたインターフェイスを必要とする.このような機械は,人とのインタラクションを行ない,種々の環境で動くことが望ましい.これが実現された後では,それにものを持ってきてくれたり,監視や留守番をする簡単な機能を付け加えることが考えられる.

それでは,基本的機能の実現はどうであろうか.まず,人とのインターフェイスである音声から考えてみる.7年程前から音声認識の実用化が進んだので,上記分科会でも音声認識の現状と応用例の講演会が企画されたことがある.確かに,新聞などの読み上げ音声の認識率が90%ほどであることがわかった.それにしては,音声をインターフェイスとする機械があまり普及していない.普通の音声認識装置は,マイク話者の近くにあり,背景ノイズが小さいという条件で用いる.また,大量のデータ(新聞記事など)によって単語系列の統計をとり,それに基づいてあいまいな信号処理を補っている.したがって,このような条件に合わなければ,認識率が下がるのは当然である.米国では現在,電話の音声を95%の精度で認識することを目標に,EARS (Effective, Affordable, Reusable Speech-to-text)プロジェクトが走っている.その動機はどうであれ,予定通り2007年に目標が達成されれば,その波及効果は大きい.

次は,人の発見,追跡,顔の検出,姿勢の解析などであり,現在盛んに研究されている.これも,米国では1997-99年にVSAM (Vedeo surveillance and Monitoring) プロジェクトを行なっている.主に,屋外の監視を目的としているが,米国の大学や企業の上記研究を促進した.現在もマイクロソフトは,会議で発言している人の顔画像を送ったり,顔の3次元モデルを自動作成する研究を行なっている.人の顔がわかれば,アイコンタクトもできる.また,それが誰であるかを推定する(識別)可能性もでてくる.顔識別に関しても米国のFERET (Face Recognition Technology)プロジェクト(1993-2001)がある.とくに,プロジェクトで作成された膨大な顔のデータベース(FERET Data Base)が有名で,誰でも入手できる.MITのメディアラボなどは顔認識システムのベンチャーを作っている.以上の米国でのプロジェクトはいずれも安全を目的とした研究であるが,その応用範囲は広い.さらに,屋内屋外の自律走行に関してもプロジェクトやコンテストが行なわれている.このような中核となる技術開発を産官学で大規模に行なうプロジェクトは,20年前の日本では活発であったが,最近は少なくなっているのは残念である.

このような中核技術が誰でも使えるようになると,人と協力して仕事をする機械が作りやすくなる.障害者のためにものを持ってきてもらう機械も,頼まれたものが見つからない時や,移動ができないなど,機械が困った時に,頼んだ人と音声などでやりとりができれば,ゆっくりでも目的を達することができる.
種々の機械の知能化の敷居が低くなると,再び既存の機械の知能化の飛躍も可能になろう.運転者を識別し,表情から注意が散漫であるかをチェックし,歩行者を発見し,その行動を認識できれば,車の種々の知能化も考えられる.一般に,機械が人を識別でき,その人の状態を推定できれば,快い対応ができるはずである.しかし,それは人間にとってもむずかしい課題である.
知能化技術とともに,人間自体の研究も欠かすことができない.

Last Modified at