視覚や触覚の情報を用いて三次元物体を認識すること.1960年代初期に視覚情報から多面体の積木を認識する研究が最初で,顔,機械部品,屋内風景などが続いた.普通は,物体が何であるかを認識する(パターン認識)だけでなく,その位置や姿勢を知り,物体をつかんだり,ほかの物体と組合せたりする.したがって,物体認識のためには,入力情報から特徴抽出を行い,物体を含むシーンの記述を作らなければならない.その基本的な方法は画像理解と同じである.物体が一つだけの場合や複数の物体があってもそれを分離できる場合は,パターンマッチング,あるいは形状解析を行って,形状の記述を作ってから照合によって認識を行う.物体のモデルは,形状解析で得られる情報だけのものから,部分とその関係を表すグラフ表現,幾何モデル,大まかなモデルと詳細のモデルが階層的に表されているものなどがある.入力情報は二次元画像や距離情報が中心であるが,触覚情報により簡単な物体の認識も試みられている.最近は,視覚と触覚を組合せたセンサフュージョンの研究もある.複雑背景かの物体認識の実用的な方法は,照明や,スリット光の投影によって,早期に物体を分離することである.複数の物体が重なっている箱から物体を認識するビンピッキングは,古くから研究されてきた困難な問題であるが,コンピュータの高速化により,実用化が始まりつつある.