Action Recognition

Inhaltsbasierten Videoanalyse

Handlungen und Aktionen von Personen sind ein wichtiger Teil von Spielfilmen und Videos. Die automatische Erkennung und Zuordnung dieser Aktionen ist eine wesentliche Komponente von Systemen zur inhaltsbasierten Videoanalyse. Typische Aktionen, die man in Videos beobachten kann sind z.B. »sich hinsetzen«, »sich die Hände schütteln«, »Auto fahren«, »sich küssen« sowie viele weitere andere Aktionen.

Vordergrunddetektionen
© Fraunhofer ITWM
Vordergrunddetektionen (»Poselets«) beschreiben die Pose einer Person und die Bewegung einzelner Körperteile über die Zeit.

Videoanalyse und Aktionserkennung

Das Video präsentiert Aspekte der inhaltsbasierten Videoanalyse, insbesondere die automatische Erkennung und Zuordnung von unterschiedlichen Aktionen in visuellen Inhalten.

Merkmale modellieren Personen und Kontext

Für die zuverlässige Erkennung dieser Aktionen in Videos ist die Detektion der handelnden Person und die Analyse ihrer Bewegungen von zentraler Bedeutung. Aufgrund dieser Bewegungsanalyse kann man die Videoszene in Vorder- und Hintergrundbereiche aufteilen und diese separat beschreiben. Die gewonnenen Merkmale modellieren sowohl die Personen wie auch den Kontext der jeweiligen Szene. Zusätzlich beschreiben wir auch die Pose und Orientierung einer detektierten Person und ihre Veränderung über die Zeit. Soft-Saliency-Karten, die aus unserer Vordergrundsegmentierung für einige Beispielvideos aus dem Hollywood2-Benchmark generiert wurden. Rot gefärbte Bereiche spiegeln Vordergrundregionen wider. Die Hauptdarsteller werden von unseren Saliency Maps gut abgedeckt und sind deutlich vom Hintergrund der Szene getrennt.

Motion Saliency
© Fraunhofer ITWM
Detektierte Personen in Videos (Hollywood2 Benchmark). Rote Bereiche zeigen die Personen im Vordergrund. Dadurch kann die Videoszene eindeutig in Vorder- und Hintergrundbereiche zerlegt werden.