Multi-Cue Pedestrian Recognition
Munder, Stefan
URL:
|
http://ub-madoc.bib.uni-mannheim.de/1431
|
URN:
|
urn:nbn:de:bsz:180-madoc-14319
|
Dokumenttyp:
|
Dissertation
|
Erscheinungsjahr:
|
2007
|
Titel einer Zeitschrift oder einer Reihe:
|
None
|
Verlag:
|
Universität Mannheim
|
Gutachter:
|
Schnörr, Christoph
|
Datum der mündl. Prüfung:
|
21 Juni 2007
|
Sprache der Veröffentlichung:
|
Englisch
|
Einrichtung:
|
Fakultät für Wirtschaftsinformatik und Wirtschaftsmathematik > Bildverarbeitung, Mustererkennung u. Computergrafik (Schnörr 1999-2008)
|
Fachgebiet:
|
004 Informatik
|
Fachklassifikation:
|
CCS:
I.2.10 I.4.7 I.4.8 ,
|
Normierte Schlagwörter (SWD):
|
Mustererkennung , Maschinelles Sehen , Objekterkennung , Objektverfolgung
|
Freie Schlagwörter (Deutsch):
|
Fußgängererkennung
|
Freie Schlagwörter (Englisch):
|
Pedestrian Detection , Pedestrian Tracking , Multi-Cue
|
Abstract:
|
This thesis addresses the problem of detecting complex, deformable objects in an arbitrary, cluttered environment in sequences of video images. Often, no single best technique exists for such a challenging problem, as different approaches possess different characteristics with regard to detection accuracy, processing speed, or the kind of errors made. Therefore, multi-cue approaches are pursued in this thesis. By combining multiple detection methods, each utilizing a different aspect of the video images, we seek to gain detection accuracy, robustness, and computational efficiency. The first part of this thesis deals with texture classification. In a comparative study, various combinations of feature extraction and classification methods, some of which novel, are examined with respect to classification performance and processing speed, and the relation to the training sample size is analyzed. The integration of shape matching and texture classification is investigated. A pose-specific mixture-of-experts architecture is proposed, where shape matching yields a probabilistic assignment of a texture pattern to a set of distinct pose clusters, each handled by a specialized texture classifier, the local expert. The reduced appearance variability that each local expert needs to cope with leads to improved classification performance. A slight further performance gain could be achieved by shape normalization. The second multi-cue approach deals with cascade systems that employ a sequence of fast-to-complex system modules in order to gain computational efficiency. Three optimization techniques are examined that adjust system parameters so as to optimize the three performance measures detection rate, false positive rate, and processing cost. A combined application of two techniques, a novel fast sequential optimization scheme based on ROC (receiver operating characteristics) frontier following, followed by an iterative gradient descent optimization method, is found to work best. The third method investigated is a Bayesian combination of multiple visual cues. An integrated object detection and tracking framework based on particle filtering is presented. A novel object representation combines mixture models of shape and texture, the former based on a generative point distribution model, the latter on discriminative texture classifiers. The associated observation density function integrates the three visual cues shape, texture, and depth. All methods are extensively evaluated on the problem of detecting pedestrians in urban environment from within a moving vehicle. Large data sets consisting of tens of thousands of video images have been recorded in order to obtain statistically meaningful results.
|
Übersetzter Titel:
|
Multi-Cue Fußgängererkennung
(Deutsch)
|
Übersetzung des Abstracts:
|
Diese Dissertation befasst sich mit dem Problem, komplexe, deformierbare Objekte in beliebig strukturierter Umgebung aus Videobildern zu detektieren. Für solche herausfordernden Problemstellungen gibt es in der Regel nicht nur eine einzelne beste Lösung, sondern es existieren verschiedene Ansätze mit unterschiedlichen Charakteristiken bezüglich Detektionsgüte, Verarbeitungsgeschwindigkeit oder der Art der auftretenen Fehler. Daher werden in dieser Arbeit Multimerkmalsansätze verfolgt. Durch die Kombination mehrerer Methoden, die jeweils unterschiedliche Aspekte der Videobilder ausnutzen, wird eine erhöhte Detektionsgüte, Robustheit, und Recheneffizienz angestrebt. Der erste Teil dieser Arbeit beschäftigt sich mit der Texturklassifikation. In einer Vergleichsstudie werden verschiedene Kombinationen von Merkmalsextraktion und Klassifikationsmethode, von denen einige neuartig sind, bezüglich Klassifikationsleistung und Rechenaufwand untersucht, sowie die Relation zur Größe der Lernstichprobe analysiert. Die Integration von Formenabgleich (Shape Matching) und Texturklassifikation ist anschließend Gegenstand der Untersuchungen. Es wird eine posenspezifische Mixture-of-Experts-Architektur vorgeschlagen, bei der durch Formenabgleich eine probabilistische Zuordnung von Texturmustern zu bestimmten Posenklassen vorgenommen wird, die dann jeweils durch einen spezialisierten Texturklassifikator, dem sogenannten lokalen Experten, gehandhabt werden. Da jeder Experte nur noch mit einer reduzierten Erscheinungsvielfalt zurechtkommen muss, verbessert sich die Klassifikationsleistung. Eine weitere Leistungssteigerung konnte durch Formnormalisierung erreicht werden. Der zweite hier untersuchte Multimerkmalsansatz setzt auf Kaskadensysteme, die zwecks Recheneffizienz aus einer Sequenz von zunächst einfachen und dann schrittweise immer komplexeren Systemmodulen bestehen. Drei Optimierungstechniken werden in dieser Arbeit analysiert, die Systemparameter so justieren, dass die drei Leistungsmaße Detektionsrate, Fehlalarmrate und Rechenaufwand optimiert werden. Eine kombinierte Anwendung zweier Techniken, ein neuartiges, schnelles sequentielles Optimierungsschema basierend auf der Verfolgung von ROC-Fronten gefolgt von einer iterativen Gradientenabstiegsmethode, stellte sich als am erfolgreichsten heraus. Der dritte untersuchte Ansatz ist die Bayes'sche Kombination mehrerer visueller Merkmale. Vorgestellt wird ein integriertes Objektdetektions- und Tracking-Framework basierend auf Partikelfiltern. Eine neuartige Objektrepräsentation kombiniert Mischmodelle für Form und Textur, erstere basierend auf einem generativen Punktverteilungsmodell, zweitere basierend auf diskriminativen Texturklassifikatoren. Die zugehörige Beobachtungsdichtefunktion integriert die drei visuellen Merkmale Form, Textur und Tiefe. Alle Methoden werden auf das Problem, Fußgänger in innerstädtischer Umgebung aus einem fahrenden Fahrzeug heraus zu detektieren, angewandt und ausführlich bewertet. Um statistisch aussagekräftige Ergebnisse zu erhalten, werden große Datensätze bestehend aus zehntausenden Videobildern eingesetzt.
(Deutsch)
|
Zusätzliche Informationen:
|
|
| Das Dokument wird vom Publikationsserver der Universitätsbibliothek Mannheim bereitgestellt. |
Suche Autoren in
Sie haben einen Fehler gefunden? Teilen Sie uns Ihren Korrekturwunsch bitte hier mit: E-Mail
Actions (login required)
|
Eintrag anzeigen |
|