Recognizing hand-drawn diagrams in images
Schäfer, Bernhard
URN:
|
urn:nbn:de:bsz:180-madoc-647784
|
Document Type:
|
Doctoral dissertation
|
Year of publication:
|
2023
|
Place of publication:
|
Mannheim
|
University:
|
Universität Mannheim
|
Evaluator:
|
Stuckenschmidt, Heiner
|
Date of oral examination:
|
6 June 2023
|
Publication language:
|
English
|
Institution:
|
School of Business Informatics and Mathematics > Practical Computer Science II: Artificial Intelligence (Stuckenschmidt 2009-)
|
Subject:
|
004 Computer science, internet
|
Keywords (English):
|
graphics recognition
|
Abstract:
|
Diagrams are an essential tool in any organization. They are used to create conceptual models of anything ranging from business processes to software architectures. Despite the abundance of diagram modeling tools available, the creation of conceptual models often starts by sketching on a whiteboard or paper. However, starting with a hand-drawn diagram introduces the need to eventually digitize it, so that it can be further edited in modeling tools. To reduce the effort associated with the manual digitization of diagrams, research in hand-drawn diagram recognition aims to automate this task. While there is a large body of methods for recognizing diagrams drawn on tablets, there is a notable gap for recognizing diagrams sketched on paper or whiteboard. To close this research gap, this doctoral thesis addresses the problem of recognizing hand-drawn diagrams in images. In particular, it provides the following five main contributions. First, we collect and publish a dataset of business process diagrams sketched on paper. Given that the dataset originates from conceptual modeling tasks solved by 107 participants, it has a high degree of diversity, as reflected in various drawing styles, paper types, pens, and image-capturing methods. Second, we provide an overview of the challenges in recognizing conceptual diagrams sketched on paper. We find that conceptual modeling leads to diagrams with chaotic layouts, making the recognition of edges and labels especially challenging. Third, we propose an end-to-end system for recognizing diagrams modeled with BPMN, the standard language for modeling business processes. Given an image of a hand-drawn BPMN diagram, our system produces a BPMN XML file that can be imported into process modeling tools. The system consists of an object detection neural network, which we extend with network components for recognizing edges and labels. The following two contributions are related to these components. Fourth, we present several deep learning methods for edge recognition, which recognize the drawn path and connected shapes of each arrow. Last, we describe a label recognition method that consists of three steps, one of which features a network that predicts whether a label belongs to a specific shape or edge. To demonstrate the performance of the proposed methods, we evaluate them on both our collected and the existing diagram datasets.
|
Translation of the abstract:
|
Diagramme sind ein unverzichtbares Werkzeug in jedem Unternehmen. Sie werden zur konzeptionellen Modellierung von Geschäftsprozessen bis hin zu Software-Architekturen verwendet. Trotz der großen Auswahl an Software zur Modellierung von Diagrammen werden sie zunächst oft auf Whiteboard oder Papier skizziert. Zur Weiterverwendung handgezeichneter Diagramme in Modellierungssoftware müssen diese jedoch digitalisiert werden. Um den mit der manuellen Digitalisierung verbundenen Aufwand zu reduzieren, werden automatisierte Methoden zur Erkennung von handgezeichneten Diagramme entwickelt. Während es eine Vielzahl von Methoden zur Erkennung von auf Tablets gezeichneten Diagrammen gibt, existieren deutlich weniger Ansätze zur Erkennung von auf Papier oder Whiteboards skizzierten Diagrammen. Um diese Forschungslücke zu schließen, befasst sich diese Dissertation mit der Erkennung von handgezeichneten Diagrammen in Bildern, und liefert hierbei die folgenden fünf Forschungsbeiträge. Erstens veröffentlichen wir einen Datensatz von auf Papier skizzierten Geschäftsprozessdiagrammen. Der Datensatz stammt aus von 107 Personen bearbeiteten Modellierungsaufgaben. Er weist daher ein hohes Maß an Diversität auf, was sich in unterschiedlichen Modellierungsstilen, Papiertypen, Stiften und Digitalisierungsmethoden widerspiegelt. Zweitens geben wir einen Überblick über die Herausforderungen bei der Erkennung von auf Papier modellierten Diagrammen. Unter anderem stellen wir fest, dass die konzeptionelle Modellierung zu Diagrammen mit chaotischen Layouts führt, was insbesondere die Erkennung von Pfeilverbindungen und Beschriftungen erschwert. Drittens stellen wir ein System zur Erkennung von mit BPMN, der Standardsprache für die Modellierung von Geschäftsprozessen, modellierten Diagrammen vor. Basierend auf einem Bild eines handgezeichneten BPMN Diagramms erzeugt unser System eine BPMN XML Datei die in gängige Prozessmodellierungssoftware importiert werden kann. Das System besteht aus einem neuronalen Netz zur Objekterkennung, welches wir um Komponenten für die Erkennung von Pfeilverbindungen und Beschriftungen erweitern. Die nächsten beiden Forschungsbeiträge beziehen sich auf diese Komponenten. Viertens beschreiben wir mehrere Deep Learning Ansätze zur Erkennung der Pfade und verbundenen Knoten von Pfeilverbindungen. Zuletzt stellen wir eine aus drei Schritten bestehende Methode zur Erkennung von Beschriftungen vor. Eines dieser Schritte beeinhaltet ein neuronales Netz, welches prognostiziert, ob eine Beschriftung zu einem ausgewählten Symbol oder einer Pfeilverbindung gehört. Um die Genauigkeit der vorgeschlagenen Methoden zu demonstrieren, evaluieren wir sie sowohl auf dem von uns veröffentlichten, als auch auf anderen Diagrammdatensätzen.
(German)
|
| Dieser Eintrag ist Teil der Universitätsbibliographie. |
| Das Dokument wird vom Publikationsserver der Universitätsbibliothek Mannheim bereitgestellt. |
Search Authors in
You have found an error? Please let us know about your desired correction here: E-Mail
Actions (login required)
|
Show item |
|