Cuvillier Verlag

35 Jahre Kompetenz im wissenschaftlichen Publizieren
Internationaler Fachverlag für Wissenschaft und Wirtschaft

Cuvillier Verlag

De En Es
Semantic and Interactive Content-based Image Retrieval

Printausgabe
EUR 105,48

E-Book
EUR 75,48

Semantic and Interactive Content-based Image Retrieval

Björn Barz (Autor)

Vorschau

Leseprobe, PDF (1,1 MB)
Inhaltsverzeichnis, PDF (36 KB)

ISBN-13 (Printausgabe) 9783736973466
ISBN-13 (E-Book) 9783736963467
Sprache Englisch
Seitenanzahl 322
Umschlagkaschierung matt
Auflage 1
Erscheinungsort Göttingen
Promotionsort Jena
Erscheinungsdatum 23.12.2020
Allgemeine Einordnung Dissertation
Fachbereiche Informatik
Schlagwörter Machine Learning, Maschinelles Lernen, Pattern Recognition, Mustererkennung, Deep Learning, Tiefe Lernverfahren, Artificial Intelligence, Artificial Neural Networks, Künstliche Neuronale Netzwerke, Convolutional Neural Networks, Gaussian Processes, Computer Vision, Content-based Image Retrieval, Image Retrieval, Information Retrieval, Category Retrieval, Semantic Image Retrieval, Semantic Image Embeddings, Semantic Similarity, Semantische Ähnlichkeitsmaße, Hierarchy-based Semantic Embeddings, Hierarchiebasierte semantische Bildmerkmale, Class Hierarchies, Klassenhierarchien, Taxonomies, Taxonomien, Knowledge Integration, Wissensintegration, Representation Learning, Lernen von Bildrepräsentationen, Active Learning, Batch-Mode Active Learning, Interactive Image Retrieval, Relevance Feedback, Weakly Supervised Localization, Classification, Klassifikation, Clustering, Metric Learning, Deep Metric Learning, aktives Lernen, Interaktive Bildabfrage, Rückmeldung, überwachte Lokalisierung, Clusterbildung, Information, Image, Data, Daten, contrastive loss, Kontrastverlust, feature transformation, Merkmalsumwandlung, Gaussian process, Gaußscher Prozess, user, Anwender, web, Internet, Social-Media-Plattformen, Online Medien, Datenbanken, Bilddaten, image data, databases, Benutzerverhalten, Datenspeicherung, Datenübermittlung, user behaviour, data storage, Reizüberflutung, Webdokument, web documents. overstimulation, sensors, Stichwörter, keywords, search, average, query
Beschreibung

Content-based Image Retrieval (CBIR) ist ein Verfahren zum Auffinden von Bildern in großen Datenbanken wie z. B. dem Internet anhand ihres Inhalts. Ausgehend von einem vom Nutzer bereitgestellten Anfragebild, gibt das System eine sortierte Liste ähnlicher Bilder zurück. Der Großteil moderner CBIR-Systeme vergleicht Bilder ausschließlich anhand ihrer visuellen Ähnlichkeit, d.h. dem Vorhandensein ähnlicher Texturen, Farbkompositionen etc. Jedoch impliziert visuelle Ähnlichkeit nicht zwangsläufig auch semantische Ähnlichkeit. Zum Beispiel können Bilder von Schmetterlingen und Raupen als ähnlich betrachtet werden, weil sich die Raupe irgendwann in einen Schmetterling verwandelt. Optisch haben sie jedoch nicht viel gemeinsam.
Die vorliegende Arbeit stellt eine Methode vor, welche solch menschliches Vorwissen über die Semantik der Welt in Deep-Learning-Verfahren integriert. Als Quelle für dieses Wissen dienen Taxonomien, die für eine Vielzahl von Domänen verfügbar sind und hierarchische Beziehungen zwischen Konzepten kodieren (z.B., ein Pudel ist ein Hund ist ein Tier etc.). Diese hierarchiebasierten semantischen Bildmerkmale verbessern die semantische Konsistenz der CBIR-Ergebnisse im Vergleich zu herkömmlichen Repräsentationen und Merkmalen erheblich.
Darüber hinaus werden drei verschiedene Mechanismen für interaktives Image Retrieval präsentiert, welche die den Anfragebildern inhärente semantische Ambiguität durch Einbezug von Benutzerfeedback auflösen. Eine der vorgeschlagenen Methoden reduziert das erforderliche Feedback mithilfe von Clustering auf einen einzigen Klick, während eine andere den Nutzer kontinuierlich involviert, indem das System aktiv nach Feedback zu denjenigen Bildern fragt, von denen der größte Erkenntnisgewinn bezüglich des Relevanzmodells erwartet wird. Die dritte Methode ermöglicht dem Benutzer die Auswahl besonders interessanter Bildbereiche zur Fokussierung der Ergebnisse. Diese Techniken liefern bereits nach wenigen Feedbackrunden deutlich relevantere Ergebnisse, was die Gesamtmenge der abgerufenen Bilder reduziert, die der Benutzer überprüfen muss, um relevante Bilder zu finden.

Content-based image retrieval (CBIR) aims for finding images in large databases such as the internet based on their content. Given an exemplary query image provided by the user, the retrieval system provides a ranked list of similar images. Most contemporary CBIR systems compare images solely by means of their visual similarity, i.e., the occurrence of similar textures and the composition of colors. However, visual similarity does not necessarily coincide with semantic similarity. For example, images of butterflies and caterpillars can be considered as similar, because the caterpillar turns into a butterfly at some point in time. Visually, however, they do not have much in common.
In this work, we propose to integrate such human prior knowledge about the semantics of the world into deep learning techniques. Class hierarchies serve as a source for this knowledge, which are readily available for a plethora of domains and encode is-a relationships (e.g., a poodle is a dog is an animal etc.). Our hierarchy-based semantic embeddings improve the semantic consistency of CBIR results substantially compared to conventional image representations and features.
We furthermore present three different mechanisms for interactive image retrieval by incorporating user feedback to resolve the inherent semantic ambiguity present in the query image. One of the proposed methods reduces the required user feedback to a single click using clustering, while another keeps the human in the loop by actively asking for feedback regarding those images which are expected to improve the relevance model the most. The third method allows the user to select particularly interesting regions in images. These techniques yield more relevant results after a few rounds of feedback, which reduces the total amount of retrieved images the user needs to inspect to find relevant ones.