Kurzimpulse

Hier finden Sie eine längere Liste mit Themenbeispielen aus verschiedenen Fachbereichen und Disziplinen. In Klammern hinter den Themen sehen Sie eine Einordnung der Schwierigkeitsgrade aus unserer Sicht. 
„B“ bedeutet, dass wir das jeweilige Thema für eine Bachelorarbeit geeignet halten, „M“ weist auf ein Masterthesisthema hin. Für die Liste erheben wir keinen Anspruch auf Vollständigkeit, sie soll Ihnen nur Anhaltspunkte für die Vielfältigkeit der Thematik geben.

Informatik

  • Verteiltes Crawling (Eine geförderte Arbeit vorhanden)(B+M)
  • Trusted Crawling (B)
    • Signatur der Ergebnisse
  • Textalgorithmen (B)
    • Überblick schaffen
    • Spezialfälle der Volltextsuche optimieren
  • Neuronale Netze bzw. Machine-Learning in Suche und Ranking (B+M)
  • Crawling zur Suchzeit (B)
    • „Re-Crawling“ einer Ergebnisliste
    • Interaktive Suchagenten
    • Langzeitsuche
    • Verlagerung der Suche zum Suchenden                
  • Lokale Suchindexe auf Personalcomputern (B)
    • Unterstützung von Vollsuchmaschinen
    • Offline-Suche im Browser-Cache
  • Verteiltes Webarchiv mit IPFS (B)
  • Kompression von Webseiten (B)
    • Verlustfrei/Verlustbehaftet
    • DOM-Parsing/Normalisierung
      • Kompression durch EXI?
    • Strukturerhaltend?
    • Deduplikation?
  • Linked-Data-Webindexe (B+M)
    • Suchen in GraphenDB/SPAQL
    • RDFS/OWL/SHACL für Webdokumente
  • Maschinennutzbare Suchmaschinen mittels des Open-Search Standard (B)
  • Kryptografische Suchmaschinen (B+M)
  • P3P (https://de.wikipedia.org/wiki/Platform_for_Privacy_Preferences_Project) (B)

Sonstige (auch andere Fachbereiche)

  • Betrachtung der volkswirtschaftlichen Gesamtkosten von Suchmaschinen (B)
    • auch speziell Meta-Suchmaschinen oder OWI
  • Vergleich von Metriken für die Qualität von Suchergebnissen (B)
  • Einfluss von Markendenken auf die wahrgenommene Qualität von Suchmaschinen (Dazu sind bereits Arbeiten vorhanden) (B)
  • Beeinflussung der Wahrnehmung eines Themenbereiches durch manipulierende Suchmaschinen (B+M)
  • Optimale Snippet-Länge (B)
  • rechtliche Betrachtung von Suchmaschinen (B+M)
    • UrhG
    • LSR
    • DSGVO
      • Recht auf Vergessenwerden
    • Jugenschutz

Vorschläge für Arbeitsthemen

Verteiltes Crawling (B+M)

Durch die enormen Datenmengen im Web macht es Sinn, Aufgaben wie das Crawlen von Webseiten auf mehrere Akteure zu verteilen. Eine Bachelorarbeit zu diesem Thema könnte die bisherige Forschung bündeln und zeitgemäß einordnen. Eine Masterarbeit könnte die Verfahren genauer beleuchten und zielgerichtet weiterentwickeln.

Trusted Crawling (B)

Bislang werden Crawler meist von derselben Entität betrieben, die auch die Weiternutzung der Daten vornimmt. Für eine Weiternutzung durch Dritte kann es allerdings sinnvoll sein, die Herkunft der Daten im nachhinein nachprüfen zu können und Manipulationsversuche entsprechend ahnden zu können. Eine Arbeit zum Thema „Trusted Crawling“ könnte die – insbesondere kryptografischen – Möglichkeiten hierfür untersuchen.

Textalgorithmen (B)

Um eine möglichst effiziente Volltextsuche durchzuführen, gibt es einige Algorithmen mit eigenen Vor- und Nachteilen. Eine Arbeit zum Thema „Textalgorithmen“ könnte diese – teils klassischen – Methoden vergleichen und zeitgemäß einordnen. Alternativ könnte ein spezielles Szenario der Volltextsuche ausgesucht und im Kontext verschiedener Verfahrensweisen diskutiert werden.

Hinweis: Besonders geeignet könnte das Thema im Kontext der unregelmäßig gehaltenen LUH-Vorlesung „Textalgorithmen“ sein.

Neuronale Netze bzw. Machine-Learning in Suche und Ranking (B+M)

Neuronale Netze bieten neue Möglichkeiten zur Analyse und Bewertung von Dokumenten in Suchmaschinen. Eine Bachelorarbeit könnte einen Einblick z.B. in die aktuellen Entwicklungen des Marktführers bieten. Für eine Masterarbeit bietet das Thema wesentlich mehr Gestaltungsspielraum.

Crawling zur Suchzeit (B)

Ein kaum erforschtes Gebiet ist das interaktive Crawling zu Laufzeit einer Suche. Eine Bachelorarbeit könnte die bisherigen Arbeiten sammeln und bewerten. Außerdem könnten auch Ideen wie das „Re-Crawling“ einer Ergebnisliste, interaktive Suchagenten oder Langzeitsuchen bearbeitet werden.

Lokale Suchindexe auf PCs (B)

Die meisten Web-Browser verfügen über einen Cache, in dem häufig oder zuletzt besuchte Webinhalte zwischengespeichert werden. Eine Bachelorarbeit könnte untersuchen, ob und wie eine Durchsuchbarkeit dieser Dokumente nützlich ist. Die Cache-Ergebnisse könnten Internetsuchmaschinen komplementieren oder ein Fallback in Situationen ohne Internetverbindung bieten.

Verteiltes Webarchiv mit IPFS (B)

IPFS ist ein verteiltes, deduplizierendes System zum Speichern und Bereitstellen von Inhalten. Ein Interesse an der Konservierung des Web besteht nicht nur seitens der Suchmaschinen, sondern auch von Bibliotheken, Kulturorganisationen und Forschung. Eine praxisorientierte Bachelorarbeit könnte sich mit der Möglichkeit eines verteilten Webarchives auseinandersetzen und mit einem Prototypen dessen Machbarkeit darlegen.

Kompression von Webseiten (B)

Eine Bachelorarbeit könnte die Möglichkeit der Kompression von Webinhalten untersuchen. Dabei könnten sowohl Deduplikation als auch verlustfreie und verlustbehaftete Verfahren verglichen werden. Mittels DOM-Parsing und -Normalisierung könnte die Größe von Webdokumenten strukturerhaltend verringert werden, ohne deren semantische Interpretation zu verändern. Die Tauglichkeit des Formates EXI (Efficient XML Interchange) für (X)HTML könnte geprüft werden.

Linked-Data-Webindexe (B+M)

Wenn Informationen in Graphendatenbanken gespeichert werden, eröffnen sich neue Möglichkeiten, diese Daten zu analysieren und mit externen Datensätzen zu verbinden. Eine Bachelorabeit könnte ein Schema in RDFS, OWL oder SHACL erarbeiten, mit dem Webdokumente in Graphendatenbanken besser repräsentiert werden können.

Maschinennutzbare Suchmaschinen mittels des OpenSearch Standard (B)

Der Industriestandard OpenSearch bietet ein RSS- bzw ATOM-basiertes Format, um Suchergebnisse maschinenlesbar auszuliefern. Dies eröffnet Möglichkeiten, wie z.B. automatisierte Metasuche, native Präsentation oder datensparsame Übertragung von Suchergebnissen. Eine Bachelorarbeit könnte solche Anwendungsfälle finden und/oder untersuchen.

Kryptografische Suchmaschinen (B+M)

Eine Arbeit mit zum Thema „Kryptografische Suchmaschinen“ könnte neuartige Verfahren untersuchen, Datenschutz in Suchmaschinen durch Kryptografie zu gewährleisten. Ein Beispiel ist die homomorphe Kryptografie.

Platform for Privacy Preferences (B)

Das „Platform for Privacy Preferences Project“ ist ein W3C-Standard zur maschinenlesbaren Auszeichnung von Datenschutzerklärungen. Eine praxisorientierte Bachelorarbeit könnte einen Prototypen einer Browsererweiterung konzipieren, das eingestellte Nutzerpräferenzen automatisch mit kompatiblen Webseiten vergleicht und gegebenfalls eine Warnmeldung generiert, falls die geforderten Datenschutzpräferenzen vom Webserver nicht erfüllt werden.