In den Geisteswissenschaften beginnt die Verwendung digitaler Informationen für die Forschung in zunehmenden Maß. Ein Problem dabei ist, dass außerhalb wohlstrukturierter Archivdatenbanken Informationen oft nicht in einem Format vorliegen, die deren Weiterverarbeitung erlaubt. Ein Beispiel sind Metadaten zu den agierenden Personen am Black Mountain College, einer Ende der 1940er Jahre führenden Kunstschule. Vereinzelt lassen sich Informationen auffinden, diese liegen aber nur auf menschenlesbaren Webseiten vor.
In der Arbeit sollen die Informationsbestände des Black Mountain College Projects, insbesondere die dort gesammelten Biographien und darin enthaltene Metadaten aus dem Web extrahiert und zu einem angereicherten Datenbestand mit weiteren Quellen integriert werden. Weitere Quellen können beispielsweise über die Wikipedia oder Texte erschlossen werden. Die extrahierten Daten sollen als RDF bereitgestellt werden, somit also als ein Netzwerk repräsentiert sein Der Datenbestand soll über einen Triplestore bereitgestellt werden.
Die Arbeit umfasst die Erstellung entsprechenden Crawler und Extraktoren sowie die Überführung der Daten in RDF in einem TripleStore.
Art der Arbeit: Bachelorarbeit
Voraussetzungen: Kenntnisse in Web Technologien, Web-Scraping, Datenbanken, RDF TripleStore
Betreuung: Prof. Robert Tolksdorf
Weitere Informationen: Sprechstundentermin bei Prof. Robert Tolksdorf nehmen