Adresse und Kontakt

AG Netzbasierte Informationssysteme
FU Berlin
Königin-Luise-Straße 24-26
14195 Berlin

Tel.: +49-30-838-75221
Fax: +49-30-838-75220

This site is no longer maintained. You see a static copy as of April 1 2016.

Web-Extraktion und Anreicherung kunstwissenschaftlicher Fachinformationen

In den Geisteswissenschaften beginnt die Verwendung digitaler Informationen für die Forschung in zunehmenden Maß. Ein Problem dabei ist, dass außerhalb wohlstrukturierter Archivdatenbanken Informationen oft nicht in einem Format vorliegen, die deren Weiterverarbeitung erlaubt. Ein Beispiel sind Metadaten zu den agierenden Personen am Black Mountain College, einer Ende der 1940er Jahre führenden Kunstschule. Vereinzelt lassen sich Informationen auffinden, diese liegen aber nur auf menschenlesbaren Webseiten vor.

In der Arbeit sollen die Informationsbestände des Black Mountain College Projects, insbesondere die dort gesammelten Biographien und darin enthaltene Metadaten aus dem Web extrahiert und zu einem angereicherten Datenbestand mit weiteren Quellen integriert werden. Weitere Quellen können beispielsweise über die Wikipedia oder Texte erschlossen werden. Die extrahierten Daten sollen als RDF  bereitgestellt werden, somit also als ein Netzwerk repräsentiert sein Der Datenbestand soll über einen Triplestore bereitgestellt werden.

Die Arbeit umfasst die Erstellung entsprechenden Crawler und Extraktoren sowie die Überführung der Daten in RDF in einem TripleStore.

Art der Arbeit: Bachelorarbeit

Voraussetzungen: Kenntnisse in Web Technologien, Web-Scraping, Datenbanken, RDF TripleStore

Betreuung: Prof. Robert Tolksdorf

Weitere Informationen: Sprechstundentermin bei Prof. Robert Tolksdorf nehmen

AG Netzbasierte Informationssysteme, http://www.ag-nbi.de
Königin-Luise-Straße 24-26, 14195 Berlin, Tel.: +49-30-838-75221, Fax: +49-30-838-75220