Vorlesung Netzbasierte Informationssysteme (WS 2006/07)



Veranstalter
Prof. Robert Tolksdorf, Netzbasierte Informationssysteme
Art
Vorlesung und Übung, 2+2 SWS
Anmeldung ist über http://www.mi.fu-berlin.de/kvv/?veranstaltung=1251 notwendig
Inhalt
Netzbasierte Informationssysteme stellen mit der Verbreitung des Web im weltweiten Maßstab Informationen bereit. Die Vorlesung soll Kenntnisse um die wichtigsten Technologien, Probleme und Lösungsansätze solcher Systeme vermitteln. Im Übungsteil wird das Verständnis vertieft.
Themen
Die Veranstaltung behandelt auf der Basis von Web-Technologien die Themen Informationsrepräsentation, Information-Discovery, Architektur des Informationszugriffs, Informationsintegration, Information-Retrieval und -Suche, Semantische Informationen und Wissensverarbeitung (Semantic Web) und Informationsauslieferung.
Der Fahrplan der Vorlesung wird noch erweitert und angepasst. Entsprechende Unterlagen werden im Netz bereitgestellt.

Leistungsnachweise
Aktive Teilnahme an der Übung
Abschlussprüfung schriftlich
Der Leistungsnachweis wird mit der Note der Klausur bewertet.

Zeit und Ort
Vorlesung: Dienstags,14:15-15:45, SR 006
Übung: Mittwochs, 14:15-15:45, SR 006
Bei der Übung herrscht Anwesenheitspflicht

Beginn
V: 17.10.2006., Ü: 18.10.2006
Eintrag in Mailingliste über http://lists.spline.inf.fu-berlin.de/mailman/listinfo/nbi_v_nbi ist notwendig.

Themen der Vorlesung
Termin
Thema
17.10.
Einleitung und Organisatorisches
Die Architektur des Web I
24.10.
Die Architektur des Web II
31.10.
Crawling und Web-Struktur
7.11.
Information Retrieval und Filtering
14.11.
PageRank, HITS und Metasuchmaschinen
21.11.
Nutzung und Betrieb
28.11.
Caching im Web
5.12.
Darstellungssteuerung
12.12.
Mehrsprachigkeit
19.12.
Accessibility / Barrierefreiheit
9.1.
Rich Web Clients / Metadaten im Web
16.1.
Semantic Web Technologien
23.1.
Semantic Web Anwendungen
30.1.
Semantische Middleware, Topicmaps
6.2.
Rückschau
13.2.
Klausur 14:00-15:45, SR 006

Themen der Übungen 
In den Übungen vertiefen und erweitern wir Themen der Vorlesung. Dabei sind die Teilnehmer aktiv. Je Teilnehmer gibt es ein Referat von knappen 25 Minuten zu einem Thema aus der Liste unten. Einige, kursiv markierte Themen haben die doppelte Länge und können in einer Zweiergruppe bearbeitet werden. Zu jedem Referat muss bis eine Woche nach dem Referat in dem zu der Vorlesung gehörenden VNBI-Wiki eine Seite mit einer schriftlichen Fassung der im Referat vermittelten Informationen erstellt werden. Diese Seite ist geeignet inhaltlich auf der Eingangsseite einzuordnen. Die Struktur des Wikis wird von den Teilnehmern selber gestaltet.

Die Referenzen hier sind nur Startpunkte - es gehört zu Ihrer Aufgabe, selber nach zusätzlichen und bessere Quellen zu suchen.

Für die im Wiki erstellten Ausarbeitungen gelten selbstverständlich auch die Hinweise zu Plagiaten.
 
Termin
Thema
Vorgestellt von
18.10.
Themenvergabe RT
25.10.
Enfällt
1.11.
Historische Grundlagen von Hypermedia
Andere Web Vorläufer und Konkurrenten
8.11.
Organisation des Internet
  • ISOC, IANA und ICANN
    Philipp Strathausen
  • Struktur und Arbeitsweise der IETF und des W3C
    Maike Gollnick
15.11.
XML Standards I - Kerntechnologie
22.11.
XML Standards II - Sicherheit mit XML
Jörn Becker
29.11.
XML Standards III - Medialität
6.12.
Forschung über das Web [Sitzungsleitung: Klaus Schild]
13.12.
Suchmaschinen
Enric Pujol
20.12.
Webinhalte editieren
  • Das schreibbare Web-Protokoll: WebDAV
    Sören Bittins
  • Das Contentmanagementsystem Plone
    Jannes Schröter
  • Das Contentmanagementsystem Typo3
    Thomas Kruczyk
10.1. AJAX Frameworks
17.1.
Das Semantic Web
Sebastian Kurt
24.1.
Ontologieerstellung
Joscha Krutzki
31.1.
Das Jena Framework
Thomas Schwaier
  • Jenas RDF API
  • Jenas OWL API
  • Jenas SPARQL Implementierung
7.2. Klausurvorbereitung


Wissensfragen zur Vorlesung Gegenstand der Klausur ist der Inhalt der Vorlesung. Dazu sollten Sie einerseits diese Inhalte kennen und wiedergeben können, andererseits sollten Sie in der Lage sein, das erworbene Wissen anzuwenden.
An dieser Stelle finden Sie demnächst eine Sammlung von Wissensfragen, die sich aus der Vorlesung ergeben und die beherrscht werden sollen. Die Liste wird noch erweitert.


Block
Die Architektur des Web
  • Was ist das World Wide Web Konsortium und wie arbeitet es?
  • Nennen und erläutern Sie die drei Grundlagen der Web-Technologie.
  • Was sind URIs und URNs?
  • Nennen Sie zwei Prinzipien oder Gute Praxis zur Verwendung von URIs
  • Wie sind Anforderungsmitteilungen in http aufgebaut?
  • Wie sind Antwortmitteilungen in http aufgebaut?
  • Welche Ziele verfolgt die REST Architektur des Web?
  • Nennen und erläutern Sie zwei Anforderungen bei der Wahl der Web-Architektur
  • Nennen und beschreiben Sie zwei Aspekte des REST Architectural Style
  • Wie ist es um die Lebensdauer von URLs bestellt? Warum kann das problematisch sein?
  • Nennen Sie die Grundkonzepte von Auszeichnungssprachen in der SGML/HTML/XML Welt
Crawling und Web-Struktur
  • Was macht ein Crawler?
  • Wie ist der Grundlegende Crawler-Algorithmus?
  • Wie ist ein Crawler aufgebaut?
  • Welche möglichen Crawling-Strategien gibt es?
  • Was macht man um effizient zu Crawlen?
  • Wie kann ein Server das Crawler-Verhalten beeinflussen?
  • Kann eine Suchmaschine auch ohne Crawler arbeiten?
  • Welche Aussagen kann man über die Struktur des Web machen?
  • Was ist das „Deep Web“?
Information Retrieval und Filtering
  • Was macht Information Retrieval
  • Wie mißt man die Güte eines IR Verfahrens?
  • Triviales Verfahren für perfektes Recall?
  • Triviales Verfahren für perfektes Precision?
  • Was ist das Vektorraummodell?
  • Wie kann man Terme in Vektoren gewichten?
  • Welche wichtigen Ähnlichkeitsmasse im Vektorraummodell gibt es?
  • Wie bereitet man Dokumente vor?
  • Wie sieht der Porter-Stemming Algorithmus aus?
  • Ist Porter-Stemming universell für alle Dokumente im Netz?
  • Wie funktioniert das Collaborative Indexing im Harvest System?
  • Wie geht man beim Indexing von multimedialen Informationen vor? Illustrieren Sie anhand des Indexings von Audio-Daten.
  • Was ist Collaborative Filtering?
  • Auf welcher Grundannahme beruht es?
  • Kann man alles, was in einem Collaborative Filtering System enthalten ist auch in einem herkömmlichen Index halten? Warum?
PageRank, HITS und Metasuchmaschinen
  • Was ist die Grundidee von Verfahren, die die Struktur des Web verwenden?
  • Wie funktioniert PageRank?
  • Was braucht man um PageRank anzuwenden?
  • Wie funktioniert HITS?
  • Was braucht man im Gegensatz zu Pagerank für HITS nicht?
  • Was sind Metasuchmaschinen?
  • Warum haben Metasuchmaschinen überhaupt einen Vorteil?
  • Was sind die Schritte und Probleme bei Metasuchmaschinen?
Nutzung und Betrieb
  • Was ist Web Usage Mining
  • Was steht in Web-Logfiles drin?
  • Was ist das Problem der Logfile-Daten?
  • Welche Maße für Nutzungsdaten gibt es?
  • Was ist eine Session?
  • Wie sieht ein Messmechanismus durch Dritte aus?
  • Was sind typische Fragen, die durch Web-Usage Mining beantwortet werden sollen?
  • Wie sind große Internet-Server in der Regel aufgebaut?
  • Warum nimmt man nicht einen sehr großen Rechner?
  • Wie funktioniert Round-Robin Loadbalancing?
  • Was sind Level-4 und Level-7 Loadbalancer?
  • Was ist Partitionierung und was Replikation?
  • Wie kann man ein solches System optimieren?
  • Was ist das Hauptziel solcher Optimierungen?
Caching im Web
  • Wie funktioniert Caching im Web, was sind Proxy-Caches?
  • Was machen forward Proxies, welche gibt es?
  • Was machen Reverse Proxies, welche gibt es?
  • Was ist Prefetching?
  • Nennen und erläutern Sie zwei Ersetzungsstrategien für Caches
  • Welche Verfahren der Cache Kohärenz sind im Web technisch realisiert und welche nicht, warum?
Darstellungssteuerung
  • Warum sollte man Inhalt und Darstellung trennen?
  • Welche Technologien dazu gibt es?
  • Was ist CSS, wie ist es aufgebaut?
  • Warum braucht man Medienarten in CSS?
  • Wie ist CSS mit SVG realisiert?
  • Was ist XSLT und was unterscheidet es von CSS?
Mehrsprachigkeit
  • Nennen Sie drei Beispiele für sprachabhängige Darstellung von Inhalten
  • Was ist Lokalisierung?
  • Was ist Internationalisierung?
  • Wie bezeichnet man Sprachen und Länder nach ISO und den neuem RFC Standard?
  • Wie kann man in HTML Spracheigenschaften markieren?
  • Wie kann man sprachspezifische Darstellungseigenschaften in CSS notieren?
  • Welche http Mechanismen unterstützen mehrsprachige Sites?
  • Was ist ein Zeichenrepertoire?
  • Was ist Unicode?
  • Was bezeichnet ein Zeichenkürzel in HTML/XML/CSS?
Accessibility / Barrierefreiheit
  • Nennen Sie zwei Szenarien in denen Barrierefreiheit wichtig ist.
  • Nennen und erläutern Sie zwei Guidelines nach WCAG (außer Guideline 11 "W3C Standards verwenden"!)
Rich Web Clients 
  • Womit beschäftigt sich die Rich Web Clients Activity des W3C?
  • Beschreiben Sie, was "Compound Documents" sind und welche Aspekte zusätzliche Standardisierung erfordern
  • Was ist AJAX?
  • Wie arbeitet das XMLHttpRequest Objekt?
Metadaten, Semantic Web, Topicmaps
  • Was sind Metadaten?
  • Was ist der Dublin Core Standard?
  • Welche HTML Elemente verwendet Dublin Core?
  • Welche Metadaten sind im Dublin Core Schema definiert? Nennen Sie zwei Beispiele.
  • Welches Problem bleibt von Dublin Core ungelöst?
  • Was wollte das SHOE Projekt etablieren?
  • Wie sind Aussagen in RDF formuliert?
  • Warum bilden RDF Aussagen ein "Web"?
  • Was sind RDF Proporties?
  • Was sind Blank Nodes in RDF?
  • Was sind RDF Container und welche gibt es?
  • Was sind RDF Collections?
  • In welcher Syntax kann man RDF notieren?
  • Was führt RDFS zusätzlich zu RDF ein?
  • Geben Sie ein Bespiel für "Subproperties" in RDF?
  • Was sind Ontologien (aus Informatiksicht)?
  • Was ermöglichen Ontologien?
  • Welche Arten Ontologien kann man unterscheiden?
  • Was ist OWL?
  • Was erlaubt OWL zusätzlich zu RDF/S?
  • In welchen Varianten ist OWL definiert und wie unterscheiden diese sich?
  • Benennen Sie anhand der vorgestellten Anwendungen des Semantic Web, wo Mehrwert durch diese Technologien entsteht, den man nicht mehr herkömmlichen Informationssystemen haben kann.
  • Auf welcher Überlegung zu Indexen beruhen Topic Maps?
  • Welche Bestandteile haben Topic Maps?