Vorlesung Netzbasierte Informationssysteme (WS 2007/08)



Nachrichten
Liste mit den Noten hängt am schwarzen Brett der Didaktik (Takustr. 9, Erdgeschoss, vom Haupteingang nach links und dann nach rechts)
Nachklausur muss angemeldet werden (per Mail an nixon@inf.fu-berlin.de) und wird voraussichtlich am Di 8. April um 14 Uhr stattfinden.
Veranstalter
Prof. Robert Tolksdorf, Dr. Lyndon Nixon, Netzbasierte Informationssysteme
Art
Vorlesung und Übung, 2+2 SWS
Anmeldung ist über https://www.mi.fu-berlin.de/kvv/course.htm?sid=11&cid=6625&iid=1 notwendig
Inhalt
Netzbasierte Informationssysteme stellen mit der Verbreitung des Web im weltweiten Maßstab Informationen bereit. Die Vorlesung soll Kenntnisse um die wichtigsten Technologien, Probleme und Lösungsansätze solcher Systeme vermitteln. Im Übungsteil wird das Verständnis vertieft.
Leistungsnachweise
Aktive Teilnahme an der Übung
Abschlussprüfung schriftlich
Der Leistungsnachweis wird mit der Note der Klausur bewertet.

Zeit und Ort
Vorlesung: Dienstags,14:15-15:45, SR 006
Übung: Mittwochs, 12:15-13:45, SR 006
Bei der Übung herrscht Anwesenheitspflicht

Beginn
V: 16.10.2007., Ü: 17.10.2007
Eintrag in Mailingliste über http://lists.spline.inf.fu-berlin.de/mailman/listinfo/nbi_v_nbi ist notwendig.

Themen der Vorlesung
Termin
Thema
 Ü-Blatt
16.10.
Einleitung und Organisation, Die Architektur der Web I  
23.10.
Die Architektur der Web II  Blatt 1
30.10.
Die Struktur des Web, Deep Web, Crawling  
6.11.
Information Retrieval und Filtering  Blatt 2
13.11.
Strukturbasierte Rankingverfahren (PageRank, HITS), Metasuchmaschinen  
20.11.
Serverbetrieb, Caching, Nutzungsanalysen  Blatt 3
27.11.
Sprachen für WebDokumente (XHTML, HTML5, XForms, CSS)  
4.12.
Angereicherte Web Dokumente (SVG, CDF, WICD, Rich Web Clients, Web 2.0)  Blatt 4
11.12.
Internationalisierung  
18.12.
Accessibility  Blatt 5
8.1.

 
15.1.
Mobile Web  Blatt 6
22.1.
Metadaten und Microformats  
29.1.
Semantic Web RDF, RDF(S)  Blatt 7
5.2.
Semantic Web OWL und Anwendungen  
12.2.
Klausur 14:00-15:45, SR 006  


Themen der Übungen 

Übungsaufgaben werden in kleinen Gruppen durchgeführt. In der Übung werden abwechselnd die Aufgaben vorgestellt und die Themen der Vorlesung vertieft (Vorlesung) oder die Ergebnisse der Übungsgruppen vorgestellt und Verständnisfragen geklärt (Präsentationen).

* Der Termin am 14.11. wird auf 20.11. um 08:15 verschoben
** Der Termin am 9.1. wird auf 11.1. um 12:15 verschoben

Zeitplan, Übungsgruppen und Präsentationsplanung

Übung
Aufgabe
Vorlesung
Abgabe
Präsentationen
1
Website herstellen
24.10.
30.10.
31.10.
2
Website Suche
7.11.
13.11.
20.11. *
3
Web Crawling
21.11.
27.11.
28.11.
4
Mashups hinzufügen
5.12.
11.12.
12.12.
5
Internationalisierung
19.12.
8.1.
11.1.**
6
Mobile Accessibility
16.1.
22.1.
23.1.
7
Semantics hinzufügen
30.1.
5.2.
6.2.


Wissensfragen zur Vorlesung Gegenstand der Klausur ist der Inhalt der Vorlesung. Dazu sollten Sie einerseits diese Inhalte kennen und wiedergeben können, andererseits sollten Sie in der Lage sein, das erworbene Wissen anzuwenden.
An dieser Stelle finden Sie demnächst eine Sammlung von Wissensfragen, die sich aus der Vorlesung ergeben und die beherrscht werden sollen. Die Liste wird noch erweitert.

Block
Die Architektur des Web
  • Was ist das World Wide Web Konsortium und wie arbeitet es?
  • Nennen und erläutern Sie die drei Grundlagen der Web-Technologie.
  • Was sind URIs und URNs?
  • Nennen Sie zwei Prinzipien oder Gute Praxis zur Verwendung von URIs
  • Wie sind Anforderungsmitteilungen in http aufgebaut?
  • Wie sind Antwortmitteilungen in http aufgebaut?
  • Welche Ziele verfolgt die REST Architektur des Web?
  • Nennen und erläutern Sie zwei Anforderungen bei der Wahl der Web-Architektur
  • Nennen und beschreiben Sie zwei Aspekte des REST Architectural Style
  • Wie ist es um die Lebensdauer von URLs bestellt? Warum kann das problematisch sein?
  • Nennen Sie die Grundkonzepte von Auszeichnungssprachen in der SGML/HTML/XML Welt
Crawling und Web-Struktur
  • Was macht ein Crawler?
  • Wie ist der Grundlegende Crawler-Algorithmus?
  • Wie ist ein Crawler aufgebaut?
  • Welche möglichen Crawling-Strategien gibt es?
  • Was macht man um effizient zu Crawlen?
  • Wie kann ein Server das Crawler-Verhalten beeinflussen?
  • Kann eine Suchmaschine auch ohne Crawler arbeiten?
  • Welche Aussagen kann man über die Struktur des Web machen?
  • Was ist das „Deep Web“?
Information Retrieval und Filtering
  • Was macht Information Retrieval
  • Wie mißt man die Güte eines IR Verfahrens?
  • Triviales Verfahren für perfektes Recall?
  • Triviales Verfahren für perfektes Precision?
  • Was ist das Vektorraummodell?
  • Wie kann man Terme in Vektoren gewichten?
  • Welche wichtigen Ähnlichkeitsmasse im Vektorraummodell gibt es?
  • Wie bereitet man Dokumente vor?
  • Wie sieht der Porter-Stemming Algorithmus aus?
  • Ist Porter-Stemming universell für alle Dokumente im Netz?
  • Wie funktioniert das Collaborative Indexing im Harvest System?
  • Wie geht man beim Indexing von multimedialen Informationen vor? Illustrieren Sie anhand des Indexings von Audio-Daten.
  • Was ist Collaborative Filtering?
  • Auf welcher Grundannahme beruht es?
  • Kann man alles, was in einem Collaborative Filtering System enthalten ist auch in einem herkömmlichen Index halten? Warum?
PageRank, HITS und Metasuchmaschinen
  • Was ist die Grundidee von Verfahren, die die Struktur des Web verwenden?
  • Wie funktioniert PageRank?
  • Was braucht man um PageRank anzuwenden?
  • Wie funktioniert HITS?
  • Was braucht man im Gegensatz zu Pagerank für HITS nicht?
  • Was sind Metasuchmaschinen?
  • Warum haben Metasuchmaschinen überhaupt einen Vorteil?
  • Was sind die Schritte und Probleme bei Metasuchmaschinen?
Nutzung und Betrieb
  • Was ist Web Usage Mining
  • Was steht in Web-Logfiles drin?
  • Was ist das Problem der Logfile-Daten?
  • Welche Maße für Nutzungsdaten gibt es?
  • Was ist eine Session?
  • Wie sieht ein Messmechanismus durch Dritte aus?
  • Was sind typische Fragen, die durch Web-Usage Mining beantwortet werden sollen?
  • Wie sind große Internet-Server in der Regel aufgebaut?
  • Warum nimmt man nicht einen sehr großen Rechner?
  • Wie funktioniert Round-Robin Loadbalancing?
  • Was sind Level-4 und Level-7 Loadbalancer?
  • Was ist Partitionierung und was Replikation?
  • Wie kann man ein solches System optimieren?
  • Was ist das Hauptziel solcher Optimierungen?
Caching im Web
  • Wie funktioniert Caching im Web, was sind Proxy-Caches?
  • Was machen forward Proxies, welche gibt es?
  • Was machen Reverse Proxies, welche gibt es?
  • Was ist Prefetching?
  • Nennen und erläutern Sie zwei Ersetzungsstrategien für Caches
  • Welche Verfahren der Cache Kohärenz sind im Web technisch realisiert und welche nicht, warum?
Web Sprachen
  • Beschreiben Sie die Entwicklung von HTML zu XHTML und dann zu XHTML 2 und HTML5
  • Was ist die Absicht des XForms Standards?
  • Geben Sie ein Beispiel für eine Formulareigenschaft die man nur mit XForms aber nicht mit XHTML realisieren kann
  • Warum sollte man Inhalt und Darstellung trennen?
  • Was ist CSS, wie ist es aufgebaut?
  • Warum braucht man Medienarten in CSS?
  • Wie ist CSS mit SVG realisiert?
  • Was ist XSLT und was unterscheidet es von CSS?
Angereicherte Web Dokumente
  • Was ist SVG? Geben Sie ein Beispiel für die Funktionalität
  • Womit beschäftigt sich die Rich Web Clients Activity des W3C?
  • Beschreiben Sie, was "Compound Documents" sind und welche Aspekte zusätzliche Standardisierung erfordern
  • Nennen Sie drei Eigenschaften die nach Tim O'Reilly Web 2.0 Anwendungen charakterisieren
  • Was ist AJAX?
  • Wie arbeitet das XMLHttpRequest Objekt?
Internationalisierung
  • Nennen Sie drei Beispiele für sprachabhängige Darstellung von Inhalten
  • Was ist Lokalisierung?
  • Was ist Internationalisierung?
  • Wie bezeichnet man Sprachen und Länder nach ISO und den neuem RFC Standard?
  • Wie kann man in HTML Spracheigenschaften markieren?
  • Wie kann man sprachspezifische Darstellungseigenschaften in CSS notieren?
  • Welche http Mechanismen unterstützen mehrsprachige Sites?
  • Was ist ein Zeichenrepertoire?
  • Was ist Unicode?
  • Was bezeichnet ein Zeichenkürzel in HTML/XML/CSS?
Accessibility / Barrierefreiheit
  • Nennen Sie zwei Szenarien in denen Barrierefreiheit wichtig ist.
  • Nennen und erläutern Sie zwei Guidelines nach WCAG (außer Guideline 11 "W3C Standards verwenden"!)
Mobile Web
  • Geben Sie drei Beispiele für Probleme von normalen Web Seiten auf mobilen Geräten
  • Beschreiben Sie zwei vom W3C für mobile Geräte entworfene Web-Sprachen
  • Die MobileOK Empfehlung nennt 10 Best Practices für Web Seiten die für mobile Geräte geeignet sind. Nennen Sie drei davon und geben Sie jeweils ein der Handlungsempfehlungen des W3C dafür an.
  • Wie sie der Default Delivery Context bei MobileOK aus?
Metadaten / Microformats
  • Was sind Metadaten?
  • Was ist der Dublin Core Standard?
  • Welche HTML Elemente verwendet Dublin Core?
  • Welche Metadaten sind im Dublin Core Schema definiert? Nennen Sie zwei Beispiele.
  • Was sind Microformats? Geben Sie ein Beispiel eines Microformats mit Zweck und technischer Umsetzung an.
  • Beschreiben Sie die Begriffe Taxonomie, Thesaurus und Ontologie
  • Welchen Zweck hat die Sprache SKOS und welche Beziehungen zwischen Konzepten kann sie ausdrücken?
Semantic Web
  • Wie sind Aussagen in RDF formuliert?
  • Warum bilden RDF Aussagen ein "Web"?
  • Was sind RDF Proporties?
  • Was sind Blank Nodes in RDF?
  • Was sind RDF Container und welche gibt es?
  • Was sind RDF Collections?
  • In welcher Syntax kann man RDF notieren?
  • Was führt RDFS zusätzlich zu RDF ein?
  • Geben Sie ein Bespiel für "Subproperties" in RDF?
  • Wo entsteht in dem vorgestellten Projekt Reisewisse Mehrwert durch Semantische Technologien im Gegensatz zur normalen, datenbankbasierten Realisierung?
  • Was sind Ontologien (aus Informatiksicht)?
  • Was ermöglichen Ontologien?
  • Welche Arten Ontologien kann man unterscheiden?
  • Was ist OWL?
  • Was erlaubt OWL zusätzlich zu RDF/S?
  • In welchen Varianten ist OWL definiert und wie unterscheiden diese sich?
  • Benennen Sie anhand der vorgestellten Anwendungen des Semantic Web, wo Mehrwert durch diese Technologien entsteht, den man nicht mehr herkömmlichen Informationssystemen haben kann.
Kleine Erweiterungen noch möglich