HAAGE & PARNTER
Inhaltsfilter (Content Filter)
Der Schutz von Kindern, jungen Menschen, Studenten und Angestellten vor schädlichen und verletzenden
Inhalten des Internets wird mehr und mehr eine wichtige Angelegenheit. Das Internet wächst rasant und es gibt
nur wenige Kontrollmechanismen über den Inhalt, zumal dies den Interessen mächtiger Organisationen, wie z.B.
der pornografischen Industrie, entgegensteht.
Durch die dynamische Natur des Internets sind spezielle Filterwerkzeuge nötig, die mit der Geschwindigkeit des
Wachstums und der Änderungen mithalten können. Letztlich hat dabei nur ein dynamischer Inhaltsfilter eine
Chance, diese Anforderungen jetzt und in Zukunft zu erfüllen.
Der PureSight Content Filter, der in 602LAN SUITE integriert wurde, vereint zuverlässige Internetfilterung mit
einem umfangreichen Verwaltungswerkzeug um eine sehr genaue und verlässliche zu gewährleisten.
Filtermethoden
Es gibt zwei prinzipielle Methoden um Webinhalte während des Browsens im Internet zu identifizieren und zu
filtern: URL-Datenbanken und dynamische Inhaltsanalyse.
Statische URL Filterung: URL-Datenbanken
In URL-Sammlungen wird jeder enthaltenen URL eine bestimmte Inhaltskategorie zugeordnet. Wenn eine Site
angefordert wird, prüft der Filter die Adresse der angefragten Website in der Datenbank. Gemäß der vom
Anwender eingestellten Internet-Nutzungsvorgabe kann der Filter die Seite blockieren oder zulassen.
URL-Datenbanken werden von den Filterherstellern erstellt und gepflegt. Updates werden gewöhnlich auf
Abonnementbasis angeboten. Die Datenbank enthält Einträge für Internet-Domainnamen und spezielle
Subdomains. Jeder Eintrag wird einer Inhaltskategorie zugeordnet, z.B. Drogen, Glücksspiel, Hass, Pornografie
und viele andere. URLs, die in der Datenbank nicht gefunden werden, werden in der Regel durchgelassen.
Dynamische Filterung - Artificial Content Recognition (ACR)
Jede Webseite, die von einem Benutzer angefordert wird, wird Paket für Paket empfangen und zum HTML-
Parser geschickt. Der Parser ist die erste Komponente der ACR und er zerlegt den HTML-Code in Hunderte von
Parameter und erstellt daraus den Raw Data Vector (RDV). Dabei werden die auf der Webseite befindlichen
Wörter, das grundlegende Layout und das Format der Seite miteinbezogen. Nachfolgend einige der Parameter,
die in die Analyse einfließen:
Nicht-Text-Informationen:
•
Hintergrundfarbe
•
Schriftart
•
Schriftfarbe
•
Schriftgröße
•
Anzahl der Links
•
Anzahl der Bilder
•
Größe der Bilder
•
Anzahl der Frames
•
Durchschnittliche Wortlänge
•
Anzahl der Wörter
•
Spezielle Zeichen
•
Metatags
Textinformationen:
•
URL-Name
•
Metatag-Text
•
Wörterbuchwörter
Die ACR-Technologie verwendet eine einstufige Kontrolle, die jedes Paket direkt bei der Ankunft analysiert
und nicht warten muss, bis die ganze Seite geladen wurde. Der Vorgang ist dadurch sehr schnell und führt zu
keiner nennenswerten Verzögerung beim Benutzer. Zudem wird ein URL-Cache verwendet, der die
© 2004 HAAGE & PARNTER Computer GmbH, Deutschland
LAN SUITE 2004-Anleitung
Stand: 18.03.2005
65 / 90