Details zur Funktionsweise der Spamerkennung

Im Rechenzentrum der Universität Kiel werden alle E-Mails, die von der Universität Kiel ins Internet gesendet bzw. von dort empfangen werden, über zwei zentrale Rechner (Relays) geleitet. (Ausnahme: Technische Fakultät)
 
 

Diese beiden Rechner, die bereits jetzt den gesamten E-Mail-Verkehr auf Viren untersuchen und ggfls. solche eliminieren (siehe dazu die Beschreibung des Virenscan-Verfahrens ), bieten sich auch dazu an, eine zentrale Erkennung und Markierung sogenannter SPAM-Mails (Massen-Werbe-E-Mails) vorzunehmen. Eine kurze Übersicht zu den möglichen technischen Maßnahmen gegen SPAM-Mails gibt es beim DFN-CERT (siehe http://www.cert.dfn.de/infoserv/dib/dib-9901.html).

Eine zentrale Maßnahme, nämlich Mails mit Absenderadressen aus nicht existierenden Mail-Domains zurückzuweisen, wurde auch schon bisher eingesetzt. Leider versenden aber immer mehr 'Spammer' Mails unter Absenderadressen, die wie richtige Adressen aussehen, aber fast immer gefälscht sind.

'Schwarze Listen' externer Organistionen zur Bekämpfung von SPAM werden hier nicht benutzt. Die Möglichkeit, dass dadurch irrtümlich oder gar böswillig ganze Mail-Domains nicht mehr erreichbar wären, erscheint zu gross.

Ab sofort werden nun alle von ausserhalb der Universität Kiel ankommenden E-Mails automatisch, d.h. ohne personelle Eingriffe, auf ihre Spam- Verdächtigkeit geprüft. Dazu wird die Software SPAMASSASSIN auf den zentralen Relays eingesetzt. Diese Software benutzt eine Vielzahl von Tests, die sowohl die Header als auch den Inhalt einer Mail auf signifikante Merkmale von Spam untersuchen. In einer abschliesenden Bewertung wird dann jeder Mail durch das Programm Spamassassin ein sog. Hit-Wert zugeordnet, der ein Mass für den Verdacht auf Spam widerspiegelt.

Ziel der SPAM-Erkennung in den zentralen Mail-Relays ist es, eine Mail so zu markieren, dass der Endbenutzer mit möglichst wenigen Filter-Regeln (im Idealfall nur einer Regel) in seinem Mail-Programm möglichst viele Spam-Mails automatisch aussortieren oder löschen kann. Im Gegensatz zum Virenfilter, der erkannte Viren-Mails 'einkassiert', lässt der Spamfilter also alle Mails zur Mailbox des Nutzers durch.

Bei der Systemkonfiguration von Spamassassin steht der Administrator vor der undankbaren Aufgabe, einen zentralen, uniweiten Hit-Wert zu definieren, der die E-Mails einteilt in SPAM oder Nicht-SPAM. In Anlehnung an Vorschläge der Entwickler des Systems wurde für die Uni Kiel der Hit-Wert von 9.0 als Grenzwert gewählt.

Zusätzlich werden zwei weitere Mail-Header (X-Spam-Status und X-Spam-Level) in den Kopf der Mail geschrieben, die der Nutzer nicht automatisch angezeigt bekommt. Insbesondere der Header X-Spam-Level kann aber zur Definition eines persönlichen Hit-Werts benutzt werden.

Bei Mails, die den Hit-Wert überschreiten, werden neben den eben genannten Headern weitere hinzugefügt und insbesondere der für den Nutzer sichtbare Subject-Header modifiziert. Besonders interessant dabei ist der Header X-Spam-Report, der eine Auflistung der Tests samt der Bewertung enthält, die zum Hit-Wert geführt haben.

In RZ-internen Tests wurde festgestellt, dass bei dieser Einstellung alle als Spam gekennzeichneten Mails auch tatsächlich SPAM-Mails waren. Allerdings wurden auch nur ca. 2/3 aller Spam-Mails als solche erkannt.

Die Markierung einer Mail als Spam erfolgt also in zusätzlichen Mail-Headern und durch Modifikation des Subject-Headers, es werden durch Spamassassin grundsätzlich keine Modifikationen an Mail-Inhalten vorgenommen.

Spamassassin hinterlässt die folgenden Spuren in Mail-Headern von gescannten Mails:

X-Spam-Status:
Dieser Header enthält einen der Strings 'Yes' oder 'No', den Wert der erzielten Hits (dieser Wert kann auch negativ sein) sowie eine Kurzbeschreibung der 'fündigen' Tests. Dieser Header wird unabhängig vom Hit-Wert immer hinzugefügt.

Beispiel:

X-Spam-Status: Yes, hits=22.5 required=9.0
        tests=ADVERT_CODE2,BIG_FONT,CLICK_BELOW,CLICK_HERE_LINK,
              CLICK_TO_REMOVE_2,CTYPE_JUST_HTML,EXCUSE_3,FRONTPAGE,
              HTML_70_90,HTML_FONT_COLOR_BLUE,JAVASCRIPT,MAILTO_LINK,
              MAILTO_TO_REMOVE,MAILTO_WITH_SUBJ,MAILTO_WITH_SUBJ_REMOVE,
              NO_REAL_NAME,RATWARE_SCREWUP_1,SPAM_PHRASE_34_55,
              SUBJ_REMOVE
        version=2.41

X-Spam-Level:
Dieser Header enthält soviele Sterne (*), wie der ganzzahlige Teil der gefundenen Hits gross ist (also Hits=22.5 ergibt 22 Sterne in diesem Feld) und dient damit zu einer individuellen Reaktion in Filterregeln. Dieser Header wird ebenfalls unabhängig vom Hit-Wert immer hinzugefügt.

Beispiel:

X-Spam-Level: **********************

Die weiteren Header werden nur geschrieben bzw. modifiziert, wenn der Wert der Hits den vorgegeben Wert von 9.0 überschreitet.

Subject:
Der Subject-Header wird erweitert durch: **SPAM Hits=<nn.mm>** am Anfang.

Beispiel:

Subject: **SPAM Hits=22.50** Cervical Pillow...Decrease neck pain..ADV

X-Spam-Checker-Version:
enthält die Versionsnummer von Spamassassin

Beispiel:

X-Spam-Checker-Version: SpamAssassin 2.41 (1.115.2.8-2002-09-05-exp)

X-Spam-Report:
Dieser Header enthält eine Beschreibung der durchgeführten Tests sowie eine Bewertung bei den Hits.

Beispiel:

X-Spam-Report:   22.50 hits, 9 required;
  * -0.3 -- From: does not include a real name
  *  2.6 -- Bulk email software fingerprint (screwup 1) found in headers
  *  1.9 -- Subject: contains advertising tag
  *  2.4 -- BODY: List removal information
  *  2.2 -- BODY: Click-to-remove with mailto: found beforehand
  *  1.9 -- BODY: Claims you can be removed from the list
  *  0.3 -- BODY: Asks you to click below
  * -1.4 -- BODY: JavaScript code
  * -0.4 -- BODY: FONT Size +2 and up or 3 and up
  *  2.6 -- BODY: Spam phrases score is 34 to 55 (high)
            [score: 36]
  *  0.9 -- BODY: Message is 70-90% HTML tags
  *  0.8 -- BODY: HTML font color is blue
  * -0.6 -- BODY: Includes a URL link to send an email
  *  4.1 -- BODY: Frontpage used to create the message
  *  1.6 -- BODY: Tells you to click on a URL
  *  1.7 -- URI: Includes a link to send a mail with a subject
  *  0.8 -- URI: Includes a URL link to send an email with the subject 'remove'
  *  0.7 -- URI: Includes a 'remove' email address
  *  0.7 -- HTML-only mail, with no text version

Auf zwei weiteren Punkte zum Betriebsablauf von Spamassassin soll hier noch hingewiesen werden:

  • Mails mit einer Grösse von mehr als 250 KByte werden nicht gescannt, da unerwünschte Werbemails im allgemeinen wesentlich kleiner sind.
  • Bei technischen Problemen oder Überlastung der Mailsysteme kann die Spamerkennung vorübergehend ausgeschaltet werden.