*Thomas 'Ingrid' Barghahn* meinte:
> *Heiko Rost* meinte:
>> Ein grep nach dauadd ergibt als Quelle für die Berechnung
>> | Zeile 576: DauAdd(50,'invalid From:');
>> | Zeile 579: if Pos('.',h)=0 then DauAdd(50,'invalid From:');
>> |
> Ich sehe schon, dass ich mit meinen Vermutungen auf "einen völlig
> anderen Gaul" gesessen habe. ;-) Schön aber, dass es den Code noch gibt.
> Na dann werde ich mir "diese Geschichte mit den DAUs" einmal etwas näher
> ansehen. :-)
In den vergangenen Tagen habe ich mir nun einmal den Pascal-Code von
Heiko S. etwas genauer angeschaut und diesen für den HCL als HS2-Script
aufbereitet.
Nun weiß ich auch endlich, wie mein stets hoher DAUs zustande gekommen
ist. ;-)
Was mir (nicht nur) bei der Umstellung aufgefallen ist:
=======================================================
- qp-kodierte Artikel
Da meine Postings oftmals mit CTE="quoted-printable" versendet werden,
kann genau diese Übertrtagungskodierung ein Problem für Goldfind sein.
Goldfind dekodiert die qp-kodierten Zeilen eines Postings nämlich nicht
vollständig[1], was bei meinen Signaturen fast immer dazu führt, dass
diese im Rohtext mehr als vier Zeilen haben. Dieses wiederum macht dann
pro Posting schon einmal einen Wert von mindestens 5 DAUs-Points aus
(siehe hierzu auch die "DAUs-Points"-Liste w.u.).
Das macht also bei 100 Artikeln dann doch schon einmal 500 DAUs-Points
aus. ;-)
[1]
Eine Zeile, welche aufgrund der qp-Kodierung ab Spalte 76 mit einem "="
auf zwei oder mehrere Zeilen im Rohtext "gesplittet" wird, diese wird
bei der Prüfung /nicht/ wiederhergestellt *UND* kommt dem Verfasser des
Artikels auch noch als "Plus-Punkt" entgegen.
Entsprechend wird der Body eines qp-Artikels bei der Punktevergabe
bevorzugt, In solchen Artikeln wird also fast nie ein "Mega-Quote"
erkannt. Auch ist das Erkennen von "trailing mega-quote" in diesem
Zusammenhang äußerst selten oder gar unmöglich.
- base64-kodierte Artikel
Wer damals schlau war, der hat sein Posting einfach "base64-kodiert".
Artikel mit dieser Kodierung werden von Goldfind nämlich nur auf deren
Header überprüft, denn es gibt im Rohtext kein Quoting, keine Signaturen
und natürlich auch keine "trailing empty-lines".
- Leerzeilen am Ende eines Artikels
Gestraft werden einmal Signaturen, welche länger als 4 Zeilen sind.
Diese Leerzeilen werden jedoch wiederholt gestraft, denn diese zählen
nach dem Pascal-Code auch als "trailing empty-lines"!
Allerdings betrachte ich persönlich diese Bewertung schlussendlich als
logisch und werde diese auch so beibehalten.
- Prüfung der From- und Reply-To-Adresse
Jene Prüfung ist eigentlich nur sehr halbherzig und viele Vergehen
werden durch Goldfind gar nicht erst berücksichtigt.
Allein die Prüfung auf Gleichheit der From- und Reply-To-Adresse führt
oftmals zu falschen Ergebnissen, denn es werden nicht nur die Adressen
geprüft, sondern der komplette Inhalt jener Header.
Steht im From bspw. "John Doe <J....@example.tld>" und im Reply-To dann
nur noch "<J....@example.tld>", so wird von Goldfind ein ausreichend
gültiger Unterschied erkannt, was allerdings falsch ist, denn die
Adressen selbst sind halt exakt gleich.
Fazit und aufgekommene Fragen:
==============================
Das größte Problem überhaupt von Goldfind bezüglich der DAUs-Statistik
ist (und war wohl) ein fehlendes Protokoll!
Zu beobachten ist aufgrund der oben genannten Punkte eine völlig falsche
Bewertung der Artikel.
Wie hat man also den Usern in der Vergangenheit den errechneten
DAUs-Wert erklärt (ein Protokoll gab und gibt es ja nicht)?
Warum wird der DAUs-Wert selbst für die Reihenfplge der Platzierung
herangezogen und /nicht/ der Durchschnittswert (Ratio=DAUs/Postings),
welcher von Goldfind auch bereitgestellt wird?
Bezüglich meiner letzten Frage ist die momentane Bewertung so, dass
kleinere Vergehen aufgrund einer hohen Postinganzahl einen User zum
DAU machen können, obwohl pro Posting vielleicht nur jeweils 1 DAUs-
Point angefallen ist.
Ein anderer User steht mit technisch falschen Mail-Adressen und/oder
"Mega-Qute" (aber deutlich weniger Postings) im Bewertungszeitraum
erheblich besser da. :-|
Ein Punkt also, welchen ich nicht wirklich begreifen kann.
Wie bewertet Goldfind einen Artikel und wie ist der Ablauf?
===========================================================
Artikel, in welchen maximal 10 Zeilen (incl. Sig) im Body vorhanden
sind, werden nur auf deren Header überprüft!
1. Prüfung der Header
=-=-=-=-=-=-=-=-=-=-=
Ist die "From:"-Adresse "korrekt"?
==> 50 Pts - invalid From:
"From:" wird auf verschiedene Wortkombinationen (Fake) geprüft.
Bspw. "no spam", "@dev.nul", "remove this" ...
Diese Prüfung wird nochmals mit ROZ13 durchgeführt.
==> 25 Pts - From:-fake assumed
Hat die "From:"-Adresse auch einen Realnamen?
==> 10 Pts - no (real)name in From: assumed
Sind "From:"- und "Reply-To:"-Adresse gleich?
==> 1 Pts - Reply-To: = From:
Ist die "Reply-To:"-Adresse überhaupt "korrekt"?
==> 25 Pts - invalid Reply-To:
Handelt es sich um eine "korrekte" Message-ID?
==> 5 Pts - invalid M-ID: assumed
Liegt Crosspost über mehrere Gruppen ohne F'up2 vor?
==> 10 Pts / group - crosspost w/o FollowUp-To
Hat der Artikel HTML-Inhalte?
==> 50 Pts - html
Gibt es einen VCard-Anhang?
==> 25 Pts - vcard
Werden binäre Inhalte mit dem Posting transportiert?
==> 50 Pts - binary in non-b.-group assumed
Auf uncodierte 8bit-Zeichen in den Headern wird nur einmalig geprüft.
Wird ein 8bit-Zeichen gefunden, so gibt es 5 DAUs-Points und die Suche
wird abgebrochen:
==> 5 Pts - uncoded 8bit-chars in header")
2. Prüfung des Bodys
=-=-=-=-=-=-=-=-=-=-
Jede gequotete Zeile (außer gequotete Leerzeilen (">")) bekommt einen
DAUs-Point; jede eigene Textzeile hingegen reduziert die gesammelten
Points wieder! Bonuspunkte gibt es allerdings nicht! :-)
==> n Pts - +1 Pts/q-line and -1 Pts/text - "quote-ratio"
Für "Deja News" gibt es nur einen Hinweis und die Prüfung des Bodys
wird abgebrochen:
==> 0 Pts - OK! - "Deja News"
Zusätzlich zu "quote-ratio" kommen für alle 10 aufeinanderfolgenden
Quotezeilen 10 DAUs-Points hinzu; jede weitere Quotezeile schlägt
ebenfalls mit einem weiteren DAUs-Point auf.
Beispiel mit 23 aufeinanderfolgenden Quote-Zeilen:
+ 23 DAus-Points aus "quote-ratio"
+ 20 DAus-Points aus "mega-quote"
+ 3 DAus-Points zusätzlich aus "mega-quote"
====
+ 46 DAus-Points
==> n Pts - 10Pts/10q-lines (one after the other)- mega-quote
Bei Quoting >= 10 Zeilen unterhalb des eigenen Textes werden diese
Zeilen noch zusätzlich gewertet. Aus obigen Beispiel ergeben sich dann
also 92 DAus-Points.
==> n * 2 Pts - "trailing mega-quote"
3. Prüfung der Signatur(en)
=-=-=-=-=-=-=-=-=-=-=-=-=-=
Ist eine Signatur länger als 4 Zeilen, bekommt der Artikel 5 DAUs.
Für jede weitere Zeile kommt noch ein DAUs-Point hinzu:
==> n Pts - .sig > 4 lines; 5 Pts at least; every additional line
+1 Pts
Pseudo-Signaturen werden durch einen Zeilenanfang mit
("---" oder "----") und einer Zeilenlänge <10 Zeichen erkannt:
==> 1 Pts - pseudo-.sig assumed
Wird eine "Pseudo-Sig" gefunden, so wird diese entsprechend einer
"echten" Signatur ("-- ") mit Punkten bewertet:
==> n Pts - pseudo-.sig > 4 lines assumed
Leerzeilen am Ende eines Artikels schlagen jeweils mit einem DAUs
zu.
==> n - 1 Pts - "trailing empty-lines"
"DAUs-Points"-Liste im Überblick (19 Punkte):
=============================================
==> 50 Pts - invalid From:
==> 25 Pts - From:-fake assumed
==> 10 Pts - no (real)name in From: assumed
==> 1 Pts - Reply-To: = From:
==> 25 Pts - invalid Reply-To:
==> 5 Pts - invalid M-ID: assumed
==> 10 Pts / group - crosspost w/o FollowUp-To
==> 50 Pts - html
==> 25 Pts - vcard
==> 50 Pts - binary in non-b.-group assumed
==> 5 Pts - uncoded 8bit-chars in header")
==> n Pts - 1 Pts/q-line and -1 Pts/text - quote-ratio
==> 0 Pts - OK! - Deja News
==> n Pts - 10Pts/10q-lines (one after the other)- mega-quote
==> n * 2 Pts - trailing mega-quote
==> n Pts - .sig > 4 lines; 5 Pts at least; every add. line +1 Pts
==> 1 Pts - pseudo-.sig assumed
==> n Pts - pseudo-.sig > 4 lines assumed
==> n - 1 Pts - trailing empty-lines
------------------------------------------------------------------------
Thomas 😷
--
== S E N D E Z E I T =================
DATUM : Sonntag, 17. Dezember 2023
UHRZEIT: 14:27:41 UHR (MEZ)
== +++ 3. Advent +++ =================