Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

tin: Regeln zusammenfassen

2 views
Skip to first unread message

Başar Alabay

unread,
May 24, 2012, 12:38:06 PM5/24/12
to
Hallo,

kann man eigentlich im tin Filterfile bestimmte Filter zusammenfassen?
Also z. B. mehrere Schlüsselwörter im Betreff oder mehrere
Mailadressen/Sender, die alle hübsch ausgeblendet werden sollen.

Mir ist außerdem aufgefallen, daß der Filter gegen Crossposten wohl auf
Kommata abzielt. Nun gibt es wohl aber Crossposts, bei denen mehrere
Newsgruppen ohne Komma im Header stehen :-/

B. Alabay

--
લવ ઇસ્તંબુલ
http://www.thetrial.de/
Message has been deleted

Başar Alabay

unread,
May 25, 2012, 4:57:02 AM5/25/12
to
Urs Janßen schrieb:

> geht wenn man regexp als filter benutzt, die mapage hat sogar ein
> passendes beispiel:
>
> [tin(5)]
> | ${TIN_HOMEDIR:-"$HOME"}/.tin/filter
> | Example:
> | comment=mark all articles about tin, rtin,
> | comment=tind, ktin or cdtin as hot
> | group=*
> | case=1
> | score=hot
> | subj=\b(cd|[rk]?)?tin(d|pre)?[-.0-9]*\b

Das ist aber extrem kompliziert, wenn man z. B. fünf Wörter ausklammern
will, sagen wir Furz, Donner, Mücke, Helium, Fragezeichen. Oder eben mehrere User.


>> Mir ist außerdem aufgefallen, daß der Filter gegen Crossposten wohl auf
>> Kommata abzielt. Nun gibt es wohl aber Crossposts, bei denen mehrere
>> Newsgruppen ohne Komma im Header stehen :-/
>
> in welchem header? Xref? ja ist ja auch richtig so und tin wandelt
> das dann in eine comma seperierte liste um:

Vielleicht verstehe ich das mit dem Crossposten ja falsch … aber müßten
dann nicht Postings, die in 5, 6 Gruppen erscheinen (und nur provozieren
wollen) verschwinden? Tun sie hier nicht. Trotz:

comment=Crossposts und Kurze
group=*
case=1
score=kill
lines=<3
xref=([^,]+,){4,}

und

comment=Crossposts
group=(einebestimmtegruppe)
case=1
score=kill
xref=([^,]+,){4,}

Letzteres habe ich dann wieder gelöscht.

Wie muß ich das da oben eigentlich interpretieren? Vier Kommata gehen
durch oder so? Weil Crossposts in zwei Gruppen sind sehr oft kein Spam
oder dergleichen.
Message has been deleted
Message has been deleted

Başar Alabay

unread,
May 25, 2012, 8:44:47 AM5/25/12
to
Urs Janßen schrieb:

> beschwer dich bei Stephen Cole Kleene, Ken Thompson, Larry Wall

Mach ich :-)

>> wenn man z. B. fünf Wörter
>> ausklammern will, sagen wir Furz, Donner, Mücke, Helium,
>> Fragezeichen. Oder eben mehrere User.
>
> subj=\b(Furz|Donner|Mücke|Helium|Fragezeichen)\b

Ouh Mann, wenn man es KANN, ist es einfach! Danke :-)

>> Vielleicht verstehe ich das mit dem Crossposten ja falsch … aber müßten
>> dann nicht Postings, die in 5, 6 Gruppen erscheinen (und nur provozieren
>> wollen) verschwinden? Tun sie hier nicht. Trotz:
>
> _wenn_ dein server nicht nur eine teilmenge der gruppen fuehrt.

Wie jetzt. Nur wenn der Server die führt, wird gefiltert?

> Xref enthaelt nur die gruppen die der server auch hat, d.h. wenn in
> Newsgroups 20 gruppen stehen, davon aber auf dem Server nur 3
> vorhanden sind, dann schlaegt ein filter auf mehr als 4 gruppen nicht
> zu.

Hmmm … da standen Newsgruppen:1234556, also vermutlich mit einem
Counter. Ob die jetzt vom Server geführt wurden, weiß ich nicht aus dem
FF.

> da Newsgroups kein std. header im overview ist, xref aber schon
> kann man auch nicht trivial (in tin z.zt. garnicht) auf Newsgroups
> filtern, da man dafuer zusaetlich [X]HDR oder [X]PAT (da ist nicht
> garantiert, dass die auf header funktionieren die nicht im overview
> sind bzw. das der server das ueberhaupt kann) oder im schlimmsten fall
> sogar HEAD (kann keine ranges, also muss man es fuer jeden artikel einzeln
> machen) absetzten muesste.
>
>> comment=Crossposts und Kurze
>> group=*
>> case=1
>> score=kill
>> lines=<3
>> xref=([^,]+,){4,}
>
> also hier tut
>
> lines=<4
> xref=(?:([^,]+,){30,}|(^|,)(junk|control)($|,)|(^|,)(alt\.){6,})
>
> wunderbar - seit jahren.

Eieiei, was heißt das auf deutsch? 30 scheint ja recht hoch angesetzt zu
sein. Was hat es mit dem junk|control auf sich? Alt-Gruppen werden
gesondert behandelt? Ich habe ja eher Probleme mit soc-Gruppen.
Message has been deleted

Başar Alabay

unread,
May 26, 2012, 1:15:47 PM5/26/12
to
Urs Janßen schrieb:

> Xref enthaelt die untermenge der gruppen aus Newsgroups die es auf
> dem server gibt, in Xref koennen also deutlich weniger gruppen stehen
> als im Newsgroups.
> tins filter geht auf Xref nicht auf Newsgroups da man an letzteren header
> nicht verlaesslich ran kommt ohne deutlich mehr traffic zu verursachen
> (und das kostet performance - _deutlich_).

Falls ich nochmal so ein Posting sehe, gucke ich. Ich glaube, es war
xref.

> der counter ist die artikel nummer die der artikel in der gruppe die
> davor steht auf dem server hat. interressant waere die _genaue_ zeile
> (und dazu noch die Newsgroups zeile) - ohne konkretes beispiel
> gibt's nur theoretische antworten.

Wie gesagt, wenn es mir noch einmal begegnet.

> wenn dir die manpages aus dem letzten posting zu perl regular
> expressions nicht "informativ" genug sind gaebs noch
> Jeffrey E.F. Friedls >Mastering Regular Expressions< mit etwas mehr
> theorie.

Ich kann mir das alles eh nicht merken. Wie oft nutze ich es? Ich habe
mal mehr damit zu tun gehabt, aber das war nur eine kurze Phase.

Başar Alabay

unread,
Jun 12, 2012, 2:28:15 PM6/12/12
to
Başar Alabay schrieb:

> Urs Janßen schrieb:
>
>> Xref enthaelt die untermenge der gruppen aus Newsgroups die es auf
>> dem server gibt, in Xref koennen also deutlich weniger gruppen stehen
>> als im Newsgroups.
>> tins filter geht auf Xref nicht auf Newsgroups da man an letzteren header
>> nicht verlaesslich ran kommt ohne deutlich mehr traffic zu verursachen
>> (und das kostet performance - _deutlich_).
>
> Falls ich nochmal so ein Posting sehe, gucke ich. Ich glaube, es war
> xref.

So, momentan häufen sich wieder die Müllpostings! :-/

Also, hier ist so eine xref-Zeile:

Xref: news.albasani.net soc.culture.indian:433710
alt.fan.jai-maharaj:129947 alt.politics
:2600889 soc.culture.turkish:165150 soc.culture.pakistan:185059
soc.culture.usa:2288874

Und das ist meine Regel:

comment=Crossposts und Kurze
group=*
case=1
score=kill
lines=<3
xref=([^,]+,){3,}

Ich bekomme das aber trotzdem zu sehen. Und es gibt keine anderen
Regeln, die da greifen.

Herzlichen Gruß
Message has been deleted
Message has been deleted

Başar Alabay

unread,
Jun 12, 2012, 5:33:46 PM6/12/12
to
Urs Janßen schrieb:

>> Ich bekomme das aber trotzdem zu sehen. Und es gibt keine anderen
>> Regeln, die da greifen.
>
> und wildcard im tinrc ist passend (also auf 1, denn du willst ja
> regex) gesetzt?

Du meinst shift-M und dann 52? Nein, das war auf wildmat gestellt. Jetzt
habe ich es mal auf regex gestellt. Aber, kann es jetzt dann wo anders
klemmen?

> | pcre(3). You will probably want to update your filter
> | file if you use this regularly. NB: Newsgroup names will
> | always be matched using the wildmat notation.

What am I willing to update?!

> chao% cat /tmp/.tin/filter
> group=*
> case=1
> score=kill
> lines=<3
> xref=([^,]+,){3,}
>
> chao% grep '^wildcard' /tmp/.tin/tinrc
> wildcard=1
>
> entsorgt mal eben 4511 article von 6010 in der guppe auf dem server
> den ich zum testen benutzt habe.
>
> ^L
> wenn du das subpattern capturing weglaesst sparst du speicher
> und der match geht auch schneller, und da keine anker vorhanden sind
> reicht auch ein genauer match auf 3 komma:
>
> chao% pcretest -m -t 100000
> PCRE version 7.4 2007-09-21
>
> re> /([^,]+,){3,}/
> Compile time 0.0024 milliseconds
> Memory allocation (code space): 43
> data> soc.culture.indian,alt.fan.jai-maharaj,alt.politics,soc.culture.turkish,soc.culture.pakistan,soc.culture.usa
> Execute time 0.0015 milliseconds
>
> re> /(?:[^,]+,){3,}/
> Compile time 0.0023 milliseconds
> Memory allocation (code space): 37
> data> soc.culture.indian,alt.fan.jai-maharaj,alt.politics,soc.culture.turkish,soc.culture.pakistan,soc.culture.usa
> Execute time 0.0011 milliseconds
>
> re> /(?:[^,]+,){3}/
> Compile time 0.0024 milliseconds
> Memory allocation (code space): 37
> data> soc.culture.indian,alt.fan.jai-maharaj,alt.politics,soc.culture.turkish,soc.culture.pakistan,soc.culture.usa
> Execute time 0.0006 milliseconds

Ähm … ich soll also das letztere nehmen? Und dann wildmat oder regex?!

Başar Alabay

unread,
Jun 12, 2012, 5:38:44 PM6/12/12
to
Başar Alabay schrieb:

> Du meinst shift-M und dann 52? Nein, das war auf wildmat gestellt. Jetzt
> habe ich es mal auf regex gestellt. Aber, kann es jetzt dann wo anders
> klemmen?

Okay, okay … ich geb’s auf! :-( Danach lief gar nichts mehr, tin hing in
einer Endlosschleife, weil vermutlich die ganzen anderen Einträge nicht
mehr richtig abgearbeitet wurden. Ich habe jetzt wieder wildmat am
Laufen und das war’s. Mischbetrieb scheint für Normaluser nicht zu
gehen. Das ist mir zu hoch.
Message has been deleted
Message has been deleted
Message has been deleted

Başar Alabay

unread,
Jun 13, 2012, 5:15:20 AM6/13/12
to
Urs Janßen schrieb:

> wenn du wildmats benutzen willst dann nimm halt was in der art
> von "xref=*,*,*,*".

Hm, das könnte ich mal probieren.

> wenn du regexp benutzen willst, dann benutz halt kurz den converter:
>
> mv filter filter.bak && w2r.pl < filter.bak > filter

Da ich aber nicht gerade fit in Sachen regexp bin (wenn ich mal in die
Verlegenheit komme, irgendwo damit größere Sachen zu suchen oder
ersetzen zu müssen, dann ist das ein ewiges Gefummel) und das Filterfile
gerne auch manuell editiere, wäre wildmat womöglich die einfachere
Lösung.
0 new messages