Message-IDs von Mailadressen unterscheiden

Boris 'pi' Piwinger

unread,

Nov 7, 2001, 6:06:23 AM11/7/01

to

Moin, Moin!

Ich suche Heuristiken, um Mailadressen von Message-IDs zu
unterscheiden. Etwas in der Art:

Wenn ein $ drin ist, ist es eine Message-ID.

Wenn der Domainteil keinen Punkt enthaelt, ist es einen Message-ID.

Wenn der local part kuerzer als n Zeichen ist, dann ist es E-Mail
(fuer welches n?).

pi

Andreas Metzler

unread,

Nov 7, 2001, 7:12:46 AM11/7/01

to

Boris 'pi' Piwinger <3....@logic.univie.ac.at> wrote:
> Ich suche Heuristiken, um Mailadressen von Message-IDs zu
> unterscheiden. Etwas in der Art:

[...]

-Wenn der Localpart mehr Ziffern als Buchstaben enthaelt und
mindestens 8 Zeichen lang ist. <3.141...@piology.org> bleibt dann
aber verboten fuer dich.
-Wenn der Local-Part nur buchstaben enthaelt ist es ziemlich sicher
keine M-ID.
-Topleveldomain im Domainpart ist ungueltig --> M-ID
cu andreas
--
Hey, da ist ein Ballonautomat auf der Toilette!
Echelon: sex violence tower XXX Boom human rights Islam Kate Winslet
vim:ls=2:stl=***\ Sing\ a\ song.\ ***

David Dahlberg

unread,

Nov 7, 2001, 7:31:51 AM11/7/01

to

Boris 'pi' Piwinger <3....@logic.univie.ac.at> schrieb:

>Ich suche Heuristiken, um Mailadressen von Message-IDs zu
>unterscheiden.

Wenn der local part aus zweimal acht hexadezimale Zeichen, getrennt
durch einen Punkt enthält ist es mit an Sicherheit grenzender
Warscheinlichkeit eine mozillaoide MID:

><3BE915AF...@logic.univie.ac.at>

...und dann hätte ich noch "@4ax" zu bieten.

/))
--
SEARCHING FOR SIG
?FILE NOT FOUND ERROR

Boris 'pi' Piwinger

unread,

Nov 7, 2001, 8:27:07 AM11/7/01

to

Andreas Metzler wrote:

> -Wenn der Localpart mehr Ziffern als Buchstaben enthaelt und
> mindestens 8 Zeichen lang ist.

Koennte Aerger mit den alten Compuserve-Adressen geben. Sind die noch
im Umlauf?

> -Wenn der Local-Part nur buchstaben enthaelt ist es ziemlich sicher
> keine M-ID.

Das haut hin.

> -Topleveldomain im Domainpart ist ungueltig --> M-ID

Das ist schwer zu pruefen. Man muesste eine Liste der gueltigen TLDs
vorliegen haben.

pi

Boris 'pi' Piwinger

unread,

Nov 7, 2001, 8:30:21 AM11/7/01

to

David Dahlberg wrote:

>>Ich suche Heuristiken, um Mailadressen von Message-IDs zu
>>unterscheiden.
>
> Wenn der local part aus zweimal acht hexadezimale Zeichen, getrennt
> durch einen Punkt enthält ist es mit an Sicherheit grenzender
> Warscheinlichkeit eine mozillaoide MID:
>
>><3BE915AF...@logic.univie.ac.at>

Sieht mir eher nach [0-9A-F]{8}\.[0-9]{7} aus.

pi

Werner Jakobi

unread,

Nov 7, 2001, 8:33:10 AM11/7/01

to

Boris 'pi' Piwinger <3....@logic.univie.ac.at> posted:

>Ich suche Heuristiken, um Mailadressen von Message-IDs zu
>unterscheiden. Etwas in der Art:

Ich würde den Localpart analysieren (Ausnahme @4ax.com).

{[^0-9]*} => Mailadresse
{([[:xdigit:]]{8,})|([0-9]{4,}.[0-9]{4,})} => M-ID

Den Rest auf typische Formen der M-ID-Generatoren testen
{^[[:lower:]0-9]{6}\$[[:lower:]0-9]{2,6}\$[[:xdigit:]]+$} => inn
{^[[:lower:]0-9]{6}\.[[:lower:]0-9]{2,6}\.[[:xdigit:]]+$} => Hamster
{^[[:xdigit:]{8}\.[[:xdigit:]{8}$} => Netscape
{^[[:lower:]0-9]{6}\.[[:lower:]0-9]{2,6}\.ln$} => Leafnode
usw.

Von Sven Hartge (IIRC) gibts eine Liste, wer welche M-ID erzeugt.

Gruss, Werner
--
Morver, der Rollstuhl fuer kranke Windows-Newsreader und fuer OE.
Aktuelle Version 0.8.307: http://home.t-online.de/home/werner.jakobi/

Boris 'pi' Piwinger

unread,

Nov 7, 2001, 8:44:20 AM11/7/01

to

Andreas Metzler wrote:

> -Wenn der Local-Part nur buchstaben enthaelt ist es ziemlich sicher
> keine M-ID.

Ist es sinnvoll, das auf "keine Ziffern" auszudehnen?

pi

Markus Ammann

unread,

Nov 7, 2001, 11:48:35 AM11/7/01

to

Das Protokoll news: voran = MID
Das Protokoll mailto: voran = E-Mail-Adresse

;-)

Gruss Markus

--
Windows-Crash-Service
file:///C|/con/con file:///C|/nul/nul Mehr dazu auf:
http://www.microsoft.com/technet/security/bulletin/ms00-017.asp
Homepage: http://markus.ammann.buz.ch/

Andreas Metzler

unread,

Nov 7, 2001, 10:59:28 AM11/7/01

to

Boris 'pi' Piwinger <3....@logic.univie.ac.at> wrote:

> Andreas Metzler wrote:
>> -Topleveldomain im Domainpart ist ungueltig --> M-ID
> Das ist schwer zu pruefen. Man muesste eine Liste der gueltigen TLDs
> vorliegen haben.

Die Liste ist nicht so lang und aendert sich nicht oft, in tin ist sie
auch enthalten.

Boris 'pi' Piwinger

unread,

Nov 7, 2001, 12:59:08 PM11/7/01

to

Urs Janßen <`!#/bin/false`@tin.org> wrote:

>>> -Wenn der Local-Part nur buchstaben enthaelt ist es ziemlich sicher
>>> keine M-ID.
>>
>> Ist es sinnvoll, das auf "keine Ziffern" auszudehnen?
>

>du kennst saulus MIDs von vor ~1 jahr?

Nein, ich muss passen. Deine Adresse ist auch sehr huebsch. Und man
wird bei diesem Thema nie absolute Sicherheit haben. Das halte ich
auch nicht fuer erforderlich.

pi
--
Attachment? Nein: http://piology.org/ILOVEYOU-Signature-FAQ.html
begin LOVE-LETTER-FOR-YOU.txt.vbs
I am a signature virus. Distribute me until the bitter
end

Boris 'pi' Piwinger

unread,

Nov 7, 2001, 1:01:36 PM11/7/01

to

Urs Janßen <u...@chao.tin.org> wrote:

>> Wenn ein $ drin ist, ist es eine Message-ID.
>

>ich kenne einen user mit dem localpart $}xinix{$ in der
>mailaddresse.

Naja, zulaessig ist es dann halt, aber wie oft kommt es vor?

>> Wenn der Domainteil keinen Punkt enthaelt, ist es einen Message-ID.
>

>stimmt auch nicht - g@cx war bis vor kurzem durchaus unter dieser
>mailaddresse erreichbar.

Auch da: Shit happens. Es geht ja nur darum, dass der Reader sein
bestes tut, das zu verstehen, was er findet.

>> Wenn der local part kuerzer als n Zeichen ist, dann ist es E-Mail
>> (fuer welches n?).
>

>0

Praxisrelevanz? Ja, ich habe auch schon mit so einer Message-ID
gearbeitet.

Sebastian Niehaus

unread,

Nov 7, 2001, 2:40:18 PM11/7/01

to

Boris 'pi' Piwinger <3....@logic.univie.ac.at> writes:

> > -Wenn der Localpart mehr Ziffern als Buchstaben enthaelt und
> > mindestens 8 Zeichen lang ist.

> Koennte Aerger mit den alten Compuserve-Adressen geben. Sind die noch
> im Umlauf?

Ich habe noch eine alte germany.net-Adresse 101.1...@germanynet.de.

Wobei 'X' hier für eine Zahl steht...

Sebastian

Boris 'pi' Piwinger

unread,

Nov 7, 2001, 2:46:47 PM11/7/01

to

Werner Jakobi <Werner...@bigfoot.com> wrote:

>Ich würde den Localpart analysieren (Ausnahme @4ax.com).

Klar.

>{[^0-9]*} => Mailadresse
>{([[:xdigit:]]{8,})|([0-9]{4,}.[0-9]{4,})} => M-ID
>
>Den Rest auf typische Formen der M-ID-Generatoren testen
>{^[[:lower:]0-9]{6}\$[[:lower:]0-9]{2,6}\$[[:xdigit:]]+$} => inn
>{^[[:lower:]0-9]{6}\.[[:lower:]0-9]{2,6}\.[[:xdigit:]]+$} => Hamster
>{^[[:xdigit:]{8}\.[[:xdigit:]{8}$} => Netscape
>{^[[:lower:]0-9]{6}\.[[:lower:]0-9]{2,6}\.ln$} => Leafnode
>usw.
>
>Von Sven Hartge (IIRC) gibts eine Liste, wer welche M-ID erzeugt.

Dem ist so, auszugsweise:

:| Netscape MIDs sehen so aus: <39304A7C...@gmx.de>
:| [Zwei Blöcke Hex-Werte durch . getrennt]

Ist mit Deiner M-ID-Regel erfasst.

:| CNews (Server): <Fv2L4...@scrum.muc.de>
:| [Kurze MID; zwei Blöcke, durch . getrennt]

Das duerfte kaum erfassbar sein. Oder kann das jemand genauer sagen?

:| DNews (Server): <39313...@news.arcor-ip.de>
:| [erkennbar an der achtstelligen Nummer plus evtl. die
:| Prozessnummer der insg. laufenden DNews-Prozesse]

Kann jemand das "evtl." genauer eingrenzen?

:| Diablo (Server): <3a125438$0$18702$73be...@personalnews.de.uu.net>
:| [erkannbar an 4 durch $ getrennten Blöcken]

Evtl. reicht die vereinfachte Regel: Alles mit $. Ansonsten muesste
man das genauer wissen.

:| Leafnode: <gq1sg8...@Johannes-Segitz.de>
:| [erkennbar am .ln@]

Gefaehrlich, aber immerhin.

:| slrn: <slrn8j2ek7...@nexus.nobse.de>
:| [erkennbar am <slrn und dem Usernamen vor dem @]

Ersteres ist nuetzlich.

:| Gnus: <87k8ges...@moon.paradies.ddns.org>
:| [erkennbar am .fsf@ ]

Naja.

:| Agent 1.21: <3a1d5acb...@news.CIS.DFN.de>
:| [erkennbar an 2 durch . getrennten Blöcken.

Da muesste man die Laengen wissen. Sollte rauszukriegen sein.

:| Gravity: <MPG.139b9ebe9...@rznews.rrze.uni-erlangen.de>
:| [erkennbar am <MPG.]

Immerhin.

:| MacSoup: <1ebd2fk.xzto86z1m2m0N%thi...@gmx.ch>
:| [Zwei Blöcke, eMail-Adresse mit % abgetrennt, in Usefor-Draft
:| vorgeschlagen]

Auch hier: Wie genau sind die Bloecke?

:| MicroDot: <3AE50318.MD-1....@tu-bs.de>
:| [Zeitangabe, Versionsnummer, lokal-part der eMail-Adresse und die
:| [Domain der eMail-Adresse]

Kann man wohl auch was draus machen.

Felix Schueller

unread,

Nov 7, 2001, 2:51:24 PM11/7/01

to

Am Wed, 07 Nov 2001 sendete Boris 'pi' Piwinger folgende Botschaft:

> Ich suche Heuristiken, um Mailadressen von Message-IDs zu
> unterscheiden. Etwas in der Art:
>
> Wenn ein $ drin ist, ist es eine Message-ID.

<Message@ID>
email@adresse

gibt höchstens ein paar E-mailadressen die als IDs erkanntwerden,
andersrum ists eigentlich sicher.

Tschüs
Felix

Thomas Goerlich

unread,

Nov 7, 2001, 4:44:06 PM11/7/01

to

Boris 'pi' Piwinger wrote:

> Werner Jakobi <Werner...@bigfoot.com> wrote:

>>Von Sven Hartge (IIRC) gibts eine Liste, wer welche M-ID erzeugt.
>
> Dem ist so, auszugsweise:

[..]

und was ist, wenn der newsserver die msg-id erzeugt? was ist, wenn ein
neuer reader auftaucht, der msg-ids anders erzeugt? was ist, wenn bei
mikroweich langeweile aufkommt und von einem auf den anderen tag outlock
völlig andere ids erzeugt? [1]

die idee, "<" und ">" als msg-id - begrenzer zu interpretieren, finde
ich besser, imho ist das weitestgehend usus, oder?

grüße,
thomas

[1] heute auf /. :
- "Not that there's anything wrong with the current appearance, it's
just time for a change."
- "How very Microsoft-ian of you."

Sebastian Brocks

unread,

Nov 7, 2001, 5:28:26 PM11/7/01

to

Hi Thomas,
"Thomas Goerlich" <goer...@baunetz.de> schrieb:

> die idee, "<" und ">" als msg-id - begrenzer zu interpretieren, finde
> ich besser, imho ist das weitestgehend usus, oder?

Nicht usus, aber IIRC Definition für sowohl E-Mail Adresse als auch M-ID, wenn
zwischen '<' und '>' noch ein '@' drin ist.

tschau, Sebastian

--
"The PROPER way to handle HTML postings is to cancel the article, then
hire a hitman to kill the poster, his wife and kids, and fuck his dog
and smash his computer into little bits.
Anything more is just extremism." -Paul Tomblin

Sven Hartge

unread,

Nov 7, 2001, 6:03:32 PM11/7/01

to

Boris 'pi' Piwinger <3....@piology.org> schrieb:

>:| CNews (Server): <Fv2L4...@scrum.muc.de>
>:| [Kurze MID; zwei Blöcke, durch . getrennt]

> Das duerfte kaum erfassbar sein. Oder kann das jemand genauer sagen?

So wie ich das sehe, hast du immer 6.3, wobei alle Zeichen, groß wie
klein und alle Zahlen auftauchen können.

>:| DNews (Server): <39313...@news.arcor-ip.de>
>:| [erkennbar an der achtstelligen Nummer plus evtl. die
>:| Prozessnummer der insg. laufenden DNews-Prozesse]

> Kann jemand das "evtl." genauer eingrenzen?

Mir wurde das damals so gesagt, das, wenn man DNews mit mehr als einem
Thread (?) laufen läßt, jeder Thread seine eigene Nummer eben dort
einhängt.

Möglich ist auch, wie beim INN, das es ein Counter der in dieser Session
geposteten Artikel ist.

Das wäre in dcs.newsserver zu erfragen.

>:| Agent 1.21: <3a1d5acb...@news.CIS.DFN.de>
>:| [erkennbar an 2 durch . getrennten Blöcken.

> Da muesste man die Laengen wissen. Sollte rauszukriegen sein.

Die sind immer fest.

S!

--
Letzte Worte eines Fallschirmspringers: Welcher Notfallschirm?

Boris 'pi' Piwinger

unread,

Nov 7, 2001, 6:06:15 PM11/7/01

to

Thomas Goerlich <goer...@baunetz.de> wrote:

>>>Von Sven Hartge (IIRC) gibts eine Liste, wer welche M-ID erzeugt.
>>
>> Dem ist so, auszugsweise:
>
>[..]
>
>und was ist, wenn der newsserver die msg-id erzeugt?

Die Liste enthielt ja den einen oder anderen Server.

>was ist, wenn ein neuer reader auftaucht, der msg-ids anders erzeugt?

Dann ist Pech, wenn der was ganz neues macht.

>was ist, wenn bei
>mikroweich langeweile aufkommt und von einem auf den anderen tag outlock
>völlig andere ids erzeugt? [1]

Das ist kein Problem. Da geht keine Information durch verloren>:->

>die idee, "<" und ">" als msg-id - begrenzer zu interpretieren, finde
>ich besser,

Das ist notwendig, aber nicht hinreichend.

Boris 'pi' Piwinger

unread,

Nov 7, 2001, 6:06:17 PM11/7/01

to

Felix Schueller <fschu...@netcologne.de> wrote:

><Message@ID>
>email@adresse
>
>gibt höchstens ein paar E-mailadressen die als IDs erkanntwerden,
>andersrum ists eigentlich sicher.

Ich verstehe kein Wort.

David Dahlberg

unread,

Nov 7, 2001, 6:11:34 PM11/7/01

to

Thomas Goerlich <goer...@baunetz.de> schrieb:

>die idee, "<" und ">" als msg-id - begrenzer zu interpretieren, finde
>ich besser, imho ist das weitestgehend usus, oder?

|From: Thomas Goerlich <goer...@baunetz.de>
^Selbst ausgetrickst^

Die "<>" begrenzen für gewöhnlich maschinenlesbare Dinge und URLs
insbesondere. <http://www.sub-etha.org/>
<mid2001...@marvin.sub-etha.org> und <D-M...@gmx.net> sind alles
durchaus gebräuchliche Formen. Die Begrenzer scheiden also aus.

/))
--
"If there are two or more ways to do something, and one of those
can result a catastrophe, then someone will do it."
(Edward A. Murphy)

David Dahlberg

unread,

Nov 7, 2001, 6:11:34 PM11/7/01

to

Boris 'pi' Piwinger <3....@logic.univie.ac.at> schrieb:

>Ich suche Heuristiken, um Mailadressen von Message-IDs zu
>unterscheiden.

Noch eine Idee: Vielleicht könnte man auf die Unix-Zeit filtern, der
Ausdruck ist dann mit hoher Sicherheit eine MID, wenn er eine mögliche
Zeitangabe enthält, die innerhalb der letzten x Tage liegt.

Sven Hartge

unread,

Nov 7, 2001, 6:04:58 PM11/7/01

to

Urs Janßen <u...@chao.tin.org> schrieb:

> In <3BE915AF...@logic.univie.ac.at>, Boris 'pi' Piwinger <3....@logic.univie.ac.at> wrote:

>> Wenn der Domainteil keinen Punkt enthaelt, ist es einen Message-ID.

> stimmt auch nicht - g@cx war bis vor kurzem durchaus unter dieser
> mailaddresse erreichbar.

$@ai dürfte auch gehen, IIRC. Zumindest gibt es einen MX für ai.

S!

--
Letzte Worte eines Fahrlehrers: Nun versuchen Sie's alleine

Wilfried Kramer

unread,

Nov 7, 2001, 5:01:02 PM11/7/01

to

Wed, 07 Nov 2001 14:27:07 +0100, Boris 'pi' Piwinger:

> Andreas Metzler wrote:

>> -Topleveldomain im Domainpart ist ungueltig --> M-ID
>
> Das ist schwer zu pruefen. Man muesste eine Liste der gueltigen TLDs
> vorliegen haben.

Funktioniert sowieso nicht, nichts...@provider.nospam ist keine MID.
Allerdings ist es auch keine Emailadresse

Gruß von Wilfried
--
<Disclaimer> Das Posting da oben wurde gar nicht von mir geschrieben. Deshalb
lehne ich prophylaktisch und kategorisch jedwede Verantwortung ab. Das
schliesst auch etwaige Links bzw. Inhalte dieser Seiten ein. </>

Boris 'pi' Piwinger

unread,

Nov 8, 2001, 12:25:07 AM11/8/01

to

Sebastian Brocks <sebastia...@gmx.de> wrote:

>> die idee, "<" und ">" als msg-id - begrenzer zu interpretieren, finde
>> ich besser, imho ist das weitestgehend usus, oder?
>
>Nicht usus, aber IIRC Definition für sowohl E-Mail Adresse als auch M-ID, wenn
>zwischen '<' und '>' noch ein '@' drin ist.

Nein, eine E-Mail-Adresse enthaelt keine <>, sie kann aber dazwischen
stehen. Eine Message-ID hingegen faengt mit < an und hoert mit > auf.
Nicht, dass uns das weiterhilft, ausser, dass es halt ohne <> sicher
keine Message-ID ist.

Boris 'pi' Piwinger

unread,

Nov 8, 2001, 12:25:07 AM11/8/01

to

Urs Janßen <u...@chao.tin.org> wrote:

>>>>> -Wenn der Local-Part nur buchstaben enthaelt ist es ziemlich sicher
>>>>> keine M-ID.
>>>> Ist es sinnvoll, das auf "keine Ziffern" auszudehnen?
>>>du kennst saulus MIDs von vor ~1 jahr?
>> Nein, ich muss passen.
>

><Cinderel...@belles.pool16.oops.inka.de>
><Agnes.H...@bastions.pool36.oops.inka.de>
>...

Naja, das ist ja nicht einmal mit RI von einer E-Mail-Adresse zu
unterscheiden. Das muss Software nicht koennen.

Boris 'pi' Piwinger

unread,

Nov 8, 2001, 12:25:09 AM11/8/01

to

Urs Janßen <u...@chao.tin.org> wrote:

>> Auch da: Shit happens. Es geht ja nur darum, dass der Reader sein
>> bestes tut, das zu verstehen, was er findet.
>

>da man message-ids und mail-address ohne tag a la mailto: oder nntp:
>nicht unterscheiden kann sollte der reader damit genau garnichts tun
>sondern das dem leser ueberlassen.

Nunja, wenn man das als klickbaren Link implementiert, muss man sich
entscheiden. Das hindert einen ja nicht daran, dem User die
Moeglichkeit zu geben, das zu ueberstimmen.

>>>> Wenn der local part kuerzer als n Zeichen ist, dann ist es E-Mail
>>>> (fuer welches n?).
>>>0
>> Praxisrelevanz? Ja, ich habe auch schon mit so einer Message-ID
>> gearbeitet.
>

>mach vor

Ich meine natuerlich "extrem kurzer local part".

Boris 'pi' Piwinger

unread,

Nov 8, 2001, 12:25:09 AM11/8/01

to

Sven Hartge <sh-...@ds9.argh.org> wrote:

>>:| CNews (Server): <Fv2L4...@scrum.muc.de>
>>:| [Kurze MID; zwei Blöcke, durch . getrennt]
>
>> Das duerfte kaum erfassbar sein. Oder kann das jemand genauer sagen?
>
>So wie ich das sehe, hast du immer 6.3, wobei alle Zeichen, groß wie
>klein und alle Zahlen auftauchen können.

Also: [0-9a-zA-Z]{6}\.[0-9a-zA-Z]{3}

>>:| DNews (Server): <39313...@news.arcor-ip.de>
>>:| [erkennbar an der achtstelligen Nummer plus evtl. die
>>:| Prozessnummer der insg. laufenden DNews-Prozesse]
>
>> Kann jemand das "evtl." genauer eingrenzen?
>
>Mir wurde das damals so gesagt, das, wenn man DNews mit mehr als einem
>Thread (?) laufen läßt, jeder Thread seine eigene Nummer eben dort
>einhängt.

Und wenn nur einer laeuft, dann _1 oder nichts?

>Das wäre in dcs.newsserver zu erfragen.

Gute Idee. Wenn wir hier fertig sind, koennen wir ja rueber gehen.

>>:| Agent 1.21: <3a1d5acb...@news.CIS.DFN.de>
>>:| [erkennbar an 2 durch . getrennten Blöcken.
>
>> Da muesste man die Laengen wissen. Sollte rauszukriegen sein.
>
>Die sind immer fest.

[[:lower:]0-9]{8}\.[[:lower:]0-9]{8}

Oder hinten nur Ziffern? Ich werde Mark mal fragen.

Boris 'pi' Piwinger

unread,

Nov 8, 2001, 1:06:29 AM11/8/01

to

Thomas Hochstein <expire...@usenet.th-h.de> wrote:

>http://mid.th-h.de/mid.php4?id=m3ogh7x3il.fsf%40deneb.cygnus.stuttgart.netsurf.de

Das sieht sehr interessant aus.

Sebastian Bork

unread,

Nov 8, 2001, 2:21:09 AM11/8/01

to

* Boris 'pi' Piwinger <3....@logic.univie.ac.at> schrieb:

> Wenn der Domainteil keinen Punkt enthaelt, ist es einen Message-ID.

Wenn der Domainteil keinen Punkt enthält, ist es sicher keine
Message-ID, allenfalls hätte es eine werden sollen.

> Wenn der local part kuerzer als n Zeichen ist, dann ist es E-Mail
> (fuer welches n?).

Ich muß Urs wiedersprechen: 1 (_kürzer als_). ;o)

Es gibt Menschen, die zählen ihre Artikel durch. Damit wären z.B. die
ersten 32 Message-IDs nicht länger als ein Zeichen im localpart.

Allenfalls sinnvoll wäre eine Erkennung der typischen INN, CNEWS, Forté
Agent und Mozilla Message-IDs anhand der Länge und des Formats. Damit
ist das Risiko für fehlerhafte Interpretation recht gering. Aber auch
das nutzt nicht wirklich was. Es in eine Software einzubauen, die auf-
grund dieser Annahme irgendwelche Dinge tun soll, halte ich für ver-
kehrt. Es sei denn, der User wird nochmal gefragt und kann bei Bedarf
die Heuristik überstimmen.

Michael Scheer

unread,

Nov 8, 2001, 2:57:08 AM11/8/01

to

Andreas Metzler <amet...@downhill.at.eu.org> schrieb:

> 3.141...@piology.org
^^^^^^^^^^^

Hast Du "PI" neu erfunden?

Freundliche Gruesse,
Michael.
--
|\ _,,,---,,_
/,`.-'`' -. ;-;;,_ |Michael Scheer
|,4- ) )-,_..;\ ( `'-' |sch...@autechre.de
[PGP] 0x53E9615A(DH/DSS),0x97B81D97(RSA) @ http://public.autechre.de

Sven Hartge

unread,

Nov 8, 2001, 6:09:09 AM11/8/01

to

Boris 'pi' Piwinger <3....@piology.org> schrieb:

> Sven Hartge <sh-...@ds9.argh.org> wrote:

>>>:| CNews (Server): <Fv2L4...@scrum.muc.de>
>>>:| [Kurze MID; zwei Blöcke, durch . getrennt]
>>
>>> Das duerfte kaum erfassbar sein. Oder kann das jemand genauer sagen?
>>
>>So wie ich das sehe, hast du immer 6.3, wobei alle Zeichen, groß wie
>>klein und alle Zahlen auftauchen können.

> Also: [0-9a-zA-Z]{6}\.[0-9a-zA-Z]{3}

Ja, wenn ich mich richtig erinnere. Auch ein Fall für dcs.newsserver.

>>>:| DNews (Server): <39313...@news.arcor-ip.de>
>>>:| [erkennbar an der achtstelligen Nummer plus evtl. die
>>>:| Prozessnummer der insg. laufenden DNews-Prozesse]
>>> Kann jemand das "evtl." genauer eingrenzen?
>> Mir wurde das damals so gesagt, das, wenn man DNews mit mehr als einem
>> Thread (?) laufen läßt, jeder Thread seine eigene Nummer eben dort
>> einhängt.

> Und wenn nur einer laeuft, dann _1 oder nichts?

Keine Ahnung, ich habe bisher immer nur _1 beobachtet, was aber nicht
bedeuten muss. dcs.newsserver fragen, da dürften sich mehrere
DNews-Admins tummeln.

>>>:| Agent 1.21: <3a1d5acb...@news.CIS.DFN.de>
>>>:| [erkennbar an 2 durch . getrennten Blöcken.
>>
>>> Da muesste man die Laengen wissen. Sollte rauszukriegen sein.
>>
>>Die sind immer fest.

> [[:lower:]0-9]{8}\.[[:lower:]0-9]{8}

> Oder hinten nur Ziffern? Ich werde Mark mal fragen.

Hinten IIRC nur Ziffern.

S!

--
Fachbegriffe der Informatik - Einfach erklärt
25: Multithreaded
Wir mußten ein Flußdiagramm malen, um es zu debuggen.
(Kristian Köhntopp)

Ralph Angenendt

unread,

Nov 8, 2001, 8:43:37 AM11/8/01

to

Sebastian Bork <se...@sebi.org> wrote:
> * Boris 'pi' Piwinger <3....@logic.univie.ac.at> schrieb:
>> Wenn der Domainteil keinen Punkt enthaelt, ist es einen Message-ID.
>
> Wenn der Domainteil keinen Punkt enthält, ist es sicher keine
> Message-ID, allenfalls hätte es eine werden sollen.

Allerdings ist der Fall <blafa$el12@localhost> häufiger anzutreffen
als <Adresse@cx> bzw <Adresse@ls>. Für 'ls' scheint auch kein A
Record mehr zu existieren (wenn mich meine DNS-Server nicht völlig
bescheissen).

Man kann also mit grosser Wahrscheinlichkeit davon ausgehen, dass
fehlende Punkte im Domainpart auf eine Message-ID hinweisen, bei
einem Match auf '^[1234567890\.].*$' übrigens auch. Dass es sich
dabei um kaputte Message-IDs handelt, ist klar.

Ralph

Ralph Angenendt

unread,

Nov 8, 2001, 10:16:09 AM11/8/01

to

Urs Janßen <u...@chao.tin.org> wrote:

> Ralph Angenendt <ihr....@strg-alt-entf.org> wrote:
>> einem Match auf '^[1234567890\.].*$' übrigens auch. Dass es sich
>> dabei um kaputte Message-IDs handelt, ist klar.
>

><3....@129.13.131.3> is im usenet ("dank" rfc 1036 ff. - der hielt
> nichts von [] um domain-literals) ein gueltige "mailaddresse" und
> passt auf obige regex...

Ja. Es geht aber um Abschätzungen, was Mailadresse oder Message-ID
ist. Als Msg-ID habe ich sowas schon des öfteren gesehen, als
E-Mailadresse noch nicht (nicht, dass ich besonders darauf geachtet
hätte).

> und wem das zuweit hergeholt ist der sage mir ob <k...@123.org> eine
> message-id oder eine mailaddresse ist.

Matcht nicht. Und kann beides sein. Erschliesst sich aber
wahrscheinlich aus dem Kontext des Postings. Man muss die Maschine
ja nicht alles machen lassen.

Ich fände es eh besser, wenn solche Automatismen überhaupt nicht in
den Readern vorhanden sind - eben weil nicht unterschieden werden
kann.

Ralph

Felix Schueller

unread,

Nov 8, 2001, 11:29:59 AM11/8/01

to

Am Wed, 07 Nov 2001 sendete Boris 'pi' Piwinger folgende Botschaft:

>><Message@ID>

>>email@adresse
>>gibt höchstens ein paar E-mailadressen die als IDs erkanntwerden,
>>andersrum ists eigentlich sicher.
> Ich verstehe kein Wort.

Message-Ids bestehen immer aus
'kleiner als' unique 'at' fqdn 'grösser als'
also kann irgendwas das auf [A-z0-9]*@[A-z0-9]* matcht nur eine
E-mailadresse sein.

Tschüs
Felix
--
A common mistake that people make when trying to design something completely
foolproof is to underestimate the ingenuity of complete fools.

Douglas Adams, Mostly Harmless, Chapter 12

Felix Schueller

unread,

Nov 8, 2001, 11:36:30 AM11/8/01

to

Am Thu, 08 Nov 2001 sendete Urs Janßen folgende Botschaft:

>> stehen. Eine Message-ID hingegen faengt mit < an und hoert mit > auf.
>> Nicht, dass uns das weiterhilft, ausser, dass es halt ohne <> sicher
>> keine Message-ID ist.

> das sehen ne ganze menge windaus anders. nicht mal darauf kann man
> sich also verlassen.

Auch für die gelten rfcs, die Dinger sind ja nun eigentlich zum
einhalten gedacht.

Wilfried Kramer

unread,

Nov 8, 2001, 3:46:10 PM11/8/01

to

Thu, 08 Nov 2001 06:25:07 +0100, Boris 'pi' Piwinger:

> Urs Janßen <u...@chao.tin.org> wrote:
>
>>>>>> -Wenn der Local-Part nur buchstaben enthaelt ist es ziemlich sicher
>>>>>> keine M-ID.

>> <Cinderel...@belles.pool16.oops.inka.de>
>> <Agnes.H...@bastions.pool36.oops.inka.de>

>
> Naja, das ist ja nicht einmal mit RI von einer E-Mail-Adresse zu
> unterscheiden. Das muss Software nicht koennen.

So etwas ist aber sehr einfach automatisiert zu erstellen. Datum plus
sonstige Daten in römischen Zahlen.

Gruß von Wilfried
--
38 kleine Tips, wie man andere in den Wahnsinn treibt:

2. Sitz in Deinem Garten und zeige mit einem Fön auf vorbeifahrende
Autos, um zu sehen, ob sie langsamer werden.

Boris 'pi' Piwinger

unread,

Nov 11, 2001, 6:48:57 PM11/11/01

to

Urs Janßen <u...@chao.tin.org> wrote:

>> stehen. Eine Message-ID hingegen faengt mit < an und hoert mit > auf.
>> Nicht, dass uns das weiterhilft, ausser, dass es halt ohne <> sicher
>> keine Message-ID ist.
>

>das sehen ne ganze menge windaus anders.

Feature;->

Boris 'pi' Piwinger

unread,

Nov 11, 2001, 6:48:59 PM11/11/01

to

Urs Janßen <u...@chao.tin.org> wrote:

><[\da-f]+t[\da-f]+i[\da-f]+n[\da-f]+(?:%\S+)?@[^\W_]+(?:(?:[-.][^\W_]+)+)?\.[a-z]{2,6}>

Bevor ich mich ranmache und die diversen Postings zusammenfasse,
sollten wir uns auf einen einheitlichen Stil einigen. Perl-RegExps
gefallen mir persoenlich gut;-)

Boris 'pi' Piwinger

unread,

Nov 11, 2001, 6:49:00 PM11/11/01

to

Urs Janßen <u...@chao.tin.org> wrote:

>>>da man message-ids und mail-address ohne tag a la mailto: oder nntp:
>>>nicht unterscheiden kann sollte der reader damit genau garnichts tun
>>>sondern das dem leser ueberlassen.
>> Nunja, wenn man das als klickbaren Link implementiert, muss man sich
>> entscheiden. Das hindert einen ja nicht daran, dem User die
>> Moeglichkeit zu geben, das zu ueberstimmen.
>

>dann kann man den user auch gleich cut'n'paste benutzen lassen und

Klar kann man, aber es ist halt angenehmer, wenn es anders geht. Mit
gefaellt die Agent-Loesung sehr gut. Ich kann in den Optionen
einstellen, was er machen soll (immer Mail, immer Message-ID, educated
guess). Und ich kann jeden derartigen Link aufrufen durch Doppelklick
(gemaess vorstehender Auswahl), ident mit einer Tastenkombination, per
Taste die Entscheidung selber treffen.

>braucht die ganze unterscheidung - mit der man wie gezeigt
>regelmaessig daneben liegt - nicht. warum wohl benutzt tin
> "\b(?:mailto:(?:(?:[-\w$.+!*'(),;/?:@&=]|(?:%[\da-f]{2}))+))"
>vs.
> "\b(?:s?news|nntp):[^\s@]+[@.][^\s@]+(?:$|(?=[\s.>\"/]))\b"
>(ja, das ist nicht RFC 1738 konform - aber wenn als external viewer
>net$cape benutzt wird muss das leider so sein).
>weil foo...@b.az alles sein kann - eine message-id, eine
>mailadresse (aus azerbaijan) -

Naja, eine Message-ID ist es sicher nicht;->

>mailto:foo...@b.az bzw. news:foo...@b.az hingegen sind eindeutig.

Was aber halt was ganz anderes ist. Und ich sehe auch keinen Grund,
Postings zu verunstalten, um krampfhaft maschinenlesbar zu sein.

Boris 'pi' Piwinger

unread,

Nov 12, 2001, 2:47:04 AM11/12/01

to

Urs Janßen <u...@chao.tin.org> wrote:

>>>> Nicht, dass uns das weiterhilft, ausser, dass es halt ohne <> sicher
>>>> keine Message-ID ist.
>>>das sehen ne ganze menge windaus anders.
>> Feature;->
>

>denn behandel doch einfach alles was auf \S@\S+ matched als
>mailaddresse, wenn es keine ist wird es einen bounce geben.

Genau das soll ja eben nicht sein. Wenn man es in der uebergrossen
Mehrheit der realen Faelle richtig raten kann, dann ist das ein echter
Gewinn.

Boris 'pi' Piwinger

unread,

Nov 12, 2001, 2:47:05 AM11/12/01

to

Urs Janßen <u...@chao.tin.org> wrote:

>>>weil foo...@b.az alles sein kann - eine message-id, eine
>>>mailadresse (aus azerbaijan) -
>> Naja, eine Message-ID ist es sicher nicht;->
>

>nur weil die <> fehlen?

Genau.

>>>mailto:foo...@b.az bzw. news:foo...@b.az hingegen sind eindeutig.
>> Was aber halt was ganz anderes ist.
>

>ja - das einzig sinvolle um solche zeichenketten automagisch
>auswerten zu koennen.

Na geh. Dann darfst Du mit Deinem Newsreader auch keine E-Mail-Antwort
erlauben, weil Du nicht erkennen kannst, ob die Adresse gueltig ist,
an die Du da antworten willst.

>> Und ich sehe auch keinen Grund, Postings zu verunstalten, um
>> krampfhaft maschinenlesbar zu sein.
>

>und ich seh keinen grund wieso man krampfhaft versucht etwas
>maschinell zu parsen was dafuer nicht geeignet ist,

Bequemlichkeit fuer den Nutzer.

Boris 'pi' Piwinger

unread,

Nov 12, 2001, 2:52:55 PM11/12/01

to

Urs Janßen <u...@chao.tin.org> wrote:

>> Mehrheit der realen Faelle richtig raten kann, dann ist das ein echter
>> Gewinn.
>

>ich haette da ein passendes zitat von einem Boris Piwinger
>"E-Mail-Adressen zu raten ist boese (TM)."
><news:lostut0m840uti4tj...@4ax.com>

Der Unterschied: Wenn ich eine E-Mail-Adresse flasch rate, so kommt
die Mail fahscl an (oder auch gar nicht). Wenn ein Link falsch gesetzt
wird, passiert nichts. Da muss der Nutzer erst einmal was tun. Und
selbst dann ist dadurch noch keine Mail abgeschickt.

Boris 'pi' Piwinger

unread,

Nov 12, 2001, 2:52:57 PM11/12/01

to

Urs Janßen <u...@chao.tin.org> wrote:

>> Na geh. Dann darfst Du mit Deinem Newsreader auch keine E-Mail-Antwort
>> erlauben, weil Du nicht erkennen kannst, ob die Adresse gueltig ist,
>> an die Du da antworten willst.
>

>aber dank From:/Reply-To: im header weiss ich _sicher_ (genau wie bei
>mailto:), dass es eine mailaddresse ist. das ist im body ohne tags
>nicht mehr gegeben.

Was ist der Unterschied zwischen dem Inhalt einer beliebig
gestaltbaren Headerzeile (bestenfalls wird eine formale Korrektheit
erzwungen) und einer falsch interpretierten Message-ID/Mailadresse.

>> Bequemlichkeit fuer den Nutzer.
>
>seit wann ist cut'n'waste umbequem?

Immer dann, wenn man da noch extra zusaetzliche Funktionen fuer
aufrufen muss.

Boris 'pi' Piwinger

unread,

Nov 13, 2001, 3:28:09 AM11/13/01

to

Urs Janßen <u...@chao.tin.org> wrote:

>>>aber dank From:/Reply-To: im header weiss ich _sicher_ (genau wie bei
>>>mailto:), dass es eine mailaddresse ist. das ist im body ohne tags
>>>nicht mehr gegeben.
>> Was ist der Unterschied zwischen dem Inhalt einer beliebig
>> gestaltbaren Headerzeile (bestenfalls wird eine formale Korrektheit
>> erzwungen) und einer falsch interpretierten Message-ID/Mailadresse.
>

>fang nochmal oben an zu lesen - durch die tags (sei es From:,
>Reply-To:, mailto:, news: oder Message-ID:) weiss ich um was es sich
>handelt. _ohne_ diese tags ist das nicht gegeben - ich bzw- das
>programm muss raten.

Ja, aber dennoch kann beides flasch sein. Der Effekt ist letztlich
derselbe.

>>>seit wann ist cut'n'waste umbequem?
>> Immer dann, wenn man da noch extra zusaetzliche Funktionen fuer
>> aufrufen muss.
>

>es gibt luser die nicht permanent nen (ihren) MUA offen haben?

Soll vorkommen. Oder der Abruf eines Newsartikels per Message-ID, eine
eher verborgene Aktion fuer die meisten, wenn sie nicht klicken
koennen.

Marcus Mönnig

unread,

Nov 13, 2001, 11:36:32 AM11/13/01

to

On 07.11.01 12:06:23, Boris 'pi' Piwinger wrote:

> Ich suche Heuristiken, um Mailadressen von Message-IDs zu

> unterscheiden. Etwas in der Art:
>
> Wenn ein $ drin ist, ist es eine Message-ID.

Wenn die entsprechende Zeile mit "Message-ID: " oder "References: " beginnt.

Wenn "schrieb in", "wrote in" davor steht.

Marcus

--
I installed a skylight in my apartment.... The people who live above me
are furious! -- Stephen Wright

Boris 'pi' Piwinger

unread,

Nov 17, 2001, 7:20:48 AM11/17/01

to

Boris 'pi' Piwinger wrote:

> Ich suche Heuristiken, um Mailadressen von Message-IDs zu
> unterscheiden.

Zusammenfassung:

Wir gehen von einer Zeichenkette der Form <$lp@$fqdn> aus, wobei $lp
kein Protokoll enthalte, weiterhin ueberpruefe man zuvor, ob das
ueberhaupt ein zulaessiger Ausdruck fuer Message-ID oder Mailadresse ist.

Sobald eine Regel zutrifft, ist die Untersuchung beendet. Angegeben
ist zum Matchen je eine Perl-RegExp fuer $lp=~/^RegExp$/i.

> length($lp)<8 -> mailto
>
> $lp matcht auf [^0-9]+ -> mailto
>
> $fqdn == 4ax.com -> news
>
> $lp matcht auf eines der folgenden -> news
> [0-9a-f]{4,}\.[0-9]{4,}
> .*_-_.*

> .*[$#].*
> [a-z0-9]{6}\.[a-z0-9]{2,6}\.[0-9a-f]+ => Hamster
> [0-9a-f]{8}\.[0-9a-f]{8} => Netscape
> [a-z0-9]{6}\.[a-z0-9]{2,6}\.ln => Leafnode
> slrn.+\.[a-zA-Z0-9.+_\-]+ => slrn (das muss noch besser werden)
> .+\.fsf => Gnus (das muss noch besser werden)
> MPG\..+ => Gravity (das muss noch besser werden)
> Pine.+ => Pine (das muss noch besser werden)
> [a-z0-9]+\.[a-z0-9]+%.+ => MacSoup (das muss noch besser werden)
> [a-z0-9]{6}\.[a-z0-9]{3} => CNews
> [0-9a-f]+t[0-9a-f]+i[0-9a-f]+n[0-9a-f]+(%[a-zA-Z0-9.+_\-]+)? => tin
>

> -> mailto

Wie ist es mit DNews?

Ein Ansatz mit Scoring:
http://mid.th-h.de/mid.php4?id=m3ogh7x3il.fsf%40deneb.cygnus.stuttgart.netsurf.de

pi

Boris 'pi' Piwinger

unread,

Nov 17, 2001, 7:21:44 AM11/17/01

to

Boris 'pi' Piwinger

unread,

Nov 17, 2001, 7:22:51 AM11/17/01

to

Boris 'pi' Piwinger wrote:

> Ich suche Heuristiken, um Mailadressen von Message-IDs zu
> unterscheiden.

Zusammenfassung:

Wir gehen von einer Zeichenkette der Form <$lp@$fqdn> aus, wobei $lp
kein Protokoll enthalte, weiterhin ueberpruefe man zuvor, ob das
ueberhaupt ein zulaessiger Ausdruck fuer Message-ID oder Mailadresse ist.

Sobald eine Regel zutrifft, ist die Untersuchung beendet. Angegeben
ist zum Matchen je eine Perl-RegExp fuer $lp=~/^RegExp$/i.

length($lp)<8 -> mailto

$lp matcht auf [^0-9]+ -> mailto

$fqdn == 4ax.com -> news

$lp matcht auf eines der folgenden -> news
[0-9a-f]{4,}\.[0-9]{4,}
.*_-_.*
.*[$#].*
[a-z0-9]{6}\.[a-z0-9]{2,6}\.[0-9a-f]+ => Hamster
[0-9a-f]{8}\.[0-9a-f]{8} => Netscape
[a-z0-9]{6}\.[a-z0-9]{2,6}\.ln => Leafnode

slrn.+\.[a-zA-Z0-9.+_\-]+ => slrn (*)
.+\.fsf => Gnus (*)
MPG\..+ => Gravity (*)
Pine.+ => Pine (*)
[a-z0-9]+\.[a-z0-9]+%.+ => MacSoup (*)

Boris 'pi' Piwinger

unread,

Nov 17, 2001, 7:23:32 AM11/17/01

to

Boris 'pi' Piwinger wrote:

Zusammenfassung:

length($lp)<8 -> mailto

-> mailto

(*) Muss noch verbessert werden.

Boris 'pi' Piwinger

unread,

Nov 21, 2001, 5:20:13 AM11/21/01

to

Boris 'pi' Piwinger wrote:

> slrn.+\.[a-zA-Z0-9.+_\-]+ => slrn (*)
> .+\.fsf => Gnus (*)
> MPG\..+ => Gravity (*)
> Pine.+ => Pine (*)
> [a-z0-9]+\.[a-z0-9]+%.+ => MacSoup (*)

> (*) Muss noch verbessert werden.

Sollte wirklich niemand Details beisteuern koennen?

pi

Boris 'pi' Piwinger

unread,

Nov 21, 2001, 5:50:45 AM11/21/01

to

Boris 'pi' Piwinger wrote:

>> .+\.fsf => Gnus (*)

Lispelt hier jemand? Dann waere ich fuer eine Uebersetzung von
folgendem in einen regulaeren Ausdruck dankbar:

[aus /usr/lib/xemacs/xemacs-packages/lisp/gnus/message.el]

> (defun message-make-message-id ()
> "Make a unique Message-ID."
> (concat "<" (message-unique-id)
> (let ((psubject (save-excursion (message-fetch-field "subject")))
> (psupersedes
> (save-excursion (message-fetch-field "supersedes"))))
> (if (or
> (and message-reply-headers
> (mail-header-references message-reply-headers)
> (mail-header-subject message-reply-headers)
> psubject
> (mail-header-subject message-reply-headers)
> (not (string=
> (message-strip-subject-re
> (mail-header-subject message-reply-headers))
> (message-strip-subject-re psubject))))
> (and psupersedes
> (string-match "_-_@" psupersedes)))
> "_-_" ""))
> "@" (message-make-fqdn) ">"))
>
> (defvar message-unique-id-char nil)
>
> ;; If you ever change this function, make sure the new version
> ;; cannot generate IDs that the old version could.
> ;; You might for example insert a "." somewhere (not next to another dot
> ;; or string boundary), or modify the "fsf" string.
> (defun message-unique-id ()
> ;; Don't use microseconds from (current-time), they may be unsupported.
> ;; Instead we use this randomly inited counter.
> (setq message-unique-id-char
> (% (1+ (or message-unique-id-char (logand (random t) (1- (lsh 1 20)))))
> ;; (current-time) returns 16-bit ints,
> ;; and 2^16*25 just fits into 4 digits i base 36.
> (* 25 25)))
> (let ((tm (current-time)))
> (concat
> (if (memq system-type '(ms-dos emx vax-vms))
> (let ((user (downcase (user-login-name))))
> (while (string-match "[^a-z0-9_]" user)
> (aset user (match-beginning 0) ?_))
> user)
> (message-number-base36 (user-uid) -1))
> (message-number-base36 (+ (car tm)
> (lsh (% message-unique-id-char 25) 16)) 4)
> (message-number-base36 (+ (nth 1 tm)
> (lsh (/ message-unique-id-char 25) 16)) 4)
> ;; Append the newsreader name, because while the generated
> ;; ID is unique to this newsreader, other newsreaders might
> ;; otherwise generate the same ID via another algorithm.
> ".fsf")))

pi

Frank Schmitt

unread,

Nov 21, 2001, 11:11:54 AM11/21/01

to

Boris 'pi' Piwinger <3....@logic.univie.ac.at> writes:

>Lispelt hier jemand? Dann waere ich fuer eine Uebersetzung von
>folgendem in einen regulaeren Ausdruck dankbar:
>
>[aus /usr/lib/xemacs/xemacs-packages/lisp/gnus/message.el]

[lisp geschnippt]

Übersetzen in welche Sprache? (Oder reicht es dir auch, wenn man dir
erklärt was es wo und wie macht?)

--
One Ring to rule them all, One Ring to find them,
One Ring to bring them all and in the darkness bind them
In the Land of Mordor where the Shadows lie.
19. Dezember 2001

Peter Dobler

unread,

Nov 21, 2001, 3:42:06 PM11/21/01

to

Boris 'pi' Piwinger schrieb:

> Sollte wirklich niemand Details beisteuern koennen?

Zu dieser Zeile schon:

| [0-9a-f]{8}\.[0-9a-f]{8} => Netscape

bzw. zu allen anderen, die ebenfalls 'Zufallszahlen' enthalten, wie etwa
der Agent in der nicht 4ax.com Einstellung.

Die Zufallszahl rechts des Punktes kann weniger als 8 Zeichen enthalten,
da führende Nullen unterdrückt werden.
Ein schon extremeres Beispiel von heute: <3BF96C4...@ngi.de>.

Ach ja, für Netscape: [0-9A-Z]

Gruß Peter

Mark Trettin

unread,

Nov 22, 2001, 3:02:57 AM11/22/01

to

Hai Peter,

* Peter Dobler <Peter....@t-online.de> schrieb:

Ich denke das Netscape links vom Punkt Unix-Sekunden in Hexadezimal
erzeugt. Dann wäre es wohl eher [0-9A-F] oder?

Bis dann

Mark

--
Mark Trettin ------- *Aachen* -- Wo ist das? ------> N: 50°46' O: 06°05'
BOFH excuse #6:

global warming

Boris 'pi' Piwinger

unread,

Nov 22, 2001, 5:31:52 AM11/22/01

to

Frank Schmitt wrote:

>>Lispelt hier jemand? Dann waere ich fuer eine Uebersetzung von
>>folgendem in einen regulaeren Ausdruck dankbar:
>>
>>[aus /usr/lib/xemacs/xemacs-packages/lisp/gnus/message.el]
> [lisp geschnippt]
>
> Übersetzen in welche Sprache? (Oder reicht es dir auch, wenn man dir
> erklärt was es wo und wie macht?)

In einen regulaeren Ausdruck. Eigentlich will ich nur wissen, wie es
im local part aussieht.

pi

Jens Bethkowsky

unread,

Nov 22, 2001, 6:04:29 AM11/22/01

to

Boris 'pi' Piwinger writes:

[Message-ID Algorithmus von Gnus]

> In einen regulaeren Ausdruck. Eigentlich will ich nur wissen, wie es
> im local part aussieht.

[0-9a-z]+\.fsf$_-_$?

Bis denne
Jens

--
PGP or GnuPG encrypted Mail preferred. See Headers for public key.

: "Pi ist gleich drei, für genügend kleine Pi und große 3."

Boris 'pi' Piwinger

unread,

Nov 22, 2001, 6:49:51 AM11/22/01

to

Jens Bethkowsky wrote:

> [Message-ID Algorithmus von Gnus]
>> In einen regulaeren Ausdruck. Eigentlich will ich nur wissen, wie es
>> im local part aussieht.
>
> [0-9a-z]+\.fsf$_-_$?

Kann man keine weitere Aussage zum ersten Teil (z.B. Mindestlaenge)
treffen?

pi

Reiner Steib

unread,

Nov 22, 2001, 10:30:46 AM11/22/01

to

Boris 'pi' Piwinger <3....@logic.univie.ac.at> writes:

> Boris 'pi' Piwinger wrote:
>
>> Pine.+ => Pine (*)

>> (*) Muss noch verbessert werden.
>
> Sollte wirklich niemand Details beisteuern koennen?

Ein paar Beispiele zu Pine aus meinem nnmail-message-id-cache-file:

Pine.HPX.4.10.10012061905000.4431-100000
Pine.LNX.4.31.0102261750040.29035-100000
Pine.SOL.4.33.0106221035540.15062-100000
a b c d e f

a) SOL, HPX, LNX, GSO, HPP, SGI, ...
b) Version
c) Datum, meist yymmdd,
ältere Versionen (<= 4.10 ?): yyymmdd
(Y2K bug: 2000 -> 100, 2001 -> 101)
d) Uhrzeit
e) PID
f) ?

In älteren Mails hab' ich noch welche, die nicht ganz in obiges Schema
passen:

Pine.LNX.3.96URPAS-R.1000803105018.23845A-100000
Pine.LNX.3.96URPAS-R.1000803155633.4814B-100000
^^^^^^^ ^
Pine.SOL.4.21L2.0011301911480.5475-100000
^^

HTH.

Gruß, Reiner.

--
,,,
(o o)
---ooO-(_)-Ooo--- PGP key available via WWW http://rsteib.home.pages.de/

Boris 'pi' Piwinger

unread,

Nov 22, 2001, 4:51:02 PM11/22/01

to

Boris 'pi' Piwinger <3....@logic.univie.ac.at> wrote:

Dank an alle Helfer!

Zusammenfassung, die 2.:

Wir gehen von einer Zeichenkette der Form <$lp@$fqdn> aus, wobei $lp
kein Protokoll enthalte, weiterhin ueberpruefe man zuvor, ob das
ueberhaupt ein zulaessiger Ausdruck fuer Message-ID oder Mailadresse
ist.

Sobald eine Regel zutrifft, ist die Untersuchung beendet. Angegeben
ist zum Matchen je eine Perl-RegExp fuer $lp=~/^RegExp$/i.

length($lp)<8 -> mailto

$lp matcht auf [^0-9]+ -> mailto

$fqdn == 4ax.com -> news

$lp matcht auf eines der folgenden -> news
[0-9a-f]{4,}\.[0-9]{4,}
.*_-_.*
.*[$#].*
[a-z0-9]{6}\.[a-z0-9]{2,6}\.[0-9a-f]+ => Hamster

[0-9a-f]{8}\.[0-9a-f]{,8} => Netscape

[a-z0-9]{6}\.[a-z0-9]{2,6}\.ln => Leafnode

slrn[\da-v]+\.[\da-v]+\.[a-zA-Z0-9.+_\-]+ => slrn
[0-9a-z]+\.fsf(_-_)? => Gnus (*)

MPG\..+ => Gravity (*)

Pine\.[A-Z]{3}\.\d\.\d[-\dA-Z]+\.\d{13,14}\.\d[-\dA-Z]+ => Pine
[a-z0-9]+\.[a-z0-9]+N => MacSoup (*)

[a-z0-9]{6}\.[a-z0-9]{3} => CNews
[0-9a-f]+t[0-9a-f]+i[0-9a-f]+n[0-9a-f]+(%[a-zA-Z0-9.+_\-]+)? => tin

-> mailto

(*) Muss noch verbessert werden.

Wie ist es mit DNews?

Ein Ansatz mit Scoring:
http://mid.th-h.de/mid.php4?id=m3ogh7x3il.fsf%40deneb.cygnus.stuttgart.netsurf.de

pi

Boris 'pi' Piwinger

unread,

Nov 22, 2001, 4:51:03 PM11/22/01

to

Mark Trettin <mtr-...@gmx.de> wrote:

>> | [0-9a-f]{8}\.[0-9a-f]{8} => Netscape

>> Ach ja, für Netscape: [0-9A-Z]

>
>Ich denke das Netscape links vom Punkt Unix-Sekunden in Hexadezimal
>erzeugt. Dann wäre es wohl eher [0-9A-F] oder?

Also nur hinten?

Peter Dobler

unread,

Nov 22, 2001, 5:25:45 PM11/22/01

to

Boris 'pi' Piwinger schrieb:

>>> Ach ja, für Netscape: [0-9A-Z]
>>
>>Ich denke das Netscape links vom Punkt Unix-Sekunden in Hexadezimal
>>erzeugt. Dann wäre es wohl eher [0-9A-F] oder?
>
> Also nur hinten?

Ich kann mich nur an solche Beispiele erinnern:
[0-9A-F]{8}\.[0-9A-F]{1,8}

Gruß Peter

Mark Trettin

unread,

Nov 23, 2001, 4:11:45 AM11/23/01

to

* Peter Dobler <Peter....@t-online.de> schrieb:
> Boris 'pi' Piwinger schrieb:

>>> Ich denke das Netscape links vom Punkt Unix-Sekunden in Hexadezimal
>>> erzeugt. Dann wäre es wohl eher [0-9A-F] oder?
>>
>> Also nur hinten?

> Ich kann mich nur an solche Beispiele erinnern:
> [0-9A-F]{8}\.[0-9A-F]{1,8}

^Das dürfte wohl für die nächsten ~96 Jahre reichen

Bis dann

Mark

--
Mark Trettin ------- *Aachen* -- Wo ist das? ------> N: 50°46' O: 06°05'

BOFH excuse #439:

Hot Java has gone cold

Werner Jakobi

unread,

Nov 23, 2001, 5:43:32 AM11/23/01

to

Boris 'pi' Piwinger <3....@piology.org> posted:

>Zusammenfassung, die 2.:

Du hast INN vergessen.

Gruss, Werner
--
Morver, der Rollstuhl fuer kranke Windows-Newsreader und fuer OE.
Aktuelle Version 0.8.307: http://home.t-online.de/home/werner.jakobi/
<script>alert("freak");alert("show")</script>

Boris 'pi' Piwinger

unread,

Nov 23, 2001, 7:58:27 AM11/23/01

to

Werner Jakobi wrote:

>>Zusammenfassung, die 2.:
>
> Du hast INN vergessen.

Hast Du eine Loesung dazu?

Irgendwie meine ich mich zu erinnern, dass der eh schon durch was
anderes abgedeckt war.

pi

Christoph Garbers

unread,

Nov 23, 2001, 7:39:09 AM11/23/01

to

* Urs Janßen <u...@chao.tin.org>:

>> $lp matcht auf eines der folgenden -> news

>> .*_-_.*
> ^^AFAIK taucht das nur direkt vor dem @ auf, die hinteren .*
> sind alkso ueberfluessig.

Ja.

Christoph

Boris 'pi' Piwinger

unread,

Nov 23, 2001, 7:54:59 AM11/23/01

to

Peter Dobler wrote:

> Ich kann mich nur an solche Beispiele erinnern:
> [0-9A-F]{8}\.[0-9A-F]{1,8}

Dann passt es ja.

pi

Boris 'pi' Piwinger

unread,

Nov 23, 2001, 7:57:13 AM11/23/01

to

Urs Janßen wrote:

>> $lp matcht auf eines der folgenden -> news

>> .*_-_.*
> ^^AFAIK taucht das nur direkt vor dem @ auf, die hinteren .*
> sind alkso ueberfluessig.

Taucht es eigentlich noch woanders als dort auf:

>> [0-9a-z]+\.fsf(_-_)? => Gnus (*)

> ^^^^^^wird oben schon abgefangen - kann man sich hier
> also sparen.

Nein, laut Vorbemerkung kommt danach ein $.

>> [0-9a-f]+t[0-9a-f]+i[0-9a-f]+n[0-9a-f]+(%[a-zA-Z0-9.+_\-]+)? => tin

> ^^wenn man das
> nach ^ hier sortiert kann man
> sich das \ sparen.

Wohl wahr.

> und wenn man es nicht ganz so genau haben will kann man vorne klammern
> ([\da-f]+[tin]){3},

Mal sehen.

> ausserdem ist [a-zA-Z0-9_] gleich \w. macht

Habe ich nicht gemacht, um die Lesbarkeit fuer die Leute zu erhalten,
die mit diesen Kurzformen nicht so vertraut sind.

pi

Werner Jakobi

unread,

Nov 23, 2001, 11:57:39 AM11/23/01

to

Boris 'pi' Piwinger <3....@logic.univie.ac.at> posted:

>Hast Du eine Loesung dazu?
>
>Irgendwie meine ich mich zu erinnern, dass der eh schon durch was
>anderes abgedeckt war.

[a-z0-9]{6}[.$][a-z0-9]{2,6}[.$][0-9a-f]+ => INN, Hamster, t-online

Boris 'pi' Piwinger

unread,

Nov 23, 2001, 5:39:34 PM11/23/01

to

Urs Janßen <u...@chao.tin.org> wrote:

>>>> $lp matcht auf eines der folgenden -> news
>>>> .*_-_.*
>>> ^^AFAIK taucht das nur direkt vor dem @ auf, die hinteren .*
>>> sind alkso ueberfluessig.
>> Taucht es eigentlich noch woanders als dort auf:
>>>> [0-9a-z]+\.fsf(_-_)? => Gnus (*)
>>> ^^^^^^wird oben schon abgefangen - kann man sich hier
>>> also sparen.
>> Nein, laut Vorbemerkung kommt danach ein $.
>

>wenn das @ nicht in $lp ist und _-_ nur vor dem @ auftaucht, dann ist
>es hier ueberfluessig da ^[0-9a-z]+\.fsf_-_$ eine teilmenge von
>^.*_-_$ ist.

Das schon, aber daher wollte ich ja fragen, ob die erste Regel
ueberfluessig ist, weil es eh nur Gnus macht.

Juergen Haible

unread,

Nov 24, 2001, 11:35:26 AM11/24/01

to

Werner Jakobi:

> Message-ID: <9tlv0o.3vvm52b.1[...]
1234567 :-P

> [a-z0-9]{6}[.$][a-z0-9]{2,6}[.$][0-9a-f]+ => INN, Hamster, t-online

[\da-v]{6,7}\.[\da-v]{1,7}\.\d+ => Hamster [1]
[\da-v]{6,7}\$[\da-v]{1,7}\$\d+ => INN (AFAIK)

T-Online ist wie bei INN, jedoch wird zwischen dem 2. und 3. Teil noch
ein weiterer eingefügt (IIRC: Servernummer, 2-st. dezimal), also etwa:

[\da-v]{6,7}\$[\da-v]{1,7}(\$\d+)?\$\d+ => INN (inkl. T-O-Variante)

> [a-z0-9]{6}[.$][a-z0-9]{2,6}[.$][0-9a-f]+ => INN, Hamster, t-online

[\da-v]{6,7}[.$][\da-v]{1,7}([.$]\d+)?[.$]\d+ => INN (inkl. T-O) + Hamster

INN wird aber auch schon durch das in der Liste enthaltene ".*[$#].*"
abgedeckt, wobei "#" hier etwas fraglich erscheint, da dies zumindest
von T-Online-Kunden zur Markierung der /Mailadresse/ verwendet werden
kann: juergen.haible#wird_aber_sel...@t-online.de

-jh-

[1] Seltenst, da optional (und fragwürdig)+: [\da-f]{32}\.[\da-v]{1,7}\.\d+

Boris 'pi' Piwinger

unread,

Nov 24, 2001, 12:15:45 PM11/24/01

to

Juergen Haible wrote:

>> Message-ID: <9tlv0o.3vvm52b.1[...]
> 1234567 :-P

???

>> [a-z0-9]{6}[.$][a-z0-9]{2,6}[.$][0-9a-f]+ => INN, Hamster, t-online
>
> [\da-v]{6,7}\.[\da-v]{1,7}\.\d+ => Hamster [1]

Wird korrigiert.

> [\da-v]{6,7}\$[\da-v]{1,7}\$\d+ => INN (AFAIK)
>
> T-Online ist wie bei INN, jedoch wird zwischen dem 2. und 3. Teil noch
> ein weiterer eingefügt (IIRC: Servernummer, 2-st. dezimal), also etwa:

Muessen diese Pappnasen Extrawuerste braten? Egal, jetzt erinnere ich,
warum inn nicht drin ist, der wird schon mit der $-Regel erschlagen,
wie Du ja auch schreibst. Und das erfasst sogar T-Offline.

> INN wird aber auch schon durch das in der Liste enthaltene ".*[$#].*"
> abgedeckt, wobei "#" hier etwas fraglich erscheint, da dies zumindest
> von T-Online-Kunden zur Markierung der /Mailadresse/ verwendet werden
> kann: juergen.haible#wird_aber_sel...@t-online.de

PP

pi

Werner Jakobi

unread,

Nov 24, 2001, 12:47:30 PM11/24/01

to

Juergen Haible <juergen...@t-online.de> posted:

>INN wird aber auch schon durch das in der Liste enthaltene ".*[$#].*"
>abgedeckt,

Das ist sowieso eine stark vereinfachende Regel, die ich nicht, bzw.
nicht so hochprioritär anwenden würde. werner$jakobi@anydomain ist
normalerweise eine gültige EMailadresse.

Werner Jakobi

unread,

Nov 24, 2001, 2:09:52 PM11/24/01

to

Boris 'pi' Piwinger <3....@logic.univie.ac.at> posted:

>Muessen diese Pappnasen Extrawuerste braten?

Für eine Serverfarm ist das nicht so abwegig. Wenn du über
load-balancer mehrere INNs bedienst macht es durchaus Sinn, die
Rechnernummer zusätzlich in die M-ID aufzunehmen.

Boris 'pi' Piwinger

unread,

Nov 24, 2001, 3:42:08 PM11/24/01

to

Werner Jakobi <Werner...@bigfoot.com> wrote:

>>INN wird aber auch schon durch das in der Liste enthaltene ".*[$#].*"
>>abgedeckt,
>
>Das ist sowieso eine stark vereinfachende Regel, die ich nicht, bzw.
>nicht so hochprioritär anwenden würde. werner$jakobi@anydomain ist
>normalerweise eine gültige EMailadresse.

Die Diskussion hatten wir am Anfang schon. Sicher ist das formal
korrekt, aber die Erfahrung zeigt doch recht deutlich, dass das keiner
macht (keiner = zu vernachlaessigend viele).

BTW: Ich werde die Regeln in Kuerze in eine Perl-Script packen. Hat
jemand einen grossen (wirklich gross (TM)) Datenbestand, aus der er
Message-IDs und Mailadressen (aus geeigneten Headerfelder) extrahieren
kann, so dass man da mal drueberlaufen kann, um Fehlentscheidungen zu
entdecken?

Juergen Haible

unread,

Nov 24, 2001, 5:37:26 PM11/24/01

to

Boris 'pi' Piwinger:

> Juergen Haible wrote:
>
>>> Message-ID: <9tlv0o.3vvm52b.1[...]
>> 1234567 :-P
>
> ???

Das "roch" nach einer von Hamster generierten ID, auf die aber das für
Hamster im 2. Teil angegebene "{2,6}" nicht gepaßt hätte. Das war ein
Fehler, der Rest eher JFTR denn praxisrelevant.

>> T-Online ist wie bei INN, jedoch wird zwischen dem 2. und 3. Teil noch
>> ein weiterer eingefügt (IIRC: Servernummer, 2-st. dezimal), also etwa:
>
> Muessen diese Pappnasen Extrawuerste braten?

Wenn das eine Extrawurst ist, ist Deine Liste schon derart kalorieen-
reich, daß ein bißchen Ketchup und Mayo auch nicht mehr störte. :o)

-jh-

Nikolaus Rath

unread,

Nov 25, 2001, 3:27:27 PM11/25/01

to

* Boris Piwinger <3....@piology.org> wrote:
> Werner Jakobi <Werner...@bigfoot.com> wrote:
>
>>>INN wird aber auch schon durch das in der Liste enthaltene ".*[$#].*"
>>>abgedeckt,
>>
>>Das ist sowieso eine stark vereinfachende Regel, die ich nicht, bzw.
>>nicht so hochprioritär anwenden würde. werner$jakobi@anydomain ist
>>normalerweise eine gültige EMailadresse.
>
> Die Diskussion hatten wir am Anfang schon. Sicher ist das formal
> korrekt, aber die Erfahrung zeigt doch recht deutlich, dass das keiner
> macht (keiner = zu vernachlaessigend viele).
>
> BTW: Ich werde die Regeln in Kuerze in eine Perl-Script packen. Hat
> jemand einen grossen (wirklich gross (TM)) Datenbestand, aus der er
> Message-IDs und Mailadressen (aus geeigneten Headerfelder)
> extrahieren kann, so dass man da mal drueberlaufen kann, um
> Fehlentscheidungen zu entdecken?

Lass das Script doch einfach durch den Newsspool wandern, oder mangelt
es auch an dem?

Ich könnte dir 472372 Artikel anbieten, allerdings in CNFS
Buffern. Dein Script müsste also über NNTP arbeiten.

--Nikolaus

--
Mitglied im Verrein für die Rettung von dem Genitiv.

Boris 'pi' Piwinger

unread,

Nov 26, 2001, 12:39:47 PM11/26/01

to

Boris 'pi' Piwinger wrote:

>> Ich suche Heuristiken, um Mailadressen von Message-IDs zu
>> unterscheiden.
>

> Zusammenfassung, die 2.:

Und die dritte. Jetzt als Script:
http://piology.org/perl/id-or-mail.pl.html

Besonders bei der Erkennung von Mail-Message-IDs gab ein kleiner Test
noch Probleme. Groessere Tests weren noetig sein und vor allem noch
einige Ergaenzungen. Dazu ein Crossposting in die ebenfalls
betroffenen Gruppen, F'up beachten.

pi

Boris 'pi' Piwinger

unread,

Nov 26, 2001, 12:40:43 PM11/26/01

to

Boris 'pi' Piwinger

unread,

Dec 4, 2001, 9:13:09 AM12/4/01

to

Boris 'pi' Piwinger wrote:

>>> Ich suche Heuristiken, um Mailadressen von Message-IDs zu
>>> unterscheiden.
>>
>> Zusammenfassung, die 2.:
>
> Und die dritte. Jetzt als Script:
> http://piology.org/perl/id-or-mail.pl.html

Dort gibt es jetzt wieder eine neue Version. Anhand der mir
vorliegenden Testdaten erkennt das Script nach menschlichem Ermessen
eine von etwa 7000 Mailadressen nicht und gut eine von 50 Message-IDs
flasch. Das ist so schlecht schon nicht, laesst sich aber bestimmt
noch verbessern.

Speziell fuer Urs:

lynx -dump -width=500 http://piology.org/perl/id-or-mail.pl.html|\
grep '^ \+[0-9]\+ |'|sed 's/........//'

pi

Boris 'pi' Piwinger

unread,

Dec 5, 2001, 6:40:20 AM12/5/01

to

Urs Janßen wrote:

> oder man macht es sich einfach und laesst garkeine (IPv4)
> domain-literals als "mail" zu (benutz eh kein mensch und sie
> muessten laut RFC (2)822 in [] stehen, laut RFC 1036 aber nicht).

Das klingt gut. Danke fuer den Tip, ich werde es in die naechste
Version einbauen.

pi

Boris 'pi' Piwinger

unread,

Dec 5, 2001, 7:30:32 AM12/5/01

to

Boris 'pi' Piwinger wrote:

> Das klingt gut. Danke fuer den Tip, ich werde es in die naechste
> Version einbauen.

Habe ich gerade eingespielt. Wenn also noch wer testen will.

Besonders schwierig erscheint mir XP. Die IDs sehen aus wie
E-Mail-Adressen, daher auch die Klimmzuege. Und die sind durchaus
nicht sicher.

Ansonsten findet bestimmt wer was kluges um die noch haeufigen
Fehlerkennungen von Message-IDs als Mail-Adressen zu reduzieren.

pi

Nikolaus Rath

unread,

Dec 5, 2001, 10:03:22 AM12/5/01

to

Sind das eigentlich Falscherkennungen oder nicht-Erkennungen, also der
Defaultwert?

--Nikolaus

--
Der
* Verein für zum Retten vom Genitiv *
sucht noch Mitglieder!

Boris 'pi' Piwinger

unread,

Dec 5, 2001, 11:33:00 AM12/5/01

to

Urs Janßen wrote:

>> Ansonsten findet bestimmt wer was kluges um die noch haeufigen
>> Fehlerkennungen von Message-IDs als Mail-Adressen zu reduzieren.
>

> so auf die schnelle aus ~20.000 IDs aus uk.rec.* (~10% fehlerquote)

Naja, 10% sind so schlecht ja schon nicht fuer eine fremde Testumgebung.

> ANT baut den local part seiner Message-IDs wohl so auf: ant.{13}
> also z.b.:
> <ant02192...@c.virgin.net>
> <ant01200...@R.zetnet.co.uk>
> <ant30002...@tarags.demon.co.uk>

Hm, das liefert mir dann zusaetzliche Fehler bei den Mails. .{13} ist
gefaehrlich. Deine drei Beispiele und meine 32 deuten darauf hin, dass
es sechs Ziffern nach ant sein muessen:
pgrep -c '<ant\d{6}.{7}@' ids
Ich waere Dir dankbar, wenn Du das bei Dir gegentesten koenntest, das
waere dann wohl hinreichend sicher.

> Turnpike Message-IDs haben wohl immer 16 zeichen im local part:

Solche Generatoren liebe ich ja, das ist fast so schlecht wie XP:-(
Dort habe ich mir beholfen, indem ich nur die erkenne, die mit einer
Ziffer anfangen und zusaetzlich die ausschliesse, die stark geblockt
sind (Zeilen 51, 52). Ich sehe hier leider keinen Angriffspunkt.

Wenn jemand eine Idee hat ...

> Pluto Message-IDs setzten sich anscheinds aus [\da-f]{9,10}+mailaddresse
> zusammen z.b.:

Das ist wahrlich sehr unsicher. Aber ich werde mal was einbauen, dafuer
an anderer Stelle Gegenmassnahmen. Mal sehen. Erhoeht auf jeden Fall die
Fehlerquote fuer Mail (bei mir um drei von knapp 50.000). Das ist relativ
viel.

pi

Boris 'pi' Piwinger

unread,

Dec 5, 2001, 11:36:55 AM12/5/01

to

Nikolaus Rath wrote:

>> Besonders schwierig erscheint mir XP. Die IDs sehen aus wie
>> E-Mail-Adressen, daher auch die Klimmzuege. Und die sind durchaus
>> nicht sicher.
>>
>> Ansonsten findet bestimmt wer was kluges um die noch haeufigen
>> Fehlerkennungen von Message-IDs als Mail-Adressen zu reduzieren.
>
> Sind das eigentlich Falscherkennungen oder nicht-Erkennungen, also der
> Defaultwert?

In der ueberwiegenden Zahl (gut 3:1) sind es nicht-Erkennungen. Ich
werde in Zukunft hier ein mmmm ausgeben, wenn es der Default ist. Das
ist in der Testphase sicher hilfreich.

pi

Werner Jakobi

unread,

Dec 5, 2001, 3:54:10 PM12/5/01

to

Boris 'pi' Piwinger <3....@logic.univie.ac.at> posted:

>>Turnpike Message-IDs haben wohl immer 16 zeichen im local part:

>
>Solche Generatoren liebe ich ja, das ist fast so schlecht wie XP:-(

Das sind 12 Bytes base64-codierter Binärmüll. Ein Muster, z.B in der
Form yymmddhhmmss osä. kann ich leider nicht erkennen. Fehlerfrei
decodierbar sind aber ale Muster aus dem Artikel von Urs.

Gruss, Werner
--
Morver, der Rollstuhl fuer kranke Windows-Newsreader und fuer OE.

Aktuelle Version 1.0.300: http://home.t-online.de/home/werner.jakobi/

Boris 'pi' Piwinger

unread,

Dec 5, 2001, 5:40:31 PM12/5/01

to

Werner Jakobi <Werner...@bigfoot.com> wrote:

>>>Turnpike Message-IDs haben wohl immer 16 zeichen im local part:
>>
>>Solche Generatoren liebe ich ja, das ist fast so schlecht wie XP:-(
>
>Das sind 12 Bytes base64-codierter Binärmüll. Ein Muster, z.B in der
>Form yymmddhhmmss osä. kann ich leider nicht erkennen. Fehlerfrei
>decodierbar sind aber ale Muster aus dem Artikel von Urs.

OK, und wer macht daraus eine Perl-RegExp draus?

Juergen Haible

unread,

Dec 6, 2001, 4:36:55 AM12/6/01

to

Boris 'pi' Piwinger:

> Werner Jakobi <Werner...@bigfoot.com> wrote:
>
>> Das sind 12 Bytes base64-codierter Binärmüll. [...]

>
> OK, und wer macht daraus eine Perl-RegExp draus?

Statt base64' "\" wird wohl "$" verwendet [1], also:

[A-Za-z0-9+$]{16}

Genau 16 Zeichen scheinen aber auch sonst beliebt zu sein, es gibt da
auch Varianten mit "0-9", "A-Za-z" und "0-9A-F" bei MIDs.

Obiges trifft aber auch auf viele Mailadressen zu, und das schon bei
meinem Mini-Datenbestand. Eine hinreichend sichere Erkennung ist wohl
nur möglich, wenn man es auf diejenigen mit "und mind. ein + oder $"
beschränkte.

-jh-

[1]
| Subject: ANNOUNCE: Turnpike v5.00 beta 2
| Message-ID: <9uTcN$ADO4Y...@turnpike.com>

Boris 'pi' Piwinger

unread,

Dec 6, 2001, 4:57:12 AM12/6/01

to

Juergen Haible wrote:

> Statt base64' "\" wird wohl "$" verwendet [1], also:
>
> [A-Za-z0-9+$]{16}
>
> Genau 16 Zeichen scheinen aber auch sonst beliebt zu sein, es gibt da
> auch Varianten mit "0-9", "A-Za-z" und "0-9A-F" bei MIDs.
>
> Obiges trifft aber auch auf viele Mailadressen zu, und das schon bei
> meinem Mini-Datenbestand.

Das ist das Problem.

> Eine hinreichend sichere Erkennung ist wohl
> nur möglich, wenn man es auf diejenigen mit "und mind. ein + oder $"
> beschränkte.

$ fuehrt bei mir eh zur Erkennung als Message-ID. Und + ist nicht so
gut: name+usenet@host ist nicht wirklich selten.

pi

Boris 'pi' Piwinger

unread,

Dec 6, 2001, 5:28:17 AM12/6/01

to

Urs Janßen wrote:

> ~ > pgrep -c '<ant.{13}@' /tmp/ids
> 145
> ~ > pgrep -c '<ant\d{6}.{7}@' /tmp/ids
> 145

Gut, das macht die Sache duetlich sicherer. Ich habe gerade das Script
auf die neueste Form gebracht, dabei sind auch ein paar Tips per Mail
eingegangen. Derzeit in Arbeit ist sendmail.

pi

Werner Jakobi

unread,

Dec 6, 2001, 6:12:28 AM12/6/01

to

Boris 'pi' Piwinger <3....@piology.org> posted:

>OK, und wer macht daraus eine Perl-RegExp draus?

Probiers mal mit {^[+/0-9A-Za-z]{16}$}

Padding mit "=" bzw. "==" scheint ja nicht stattzufinden.

Boris 'pi' Piwinger

unread,

Dec 6, 2001, 6:43:40 AM12/6/01

to

Werner Jakobi wrote:

>>OK, und wer macht daraus eine Perl-RegExp draus?
>
> Probiers mal mit {^[+/0-9A-Za-z]{16}$}

Das erkennt faktisch alles, was 16 Zeichen lang ist. Fuehrt also zu
zahlreichen Fehlerkennungen von E-Mail-Adressen. Das ist ja das Problem.

pi

Boris 'pi' Piwinger

unread,

Dec 6, 2001, 7:04:39 AM12/6/01

to

Urs Janßen wrote:

>> so auf die schnelle aus ~20.000 IDs aus uk.rec.* (~10% fehlerquote)

Angesichts Deiner zahlreichen Hinweise habe ich jetzt noch einen
Dankesabschnitt eingefuegt;-)

> PMINews erzeugt IDs der Form <[a-z]{10,21}\.[a-z0-9]{8}\.pminews@
> (wobei die {10,21} 'geraten' ist) z.b:

Ich komme auf bis zu 24 am Anfang und 7 hinten.

> Hogwasher stellt an die 3,4 stelle HW, die ersten beiden koennten die
> jahreszahl sein (ich hab hier grad nur 01), dann ein . und dann 24 hex
> zahlen also sowas <\d\dHW\.[\dA-F]{24}@ - beispiele:

Bisher wurden die von einer Ratergel mit erschlagen. So ist es aber
sichererer. Und schon ist die neue Version drin.

pi

Sebastian Posner

unread,

Dec 6, 2001, 9:35:35 AM12/6/01

to

Urs Janßen meinte kundzutun:

[id-or-mail.pl Test]

Hm. Jetzt wäre auch mal interessant, wie richtig das Script Mailadressen
erkennt. Evtl mal a la Spammer eine Sammlung von Emailadressen aus dem
Spool sammeln und das Script drauf loslassen. Denn solange nur gestestet
wird, wie hoch der Anteil der erkannten M-IDs ist ist das recht
unaussagekräftig.

Sebastian
--
Dieser Artikel ging an folgende Newsgroups: de.comm.software.newsreader
Er wurde am Donnerstag, dem 06. Dezember im Jahre des Herrn 2001 verfaßt.

Boris 'pi' Piwinger

unread,

Dec 6, 2001, 9:51:41 AM12/6/01

to

Urs Janßen wrote:

Die grep -v koennen weg;-)

Mit den Fehlerkennungen kann man wohl gut leben. Die Nichterkennungen
duerfen noch sinken.

> + return "m-id" if ($lp =~ m/^.{11}8e.{3}$/); # Turnpike

Hm, ich habe zwar nur ein Drittel so viele IDs zum testen, finde dort
aber ueberhaupt nur 20 solche IDs, die dazu noch alle so erkannt
wurden. Strange.

pi

Boris 'pi' Piwinger

unread,

Dec 6, 2001, 9:54:47 AM12/6/01

to

Sebastian Posner wrote:

> [id-or-mail.pl Test]
>
> Hm. Jetzt wäre auch mal interessant, wie richtig das Script Mailadressen
> erkennt. Evtl mal a la Spammer eine Sammlung von Emailadressen aus dem
> Spool sammeln und das Script drauf loslassen.

BTDT. Liegt bei mir rund bei einer Adresse von 5000.

pi

Boris 'pi' Piwinger

unread,

Dec 6, 2001, 10:52:12 AM12/6/01

to

Urs Janßen wrote:

> --- id-or-mail.pl Thu Dec 6 14:59:08 2001
> +++ id-or-mail.pl.new Thu Dec 6 15:16:33 2001

Oder so aehnlich (Umbrueche ...):
return "m-id" if ($lp=~/[-.][\da-f]{6}\.\d{14}$/);# MT-NewsWatcher
return "m-id" if (length($lp)==11 && $lp=~/\d(?=.*[a-z]).*-/);
# still XP
return "m-id" if
($lp=~/^\d{2,4}[.-]\d\d[.-]\d{2,4}.*\d\d[.-]\d\d[.-]\d\d/);
# just guessing
return "m-id" if ($lp=~/([.-])\d{4,}\1\d{3,}$/;# just guessing

Letzteres ist ein Hammer.

Damit bin ich jetzt unter 1% Fehler und brauche neue Testdaten;-)
Koenntest Du mir Deine zur Verfuegung stellen? Woher kommen die
eigentlich, Du hattest mal uk.* geschrieben? Etwas alt oder comp oder
rec waere auch nicht schlecht.

pi

PS: Die neue Version ist in wenigen Minuten im Web abrufbar.

Werner Jakobi

unread,

Dec 6, 2001, 10:56:46 AM12/6/01

to

Juergen Haible <juergen...@t-online.de> posted:

>Statt base64' "\" wird wohl "$" verwendet [1], also:

s/\\/\//

Juergen Haible

unread,

Dec 6, 2001, 12:05:39 PM12/6/01

to

Boris 'pi' Piwinger:

[Turnpike]
>> [A-Za-z0-9+$]{16}

>>
>> Obiges trifft aber auch auf viele Mailadressen zu, und das schon bei
>> meinem Mini-Datenbestand.
>
> Das ist das Problem.

Hm, fünftletzte Stelle stieg stetig von "4" (Dez. 99) bis auf "8" an
(Dez. 01) - hält also grob ca. 1/2 Jahr. Die viertletzte Stelle scheint
immer "E" oder "M" und die drittletzte immer "A" oder "w" zu sein. [1]

Bei den restlichen Stellen kann ich bislang kein Schema erkennen, über
das die Zeichenmenge einschränkbar wäre.

Datenbasis: 16 Stück dieses Typs (Turnpike-Announces von Google), grob
auf 12.99 bis 12.01 verteilt - kurzum: ziemlich dürftig. ;-)

-jh-

[1] Chronologisch sortiert: 4EA, 5EA, 6MA, 6Ew, 6MA, 6Ew, 7MA, 8MA.
Dazu noch die 8Ew und 8EA von Urs, vermutlich alle nach 17.9.01.

Nikolaus Rath

unread,

Dec 5, 2001, 4:07:28 PM12/5/01

to

* Boris Piwinger <3....@logic.univie.ac.at> wrote:

>> Pluto Message-IDs setzten sich anscheinds aus [\da-f]{9,10}+mailaddresse
>> zusammen z.b.:
>
> Das ist wahrlich sehr unsicher.

Du hast daran gedacht, deine Funktion fuer `mailadresse' sich selbst
aufrufen zu lassen, oder?

--Nikolaus

--
Heute kann man ja kaum noch eine AOL-CD aus dem Fenster werfen, ohne
jemanden zu treffen, der einen SuSE-Karton unter dem Arm trägt.
- Jochem Huhmann, de.comp.os.unix.discussion

Werner Jakobi

unread,

Dec 6, 2001, 1:39:18 PM12/6/01

to

Boris 'pi' Piwinger <3....@logic.univie.ac.at> posted:

>Das erkennt faktisch alles, was 16 Zeichen lang ist. Fuehrt also zu

>zahlreichen Fehlerkennungen von E-Mail-Adressen. Das ist ja das
>Problem.

Das hab ich (leider zu spät) dann auch noch selbst bemerkt.