list of German stopwords

1,257 views
Skip to first unread message

Rudy

unread,
Jul 4, 2011, 10:40:48 AM7/4/11
to ResourceSpace
Hi all,

as far as I could tell, there were only English and Swedish stop-words
so far, so I came up with this list of German stopwords:

--- 8< ---
# $noadd=array_merge($noadd, array("", "ab", "aber", "abk.", "alle",
"allem", "allen", "aller", "alles", "allg.", "als", "also", "am",
"an", "ander", "andere", "anderem", "anderen", "anderer", "anderes",
"andern", "anders", "ã½ber", "auch", "auf", "aus", "bei", "bes.",
"bez.", "bin", "bis", "bist", "bspw.", "da", "daãŸ", "daher", "damit",
"dann", "das", "dass", "dasselbe", "dazu", "dein", "deine", "deinem",
"deinen", "deiner", "deines", "dem", "demselben", "den", "denn",
"denselben", "der", "derer", "derselbe", "derselben", "des",
"deshalb", "desselben", "dessen", "dich", "die", "dies", "diese",
"dieselbe", "dieselben", "diesem", "diesen", "dieser", "dieses",
"dir", "doch", "dort", "dt.", "du", "durch", "edv", "ehem.", "eigtl.",
"ein", "eine", "einem", "einen", "einer", "eines", "einig", "einige",
"einigem", "einigen", "einiger", "einiges", "einmal", "er", "es",
"etc.", "etwas", "euch", "euer", "eure", "eurem", "euren", "eurer",
"eures", "fã½r", "ganz", "ganze", "ganzen", "ganzer", "ganzes",
"gegen", "ggf.", "hab", "habe", "haben", "hat", "hatten", "hier",
"hin", "hinter", "ich", "ihm", "ihn", "ihnen", "ihr", "ihre", "ihrem",
"ihren", "ihrer", "ihres", "im", "in", "indem", "ins", "ist", "ja",
"jede", "jedem", "jeden", "jeder", "jedes", "jene", "jenem", "jenen",
"jener", "jenes", "jetzt", "kann", "kã¶nnen", "kã¶nnte", "kein",
"keine", "keinem", "keinen", "keiner", "keines", "konnte", "mache",
"machst", "macht", "machte", "man", "manche", "manchem", "manchen",
"mancher", "manches", "mein", "meine", "meinem", "meinen", "meiner",
"meines", "mich", "mir", "mit", "nach", "nein", "nicht", "nichts",
"noch", "nun", "nur", "o.ã¤.", "ob", "oder", "o.g.", "ohne", "sein",
"seine", "seinem", "seinen", "seiner", "seines", "selbst", "sich",
"sicher", "sie", "sind", "so", "solche", "solchem", "solchen",
"solcher", "solches", "sollte", "sondern", "u.a.", "u.ã¤.", "u.g.",
"ugs.", "um", "und", "uns", "unser", "unter", "uvm.", "vgl.", "viel",
"vielleicht", "vom", "von", "vor", "wã¤hrend", "wann", "warum", "was",
"weg", "weil", "weiter", "welche", "welchem", "welchen", "welcher",
"welches", "wenn", "wer", "wie", "wieder", "wir", "wo", "z.b.", "zu",
"zum", "zur", "zwar"));
--- 8< ---

I took an online list and shortened it quite a bit, then added some
common abbreviations. Could I ask for some feedback from other German
users, and could we then get it into a sub-release a couple of weeks
in the future?

Thanks a lot!

Cheers,
Rudy

Stefan Wild

unread,
Jul 6, 2011, 4:13:30 AM7/6/11
to ResourceSpace
Hi Rudy,

there's a Problem with the character set in your post, so the umlaute
appear incorrect. Otherwise I like your list and would be happy to
include it in the config.default.php

Maybe you want to post your list on resourcespace.de (a German RS
community I created) as well, as there are a couple more German
ResourceSpace users.

Best,
Stefan

Nils S

unread,
Aug 10, 2018, 5:54:35 AM8/10/18
to ResourceSpace
i know its old, but here is the corrected list as utf8 for all who searched for a german stoplist as php array :)

array(      "ab",

           
"aber",
           
"abk.",
           
"alle",
           
"allem",
           
"allen",
           
"aller",
           
"alles",
           
"allg.",
           
"als",
           
"also",
           
"am",
           
"an",
           
"ander",
           
"andere",
           
"anderem",
           
"anderen",
           
"anderer",
           
"anderes",
           
"andern",
           
"anders",

           
"über",

           
"auch",
           
"auf",
           
"aus",
           
"bei",
           
"bes.",
           
"bez.",
           
"bin",
           
"bis",
           
"bist",
           
"bspw.",
           
"da",

           
"daß",
           
"dass",

           
"für",

           
"können",
           
"könnte",

           
"o.ä.",

           
"ob",
           
"oder",
           
"o.g.",
           
"ohne",
           
"sein",
           
"seine",
           
"seinem",
           
"seinen",
           
"seiner",
           
"seines",
           
"selbst",
           
"sich",
           
"sicher",
           
"sie",
           
"sind",
           
"so",
           
"solche",
           
"solchem",
           
"solchen",
           
"solcher",
           
"solches",
           
"sollte",
           
"sondern",
           
"u.a.",

           
"u.ä.",

           
"u.g.",
           
"ugs.",
           
"um",
           
"und",
           
"uns",
           
"unser",
           
"unter",
           
"uvm.",
           
"vgl.",
           
"viel",
           
"vielleicht",
           
"vom",
           
"von",
           
"vor",

           
"während",

           
"wann",
           
"warum",
           
"was",
           
"weg",
           
"weil",
           
"weiter",
           
"welche",
           
"welchem",
           
"welchen",
           
"welcher",
           
"welches",
           
"wenn",
           
"wer",
           
"wie",
           
"wieder",
           
"wir",
           
"wo",
           
"z.b.",
           
"zu",
           
"zum",
           
"zur",
           
"zwar"
);




Reply all
Reply to author
Forward
0 new messages