We are currently trying the Author Topic Model. All we get are 0.000 probabilities, no matter the size of the corpus or the number of topics.
The training also just takes a couple of seconds (independent of number of passes). This can't be right.
num_topics=10
corpus = [dct.doc2bow(text) for text in texts]
model = AuthorTopicModel(corpus, id2word=dct, num_topics=num_topics, chunksize=2000, passes=500, iterations=20)
print(model)
print(model.print_topics(num_words=10))
AuthorTopicModel(num_terms=304953, num_topics=10, num_authors=0, decay=0.5, chunksize=2000)
[(0, '0.000*"brünstiglich" + 0.000*"feuerhaus" + 0.000*"sonnenhimmels" + 0.000*"allzugrau\u017fame" + 0.000*"gleubts" + 0.000*"freiflüssend" + 0.000*"orlogsmänner" + 0.000*"275" + 0.000*"gesalzne" + 0.000*"jammerkreiß"'), (1, '0.000*"untermenget" + 0.000*"glanzgewimmel" + 0.000*"büchersäle" + 0.000*"wegzudonnern" + 0.000*"harpy" + 0.000*"strohl" + 0.000*"erobrergrösse" + 0.000*"ruhtenbund" + 0.000*"demanttropfen" + 0.000*"hinaufgekommen"'), (2, '0.000*"verjüngender" + 0.000*"furchtbarster" + 0.000*"nderin" + 0.000*"caro\u017f\u017fe" + 0.000*"porte" + 0.000*"wunderholde" + 0.000*"feierzeit" + 0.000*"felses" + 0.000*"volksgetu" + 0.000*"aufgelodert"'), (3, '0.000*"trübseliger" + 0.000*"durchtrabt" + 0.000*"sönnen" + 0.000*"apportiren" + 0.000*"wid" + 0.000*"samstagmorgen" + 0.000*"angeschwirrt" + 0.000*"\u017ftab" + 0.000*"königsgruß" + 0.000*"machangelstrauch"'), (4, '0.000*"sternenkampe" + 0.000*"augenhimmel" + 0.000*"romniz" + 0.000*"grenzweg" + 0.000*"unsinnige" + 0.000*"k\u0119gelbahn" + 0.000*"eue" + 0.000*"meermoß" + 0.000*"wegzureysen" + 0.000*"surrende"'), (5, '0.000*"blocksbergstyl" + 0.000*"stilgefühl" + 0.000*"stummem" + 0.000*"teupe" + 0.000*"dunckelheit" + 0.000*"rei\u017felu\u017ft" + 0.000*"ingedenk" + 0.000*"glossieren" + 0.000*"vielgestalt" + 0.000*"haareinlagen"'), (6, '0.000*"zurückzuspringen" + 0.000*"thôr" + 0.000*"möchten" + 0.000*"himmelstheile" + 0.000*"kente" + 0.000*"bergnebel" + 0.000*"embsiglich" + 0.000*"eingepflanzter" + 0.000*"belagrungszustand" + 0.000*"flammen\u017fchein"'), (7, '0.000*"auszu\u017fchlafen" + 0.000*"raköthe" + 0.000*"jetzgen" + 0.000*"menschenhohen" + 0.000*"abgestochen" + 0.000*"kompromittiret" + 0.000*"auf\u017fchließt" + 0.000*"gestohl" + 0.000*"devotest" + 0.000*"gramlied"'), (8, '0.000*"aufgeweckter" + 0.000*"weibchen" + 0.000*"sonnenglühen" + 0.000*"eingeschrenkt" + 0.000*"mokant" + 0.000*"felsengang" + 0.000*"chüblen" + 0.000*"manheim" + 0.000*"vermachet" + 0.000*"gaukelndes"'), (9, '0.000*"feilgespreizt" + 0.000*"frauenthränen" + 0.000*"beschencken" + 0.000*"siegesjauchzen" + 0.000*"hochzeittanze" + 0.000*"angeworbnem" + 0.000*"gewähr" + 0.000*"grüs" + 0.000*"anwald" + 0.000*"pümmt"')]
AuthorTopicModel(num_terms=304953, num_topics=10, num_authors=0, decay=0.5, chunksize=2000)
[(0, '0.000*"begläntzet" + 0.000*"silberblauen" + 0.000*"rhodopeus" + 0.000*"lilienverwandte" + 0.000*"zurückgreifend" + 0.000*"maulwurff" + 0.000*"betrachter" + 0.000*"gurr" + 0.000*"bluteswallungen" + 0.000*"bejreift"'), (1, '0.000*"hainbaum" + 0.000*"genef" + 0.000*"erquikken" + 0.000*"nachtigalle" + 0.000*"verruffen" + 0.000*"sommerlaue" + 0.000*"waldgeraune" + 0.000*"könte" + 0.000*"pilgerierten" + 0.000*"ver\u017ftumm"'), (2, '0.000*"menschenseyns" + 0.000*"offenherzig" + 0.000*"fluecht" + 0.000*"himmelswege" + 0.000*"gluthgeschwader" + 0.000*"erschauet" + 0.000*"urbusch" + 0.000*"meerentsandt" + 0.000*"begoßner" + 0.000*"sickelt"'), (3, '0.000*"ausruhend" + 0.000*"um\u017fchra" + 0.000*"entrücken" + 0.000*"josiah" + 0.000*"entbittert" + 0.000*"rmet" + 0.000*"duco" + 0.000*"ve\u017fevus" + 0.000*"knick" + 0.000*"cleanth"'), (4, '0.000*"aehrenwald" + 0.000*"weltbekanntem" + 0.000*"hundertklauigen" + 0.000*"mäntlein" + 0.000*"verwilderter" + 0.000*"vnbekand" + 0.000*"obgerungen" + 0.000*"anfachen" + 0.000*"bünden" + 0.000*"behalten"'), (5, '0.000*"zukunftskrone" + 0.000*"götzenbilder" + 0.000*"heldenthrone" + 0.000*"cymbale" + 0.000*"lte\u017fte" + 0.000*"geblöckt" + 0.000*"n\u017ftlich\u017fte" + 0.000*"kanzeli\u017ften" + 0.000*"goldgewand" + 0.000*"verschnarcht"'), (6, '0.000*"umblühn" + 0.000*"pfannkuchen" + 0.000*"spottgeburt" + 0.000*"lästermäulig" + 0.000*"windeskraft" + 0.000*"augengift" + 0.000*"verwelckter" + 0.000*"be\u017fcheert" + 0.000*"niederflammt" + 0.000*"aufmerck\u017fames"'), (7, '0.000*"seelenzucht" + 0.000*"anheimgestellt" + 0.000*"11" + 0.000*"konsole" + 0.000*"faustgroße" + 0.000*"ge\u017fchmiert" + 0.000*"schapställ" + 0.000*"krampfte" + 0.000*"selle" + 0.000*"psalmengesang"'), (8, '0.000*"stralesund" + 0.000*"silberperl" + 0.000*"fürgesetzet" + 0.000*"tempel" + 0.000*"trauer\u017fang" + 0.000*"moskowitern" + 0.000*"kinderjahre" + 0.000*"scanderbeck" + 0.000*"prickt" + 0.000*"uberschwemm"'), (9, '0.000*"durchfuchtelnd" + 0.000*"rittertroß" + 0.000*"gründungssteine" + 0.000*"irreligiös" + 0.000*"spröd" + 0.000*"schätztest" + 0.000*"sälden" + 0.000*"sturben" + 0.000*"jahrszeit" + 0.000*"bezwangen"')]
AuthorTopicModel(num_terms=2766, num_topics=10, num_authors=0, decay=0.5, chunksize=2000)
[(0, '0.000*"trächtig" + 0.000*"zusammenflossen" + 0.000*"unempfindlichkeit" + 0.000*"ge\u017fchnittene" + 0.000*"meer" + 0.000*"wahn" + 0.000*"artus" + 0.000*"wiederkehre" + 0.000*"lustig" + 0.000*"scheut"'), (1, '0.000*"jahren" + 0.000*"freudenbahre" + 0.000*"stärkre" + 0.000*"gewicht" + 0.000*"trillerten" + 0.000*"ber\u017fchrifft" + 0.000*"steine" + 0.000*"flogen" + 0.000*"duft" + 0.000*"priesterwein"'), (2, '0.001*"met" + 0.000*"wasser" + 0.000*"acoluth" + 0.000*"wegen" + 0.000*"reistest" + 0.000*"mirs" + 0.000*"kniet" + 0.000*"\u017fer" + 0.000*"schlüssel" + 0.000*"pereat"'), (3, '0.000*"drehn" + 0.000*"unendlichen" + 0.000*"todeswunden" + 0.000*"48" + 0.000*"lang" + 0.000*"erden" + 0.000*"merkur" + 0.000*"sünden" + 0.000*"rollen" + 0.000*"bins"'), (4, '0.000*"schlage" + 0.000*"fall" + 0.000*"heiteren" + 0.000*"ersieht" + 0.000*"asche" + 0.000*"dumpfe" + 0.000*"verschloßten" + 0.000*"angeschienen" + 0.000*"meißel" + 0.000*"andren"'), (5, '0.001*"end" + 0.000*"klagen" + 0.000*"fal\u017fch" + 0.000*"schön" + 0.000*"nde" + 0.000*"thore" + 0.000*"warm" + 0.000*"tiefen" + 0.000*"blendend" + 0.000*"wurden"'), (6, '0.000*"phönixnest" + 0.000*"gern" + 0.000*"meergöttinnen" + 0.000*"weisen" + 0.000*"entsprossen" + 0.000*"\u017fteigt" + 0.000*"wollt" + 0.000*"lindor" + 0.000*"fährt" + 0.000*"obherrschen"'), (7, '0.000*"sollt" + 0.000*"ehre" + 0.000*"hektor" + 0.000*"topfe" + 0.000*"unglückliche" + 0.000*"undanckbarkeit" + 0.000*"54" + 0.000*"wies" + 0.000*"pitts" + 0.000*"blümlein"'), (8, '0.001*"erfahren" + 0.000*"erweckte" + 0.000*"offen" + 0.000*"morgens" + 0.000*"gesäme" + 0.000*"schenken" + 0.000*"waffensaal" + 0.000*"protegees" + 0.000*"vergeuden" + 0.000*"lege"'), (9, '0.000*"denck" + 0.000*"stern" + 0.000*"vorurtheilen" + 0.000*"opferkuchen" + 0.000*"bäumlein" + 0.000*"taubenschlage" + 0.000*"gutes" + 0.000*"fremde" + 0.000*"blicken" + 0.000*"persepolis"')]
Best,
Thomas