Wenn zu viele Texte mit bestimmten Merkmalen in den Trainingsdaten vorhanden sind, werden diese Merkmale überproportional vertreten. Zum Beispiel wird das US-amerikanische Wort "subway" vielleicht öfters vorgeschlagen als das britische "underground", oder das deutsche Wort "grillen" (DE) wird verwendet, anstatt "grillieren" (CH), so wie es eigentlich in der Schweiz heißen müsste.