You are on page 1of 6

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/321607529

Distribution of Gender in German Nouns by their Endings

Preprint · December 2017


DOI: 10.13140/RG.2.2.21784.70403

CITATIONS READS

0 4,062

1 author:

Mohammad-Ali A'râbi
University of Freiburg
13 PUBLICATIONS   0 CITATIONS   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Linear-Time Temporal Type Theory View project

Hyperparameter Optimization with Multivariate Kernel Density Estimators View project

All content following this page was uploaded by Mohammad-Ali A'râbi on 07 December 2017.

The user has requested enhancement of the downloaded file.


Distribution of Gender in German Nouns by their Endings
Mohammad Ali ARABI
December 7, 2017

Abstract
We can find lots of “der/die/das charts” here and then, categorizing gender of German
nouns by their endings among other methods. In this paper we will do a statistical analysis
of these classifications, and try to provide an statistical “der/die/das chart” at the end.

1 Method
We use the data is obtained from dict.cc (Deutsch-English-Wörterbuch) to statistically analyze
gender distribution of different German noun endings, as well as extracting new endings by gender
distribution and frequency1 . Table 1 examines a common “der/die/das chart”, stating that, for
example, nouns ending with ‘-er’ are masculine, although this is true in %79.69 of the words in the
dataset.

der die das


-ling 93.04 0.81 6.15
-or 92.99 0.09 6.92
-us 67.88 19.48 12.64
-er 79.69 7.95 12.36
-e 4.74 91.78 3.48
-ei 16.54 77.63 5.83
-heit 0.59 98.87 0.54
-keit 0.54 99.39 0.07
-schaft 3.43 96.40 0.17
-ung 0.58 99.37 0.05
-tät 0.05 99.95 0.00
-ik 2.66 96.30 1.04
-ur 15.98 81.83 2.19
-ion 0.78 96.57 2.65
-chen 8.46 0.19 91.36
-lein 6.08 0.68 93.24
-ment 5.44 0.14 94.42
-nis 2.70 15.16 82.14
-um 32.35 0.24 67.41
-tum 7.11 0.00 92.89

Table 1: statistical examination of a sample “der/die/das table”

2 Extracting New Charts


Calculating all German noun endings (up to 10 letters) and their gender distributions, we are
interested in most frequent endings with almost one-gender distribution. The table 2 shows 50
most frequent German noun endings with %90+ gender distribution to one gender. Table 3 extends
the table 2 to top 50 endings in each gender. And table 4 illustrates top 50 endings in each gender
with most single-gender distribution.
1 The code is available on the Github repository: https://github.com/angellandros/substantive

1
3 THE ULTIMATE DER/DIE/DAS CHART 2

m f n count
-f 90.04 0.49 9.48 4727
-ler 99.38 0.18 0.44 3854
-ger 92.13 0.11 7.76 3658
-or 92.99 0.09 6.92 3294
-her 98.81 0.65 0.54 2613
-tor 95.55 0.08 4.37 2495
-ner 98.76 0.25 0.99 2414
-cher 99.39 0.14 0.47 2116
-mus 98.76 0.14 1.10 2093
-e 4.74 91.78 3.48 74648
-ung 0.58 99.37 0.05 32347
-ie 0.62 98.87 0.51 11601
-te 2.67 95.71 1.62 8789
-eit 3.62 96.07 0.31 8270
-ion 0.78 96.57 2.65 8198
-se 4.57 92.19 3.24 8068
-rung 1.85 98.08 0.07 7344
-le 2.55 93.65 3.80 6818
-tion 0.08 99.53 0.39 6643
-erung 0.02 99.91 0.07 5681
-tung 0.12 99.84 0.04 5011
-ne 2.28 96.09 1.62 4556
-keit 0.54 99.39 0.07 4421
-rin 1.42 95.10 3.48 4084
-lung 0.05 99.95 0.00 3987
-ation 0.10 99.36 0.54 3912
-lle 2.26 96.22 1.52 3679
-he 1.62 96.36 2.02 3570
-erin 0.06 98.65 1.30 3545
-ik 2.66 96.30 1.04 3272
-ke 6.33 92.38 1.29 3175
-ierung 0.00 99.93 0.07 3039
-gkeit 0.04 99.96 0.00 2811
-igkeit 0.04 99.96 0.00 2809
-re 2.87 92.18 4.95 2788
-gung 0.07 99.89 0.04 2700
-che 1.85 95.63 2.52 2700
-nung 0.12 99.84 0.04 2503
-pe 1.20 97.60 1.20 2501
-tte 0.77 98.63 0.60 2481
-dung 0.42 99.58 0.00 2403
-aft 7.62 92.07 0.31 2256
-heit 0.59 98.87 0.54 2214
-age 1.32 97.51 1.17 2128
-elle 0.89 99.01 0.10 2029
-gie 0.05 99.95 0.00 2012
-tät 0.05 99.95 0.00 2012
-ität 0.05 99.95 0.00 1983
-hen 7.83 0.24 91.93 4635
-chen 8.46 0.19 91.36 4246

Table 2: most frequent endings with %90+ distribution in one gender

3 The Ultimate Der/Die/Das Chart


3 THE ULTIMATE DER/DIE/DAS CHART 3

m count f count n count


-f 90.04 4727 -e 91.78 74648 -hen 91.93 4635
-ler 99.38 3854 -ung 99.37 32347 -chen 91.36 4246
-ger 92.13 3658 -ie 98.87 11601 -em 97.41 1967
-or 92.99 3294 -te 95.71 8789 -tem 99.22 1542
-her 98.81 2613 -eit 96.07 8270 -stem 99.48 1534
-tor 95.55 2495 -ion 96.57 8198 -ystem 99.47 1520
-ner 98.76 2414 -se 92.19 8068 -ment 94.42 1416
-cher 99.39 2116 -rung 98.08 7344 -ren 95.52 1405
-mus 98.76 2093 -le 93.65 6818 -system 99.50 1400
-ag 98.16 1952 -tion 99.53 6643 -ium 100.00 1221
-ker 98.96 1931 -erung 99.91 5681 -ramm 99.68 945
-smus 99.69 1924 -tung 99.84 5011 -gramm 99.68 944
-ismus 99.73 1868 -ne 96.09 4556 -hren 99.64 827
-ich 91.69 1672 -keit 99.39 4421 -rät 99.75 798
-atz 99.15 1525 -rin 95.10 4084 -erät 99.74 762
-rer 100.00 1512 -lung 99.95 3987 -ahren 99.74 756
-ling 93.04 1479 -ation 99.36 3912 -fahren 99.74 755
-ang 97.37 1408 -lle 96.22 3679 -drom 99.73 745
-aum 99.71 1372 -he 96.36 3570 -gerät 99.73 744
-uss 93.98 1230 -erin 98.65 3545 -ndrom 99.73 738
-nger 99.39 1152 -ik 96.30 3272 -ichen 99.73 735
-pf 99.73 1132 -ke 92.38 3175 -yndrom 99.73 730
-nder 95.81 1122 -ierung 99.93 3039 -ogramm 99.86 729
-tand 99.64 1110 -gkeit 99.96 2811 -eichen 99.72 727
-stand 99.82 1102 -igkeit 99.96 2809 -etz 98.90 727
-satz 99.53 1072 -re 92.18 2788 -ett 98.62 727
-scher 99.50 991 -gung 99.89 2700 -eld 94.80 711
-nner 98.18 991 -che 95.63 2700 -erfahren 99.72 702
-ogel 99.69 953 -nung 99.84 2503 -rfahren 99.72 702
-vogel 99.89 947 -pe 97.60 2501 -erk 93.73 702
-nn 96.07 915 -tte 98.63 2481 -ement 92.06 693
-ktor 99.67 910 -dung 99.58 2403 -raut 97.73 661
-rag 99.67 904 -aft 92.07 2256 -werk 99.85 653
-trag 99.89 901 -heit 98.87 2214 -kraut 99.54 647
-änger 100.00 897 -age 97.51 2128 -ell 90.57 615
-fisch 100.00 894 -elle 99.01 2029 -eug 99.67 611
-ator 99.66 885 -tät 99.95 2012 -zeug 99.67 610
-iger 99.77 865 -gie 99.95 2012 -verfahren 99.67 606
-uf 99.88 863 -ität 99.95 1983 -tum 92.89 591
-opf 100.00 794 -ze 95.33 1968 -ittel 96.97 561
-nit 97.08 788 -rie 99.09 1867 -buch 100.00 547
-hrer 100.00 741 -cke 99.25 1860 -mittel 99.81 539
-zer 99.73 739 -hung 99.94 1800 -Syndrom 99.63 538
-gang 98.62 727 -tur 99.39 1796 –Syndrom 99.63 534
-cker 99.17 721 -ktion 99.77 1755 -nchen 99.81 524
-uck 99.29 704 -haft 96.18 1752 -recht 99.22 516
-ock 96.02 704 -chaft 96.34 1721 -rogramm 99.80 506
-auf 100.00 701 -schaft 96.40 1720 -rum 96.60 500
-zug 99.86 698 -ose 98.68 1673 -ssystem 99.19 495
-reis 97.36 683 -ppe 98.64 1467 -zeichen 99.58 480

Table 3: most frequent 50 endings in each gender


3 THE ULTIMATE DER/DIE/DAS CHART 4

m f n
-rer 100.00 -chung 100.00 -ium 100.00
-änger 100.00 -logie 100.00 -buch 100.00
-fisch 100.00 -ologie 100.00 -programm 100.00
-opf 100.00 -zung 100.00 -haus 100.00
-hrer 100.00 -igung 100.00 -rium 100.00
-auf 100.00 -llung 100.00 -spiel 100.00
-hler 100.00 -bung 100.00 -ogramm 99.86
-raum 100.00 -tzung 100.00 -werk 99.85
-panner 100.00 -ellung 100.00 -mittel 99.81
-erer 100.00 -ltung 100.00 -nchen 99.81
-spanner 100.00 -altung 100.00 -rogramm 99.80
-iker 100.00 -tellung 100.00 -öl 99.78
-halter 100.00 -stellung 100.00 -piel 99.78
-etscher 100.00 -sierung 100.00 -rät 99.75
-baum 100.00 -lität 100.00 -erät 99.74
-letscher 100.00 -chine 100.00 -ahren 99.74
-Gletscher 100.00 -schine 100.00 -fahren 99.74
–Gletscher 100.00 -aschine 100.00 -drom 99.73
-kopf 100.00 -isierung 100.00 -gerät 99.73
-hluss 100.00 -maschine 100.00 -ndrom 99.73
-chluss 100.00 -tigkeit 100.00 -ichen 99.73
-schluss 100.00 -nnung 100.00 -yndrom 99.73
-sänger 100.00 -yse 100.00 -eichen 99.72
-aktor 100.00 -trie 100.00 -erfahren 99.72
-lauf 100.00 -lyse 100.00 -rfahren 99.72
-chlag 100.00 -ilung 100.00 -ramm 99.68
-hlag 100.00 -eilung 100.00 -gramm 99.68
-schlag 100.00 -telle 100.00 -eug 99.67
-äfer 100.00 -stelle 100.00 -zeug 99.67
-griff 100.00 -taube 100.00 -verfahren 99.67
-vogel 99.89 -lerin 100.00 -hren 99.64
-trag 99.89 -teilung 100.00 -Syndrom 99.63
-uf 99.88 -necke 100.00 –Syndrom 99.63
-zug 99.86 -hnecke 100.00 -zeichen 99.58
-luss 99.85 -chnecke 100.00 -setz 99.58
-auch 99.83 -schnecke 100.00 -esetz 99.58
-stand 99.82 -alyse 100.00 -gesetz 99.55
-trieb 99.81 -schung 100.00 -kraut 99.54
-stoff 99.80 -aktion 100.00 -ück 99.52
-punkt 99.79 -haltung 100.00 -eren 99.52
-dler 99.79 -digkeit 100.00 -system 99.50
-zess 99.78 -alität 100.00 -stem 99.48
-tzer 99.78 -nalyse 100.00 -ystem 99.47
-ffekt 99.77 -äche 100.00 -recht 99.22
-iger 99.77 -hlung 100.00 -tem 99.22
-wagen 99.76 -etzung 100.00 -ssystem 99.19
-rtrag 99.76 -rolle 100.00 -feld 99.06
-ozess 99.76 -ckung 100.00 -etz 98.90
-rozess 99.76 -analyse 100.00 -ett 98.62
-lismus 99.75 -karte 100.00 -trum 98.11

Table 4: top 50 endings with best distributions in each gender


3 THE ULTIMATE DER/DIE/DAS CHART 5

Ending Example
der
-mus (98%) Anonymus, Logarithmus, Algorithmus
-ismus (99.73%) Tourismus, Idealismus, Anarchismus
-ag (98%) Betrag, Vertrag, Belag, Mittag
-ang (97%) Eingang, Einfang, Hang, Belang
-or (92%) Tumor, Professor, Senior, Tensor
-tor (95.55%) Motor, Tractor, Sektor, Faktor
-f (90%) Begriff, Chef, Verkauf; aber Dorf (n)
-pf (99.79%) Kampf, Topf, Kopf, Dampf, Knopf
-er (79%) Kaiser, Springer; aber Meer (n)
-ler (99.38%) Fußballspieler, Trailer
-her (98.81%) Sprüher, Fernseher, Fußgeher
-cher (99.39%) Buchmacher, Kocher, Taucher
-ker (98.76%) Drucker, Tracker, Metamathematiker
die
-e (91%) Lampe, Torte, Allee; aber Tee (m)
-elle (99%) Umschaltstelle, Zelle, Schwelle
-ie (98.87%) Familie, Mumie, Theorie, Energie
-gie (99.95%) Psychologie, Allergie, Strategie
-age (97.51%) Passage, Auflage, Aussage, Anfrage
-ung (99.37%) Zeitung, Bildung, Kombinierung
-eit (96%) Zeit, Nebenarbeit, Hauptarbeit
-keit (99.39%) Unhaltbarkeit, Möglichkeit
-igkeit (99.96%) Mäßigkeit, Interesselosigkeit
-heit (98.87%) Einheit, Meinungsverschiedenheit
-ion (96%) Reflexion, Diskussion, Region
-tion (99.53%) Foundation, Flugsicherungsorganisation
-erin (98.65%) Schülerin, Apothekerin, Politikerin
-ik (96%) Phonetik, Grundtechnik, Informatik
-tät (99.95%) Aktivität, Kommunität, Universität
-schaft (96%) Mannschaft, Wirtschaftswissenschaft
das
-em (97%) Problem, Ideologem; aber Modem (m)
-tem (99.22%) System, Listem, Item, Totem
-ium (100%) Symposium, Millenium, Aquarium, Helium

Table 5: the ultimate table

View publication stats

You might also like