You are on page 1of 10

GRASSE SON O LE CO DE DELLE ALLITTE RAZIO NI

Riccardo Luccio Dipartimento di Psicologia “Gaetano Kanizsa”, Università di Trieste Introduzione Ogni studente di statistica apprende dai suoi manuali che le variabili casuali si distribuiscono in natura in modo più o meno approssimato secondo una serie di leggi, di cui le più comuni dovrebbero essere la distribuzione gaussiana, o la distribuzione di Poisson (per eventi relativamente rari). Più formalmente, si parla di leggi di probabilità (o di densità di probabilità, per le variabili continue), per cui, detta ! una variabile, e detti X i valori che questa variabile può assumere, la legge è| Z ( X ! ) (dove Θ rappresenta i parametri, appartenenti a uno spazio Ω dei parametri, della legge). Per esempio, nel caso della normale, i parametri sono notoriamente la media µ e la deviazione standard σ. In realtà, come abbiamo detto, normale e poissoniana sono tutt’altro che le uniche forme che possono assumere queste distribuzioni. Frequentissime sono le distribuzioni asimmetriche, dalla gamma, alla beta, alla Weibull, e chi ne ha più ne metta. Ma frequentissime sono delle distribuzioni che per la loro peculiare forma vengono dette a “coda grassa” o “pesante” o “lunga” (fat o heavy o long tail). Di queste, la prima ad essere stata scoperta probabilmente è quella oggi nota come “legge di Benford” (Benford, 1937), in realtà enunciata per la prima volta dall’astronomo Simon Newcomb (1881), e che afferma che la probabilità che la prima cifra significativa (e cioè, diversa da 0) di un numero sia d è data da

1$ ! p ( d ) = log10 # 1 + & . " d%
(Per una storia della legge di Benford, vedi Raimi, 1969; Hill, 1998; per le sue basi statistico-matematiche, Hill, 1995, 1996; per le sue applicazioni, per esempio nella rilevazione delle frodi – i frodatori nel dare cifre fasulle non rispettano la legge – Ley, 1996; Nigrini, 1996). La Fig. 1 mostra la rappresentazione grafica della legge di Benford, e rende evidente il motivo per cui distribuzioni di questo tipo vengono designate in rapporto alla grande coda che esibiscono.

FIGURA 1 – La legge di Benford Forse la più famosa “coda grassa” è data dalla legge di Pareto (1896), relativa alla distribuzione dei ben in una popolazione. Una forma particolare della distribuzione di Pareto è data dalla cosiddetta legge di Lorenz (1905). La legge di Pareto è espressa da una funzione potenza:

p ( x) =

k kx m

x k +1

,

dove xm è la quantità minima di beni possedibili (comunque xm > 0), e il parametro k, che determina la forma della distribuzione, è anch’esso positivo. p ( x ) è la probabilità di possedere l’ammontare x dei beni, che può essere espressa in termini di frazione della popolazione che possiede tale ammontare. La legge di Pareto prende anche il nome di “principio dell’80 a 20”, in base a cui il 20% della popolazione possiede l’80% dei beni. Di più, il 20% di questo 80 possiede a sua volta l’80% dei beni residui, e così via1. La legge di Pareto è rappresentata nella

Una versione popolare di un principio analogo è quella che viene attribuita allo scrittore di fantascienza Theodore Sturgeon, come principio del “90 a 10”. A chi gli diceva che

1

Fig. 2, e come si vedeva un andamento a coda grassa analogo a quello della legge di Benford.

FIGURA 2 – La legge di Pareto

Come detto, la legge di Lorenz rappresenta una forma particolare della distribuzione di Pareto. Uno dei modi in cui viene espressa è la seguente:

p ( x) =

a " x!b% $ ' +1 # c &
2

,

dove i parametri rilevanti sono b e c, mentre a è solo un parametro di scala. Nel 1912 l’italiano Corrado Gini propose il calcolo di un coefficiente, dato dalla frazione dell’area compresa tra una retta inclinata a 45% e l’asse delle ascisse al di sopra della curva di Lorenz – se trasformato in percentuale, esso assume il nome di coefficiente di Gini. Questa proposta fu accolta con entusiasmo dagli economisti a partire dal 1921, quando Gini la ripropose in inglese, ed è oggi il più diffusa indice di disuguaglianza economica (vedi Fig. 3). Accanto alla legge di Pareto, l’altra distribuzione a coda grassa di più ampia notorietà è certamente la legge che mette in relazione rango di frequenza delle parole di un testo e numerosità delle classi di rango, proposta per la prima

la fantascienza è spazzatura, rispose che questa opinione era vera ma solo limitatamente al 90% dei testi di fantascienza. Ma che del resto in ogni cosa il 90% è spazzatura.

volta nel 1924 dal linguista americano George Kingsley Zipf, e che da lui prese il nome.

FIGURA 3 – La legge di Lorenz e l’indice di Gini.

Si tratta di una funzione potenza quasi iperbolica, della forma

f (r) !

1 , rk

dove r è il rango di una classe di frequenza, f ( r ) la sua frequenza, k una costante prossima ad 1 (vedi Fig. 4). Secondo Zipf (1949) la spiegazione di questo andamento andava data in termini che oggi diremmo di “euristica della disponibilità” (Kahneman e Tverski, 1973): le parole più frequenti vengono più facilmente alla mente, e vengono prodotte secondo una legge di “minimo sforzo”. Se le leggi di Benford, Pareto e Zipf sono le più popolari nella larga serie delle distribuzioni che code grasse, tante altre sono le leggi proposte, con forme simili (molto spesso, da una serie empirica di dati si ottengono leggi estremamente simili, con adattamenti di bontà talmente prossima che non esiste un criterio sicuro per distinguere una distribuzione da un’altra). Citiamo così alla rinfusa la legge di Heap(1978), che afferma che dato un testo composto da n parole, il vocabolario v, e cioè il numero di parole diverse che contiene, è dato da

v = an b ,

dove a e b sono costanti, con a compreso (per l’inglese) tra 10 e 100, e b compreso tra 0 e 1 (vedi Fig. 5).

FIGURA 4 – La legge di Zipf.

FIGURA 5 – La legge di Heap.

Popolarissima tra i bibliotecari, ma in realtà debolissima dal punto di vista empirico e poco giustificabile dal punto di vista statistico è poi la legge di Bradford (1950), che afferma che date delle riviste in un certo campo (l’interesse di Bradford era per le riviste scientifiche), gli articoli contenuti potevano essere divisi in parti più o meno uguali, di cui la prima contenuta in un piccolo nucleo di riviste, il secondo in un gruppo più ampio, il terzo nel quadrato del numero del secondo, , e così via, in una progressione di potenze 0, 1, 2 …, e quindi in un rapporto di 1:n:n2 … (vedi Garfield, 1971, 1980).

Bibliografia

Ash, R. B. (1965) Information Theory. Wiley, New York. Aubin, J.-P. (1993). Optima and equilibria. An introduction to nonlinear analysis. Berlin: Springer. Balasubrahmanyan, V. K. & Naranan, S. (1996) J. Quant. Linguist., 3, 177–228. Benford, F. (1938) The law of anomalous numbers. Proceedings of the American Philosophical Society, 78, 551-572. Bickerton, D. (1990) Language and Species. Chicago Univ. Press, Chicago. Binney, J., Dowrick, N., Fisher, A. & Newman, M. (1992) The Theory of Critical Phenomena: An Introduction to the Renormalization Group. Oxford Univ. Press, New York. Bradford SC. (1950). Documentation. Washington, DC: Public Affairs Press. Castillo, E, Hadi, A. S. & Sarabia, J. M.(1998), A Method for Estimating Lorenz Curves, Communication Statistics-Theory Meth., 27(8), 2037-2063. Chomsky, N. (1968) Language and Mind. New York: Harcourt, Brace, and World. Cohen, A., Mantegna, R. N. & Havlin, S. (1997) Fractals 5, 95–104.

Cover, T.M. and J.A. Thomas, (1991). Information Theory, New York: Wiley. Csiszár, I. (1975). I-divergence geometry of probability distributions and minimization problems. Ann. Probab., 3, 146-158. Csiszár, I. (1984). Sanov property, generalized I-projection and a conditional limit theorem. Ann. Probab., 12, 768-793. Deacon, T. W. (1997). The Symbolic Species: The Co-evolution of Language and the Brain. Norton & Company, New York. Ellis, S. R. & Hitchcock, R. J. (1986) IEEE Trans. Syst. Man Cybern. 16, 423– 427. Estoup, J. B. (1902). Gammes sténographique. Paris: Institut Sténographique. Ferrer i Cancho, R. & Sole´, R. V. (2002) Adv. Complex Syst. 5, 1–6. Gallager, R.G. (1968). Information Theory and Reliable Communication. New York, NY: Wiley. Garfield, E. (1971). The mystery of the transposed journal lists. Current Contents, 17, 222-223. Garfield, E. (1980). Bradford’s law and related statistical patterns. Current Contents, 19, 5-12. Gernsbacher, M. A., ed. (1994). Handbook of Psycholinguistics. Academic, San Diego. Gini, C. (1912). Variabilità e Mutabilità. Bologna: Tip. Cuppini. Gini, C. (1914). Sulla misura della concentrazione e della variabilità a dei caratteri. Atti del Regio Istituto Veneto di Scienze, Lettere ed Arti, 73, 1203–1248. Gini, C. (1921). Measurement of inequality of incomes. The Economic Journal, 31, 124–126. Hardy, G.H., & Riesz, M. (1915). The general Theory of Dirichlet's series. Cambridge: Cambridge University Press. Harremoës, P. (2001). Binomial and Poisson Distributions as Maximum Entropy Distributions. IEEE Trans. Inform. Theory, 47, 2039-2041,. Harremoës, P., & TopsØe, F. (2001). Maximum Entropy Fundamentals, Entropy, 3, 191-226. Harremoës, P., & TopsØe, F. (2002). Zipf's law, hyperbolic distributions and entropy loss. ISIT, Lausanne. Hauser, M. D.. 1996) The Evolution of Communication. Cambridge, MA: MIT Press. Haussler, D. (1997). A general Minimax Result for Relative Entropy. IEEE Trans. Inform. Theory, 43, 1276-1280,.

Heaps, H. S. (1978). Information Retrieval - Computational and Theoretical Aspects. New York: Academic Press. Hill, T. (1995) Base-invariance implies Benford's law. Proceedings of the American Mathematical Society 123, 887-895. Hill, T. (1996) A statistical derivation of the significant-digit law, Statistical Science 10, 354-363. Hill, T. (1998). The first digit phenomenon. American Scientist, 86. 358-. Hung, Y.S. & Bier, V.M.(1998), A Natural Conjugate Prior for the nonhomogeneous Poisson Process with a Power Law Intensity Function, Communication Statistics-Simulation, 27(2), 525-551. Jaynes, E. T. (1957). Information Theory and Statistical Mechanics. I and II. Physical Reviews, 106, 620-630, 108, 171-190,. Jaynes, E. T. (1989). Clearing up mysteries - The original goal. in: J. Skilling (ed.). Maximum Entropy and Bayesian Methods. Dordrecht: Kluwer. Johnson, N.L. & Kotz, S.(1970), Continuous Univariate Distributions-2, Houghton Mifflin Company, Boston. Kahneman, D. and Tverski, A. (1973). On the psychology of prediction. Psychological Review, 80, 237-251. Kapur, J.N. (1993). Maximum Entropy Models in Science and Engineering. New York: Wiley. Kazakos, D. (1983). Robust Noiceless Source Coding Through a Game Theoretic Approach. IEEE Trans. Inform. Theory, 29, 577-583,. Köhler, R. (1986) Zur Linguistischen Synergetik: Struktur und Dynamik der Lexik., Bochum:. Brockmeyer. Kuan, Xu (2003). (How Has the Literature on Gini’s Index Evolved in the Past 80 Years?) China Economic Quarterly, 2, 757-778. (Engl. vers. http://economics.dal.ca/RePEc/dal/wparch/howgini.pdf) Kullback, S. (1959). Information Theory and Statistics. New York: Wiley,. Li, W. (1992) IEEE Trans. Inf. Theor. 38, 1842–1845. Lorenz, M. O. (1905). Methods of measuring the concentration of wealth. Journal of the American Statistical Association Publication, 9, 209-219. Mandelbrot, B. B. (1961). On the theory of word frequencies and on related Markovian models of discourse, in: R. Jacobsen (ed.): Structures of Language and its Mathematical Aspects. New York, NY: American Mathematical Society. Mandelbrot, B.B. 1966) in Readings in Mathematical Social Sciences, eds. Lazarsfield, P. F & Henry, N. W.. MIT Press, Cambridge, MA), pp. 151– 168.

Mandelbrot, S. (1969). Series de Dirichlet. Paris: Gauthier-Villars,. Miller, G. (1981) Language and Speech. Freeman, San Francisco. Miller, G. A. & Chomsky, N.. 1963) in Handbook of Mathematical Psychology, eds. Luce, R. D., Bush, R. & Galanter, E.. Wiley, New York), Vol. 2. Miller, G. A. (1957) Am. J. Psychol. 70, 311–314. Moothathu, T. S. K.(1990), The Best Estimator of Lorenz Curve, Gini Index and Theil Entropy Index of Pareto Distribution, Sankhya, Series B, 52, 115127. Naranan, S. & Balasubrahmanyan, V. (1998) J. Quant. Linguist. 5, 35–61. Newcomb, S. (1881). Note on the frequency of use of the different digits in natural numbers. American Journal of Mathematics, 4, 39-40. Nicolis, J. S. (1991). Chaos and Information Processing. Singapore: World Scientific. Nigrini, M. (1996) A taxpayer compliance application of Benford's law. Journal of the American Taxation Association, 18, 72-91. Nowak, M. A. & Krakauer, D. C. (1999) Proc. Natl. Acad. Sci. USA 96, 8028–8033. Nowak, M. A., Plotkin, J. B. & Jansen, V. A.. 2000) Nature 404, 495–498. Nowak, M. A., Plotkin, J. B. & Krakauer, D. C. (1999) J. Theor. Biol. 200, 147–162. Pareto, V. (1896). Cours d'economie politique. Geneva: Droz. Petruszewycz, M. (1973). L’histoire de la loi d’Estoup-Zipf: Documents. Mathématiques et Sciences Humaines, 44, 41-56. Pietronero, L., Tosatti, E., Tosatti, V. & Vespignani, A. (2001) Physica A, 293, 297–304. Pinker, S. & Bloom, P. (1990) Behav. Brain Sci. 13, 707–784. Raimi, R. (1969) The peculiar distribution of first digits. Scientific American, December, 109-119. Reader, S. M. & Laland, K. N. (2002) Proc. Natl. Acad. Sci. USA 99, 4436– 4441. Rohatgi, V.K.(1976), An Intriduction to Probability Theory and Mathematical Statistics, John Wiley & Sons, New York. Schroeder, M. (1991). Fractals, Chaos, Power Laws. New York: W. H. Freeman,. Shannon, C. E. (1951). Prediction and entropy of printed english. Bell Systems Technological Journal, 30, 50-64. Simon, H. A. (1955) Biometrika, 42, 425–440.

Solé, R. V., Manrubia, S. C., Luque, B., Delgado, J., & Bascompte, J. (1996) Complexity, 1, 13–26. Steels, L. (1996) in Proceedings of the 5th Artificial Life Conference, ed. Langton, C. Addison–Wesley, Redwood, CA. Topsøe, F. (1979). Information theoretical Optimization Techniques. Kybernetika, 15, 8-27. TopsØe, F. (1993). Game theoretical equilibrium, maximum entropy and minimum information discrimination. in A. Mohammad-Djafari and G. Demoments (eds.), Maximum Entropy and Bayesian Methods, 15-23, Kluwer: Dordrecht. TopsØe, F. (2001). Basic Concepts, Identities and Inequalities - the Toolkit of Information Theory. Entropy, 3, 162-190. Ujhelyi, M. (1996) J. Theor. Biol. 180, 71–76. Zipf, G. K. (1949). Human Behavior and the Principle of Least Effort. Cambridge, MA: Addison-Wesley.

http://bayes.wustl.edu [ONLINE] - a web page dedicated to Edwin T. Jaynes, maintained by L. Brethorst.