You are on page 1of 28
Raul E. Lopez Briega (https://relopezbriega.github.io/) Matematicas, andlisis de datos y python + Atom (/atom xml) Search a + About /pages/acerca-de-mi.him!) + Home Page (index.html) + Archives (/archives.html) + Mi otro Blog (htip:relopezbriega.com.ar) + IAAR Book (htps:siaarbook github it) + 2048 (2048) + Contacto (ipages/contacto.him!) Distribuciones de probabilidad con Python mig 29 junio 2018, x sft oll <— [ieee \ til — hime nS : x 1 | r sani oil a IWF" Z i a. studenest y ll... | Al — + wl, Introduccién Las variables aletoris (nls shined orgikVavible_ eestor) han legado a desempefiar un papel importants en cas todos ls ‘campos de estuso: ena Eisica (hoses wikipedia oak %C3Y%ADsca, la (Quimica (htiosiles wikipedia orghwiki/Qu24C3%ADmica) ye Ingenieria (hitosies.wikipadia.ora/wik/Ingenies%C3%4ADa\; y especialmente en las ciencias biolégicas y sociales. Estas variables aleatorias (htps:Jes.wikipedia.orgiwikiVariable_aleatoria) son medias y analizadas en términos de sus propiedades estadisticas {ilps tes, wikipedia orgiwikilEstad?4C3%ADstiea) y probabilisticas (hitps://es wikipedia orglwikiProbabilidad), de las cuales una ‘caracteristica subyacente es su funcién de distibuclin (hitpsl/es wikipedia orgiwid/FunciC3%BGn_de_distrbuelYéC3%4B3n). A pesar de que el nimero potencial de distibuciones (hios:/es wikinedia orgiwikiDistibuci?4C3%4B3n_de_probabiidad) puede ser muy grande, ‘en la préctica, un nimero relativamente pequefo se utlizan; ya sea porque tienen caracteristicas mateméticas que las hace facies de usar 0 porque se asemejan bastante bien a una porcién de la realidad, o por ambas razones combinadas, ePor qué es importante conocer las distribuciones? ‘Muchos resultados en las cienclas se basan en conclusiones que se extraen sobre una peblacién general a partir del estudio de una muestra (ttpsi/es wikipedia. orgiviki/Muestra_estad%C3%ADstica| de esta poblacién. Este proceso se conoce como inferencia ‘estadistica (httos//es.wikipedia.org/wiki/Estad%C3%ADstica_inferencial): y este tipo de inferencia con frecuencia se basa en hacer ‘suposiciones acerca de la forma en que los datos se distribuyen, o requiere realizar alguna transformacién de los datos para que se _ajusten mejor a alguna de las distribuciones (httpsiies.wikipedia orgiwkiDistribuci%C3%B3n_de_probabilidad) conocidas y estudiadas ‘en profundidas, ‘Las distribuciones de probabildad (hitps:/es wikipedia orgiwikilDistibucli«C3%4B3n_de_probabilidad) tedricas son tiles en la inferencia sladistca (httosz/es wikipedia orgiwikilEstad’sC3%4ADstica_inferencial) porque sus propiedades y caractersticas son conocidas. Sila distibucién (htips:es wikipedia, orghwikiDistrbuci%4C3%~B3n_de_probabiidad) real de un conjunto de datos {hitosiles.wikipedia.orgwiki/Conjunto_de_datos) dado es razonablemente cercana a la de una distribucién de probablidad {hitless wikipedia orgiwikiDistibuci%4C3%B3n_de_probabilidad) teérica, muchos de los céleulos se pueden realizar en los datos reales ullizando hipstesis extraidas de la distibucién (hipsi/es wikipedia orglwiki/DistibuciéG3%4B3n_de_probabilidad) teérica Graficando distribuciones Histogramas Una de las mejores maneras de describr una variable es representa Ios valores que aparecen en el conjunto de datos {hittasifes.wikipedia orgwiki/Gonjunto_de_datos) y el nimero de veces que aparece cada valor. La representacién mas comin de una dlstibucién (htipsi/es wikipedia oraiwikiDisirbuci%£C3%B3n_ de_probablidad) es un histograma {hitiosi/es wikipedia orglwikiHistograma), que es un gréfico que muestra la frecuencia de cada valor. En Bython (btiosJJpython.org!), podemos graficar facimente un histograma con la ayuda de la funcion nist de matplotib {hitpsimatolotib.ora/apiipyolot_apihtmi), simplemente debemos pasarle los datos y la cantidad de contenedores en los que queremos dividtos. Por ejemplo, padriamos graficar el histograma (htipsiles. wikipedia orgiwiki/Histograma) de una distibucién normal {https es, wikipedia orgiwikiDistbuci%4C3%B3n_normal) del siguiente modo. In [1]: Ver Gédigo In [2]: # Groficande histograna nu, signa = @, @.2 # media y desvio estandar datos = np.randor normal (mi, sigma, 1000) #creando muestra de datos # histograna de distribuctén normal. cuenta, cajas, ignorar = plt.hist(datos, 20) plt.ylabel("frequencia’) plt.xlabel((“valores") pit. title(‘Histograna’) plt.show() Histegrama 5 Funcién de Masa de Probabilidad Ora forma de representar a las distibuciones discretas {hitns: les. wikipedia orgiwikiDistibuci%4C3%B3n_de_probabilidad#Disirbuciones_de_variable_ciscreta) es utiizando su Funcién de Masa de Probebilidad (nttps/es wikipedia, org/wiki/Funci¥4C3%4B3n de probabilidad) o FMP robablidad), la cvalrelaciona cada valor con su probabilidad (bttps/es.wikipedia.org/wiki/Probabllidad) en lugar de su frecuencia como vimos anterlormente. Esta funcién es normalizada de forma tal {que el valor total de probabilidad (https:/es wikipedia. org/wikiProbabllidad) sea 1. La ventaja que nos ofrece utlizar la EMP. ‘hitns: les. wikipedia orgiwiki/Funci%C3%Bn_de_propabilidad) es que podemos comparar dos distriuuciones {httosi/es wikipedia orawikiDistribuc%C3%83n_de_probabilidad) sin necesidad de ser confundidos por las diferencias en el tamatio de las muestas (ttos//es.wikipodia.org/wikiMuestra ostad%C3%ADstica). También debomos tener en cuenta que EMP numero de valores aumenta, la prababilidad (loses wikipedia orglwik/Probabliad) asociada a cada valor se hace cada vez mas, pequefia y el efecto del ruidoaleatorioaumenta. Veamos un ejemplo con Bython (tes python ora In [3]: # Graficando FMP ny p= 38, 0.4 # paranetros de forma de lo distribuctén binomial nl, pt = 28, 0.3 # paranetros de forma de La distribuctén binomiat x= nprarange(stats.binom.ppf(0.01, , p), stats.binon.ppF(9.99, n, p)) X.1 = np.arange(stats.binon.pp#(0.@2, "9-1, p_4), ‘stats.binon.ppF(8.99, n_1y p_1)) fp = stats.binor.paf(x, n, p) # Funcién de Masa de Probabitidad Fnp_1 = stats.binon.prf(x1, nt, p_1) # Funcién de Masa de Probabitidad plt.plot(x, frp, '--") plt.plot(x't, fep_t) plt.vlines(x, @, fap, colors='b', Iw-5, alpha-@.5) plt.vlines(x2, @, fap_1, colors='g', in=5, alpha-0.5) plt.title("Funcién de asa de Probabilidad’ ) plt.ylabel (*probabilidad' ) plt.xlabel(*valores”) plt.show() Funcién de Masa de Probabildad probatiteos A | Funcién de Distribucién Acumulada Si quoremos evitar los problemas que se generan con EMP (htipses wikipedia org/wiki/Funci9403%B3n_de_probabilidad) cuando el niimero de valores es muy grande, podemos recur autlizar la Euncién de Distrbucién Acumul {hitos les. wikipedia orgiwiki/Eunci%C3%B3n_de_distibuci¥éC3%B3n) 0 EDA {https wikipedia orgiwiki/Funci%C3%B3n_de_distibuci%éC3%B3n), para representar a nuestras distibuciones ts eda orgivikiDistibucikC3%4B3n do probabildad), tanto giscretas (is dia orgiwik/Distibuci¥iC3%4B3n_de_probabildad#Distrbuciones_de_variable_disereta) como continuas {ilps wikipedia orgiwiki/Distribuci%4C3%B3n de probabilidad continua). Esta funcién relaciona los valores con su correspondiente percent (htips./es wikipedia orglwiki/Percentil; es decir que va a describir la probabilidad (htios:/es. wikipedia org/wiki/Probablidad) de ‘que una variable aleatora (htps/es wikipedia org/wiki/Variable_aleatoria) X sujeta a cierta ley de distribucién de probabilidad {hitosiles wikipedia orgiwikiDistibuci2C3%B3n_de_probabiliad) se site en la zona de valores menores o iguales a x In [4]: # Graficando Funetén de Disteibuctén Acumuloda con Python X.1 = np.linspace(stats.rorm(18, 1.2).9pf(@.01), stats.norm(18, 2.2).ppF(@.99), 100) fda_binon = stats-binom-cf(, , p) # Funcidn de Distrtbuctén Acumulada da_normal = stats.nora(1®, 1.2).cdF(x 1) # Funcién de Distribuctén Acumulada pltsplot(x, fda_binon, '--', labele"FOA binonial') ple.plot(x 2, fda_norsal, 1abel="FOA nomal’) plt.title("Funeién de Distribucién Acumulada' ) ple ylabel(“probabilidad' ) plt.xlabel( valores") pit. legend(loc=4) pit. show() Funeisn de Disinbucisn Acumulads probatitess Funcién de Densidad de Probabilidad Por iltimo, el equivalente a la FMP (hips: wikipedia org/wikiFunci24C3%B3n_de_probabilidad) para distrbuciones continuas {nttosiles. wikipedia orgwiki/Dstbuci%4C3%B3n_de_probabildad_contnua) es la Euncién de Densidad de Probablidad (isfes wikipedia oriklFunc4C%4Bn de den dad). 0 EDP. (hiteses kinda orivisiFunci4C2%4RGn de densidad de_onabiidad), Esta funcion es la dasvada {hitosiles. wikipedia orgiwikiDerivada) de la Funcién de Distribucién Acumulada {httes: dia.orgiwiki/Funci%4C3%B3n_de_distibuci%C3%B3n). Por ejemplo, para la distibucién normal {hiles es, wikipedia orgiwiki/Dietibuci%4C3%B3n normal) que graficamos anteriormente, su EDP. {hitos lies wikipedia orgiwik/Eunci%C3%B3n_de_den lidad) es la siguiente. La tipica forma de campana que caracteriza a esta distibucién (hitpsi/es wikipedia orgiwikiDistibuci%sC3%B3n_de_probabilidad In [5]: # Graficonde Functén de Densidad de Probibilidad con Python FoP_normal = stats.norn(1®, 1.2).pdf(x_1) # FDP pltsplot(x_2, FOP_normal, Label="FOP ronal) plt.title("Funcién de Densidad de Probabilidad' ) plt.ylabel ("probabilidad’) plt label (‘valores’) plt.show() os Funoién de Densidad de Prababiicas probatiteos Distribuciones ‘Ahora que ya conocemas como podemos hacer para representar alas distibuciones (ntips:/es wikipedia orgiwiki/Distribuci#sC3%4B3n_de_probabilidad); pasemos a analizar cada una de ellas en mas detalle para conocer ‘su forma, sus principales aplicaciones y sus propiedades. Comencemos por as distibuciones discretas {https les wikipedia orgiwikiDistibuci%C3%B3n_de_probabllidad#Distrbuciones_de_variable_discreta) Distribuciones Discretas Las distribuciones diserotas (htps:es. wikipedia orgivikiDistibuelAC3%B3n_de_probablidad#Distibuciones de variable disereta) son aquelas en las que la variable puede tomar solo algunos valores determinados. Los principales exponentes de este grupo son las siguientes: Distribucién Poisson La Distribucién Poisson (httpsies wikipedia orgiwkiDistribuci%4C3%B3n_de_Poisson) esta dada por la formula: we piu) = #5 En donde r es un entero (https:/es wikinedia ora/wikiIN%SC3%BAmero entero) (r > 0) y jes un nimero real (hitos:f/es wikipedia orgiwikiIN%C3%BAmero_real) positive. La Distribucién Poisson {doses wikipedia oraiwikiDstibuci%C3%8%n_ de Poisson) describe la probablidad (hips es wikipedia orqlwik/Probabildad) de ‘encontrar exactamente r eventos en un lapso de tempo si os acontecimientos se producen de forma independiente a una velocidad constante 4. Es una de la distrbuciones (itpsiles wikioedia.orgwikiDistibuci%4C3%83n_de_probabidad) més uiizadas en eestaditica (htpselopezbriega github iftaglestadistica hni) con varias aplicaciones; como por ejempla descr el nimero de fallos en un late de materiales o la catidad de legadas por hora aun centro de servicios. En Python (htps:/python.org/) la pademos generar faclmente con la ayuda de scloyslats {hitos docs. scipy.orgidoc/scipy/raferenca/stals him), paquete que ullizaremos para representar a todas las restantes distribuciones {httos:lles. wikipedia. orgiwikiDistrbuci24C3%B3n_de_probabilidad) a lo largo de todo el articul. In [6]: # Graficande Poisson mu = 3.6 # paranetro de forma poisson = stats.poisson(mu) # Distribucién x = np.arange(poisson.ppf(2.01), poisson. ppf(@.99)) fap = poisson.pef(x) # Funcién de Moso de Probabilidad plt.plot(x, fmp, ~~") plt.vlines(x, @, frp, colors="b", Iw=5, alpha=@.5) plt.title(‘Distribucién Poisson’) plt.ylabel( *probabilidad” ) plt.xlabel(*valores”) plt.show() sos Dietibucin Poison 3 Z > vabres In [7]: # histograna aleatorios = poisson.rvs(1000) # genera aleatorios cuenta, cajas, ignoran = plt.hist(aleatorios, 28) plt.ylabel(“frequencia') plt-xlabel(*valores") plt.title( iistograna Poisson") plt.show() a Eo | | | | wees Distribucién Binomial ‘Le Distibucién Binomial (htts:/es. wikipedia orglwikiDistribuci24C3%B3n_binomial) esta dada por la formula viosain)= (") ra ay En dnde r con la condicién 0 0) son enteros (httes:i/es wikinedia orohwikiNY&C3%4BAmero_ entero): y ‘el pardmetro p (0 < p < 1) es un nimero real (ttns:/es. wikipedia oraiwikiIN%C3%BAmero real). La Distibucién Binomial {hitosles wikipedia orgiwikiDistibuci%C3%B3n_binomial) describe la probabilidad (htips//es.wikivedta.orgwiki/Probabilidad) de ‘exactamente 1 éailos en JV prusbas sila probabilidad (htps./es. wikipedia org/wikiProbablidad) de éxito an ura sola prueba es p. In [8]: # Graficonde Binomial N, p= 38, @.4 # paranetros de forma binomial + stats.binon(N, p) # Distribucton x = np-arange(binonial..ppf(@-21), binomial .ppF(0.99)) fap = binomial.prf(x) # Funcidn de Masa de Probabitidad plt.plot(x, fp, '--") plt.vlines(x, @, frp, colors="b", Iw=5, alpha=@.5) plt-title(‘Distribucién Binomial’) plt.ylabel( *probabilidad" ) plt.xlabel ("valores") plt.show() te Distibucién Binomial an a oo : il | : l| re vats tn [9]: # histograna aleatorios = binonial.rvs(1000) # genera aleatorios cuenta, cajas, ignorar = plt.hist(aleaterios, 20) plt.ylabel(“Frequencia’ ) plt.xLabel(*valores” ) plt.title('Histograna Binonial') plt.show() > L Distribucién Geométrica La Distibucién Geomévica (htpsiles wikipedia orghvik/Distnbuc'%C3%B3n geom%Ca%Adtica) esta dada por la formula (rsp) = PCP)? En dénde r > 1 y el parémetro p (0

1)y M (M > 1) son todos nimeros enteros (htps://es wikipedia orgiwikiN%C334BAmero entero). La Distibucién Hipergeométrica {hitasifes wikipedia orglwikiDistibuci%C3%B3n_hipergeom%C3%AStrica) describe experimentos en donde se seleccionan los ‘elementos al azar sin reempiazo (se evita seleccionar el mismo elemento mas de una vez). Mas precisamente, supongamos que tenemos JV elementos de los cuales M tienen un cert atributo (y NV — M no tiene). Si escogemos n elementos al azar sin reemplazo, (7) €s la arobablidad (tttos es wikinedia.orq/vikiPrababilidad) de que exactamente r de os elementos seleccionados provienen del ‘grupo con el atributo prin, NM) = In [12]: # Graficando Hipergeonétrica NM, n, N= 38, 18, 12 # parametros de forma hipergeonetrica = stats.hypergeom(M, 1, N) # Distribuctén x = mp-arange(@, n+1) np = hipergeoretrica plt.plot(x, fmp, '--") plt.vLines(x, @, fp, colors='b", lw-5, a: pt title("oistribucién Hipergeonétrica') plt-ylabel ‘probabilidad' ) plt.xlabel (*valores") plt.show() nf (x) # Funcién de Nasa de Probabilided ha-2.5) aos Dieinbucion Hipargaometrica propabiisad In [23]: # histograna aleatorios = hipergeonetrica.rvs(1008) # genera aleatorios cuenta, cajas, ignorar = plt-hist(aleatorios, 20) plt.ylabel(“frequencia' ) pit xlabel ("valores") plt.title('Histograna Hipergeonétrica') plt.show() wo Histograms Hipergeoméirica : | | —_ i i a _ Distribucién de Bernoulli ‘La Disthibucién de Bernoull(htps/ies.wkipedia orgiwikiDistribueiG3%4B3n_de_Bemoull) esta dada por la formula: 4g sir=0 (fracaso) sir=1 (6axito) En dénde el parémetro p es la probabilfad (htas:/es wikipedia. org/wik/Probabilidad) de éxto en un solo ensayo, la arobabldad (bttpsifes.wikipeco.orgwikiProbabiidad) de tracaso po lo tanto va a ser 1 — p (Muchas veces expresada como q). Tanto p como q van 2 esr limitados alntervalo do coro a uno. La Distioucién de Bornoul (hiipsles wikipedia orgwikiDisvibuckC3%.B3n de. Bemoul 0 y los pardmetros 4 y o> 0 son todos numoros reales (hitos lies wikipadia orgwikiN%C3%BAmero real La Distibucién Log-normal(hiipsfos wikioadia.org/wiki/Distribuci2C3%B3n_log-normal) os aplicable a variables aleatorias {hilos les wikipedia orgiwikiVariable_aleatoria) que estén limitadas por cero, pero tienen pocos valores grandes. Es una disirbucién {hitns: Hes. wikipedia orgiwiki/Distibuci%C3%Bn_de_probabilidad) con asimetria postiva {httos:lles. wikipedia orgiwiki/Asimetr7403%ADa_estad%C3¥~ADstica). Algunos de los ejemplos en que la solemos encontrar son: + Elpeso de los adultos. ‘+ Laconcentracién de los minerales on depésitos. + Duracién de licencia por enfermedad. + Distribucién de riqueza + Tiempos muertos de maquinarias. In [20]: # Groficondo Log-Normal Signa = 8.6 # paranetro Lognormal = stats. lognorm(signa) x = np-Linspace( lognornal .ppf (2.01), ogrormal -pp#(@.99), 120) fp = lognormal.pdf(x) # Funcién de Probabilidad plt.plot(x, fo) plt.title('pistribucién Log-normal’) plt-ylabel(‘probabilidad" ) plt.xlabel (‘valores’) plt.show() _ Disinbucia Log-nocmal probatitess In [22]: # histograna aleatorios = lognornal.rvs(1008) # genera ateatorios cuenta, cajas, ignorar = plt.hist(aleatorios, 20) plt.ylabel(“frequencia’) plt.xlabel ("valores") plt.title('Histograna Log-normal') plt. show() xo Histograms Log normal Distribucién de Exponencial ‘Le Distribucién Exponencial (htipsi//es wikipedia orqhviki/DistibuciéG3%4B3n exponencial} esta dada por la formula: 1 Pleja) = Le En dénde tanto la variable como el pardmetro cr son niimeros reales (hiins ies wikipedia orglwikiNY%sC3%BAmera._real) positives. La Distribucion Exponencial (httpsi//es.wikivedia org/wiki/Distibuci%sC3%483n_exoonencial) tiene bastantes aplicaciones, tales como la 0 y el pardmetro n, el numero de grades de libertad, es un numero entero {hitosiles wikipedia orgwikiN%C3%BAmero entero) positive. Una importante aplicacién de la Distibucion Chi cuadrado {ites les, wikipedia orgiwikiDistibuci%4C3%B3n_ %CF%B7%C2%4B2) es que cuando Un conjunto de datos {hitesiies wikipedia orgiwikiiConjunto_de_datos) es representado por un modelo teérico, esta distribucién {hitosles wikipedia orgiwiki/Distibuci24C3%B3n_de_probabilidad) puede ser utlizada para controlar cuan bien se ajustan los valores ;redichos por el modelo, y os datos realmente observados. In [28]: # Graficando chi cuadrado df = 34 # paranetro de forma. chiz = stats.chi2(dF) x = ap.Linspace(chi2.ppf(®.01), chi2-ppF(8.99), 100) fp = chi2.pdf(x) # Funcién de Probabilidad plt.plot(x, #9) plt.title(‘oistribucién chi cuadrado’) plt.ylabel(*probabilidad" ) plt.xlabel ("valores") plt.show() aos Distbucién Ch cuadrado probabildes tn [29]: # histograma aleatorios = chi2.rvs(1088) # genera aleatorios cuenta, cajas, ignorar = plt-hist(aleatorios, 20) plt.ylabel("Frequencia’ ) plt xlabel(‘valores") plt.title(‘Histograna Chi cuadrado') plt.show() Histograma Chi cuadrado ‘requencia seee 8 8 8 Distribucién T de Student La Distribucion t de Student (ntps:/es wikipedia orgiwikiDistribucl%4C3%B3n 1 de Student) esta dada por la funcion: (tin) = Sil En donde la variable ¢ es un numero real (htins:/es.wikipedia.orgiwikiN'%C3%BAmero real) y el pardmetro n es un nimero entero {hitos es. wikipedia orgiwikiN%C3%~BAmoro_entoro) positvo. La Distribucién t de Student {hilos es. wikipedia orgiwiki/Distibuci24C3%B3n | de_Student) es utlizada para probar si la diferencia entre las medias de dos muesiras de observaciones es estadisticamente significativa. Por ejemplo, las alluras de una muestra aleatoria de los jugadores de baloncesto podtia compararse con las alturas de una muestra aleatoria de jugadores de fitbol; esta distrbucién {hitpsles wikipedia orgiwiki/Distibuci2C3%B3n_de_probabilidad) nos podria ayudar a determinar si un grupo es significatvamente mas alto que el oto. In [30]: # Graftcondo t de student df = 58 # paranetro de forma. t= stats.t(df) x = np.Linspace(t.ppf(2.01), ‘t ppF(@.99), 100) fp = t.pdf(x) # Funcién de Probabilided plt.plot(x, fe) plt.title(‘pistribucién t de Student") pltylabel(‘probabilidad’ ) plt.xlabel (‘valores’) plt.show() aso Dictrbucien de Student In [31]: # histograna aleatorios = t-rvs(1002) # genera aleatorios cuenta, cajas, ignorar = plt.hist(aleatorios, 20) plt.ylabel(“Frequencia' ) plt.xlabel ("valores") plt.title('Histograna t de Student") plt.show() o ator te Sun : po wie Distribucién de Pareto La Distribucién de Pareto (https://es. wikinedia org/wiki/Distribuci%eC3%B3n_de Pareto) esta dada por la funcion: a P(aiesk) = Sey En dénde la variable x > k y 6! parémetro a > 0 son mesos reales (htpsiles.wikinedia ora/wik/N%.C3%BAmero real). Esta distibucién (htipsiles wikipedia. orgwkiDistrbuci%C3%B3n_de_probabilidad) fue inroducida por su inventor, Vifredo Pareto {https les wikipadia.orgwikiVilredo Pareto), con al fin de explicar la distribucién de los salarios en la sociedad. La Distribucién de Pareto (itipsi/es.wikipedia oraiwikiDistribuc%C3%83n_de_ Pareto) se describe a menudo como la base de la regla 80/20 {hitos les wikipedia orgiwiki/Principio_de_ Pareto). Por ejemplo, e! 80% de las quejas de los clientes con respecto al funcionamiento de ‘su vehicula por lo general surgen del 20% de los componentes, In [32]: # Graftcando Pareto 2.3 # paranetro de forma. pareto = stats.pareto(k) x = np. Linspace(pareto.ppf(0.01), pareto.ppF(@.99), 100) o.pdf(x) # Functén de Probobilidad (x, 9) plt.title(‘pistribucién de Pareto") pltylabel(‘probabilidad") plt.xlabel(*valores") plt.show() : Distrbucién de Parato ares in (33): /# Pistogrona Bleatorios = pareto.rvs(1000) # genera aleatortos Cuenta, cajasy,igvorar's plt-hist(ateatorses,, 20) plevylabel(fequencia) pie-xdabel(‘vatores") plt.title( histoprane de Pareto") plt.show() a Hiogara ce Parte Fr =o ECémo elegir la distribucién que mejor se ajusta a mis datos? Ahora ya tenemos un eonocimiento general de las principales distibuciones {hitosles wikipedia orgiwik/Distibuci%C3%B3n_de_probabilidad) con que nos podemos encontrar; pero gcémo determinamos que distrbucién (htips:es wikipedia. orgiwikiDistrbuc%C3%B3n de probabilidad) debemos utilizar? Un modelo que pademos seguir cuando nos encontramos con datas que necesitamos alustar a una gistrbucién {https sles wikipedia oriwiki/Distibuci%4C3%B3n_de_probabilidad), es comenzar con los datos sin procesar y responder a cuatro preguntas basicas acerca de los mismos, que nos pueden ayudar a caracterizarlos. La primer pregunta se refiere a silos datos pueden tomar valores discretos {hites://es wikipedia orglwiki/Distribuci4C3%B3n_de_probabilidad#Distribuciones de variable discreta) o continuos {hitps://es wikipedia org/wiki/Distribuci%4C3%B3n_de_probabilidad_continua). La segunda pregunta que nos debemos hacer, hace referencia a la si (ntps:/es.wik ralwiki/Asimetr’%C3%ADa estad%C3%ADstica) de los datos y si hay asimetia, ‘en qué dlreccién se encuentra; en otras palabras, son los valores atipiens (hilpsi/es, wikipedia orgiwikiValor al%C3%ADpico) positives y ngativos igualmente probables o es uno mas probable que el otro. La tercer pregunta abarca los limites superiores e inferiores on los datos; hay algunos datos, como los ingresos, que no pueden ser inferiores a cero, mientras que hay otros, come los margenes de ‘operacién que no puede exceder de un valor 100%). La ltima pregunta se refiee a a posibilidad de observar valores extremos en la gistibucion (ntps:/es wikipedia orgiwikiDistibucl%4C3%483n de probabilidad); en algunos casos, los valores exiremos ocurren con muy poca frecuencia, mientras que en otros, se producen con mayor frecuencia. Este proceso, lo podemos resumir en el siguiente grafico Figure 6.15: Distributiunal Choices Ee ae See Neovo lh. iL lh Lill mA AltA LL & Con la ayuda de estas preguntas fundamentales, mas el conocimiento de las dstintas distrbuciones {hlles les wikipedia orgiwikDistibuci%4C3%B3n_de_probabilidad) deberlamos estar en condiciones de poder caracterizar cualquier 3iwikConjunto_de_datos) Con esto concluyo este tour por las principales distibuciones (hiips:/es wikipedia orgiwikiDistribuci#4C3%83n_de_probabilidad uilizadas en estadistica (htipsi/relopezbriega github Jollaglestadistica him). Para mds informacién también pueden visitar mi articulo Probablldad y Estadietica con Python (hilpsrelopezbriega github jolblag/2015/06i27/probabildad-y-estaditica-con-python/)o la ‘categoria estadistca (htios/relopezbriega.oithub ioltaglestadistica him) del blog. Espero les resulte ti. ‘Saludos! Este post ve escrito utilzando Jupyter notebook. Pueden descargar este notebook {htfes-/lathub,com/rolopezbriega/rolopezbrioga. github josblob/masteridownloads/DistStatsPy.ipynb) o ver su version estética en nbviewer {htlps:Jnbviewer.ipython.org/athub/relopezbriega/relopezbriega. github io/blob/master/downloads/DistStatsPy.ipynb) Este articulo fue escrito utilizando Jupyter notebook (httosz/github.com/relopezbriegalblogitreeimaster/contentinotebooks/DistStatsPy ipynb), Presionar aqui para la versin interactiva: (https mybinder orgv2/gh/relopezbriega/blogimaster ?hiepath=contentinotebooks/DistStatsPy.ipyn) Posted by Raul E. Lopez Briega mié 29 junio 2016 python (hitps:/Itlopezbriega github iotag/python html) programacion (ntips:frelopezbriega github io/tag/programacion.himi) analisis de datos (hitps:/relopezbriega github ‘oltagianalsis-de-datos.him) estadistica (ntps:frelopezbriega. github iotag/estadistca.htm) probabiliad (htipselopezbriega.github.ioftagiprobabilidad.himi) distribuciones (nttps:relopezbrioga github iotagidistribuciones. him) Like Share 37 people ke this. Be the frst of your ends. Comments ALSO ON RELOPEZBRIEGA,_GITHUB Modelos basadosen _Sistemas dina Introduccién ala Agentes con Python Complejidad y Teoria de la... so months xge ayear ui ‘ayes age +7 cements Modelos basados en Agentes Sistemas dindmicos, Introduccién ala Teorfa de con Python. Introduccién. Complejidad y Caos con Ja informacién con Python. Modelos basados en ... Python. Introduccién. .. éQué es la informacién?..... 8 Comments _ relopezbriega_github Recommend 3 Wiweet Ff Shave e Join the discussion... voc wnt oxsiox ve wir visqus ® Name Edgardo Chaca Porral Gioffire + ayear ago Excelente articulo! A | © + Reply + Share » jairo +a years ago distribuciones o podrias decirme como los ealculo? A | + Reply + Share» zaskun Mendia «5 years ago @ Raul Lopes Briega io > taskun Mendia« 5 years ago El sistema de numeraci6n Binario seyearsages a ecemment Sistema Binario, nimeros binarios, convertir Binario a Decimal, convertir © Login ~ Sort by Best ~ Hola, tu blog me parece genial, pero tengo una pregunta los parametros de forma estan definidos asi para las Excepcionall!! El blog entero me parece excepcional, me quedo sin palabras. Gran calidad en todas sus materias. <= Gracias Izaskun!, Es reconfortante saber que mucha gente encuentra titil el blog, Saludos! 4” | = Reply + Share > Luis Rosales > Raul Loper Briega + years ago + edited <=> Felicitaciones por su trabajo, una pregunta, estoy iniciando en python, tengo problemas cuando copio el codigo, me presenta algunos errores en el de Funcin de Distribucién Acumulada, hace falta importar algo o definir valores??? AY © Reply + Share > Rosales @ Reet Lopes Briega ios 41 ‘years ago Hola Luis, un gusto en saludarte. Al presionar la primer celda que dice "ver codigi expande y podes ver las librerias que tenes que importar. si A | Y © Reply + Share» Daniel Fuertes - 5years ago iImpresionante trabajo! Muy til para aprender tanto Python como comprender las distribuciones de probabilidad mis importantes. Gracias por tu esfuerzo. A” | © + Reply + Share » Raul Lopes Briega Nod 4 Daniel Fuertes «5 years go <= _ Muchas gracias Daniel por tu comentario! este tipo de mensajes son los que motivan a seguir dedicando tiempo al blog. 4” | ¥ «© Reply + Share > @Z2subscribe Add Disqus to your siteAdd DisqusAdd Do Not Sell My Data Most Popular + Probablidad y Estadistica con Python (htps:lrelopezbriega github iofblog/2015/08/27/probabilidad-y-estacistica-con-python!) + Ecuaciones Diferenciales con Python (hitps:/telopezbriega.github iarblog/201610'/"0/ecuaciones-

You might also like