Professional Documents
Culture Documents
Captura de Pantalla 2022-03-06 A La(s) 11.09.24 P.M.
Captura de Pantalla 2022-03-06 A La(s) 11.09.24 P.M.
El Data Mining y el Big Data son dos conceptos que están relacionados
a los datos pero que tienen un enfoque diferente sobre ellos.
El enfoque principal del Big Data es la gestión de grandes
volúmenes de datos para que estos estén disponibles para la
organización.
El enfoque principal del Data Mining por otro lado es el análisis de
los datos.
¿En qué se diferencia el Data Mining
del Big Data?
Por lo tanto, para extraer valor del Big Data necesitamos el Data
Mining.
Podemos aplicar cualquier técnica del Data Mining, como un
algoritmo de clustering sobre el Big Data para descubrir patrones
y exprimir el valor escondido en los grandes volúmenes de
datos.
En conclusión, el Big Data se puede ver como el activo mientras
que el Data Mining es la herramienta o las técnicas para
aprovechar ese activo.
El Data Mining surge como
una herramienta que ayuda
a comprender el contenido
de una base de datos
que ingresa como una
materia bruta y se
transforma en información
valiosa para la empresa
Data Mining usa los resultados de campañas de marketing realizadas anteriormente para identificar el perfil de
los clientes que son más propensos a comprar el producto.
Mercadotecnia Identificar los clientes valiosos próximos a salir para generarles campañas activas de retención antes de que
manifiesten su intención de retirarse.
Recursos Humanos Conocer el estado de ánimo de sus trabajadores y averiguar cuáles se plantean marcharse
Emplear técnicas de Scoring de créditos o para "detectar que una operación con tarjeta de crédito es fraudulenta
Entidades Bancarias porque no se corresponde con el patrón de uso normal".
Grandes Superficies Determinar los patrones de compra y poder estimular las ventas.
Política Segmentar a los votantes de una manera muy útil para el diseño de las campañas electorales
Medicina Reunir grandes bases de datos biológicos para la detección y predicción de enfermedades
Aprendizaje NO Aprendizaje
supervisado supervisado
Agrupación o
Asociación Predicción Clasificación
Segmentación
Supervisado (o predictivos)
Tipología de aplicaciones
Predecir
Clasificar
Asociar
Agrupar
Aprendizaje: No supervisado y
Supervisado
Técnica: Asociación, Agrupación,
Predicción y Clasificación
Procedimiento
Algoritmo
Aprendizaje no
supervisados
El aprendizaje no supervisado típicamente trata los
objetos de entrada como un conjunto de variables
aleatorias, siendo construido un modelo de densidad
para el conjunto de datos.
El aprendizaje no supervisado es útil para la
compresión de datos: fundamentalmente, todos los
algoritmos de compresión dependen tanto explícita
como implícitamente de una distribución de
probabilidad sobre un conjunto de entrada.
Los métodos
no
supervisados
(unsupervised methods)
son algoritmos que basan su proceso de
entrenamiento en un juego de datos sin
etiquetas o clases previamente .
Es decir, a priori no se conoce ningún
valor objetivo o de clase, ya sea
categórico o numérico.
Aprendizaje no
supervisados
NO tienen variable objetivo luego la empresa primero trata de
comprender su base datos haciendo:
AGRUPACIÓN
ASOCIACIÓN
para descubrir patrones y tendencias en los datos.
Aprendizaje no supervisados
Agrupamiento (o segmentación)
Procedimientos
de
clustering
Jerárquicos: No Jerárquicos:
Average linkage K-Means
Aprendizaje no supervisados
Reglas de asociación
Ejemplo: Amazon
Predicción
Estimar el valor de una variable continua por medio de variables
independientes que pueden ser continuas o categóricas.
Procedimientos
de
Clasificación
Arboles de Regresión
clasificación Logística
APRENDIZAJES
NO
SUPERVISADOS
Aprendizaje no supervisado
Es un método de Aprendizaje Automático donde un
modelo se ajusta a las observaciones.
Se distingue del Aprendizaje supervisado por el hecho
de que no hay un conocimiento a priori.
Así, el aprendizaje no supervisado típicamente trata los
objetos de entrada como un conjunto de variables
donde se hace un modelo de densidad para el conjunto
de datos.
Aprendizaje no supervisado
Jerárquicos: No Jerárquicos:
Average linkage K-Means
Los métodos más utilizados de
clusterización se dividen en dos grandes
grupos: jerárquicos y no jerárquicos.
Clasificación de métodos jerárquicos y no
jerárquicos
Análisis Clúster Jerárquicos (Hierarchical
Cluster)
Los métodos jerárquicos o agrupamientos jerárquicos van generando
grupos en cada una de las fases del proceso buscando el número de
clúster que hacer una agrupación óptima.
El agrupamiento jerárquico es capaz de fijar por si solos el número de
clústers, por ello se pueden utilizar de forma exploratoria y
posteriormente aplicar un análisis no jerárquico con el número de
clúster ya fijado.
Las estrategias para conseguir este objetivo se dividen en: estrategias
aglomerativas y divisivas
Jerárquico
Aglomerativo
Inicialmente, cada individuo es un clúster
Se calcula la semejanza entre cada individuo
Los individuos más cercanos (menor distancia) se
combinan en un clúster
Desde este momento estos dos individuos son una unidad
Se repite el proceso hasta terminar con un clúster que
contiene todos los datos
Agrupación Jerárquica
La agrupación jerárquica es una
alternativa a los algoritmos de
agrupación basados en
prototipos. La principal ventaja
de la agrupación jerárquica es
que no necesitamos especificar
el número de agrupaciones, la
encontrará por sí misma.
Además, permite el trazado de
dendogramas.
Los dendogramas son
visualizaciones de una
agrupación jerárquica binaria.
JERÁRQUICO
Single linkage: se evalúan las distancias: de X con todos los elementos
del clúster y se selecciona la menor distancia
Complete linkage: se evalúan las distancias: X de X con todos los
elementos del clúster y se selecciona la mayor distancia
Average linkage: se evalúan las distancias de X con el promedio de
todos los elementos del clúster
: Trata de minimizar la varianza dentro de un clúster. Su uso
esta dirigido a DATA NO ESTRUCTURADA
Average linkage y
DESVENTAJAS DE
MÉTODOS
JERÁRQUICOS
Requieren mucha capacidad de memoria y computación Para
grandes bases de datos puede ser costoso y lento.
El algoritmo sólo visita cada registro una vez
Si los registros se asignan incorrectamente al inicio del proceso
quedara erróneo.
Análisis clúster no jerárquicos
(Partitioning Cluster)
Los métodos no
jerárquicos categorizan los
elementos según un número de
clúster dado.
Necesitan que el número de
particiones esté fijado a priori.
NO JERARQUICOS
Generalmente
hay que
normalizar los
datos.
Métodos NO JERARQUICOS
particiones)
3
Fuente: (Castrillón, 2019; P. 13 )
La Cadena de valor del sector
Cadena de Valor
Farmacéutico, incluye principios
activos, medicamentos,
antibióticos, vacunas, vitaminas y
medicamentos biológicos. la base
principal es la molécula, quien es el
componente activo, actualmente se
cuenta con Aprox. 300
laboratorios, el componente activo
es la molécula.
Sector Farmacéutico Global
Fuente: Global Pharmaceuticals, Marzo 2019. Recuperado de: MarketLine Industry Profile (www.marketline.com
Contexto Sector Farmacéutico
Global
Crecimiento Mercado Market Share
$1.112
$1.057
$931 $987 $1.007
Fuente: Global Pharmaceuticals, Marzo 2019. Recuperado de: MarketLine Industry Profile (www.marketline.com
21 Empresas Sector Farmacéutico
Razón PE
Interpretación de las Variables
Interpretación
Capitalización Mercado
Beta
Crecimiento Ingresos
ROA
Rota Activos
ROE
Apalancamiento
Utilidad Neta
Fuente: Institución Nacional de Contadores Públicos en Colombia, principales indicadores financieros y de gestión. https://incp.org.co/Site/2012/agenda/7-if.pdf
Que quiero que hagan?
3
1
2 haga
click
2 haga
1
click
2 haga
click
1
Hiperparámetros de K-
Means
Número de grupos: El número de clusters y centros de
generación.
Máximas iteraciones: del algoritmo para una sola
ejecución.
Número inicial: El número de veces que el algoritmo
se ejecutará con diferentes semillas de centroide. El
resultado final será el mejor rendimiento del número
definido de corridas consecutivas, en términos de
inercia.
Cómo elegir el número K
correcto
La elección del número correcto de clusters es
uno de los puntos clave del algoritmo K-Means.
Para encontrar este número hay algunos
métodos:
Conocimiento del campo
Decisión de negocios
2 haga
click
2 haga
click
2 haga
click
Cluster 0 Cluster 1 Cluster 2
Cluster 0 - Riesgos de la belleza:
No poseen una alta capitalización, permite definirlas como empresas con poca participación en el mercado en número de acciones y en
el valor de las mismas.
Por la posición de su BETA vs. los otros clúster puede presentar variaciones en su valor ( ascendente o descendente) en diferentes
momentos del mercado.
Son el grupo de empresas con menores ingresos y menor apalancamiento.
Presentan las más bajas utilidades netas, pueden no resultar atractivas para los inversionistas por su bajo ROA y ROE.
Cluster 1 Joyas de la corona:
Es el grupo líder de empresas en el mercado con el mayor valor y alta capitalización. lo que permite definirlas como
empresas con alta participación en el mercado en número de acciones y en el valor de las mismas.
Bajo riesgo sistemático frente al resto de segmentos por su valor BETA, esto brinda confianza a los inversionistas, con un
valor de mercado relativamente estable.
No se observa riesgo de desvalorizaciones excesivas e imprevistas.
Compañías atractivas para los inversionistas con ingresos intermedios vs otros clúster, bajo apalancamiento e indicadores
financieros.
Evidencia de buena gestión gerencial con alta utilidad neta relación positiva entre los activos y patrimonio.
Cluster 2 Genéricamente conservadores:
Grupo con valores intermedios vs. Otros clústeres entre los indicadores.
Bajo valor en el mercado,
Baja capitalización a pesar de sus elevados ingresos pero con un alto apalancamiento.
Valor de mercador volátil en comparación a los otros segmentos, su valor puede variar abruptamente en periodos cortos de tiempo,
ya que en la medida que puede lograr altas valorizaciones, también de la misma manera puede desvalorizarse.
Éste clúster presenta utilidades intermedias frente al resto del mercado, al igual que su eficiencia en el uso de activos y patrimonio.