You are on page 1of 129

Data Mining, Machine Learning, Inteligencia Artificial, Big

Data, Business Intelligence: estos son algunos de los


términos que han aparecido con la revolución de los datos y
que nos rodean en el mundo empresarial de hoy.

No obstante, su significado y la relación entre ellos no


siempre es muy clara. Se habla hoy sobre estas palabras de
moda que describen conceptos muy potentes
¿Qué es el Data Mining?
¿Qué es el Business Intelligence?
¿Qué es el Big Data?
¿Qué es el Data Mining?
El Data Mining, también conocido como minería de datos, es un
conjunto de técnicas que se realizan para explorar grandes
cantidades de datos (Big Data).
Encontrando patrones en los datos, el Data Mining nos puede
ayudar a optimizar la toma de decisiones y la estrategia
empresarial (Business Intelligence).
Para alcanzar este objetivo, existen múltiples métodos
matemáticos y estadísticos encapsulados en algoritmos, y que
hoy en día también llamamos machine learning o inteligencia
artificial.
¿Qué es el Big Data?
El Big Data, también denominado macrodatos o datos a gran
escala, es un conjunto de tecnologías y herramientas que
permiten trabajar con datos masivos.
El concepto de Big Data está caracterizado por las Vs:
Un volumen extremo de datos, con una
alta velocidad y variedad son las características más
conocidas. No obstante, hablando de Big Data también tenemos
que tomar en cuenta la calidad de los datos descrita por
la veracidad y el valor que representan para la organización.
¿En qué se diferencia el Data Mining
del Big Data?

El Data Mining y el Big Data son dos conceptos que están relacionados
a los datos pero que tienen un enfoque diferente sobre ellos.
El enfoque principal del Big Data es la gestión de grandes
volúmenes de datos para que estos estén disponibles para la
organización.
El enfoque principal del Data Mining por otro lado es el análisis de
los datos.
¿En qué se diferencia el Data Mining
del Big Data?
Por lo tanto, para extraer valor del Big Data necesitamos el Data
Mining.
Podemos aplicar cualquier técnica del Data Mining, como un
algoritmo de clustering sobre el Big Data para descubrir patrones
y exprimir el valor escondido en los grandes volúmenes de
datos.
En conclusión, el Big Data se puede ver como el activo mientras
que el Data Mining es la herramienta o las técnicas para
aprovechar ese activo.
El Data Mining surge como
una herramienta que ayuda
a comprender el contenido
de una base de datos
que ingresa como una
materia bruta y se
transforma en información
valiosa para la empresa

Data Mining alude a un conjunto de técnicas de extracción de


datos aplicables para el análisis de información estructurada,
también permite su exploración y clasificación para la búsqueda
de patrones en clave de Big Data
Que es el data mining o minería de
datos?
Es la extracción de patrones interesantes (no triviales,
implícitos, previamente desconocidos y potencialmente
útiles) de grandes cantidades de datos.
Es una tecnología emergente cuya finalidad es extraer
información, o conocimiento, a partir de los datos que posea
Que es el data mining o minería de
datos?
Data Mining reúne las ventajas de varias
áreas como la Estadística, la Inteligencia
Artificial, la Computación Gráfica, las Bases
de Datos y el Procesamiento Masivo,
principalmente usando como materia prima
las bases de datos.
Las aplicaciones de DataMining pueden identificar
tendencias y comportamientos, no sólo para extraer
información, sino también para descubrir las relaciones
en bases de datos que pueden identificar comportamientos
que no muy evidentes.
Otros nombres con el que se conoce el
data mining

KDD (Knowledge Discovery in Databases)


Arqueología de datos
Minería de datos
Extracción de conocimiento
Cosecha de información, etc
Cribar las identidades y movimientos de terroristas. Identificar posibles ataques terroristas e identidades de
Terrorismo relaciones no evidentes localizando relaciones, transacciones económicas y movimientos de sospechosos.

Data Mining usa los resultados de campañas de marketing realizadas anteriormente para identificar el perfil de
los clientes que son más propensos a comprar el producto.
Mercadotecnia Identificar los clientes valiosos próximos a salir para generarles campañas activas de retención antes de que
manifiesten su intención de retirarse.

Recursos Humanos Conocer el estado de ánimo de sus trabajadores y averiguar cuáles se plantean marcharse

Emplear técnicas de Scoring de créditos o para "detectar que una operación con tarjeta de crédito es fraudulenta
Entidades Bancarias porque no se corresponde con el patrón de uso normal".

Grandes Superficies Determinar los patrones de compra y poder estimular las ventas.

Política Segmentar a los votantes de una manera muy útil para el diseño de las campañas electorales

Medicina Reunir grandes bases de datos biológicos para la detección y predicción de enfermedades

Astronomía Clasificación de cuerpos celestes y predicción de movimientos y evoluciones de los mismos


Estructura del data mining
Estructura del data mining
Data Mining

Aprendizaje NO Aprendizaje
supervisado supervisado

Agrupación o
Asociación Predicción Clasificación
Segmentación

K-nn, Redes Regresion


Algoritmo A priori, No jerárquico. K- Neuronales, RLM, Logistica, Arboles
etc.. means, etc.. Arboles de de Clasificacion,
predicción, etc.. etc
Aprendizaje según aplicación

Existe dos aprendizajes según las variables:


No supervisado (o del
descubrimiento del conocimiento)

Supervisado (o predictivos)
Tipología de aplicaciones

Existen 4 técnicas o tipos de


aplicaciones:

Predecir
Clasificar
Asociar
Agrupar
Aprendizaje: No supervisado y
Supervisado
Técnica: Asociación, Agrupación,
Predicción y Clasificación
Procedimiento
Algoritmo
Aprendizaje no
supervisados
El aprendizaje no supervisado típicamente trata los
objetos de entrada como un conjunto de variables
aleatorias, siendo construido un modelo de densidad
para el conjunto de datos.
El aprendizaje no supervisado es útil para la
compresión de datos: fundamentalmente, todos los
algoritmos de compresión dependen tanto explícita
como implícitamente de una distribución de
probabilidad sobre un conjunto de entrada.
Los métodos
no
supervisados
(unsupervised methods)
son algoritmos que basan su proceso de
entrenamiento en un juego de datos sin
etiquetas o clases previamente .
Es decir, a priori no se conoce ningún
valor objetivo o de clase, ya sea
categórico o numérico.
Aprendizaje no
supervisados
NO tienen variable objetivo luego la empresa primero trata de
comprender su base datos haciendo:

AGRUPACIÓN
ASOCIACIÓN
para descubrir patrones y tendencias en los datos.
Aprendizaje no supervisados
Agrupamiento (o segmentación)

Formar grupos de registros (de clientes, etc.) basados en características.

La Segmentación de los clientes/productos/servicios, etc


al comportamiento que se reporta en los registros
Aprendizaje no supervisados

Procedimientos
de
clustering

Jerárquicos: No Jerárquicos:
Average linkage K-Means
Aprendizaje no supervisados
Reglas de asociación

Son reglas del tipo si A entonces B donde A se le conoce como


antecedente y B como consecuencia

Ejemplo: Amazon

¿Qué va con qué?


Aprendizaje no supervisados
El algoritmo usado es el A priori donde
se analizan las reglas de Confidence y
Support .
Aunque los cálculos son sencillos, estos
crecen exponencialmente al crecer
número de ítems, permite este método
ser usado como análisis exploratorio.
Aprendizaje supervisados
Es una rama de Machine Learning , un
método de análisis de datos que utiliza
algoritmos que aprenden iterativamente de
los datos para permitir que los ordenadores
encuentren información escondida sin tener
que programar de manera explícita dónde
buscar.
El aprendizaje
supervisado supone que
partimos de un conjunto de datos
etiquetado previamente, es decir,
conocemos el valor del atributo
objetivo
Aprendizaje supervisados
Tienen una VARIABLE OBJETIVO y esta es seleccionada por
el analista y no por el software/algoritmo .
Las técnicas serán:
PREDICCIÓN
CLASIFICACIÓN
predicen un dato (o un conjunto de ellos) desconocido a priori, a partir
de otros conocidos.
Aprendizaje supervisados

Predicción
Estimar el valor de una variable continua por medio de variables
independientes que pueden ser continuas o categóricas.

Ejemplo: Estimar ventas, ingreso,


saldos en cuentas, etc.
Aprendizaje supervisados

Los 3 métodos mas usados para la


predicción son:

Regresión Lineal Múltiple (Por mucho la más


utilizada)
Redes Neurales
Árboles de Regresión
Aprendizaje supervisados
Clasificación
Estimar el valor de una variable categórica por medio de variables
independientes que pueden ser continuas o categóricas.

Asignar registros (o clientes) a clases, ejemplo:


Es un cliente sujeto de crédito o no?
Aceptará un cliente la promoción o no
etc.?
Aprendizaje supervisados

Procedimientos
de
Clasificación

Arboles de Regresión
clasificación Logística
APRENDIZAJES
NO
SUPERVISADOS
Aprendizaje no supervisado
Es un método de Aprendizaje Automático donde un
modelo se ajusta a las observaciones.
Se distingue del Aprendizaje supervisado por el hecho
de que no hay un conocimiento a priori.
Así, el aprendizaje no supervisado típicamente trata los
objetos de entrada como un conjunto de variables
donde se hace un modelo de densidad para el conjunto
de datos.
Aprendizaje no supervisado

El aprendizaje no supervisado también es útil


para la compresión de datos: fundamentalmente,
todos los algoritmos de compresión dependen
tanto explícita como implícitamente de una
distribución de probabilidad sobre un conjunto de
entrada.
SEGMENTACIÓN O
AGRUPACIÓN
Agrupamiento (o segmentación)

Formar grupos de registros (de clientes, etc.) basados en


características.

La Segmentación de los clientes/productos/servicios,


etc
registros.
El Análisis clúster es una técnica de análisis
exploratorio utilizada para resolver problemas de
clasificación. Se encuadra en los métodos
de aprendizaje no supervisado.
Su objetivo es ordenar objetos (definidos por un
conjunto de variables) en grupos de forma que los
miembros del grupo sean lo más homogéneos posibles
y los más heterogéneos entre miembros de distintos
grupos
El análisis de clúster permite descubrir
asociaciones y estructuras que no
son evidentes a priori pero que pueden
ser útiles una vez que se han detectado.
Las estructuras encontradas pueden
utilizarse para la definición formal de un
esquema de clasificación (taxonomía).
Procedimientos
de
clustering

Jerárquicos: No Jerárquicos:
Average linkage K-Means
Los métodos más utilizados de
clusterización se dividen en dos grandes
grupos: jerárquicos y no jerárquicos.
Clasificación de métodos jerárquicos y no
jerárquicos
Análisis Clúster Jerárquicos (Hierarchical
Cluster)
Los métodos jerárquicos o agrupamientos jerárquicos van generando
grupos en cada una de las fases del proceso buscando el número de
clúster que hacer una agrupación óptima.
El agrupamiento jerárquico es capaz de fijar por si solos el número de
clústers, por ello se pueden utilizar de forma exploratoria y
posteriormente aplicar un análisis no jerárquico con el número de
clúster ya fijado.
Las estrategias para conseguir este objetivo se dividen en: estrategias
aglomerativas y divisivas
Jerárquico
Aglomerativo
Inicialmente, cada individuo es un clúster
Se calcula la semejanza entre cada individuo
Los individuos más cercanos (menor distancia) se
combinan en un clúster
Desde este momento estos dos individuos son una unidad
Se repite el proceso hasta terminar con un clúster que
contiene todos los datos
Agrupación Jerárquica
La agrupación jerárquica es una
alternativa a los algoritmos de
agrupación basados en
prototipos. La principal ventaja
de la agrupación jerárquica es
que no necesitamos especificar
el número de agrupaciones, la
encontrará por sí misma.
Además, permite el trazado de
dendogramas.
Los dendogramas son
visualizaciones de una
agrupación jerárquica binaria.
JERÁRQUICO
Single linkage: se evalúan las distancias: de X con todos los elementos
del clúster y se selecciona la menor distancia
Complete linkage: se evalúan las distancias: X de X con todos los
elementos del clúster y se selecciona la mayor distancia
Average linkage: se evalúan las distancias de X con el promedio de
todos los elementos del clúster
: Trata de minimizar la varianza dentro de un clúster. Su uso
esta dirigido a DATA NO ESTRUCTURADA
Average linkage y
DESVENTAJAS DE
MÉTODOS
JERÁRQUICOS
Requieren mucha capacidad de memoria y computación Para
grandes bases de datos puede ser costoso y lento.
El algoritmo sólo visita cada registro una vez
Si los registros se asignan incorrectamente al inicio del proceso
quedara erróneo.
Análisis clúster no jerárquicos
(Partitioning Cluster)
Los métodos no
jerárquicos categorizan los
elementos según un número de
clúster dado.
Necesitan que el número de
particiones esté fijado a priori.
NO JERARQUICOS

Generalmente
hay que
normalizar los
datos.
Métodos NO JERARQUICOS

Métodos de re-asignación Métodos de búsqueda de densidad


k-means (centroides) Análisis Modal (aproximación tipológica)
Método Taxmap (aproximación tipológica)
k-medoids o PAM
(medioides) Método de Fortin (aproximación
tipológica)
Clara (medioides) Método de Wolf (aproximación
Quick-cluster (centroides) probabilística)
Método de Métodos directos
Forgy (centroides) Block-Clustering
Nubes dinámicas Métodos reducidos
Análisis Factorial tipo Q.
K-MEANS
Es uno de los algoritmos de aprendizaje no supervisado más simple
que resuelve el problema de agrupamiento
El procedimiento consiste de una manera simple y fácil de clasificar
un determinado conjunto de datos a través de un cierto número de
conglomerados (llamados clusters k) fijado antes.
La idea principal es definir k-centroides, uno para cada grupo.
Estos centroides deben colocarse de manera estratégica, porque las
diferentes posiciones arrojan resultados diferentes
K-MEANS
El algoritmo K-Means tiene como objetivo encontrar y
agrupar en clases los puntos de datos que tienen una
alta similitud entre ellos.
En los términos del algoritmo, esta similitud se
entiende como lo opuesto de la distancia entre puntos
de datos.
Cuanto más cerca estén los puntos de datos, más
similares y con más probabilidades de pertenecer al
mismo clúster serán.
Conceptos clave del
algoritmo de K-MEANS
Distancia Cuadrada Euclidiana

La distancia más comúnmente utilizada en K-Means es la distancia


cuadrada de Euclides. Un ejemplo de esta distancia entre dos
puntos x e y en el espacio m-dimensional es:
DESVENTAJAS DE MÉTODOS
NO JERÁRQUICOS O DE
PARTICIONES
El algoritmo minimiza el error cuadrático de la distancia
a los centros de los clusters
Limitaciones
Hay que fijar k
Solo aplicable si está definida la media
Sólo clusters convexos
INTERPRETACIÓN
DE LOS CLÚSTERES

caen en cada clúster y decidir


Si tienen sentido
Algún identificador (nombre) que corresponda
CONCLUSIÓN

No hay variable dependiente

particiones)

investigador tiene conocimientos


profundos
de la situación
KNIME es una plataforma de minería de datos que
permite el desarrollo de modelos en un entorno
visual. Está construido bajo la plataforma Eclipse.

Weka es una plataforma de software para el aprendizaje


automático y la minería de datos escrito en Java y
desarrollado en la Universidad de Waikato. Weka es
software libre distribuido bajo la licencia GNU-GPL
OpenRefine, anteriormente llamado Google Refine y
antes de eso Freebase Gridworks, es una aplicación
de escritorio de código abierto independiente para la
limpieza y transformación de datos a otros formatos, la
actividad conocida como disputa de datos.

SAS es un paquete de software estadístico desarrollado


por el Instituto SAS para la gestión de datos, análisis
avanzado, análisis multivariado, inteligencia empresarial,
investigación criminal y análisis predictivo
lenguajes Python y R, utilizada en ciencia de datos, y
aprendizaje automático. Esto incluye procesamiento
de grandes volúmenes de información, análisis
predictivo y cómputos científicos.

Orange es un programa informático para realizar


minería de datos y análisis predictivo desarrollado en
la facultad de informática de la Universidad de
Ljubljana.
RStudio es un entorno de desarrollo integrado para el
lenguaje de programación R, dedicado a la computación
estadística y gráficos. Incluye una consola, editor de
sintaxis que apoya la ejecución de código, así como
herramientas para el trazado, la depuración y la gestión
del espacio de trabajo

Apache Hadoop es un entorno de trabajo para software,


bajo licencia libre, para programar aplicaciones distribuidas

aplicaciones trabajar con miles de nodos en red y


petabytes de datos.
RapidMiner es un programa informático para el
análisis y minería de datos. Permite el desarrollo
de procesos de análisis de datos mediante el
encadenamiento de operadores a través de un
entorno gráfico. Se usa en investigación,
educación, capacitación, creación rápida de
prototipos y en aplicaciones empresariales.
1er Proyecto en parejas
https://www.youtube.com/watch?v=I0e0Qyev8Ac
Lo primero que debemos
hacer es un add-on que
complementara a Orange
para la búsqueda de
EDUCATIONAL
1
2

3
Fuente: (Castrillón, 2019; P. 13 )
La Cadena de valor del sector
Cadena de Valor
Farmacéutico, incluye principios
activos, medicamentos,
antibióticos, vacunas, vitaminas y
medicamentos biológicos. la base
principal es la molécula, quien es el
componente activo, actualmente se
cuenta con Aprox. 300
laboratorios, el componente activo
es la molécula.
Sector Farmacéutico Global

Industria Farmacéutica y Cuidado de la Salud es


fundamental para el desarrollo Humano y Económico.

Industria Farmacéutica y Cuidado de la Salud entrega


soluciones para la prevención, cuidado y rehabilitación.

Se caracteriza por alta innovación con el fin de asegurar


mayor calidad y tiempo de vida de las personas

La industria comprende manufactura de productos


farmacéuticos para:
Cuidado Humano
Cuidado Veterinario
El 64,5% de la industria se ubica en
Instrumentos Médicos y materia prima relacionada
Estados Unidos, China y Japón. Seguido
con un 25,8% en Alemania, Francia,
España e Italia

Fuente: Global Pharmaceuticals, Marzo 2019. Recuperado de: MarketLine Industry Profile (www.marketline.com
Contexto Sector Farmacéutico
Global
Crecimiento Mercado Market Share

$1.112
$1.057
$931 $987 $1.007

Crecimiento industria se da con mayor relevancia en


economías emergentes
Ingresos totales para 2018 de la industria $1.112M Para 2018 J&J es la compañía líder con el 7,4% del
USD mercado farmacéutico global, seguido de Bayer con el
Entre 2014 y 2018 industria creció 4,5%. En 2018 5,4%
creció al 5,2%
Se estima para el 2023 un crecimiento del 5,7%

Fuente: Global Pharmaceuticals, Marzo 2019. Recuperado de: MarketLine Industry Profile (www.marketline.com
21 Empresas Sector Farmacéutico

Análisis 9 Indicadores Financieros


Nombre Producto estrella o categoria
Abbott Laboratories
Allergan Inc
Amersham PLC
AstraZeneca PLC
Aventis
Bayer AG
Bristol Myers Squibb Company
Chattem Inc
Elan Corporation PLC
Eli Lilly and Company
GlaxoSmithKline PLC
IVAX Corporation
Johnson & Johnson
Medicis Pharmaceutical Corporation
Merck & Co Inc
Novartis AG
Pfizer Inc
Pharmacia Corporation
Schering-Plough Corporation
Watson Pharmaceuticals Inc
Wyeth
Variable

Razón PE
Interpretación de las Variables
Interpretación

Capitalización Mercado

Beta

Crecimiento Ingresos

ROA

Rota Activos

ROE

Apalancamiento

Utilidad Neta

Fuente: Institución Nacional de Contadores Públicos en Colombia, principales indicadores financieros y de gestión. https://incp.org.co/Site/2012/agenda/7-if.pdf
Que quiero que hagan?

1. Diapositiva, presentación de la pareja


del trabajo ( foto, educación, y cuenten
algo único de ustedes)
2. Dos diapositivas que resuman el sector
farmacéutico mundial es decir como se
conforma la industria farmacéutica,
crecimiento de mercado, market share,
etc
3. Dos diapositivas presentando a cada
empresa con su producto estrella
4. Una diapositiva describiendo las
variables financieras con las que
trabajaremos hoy
https://www.youtube.com/watch?v=I0e0Qyev8Ac
Lo primero que debemos
hacer es un add-on que
complementara a Orange
para la búsqueda de
EDUCATIONAL
1
2

3
1
2 haga
click
2 haga
1
click
2 haga
click

1
Hiperparámetros de K-
Means
Número de grupos: El número de clusters y centros de
generación.
Máximas iteraciones: del algoritmo para una sola
ejecución.
Número inicial: El número de veces que el algoritmo
se ejecutará con diferentes semillas de centroide. El
resultado final será el mejor rendimiento del número
definido de corridas consecutivas, en términos de
inercia.
Cómo elegir el número K
correcto
La elección del número correcto de clusters es
uno de los puntos clave del algoritmo K-Means.
Para encontrar este número hay algunos
métodos:
Conocimiento del campo
Decisión de negocios
2 haga
click
2 haga
click
2 haga
click
Cluster 0 Cluster 1 Cluster 2
Cluster 0 - Riesgos de la belleza:
No poseen una alta capitalización, permite definirlas como empresas con poca participación en el mercado en número de acciones y en
el valor de las mismas.
Por la posición de su BETA vs. los otros clúster puede presentar variaciones en su valor ( ascendente o descendente) en diferentes
momentos del mercado.
Son el grupo de empresas con menores ingresos y menor apalancamiento.
Presentan las más bajas utilidades netas, pueden no resultar atractivas para los inversionistas por su bajo ROA y ROE.
Cluster 1 Joyas de la corona:
Es el grupo líder de empresas en el mercado con el mayor valor y alta capitalización. lo que permite definirlas como
empresas con alta participación en el mercado en número de acciones y en el valor de las mismas.
Bajo riesgo sistemático frente al resto de segmentos por su valor BETA, esto brinda confianza a los inversionistas, con un
valor de mercado relativamente estable.
No se observa riesgo de desvalorizaciones excesivas e imprevistas.
Compañías atractivas para los inversionistas con ingresos intermedios vs otros clúster, bajo apalancamiento e indicadores
financieros.
Evidencia de buena gestión gerencial con alta utilidad neta relación positiva entre los activos y patrimonio.
Cluster 2 Genéricamente conservadores:
Grupo con valores intermedios vs. Otros clústeres entre los indicadores.
Bajo valor en el mercado,
Baja capitalización a pesar de sus elevados ingresos pero con un alto apalancamiento.
Valor de mercador volátil en comparación a los otros segmentos, su valor puede variar abruptamente en periodos cortos de tiempo,
ya que en la medida que puede lograr altas valorizaciones, también de la misma manera puede desvalorizarse.
Éste clúster presenta utilidades intermedias frente al resto del mercado, al igual que su eficiencia en el uso de activos y patrimonio.

You might also like