You are on page 1of 4

Instituto Tecnológico de Tijuana

Ingeniería Mecánica
Taller de Investigación ll

“Resumen: Frontiers in Data Analytics and


Monitoring Tools for Extreme Materials”

Perez Bernal Jesus Daniel 20210984 2 de Marzo de 2023


Joshua C. Agar

I'm going to be talking about some of the work that we do in my group and we kind of
focus on a bunch of different areas so I'm going to just kind of start with like what our
research philosophy is and the things that we do so I come from background of doing
epitaxial synthesis of complex oxides designing Fair electric domain structures we're not
really going to talk about that that much so if you don't like Fair electrics that's fine I do a
lot of multi-dimensional spectroscopy of all different sorts and I primarily work on the
scanning probe microscopy so we'll talk a little bit about that but I also have kind of
ventured into other sort of areas of advanced spectroscopy and to deal with kind of the
data and the size of the data that we have I really need machine learning because we
have a lot of valuable data and it's much harder to extract information from that data so I
see figure out ways to kind of extract information from that data and to do that practically
we really need to think about our Computing infrastructure um so a lot of what my group
has been focusing on is how do we actually make these machine learning models and
machine learning tools usable and practical for the applications that we have um so I kind
of wanted to go and start off with like what are the practical requirements that we need
for machine learning so things are like how do we how do we go about simply saving
searching preserving and sharing data this kind of gets into that concept of the data
Deluge where you have so much data and the data analysis I think everyone can say
takes infinitely longer than the acquisition time uh so you could think analysis kind of takes
from weeks to months so another problem is science is distributed all over the world
everyone has their instruments and things and data that is collected is rarely collated so
that anyone else in the world can use it this is a major problem so you think about where
you save your data it's in folders and file systems that's not good long term um another
key problem is universities and even National Labs don't really have the infrastructure
that's required to manage data there's no there's no good networking that's around for
actually moving large volumes of data are responsible for managing data and most of
them do not have experience in designing uh parallel file systems and systems that have
reliability availability and resiliency for managing Data Systems and the universities don't
provide it and if they do it's at a really high cost and usually it's not backed up you'll find
out that later um the other problem is doing the computation is slow and I think one of the
main reasons why doing the computation slow is not actually the computational speed
but it's moving the data so if you think about oh if you're going to have a data set that's
one terabyte with standard internet speeds at universities about a gigabit per second it's
a 2.5 hours you can't even really write on most disk systems at a gigabit a second so it's
actually slower than that uh so and then you also have a problem with if you're doing
scientific instruments and you want or experiments and you want to actually collect your
data and analyze it in real time the computation needs to be highly available and most
Computing systems run on slur with schedulers and that just doesn't work for site for
experimental workflows so another kind of problem that I think is really important is like
machine learning is great but how do we ensure that it's parsimonious how do we ensure
that it reflects the physics but I like the simple example it's a little bit of an over
exaggeration but if you start with a concept of a circle and you want to learn.

Perez Bernal Jesus Daniel 20210984 2 de Marzo de 2023


Voy a hablar sobre parte del trabajo que hacemos en mi grupo y nos enfocamos en un
montón de áreas diferentes, así que voy a comenzar con nuestra filosofía de
investigación y las cosas que lo hacemos. Vengo de hacer síntesis epitaxias de óxidos
complejos. Diseño de estructuras de dominio eléctrico justo. Realmente no vamos a
hablar mucho de eso, así que, si no te gusta la electricidad justa, está bien.
espectroscopía de todos los tipos diferentes y trabajo principalmente en la microscopía
de sonda de barrido, así que hablaremos un poco sobre eso, pero también me he
aventurado en otras áreas de espectroscopía avanzada y para tratar con el tipo de datos
y el tamaño de los datos que tenemos, realmente necesito el aprendizaje automático
porque tenemos muchos datos valiosos y es mucho más difícil extraer información de
esos datos, así que veo formas de extraer información de esos datos y para hacerlo
prácticamente realmente necesito t Piense en nuestra infraestructura informática, así que
gran parte de lo que mi grupo se ha estado enfocando es cómo hacemos realmente estos
aprendizaje automático modelos y herramientas de aprendizaje automático utilizables y
prácticos para las aplicaciones que tenemos, así que quería ir y comenzar con cuáles
son los requisitos prácticos que necesitamos para el aprendizaje automático, entonces
las cosas son como ¿cómo lo hacemos? simplemente guardar, buscar, preservar y
compartir datos, esto entra en ese concepto de diluvio de datos donde tienes tantos datos
y el análisis de datos creo que todos pueden decir que toma infinitamente más tiempo
que el tiempo de adquisición, así que podrías pensar que el análisis toma de semanas o
meses, por lo que otro problema es que la ciencia se distribuye por todo el mundo, todos
tienen sus instrumentos y cosas, y los datos que se recopilan rara vez se cotejan para
que cualquier otra persona en el mundo pueda usarlos, este es un problema importante,
por lo que debe pensar en dónde guardar sus datos están en carpetas y sistemas de
archivos que no son buenos a largo plazo, otro problema clave son las universidades e
incluso los laboratorios nacionales realmente no tienen la infraestructura que se requiere
para m administrar datos no hay ninguna buena red disponible para mover grandes
volúmenes de datos son responsables de administrar datos y la mayoría de ellos no
tienen experiencia en el diseño de sistemas y sistemas de archivos paralelos del sistema
que tienen confiabilidad, disponibilidad y resiliencia para administrar sistemas de datos y
las universidades no lo brindan y si lo hacen es a un costo muy alto y, por lo general, no
está respaldado, descubrirá que más tarde, el otro problema es hacer el cálculo es lento
y creo que una de las razones principales por las que hacer el cálculo lento no es en
realidad la velocidad de cálculo, sino que está moviendo los datos, así que si piensas,
oh, si vas a tener un conjunto de datos de un terabyte con velocidades de Internet
estándar en las universidades aproximadamente un gigabit por segundo, son 2,5 horas
que ni siquiera puedes escribir en la mayoría de los sistemas de disco a un gigabit por
segundo, por lo que en realidad es más lento que eso, eh, entonces también tienes un
problema si estás haciendo instrumentos científicos y tú desea o experimenta y desea
recopilar sus datos y analizarlos en tiempo real, el cálculo debe estar altamente
disponible y la mayoría de los sistemas informáticos se ejecutan en ligaduras con
programadores y eso simplemente no funciona para el sitio para flujos de trabajo
experimentales, por lo que otro tipo de problema que creo que es realmente importante

Perez Bernal Jesus Daniel 20210984 2 de Marzo de 2023


es que el aprendizaje automático es excelente, pero ¿cómo nos aseguramos de que sea
parsimonioso? ¿Cómo nos aseguramos de que refleje la física? Pero me gusta el
ejemplo simple, es un poco exagerado. pero si empiezas con un concepto de círculo y
quieres aprender.

Perez Bernal Jesus Daniel 20210984 2 de Marzo de 2023

You might also like