You are on page 1of 43

PRESENTATION

Data Analysis In a Nutshell


1
Capítulos
PRESENTATION
DATA ANALYSIS IN A NUTSHELL

Lesson Transcript 03

Transcript + Translation 10

Vocabulary 26

Grammar 36

Mistakes 42

Inglês pra Dev


Lesson Transcript Data Analysis In a Nutshell

Today I’m gonna be talking about data, data analytics, and some differences
between Data Analysis and Data Science, the true importance of all of it. So, let me
just say that being a Data Analyst involves really one main... main skill, and it’s critical
thinking.

Being able to kind of develop questions and answers, kind of “on the fly”, as data hits
your desk. And this isn’t an easy task, it could even be very daunting, but at the end
of the day, there’s a... tons of procedures that exist in today’s world, especially in the
data industry, to help kind of “attack” a project or a data set.

Now, you’ll hear me speak on this a few other times, ‘cause there’s many instances,
many different processes that exist, or even methodologies, if you want to call them
that. They exist to kind of perform data analysis, and you’ll hear one kind of title in the
industry a bunch of us called: “Ask, Prepare, Process, Analyze, Share, and Act”.

This is the process where... you know, you start developing a question, preparing
and processing the data, analyzing it, sharing it with people around you, say, team
members, bosses, etc., and then acting on the data that you’ve drawn up.

And while this is a great rule of thought, today I’m gonna be talking about a
different way of looking at data and trying to process it. Instead of using this
sequences methodology… instead, what I’m going to be talking about is breaking down
Data Analysis into four different sections. There’s inspecting, cleaning, transforming,
and modeling.

3
Lesson Transcript Data Analysis In a Nutshell

Now, this is kind of what I just spoke about with the “Ask, Prepare, Process, Analyze,
Share, and Act” acronym, but this, I believe, is a bit more conducive towards what I
want to be talking about. We’re gonna be speaking more about the data itself
when it comes to you.

Now, of course, you have to inspect it, and this is analogous with the “Ask” part of
the previous process, but inspecting it involves making sure data looks correct,
making sure that you can really make questions off of it, or even, if the questions
you’re making are possible. Has other people used this data before? Has other
people tried to replicate this data? These are all questions you need to start
thinking about in the first stage of getting any… any data set, any projects at
all... is inspecting the data.

Now, this could even lead to some statistical scripting, some programming, where
you’ll wanna divvy up, say, some correlations that may exist in the data, help you
further inspect it, maybe make some visualizations.

A very big aspect of Data Analysis and Data Analytics is being able to make
charts. Sometimes the numbers just don’t do enough, you know? You can read
the screen all day, you can read a spreadsheet all day, but it really just won’t jump out,
what’s being told. But, you know, however you use dashboards and visualizations,
and all of the sudden you can really tell a story.

4
Lesson Transcript Data Analysis In a Nutshell

And once you’re done inspecting all this data, the next stage would be cleaning
it. Now, cleaning data is a bit of a headache, and I say it’s gonna be, predominantly,
most of your time.

But that being said, cleaning data is kind of the best part of the whole process, because
once the data is cleaned, and once you are able to remove these anomalies that
are within the data (any type of erroneous grammatical mistakes even, a missing row, a
missing column)... now, once you’re done cleaning, transformation will begin.

And what do I mean by transformation? Because cleaning and transformation kind of


sound the same. Well, by transformation I mean, quite literally, manipulating the data
within the data set. So, it’s more conducive towards the analyzation that will be
commencing afterwards, or the modeling even, which is the next step here.

Transforming could mean making dummy variables. This could be very useful.
Sometimes you’ll be running a model, you’ll be making some type of statistical, analytical
statement, you’ll be making some type of discovery using statistics, but you can’t do
that, say, with categorical variables.

5
Lesson Transcript Data Analysis In a Nutshell

Say, I’m trying to predict how many people on average will buy three different types
of shirts: red, green, or blue, and I have a few hundred transactions. Well, some of these
programming softwares you’ll be using to perform the statistical summaries and
just simple analytics, they don’t like categorical variables like that. They’re more
about numbers, and computers love numbers. Dummifying variables means taking
categorical and making new variables based upon it, transforming them into ones and
zeros, binaries.

Now, once the transformation is all done, we then get to finally model the data,
and that’s kind of self-explanatory, and that goes even more into the realm of
Predictive Analytics, and Data Science itself. Modeling would just mean consulting
your team, consulting your questions, and understanding what model could be
implemented to yield the best results the most times, consistently.

You’ll implement different measures to validate your research, to validate your results.
You’ll have to definitely work on, also, splitting your data when you’re modeling to have
a training set, which will train the model, and then a testing set, to test the model.
And people, nowadays specially, will have three sets: one to train, one to validate the
training, and then, one to finally test.

Obviously, the training samples have to be pretty large, ‘cause we want our data to... or
we rather... we want our model to really understand our data in the best way possible.

6
Lesson Transcript Data Analysis In a Nutshell

Once the training data is sifted out… it’s usually about eighty per cent, seventy-
five per cent of your actual data set, but there is such a thing as “overfitting” and
“underfitting”, which is pulling too much data and training too much, or pulling too
little data, but those are more “nitpicky” aspects of the entire job or realm of data.

Now, that’s the process, right? That’s the Data Analysis process: inspecting, cleaning,
transforming, and modeling. This is all well and good, but who’s really doing all of this? Is
it the Data Analyst? Is it the Data Scientist? Engineers? Database Administrators? Well,
there’s a big, big topic of conversation within Data Analytics, and that is: what is a Data
Scientist? What’s a Data Analyst?

Well, most people believe the two jobs are analogous, and that’s fair, ‘cause they share
very similar responsibilities. The real truth is that a Data Analyst is someone who needs
to have a better understanding of the realm of Data Analysis, meaning, they need to
be skilled programmers, statisticians, critical thinkers, and even project managers.
They will be the ones, traditionally, to lead the Data Analytic project in hand,
maybe even a task force of analysts.

More importantly, Data Scientists will be the ones to really develop and create the
questions that Data Analysts will help answer, and that’s how the team really works
together and collaboration excels.

7
Lesson Transcript Data Analysis In a Nutshell

See, the Data Scientists, being the critical thinkers, are going to get the data, are going
to say: “We need to find out this, this, and this”, and the Analysts will look at the data and
see if they can actually answer those questions. If they can’t, it’s back to square one,
or back to inspecting new data, cleaning it again, transforming it, making new models.

Now, again, in today’s time, Data Analytics is growing, even as I speak, at an astronomical
rate, and that’s fantastic, but the responsibilities between the two jobs, they differ very
slightly, and you’ll hear the two names kind of be interchanged.

Last, but not least, I should really talk about what it is that makes Data Analytics so
unique to me, I guess, and that is: the programming languages that’s associated
within Analytics, ‘cause I’m sure you’re all aware of that there is an abundance,
there is so many actually that, every year or so, another one, another two come out,
just to make the other ones update, and now it’s… the competition intensifies, but I’ll
list some programming languages and scripting languages that you’re gonna have to
be pretty familiar with within the Data Analyst industry.

Now, one in particular, especially if you’re going to be a routine Data Analyst, you’re
really gonna get your feet wet in this industry, you’re gonna have to know SQL.
Ad-hoc querying and querying languages are in every business nowadays. Every
business! Especially financial, especially business, especially marketing. And SQL itself
is a very… I say “routine” language. It’s not too difficult. SQL is going to be one that’s
a necessity.

8
Lesson Transcript Data Analysis In a Nutshell

Next to SQL is Python. That goes without saying. The one right next to it is more of
a scripting language, which is R. Now, if you haven’t heard of R, R is essentially...
kind of a fun way of making a calculator. It consists of many, many functions that
help towards making statistical summaries and just providing overall statistics
and developing models.

On top of all of these three that I mentioned, there’s still an abundance more. You’ll
have to learn stuff like Java, MatLab, maybe even C, SaaS, SPSS, Scala, and many more.

9
Transcript + Translation Data Analysis In a Nutshell

English Português

Today I’m gonna be talking about data, Hoje eu vou falar sobre dados, análise de
data analytics, and some differences dados, e algumas diferenças entre Análise
between Data Analysis and Data Science, de Dados e Ciência de Dados, a verdadeira
the true importance of all of it. So, let me importância de tudo isso. Então, deixe-
just say that being a Data Analyst involves me apenas dizer que ser um Analista de
really one main... main skill, and it’s critical Dados envolve realmente uma principal
thinking. ... habilidade principal, e é o pensamento
crítico.

Being able to kind of develop questions Ser capaz de desenvolver perguntas e

and answers, kind of “on the fly”, as data respostas, meio que “em tempo real”,

hits your desk. And this isn’t an easy task, à medida que os dados chegam à sua

it could even be very daunting, but at mesa. E isso não é uma tarefa fácil, ela

the end of the day, there’s a... tons of pode até ser muito intimidante, mas

procedures that exist in today’s world, no final das contas, tem um... muitos

especially in the data industry, to help procedimentos que existem no mundo

kind of “attack” a project or a data set. de hoje, especialmente na indústria de


dados, para ajudar a meio que “atacar”
um projeto ou um conjunto de dados.

10
Transcript + Translation Data Analysis In a Nutshell

English Português

Now, you’ll hear me speak on this a Agora, você vai me ouvir falar sobre isso
few other times, ‘cause there’s many algumas outras vezes, porque tem muitos
instances, many different processes casos, muitos processos diferentes que
that exist, or even methodologies, if you existem, ou mesmo metodologias, se
want to call them that. They exist to kind você quiser chamá-las disso. Elas existem
of perform data analysis, and you’ll hear para meio que realizar a análise de dados,
one kind of title in the industry a bunch of e você vai ouvir um tipo de título na
us called: “Ask, Prepare, Process, Analyze, indústria que alguns de nós chamávamos
Share, and Act”. de: “Pergunte, Prepare, Processe, Analise,
Compartilhe e Aja”.

This is the process where... you know, Esse é o processo onde... sabe, você
you start developing a question, preparing começa a desenvolver uma pergunta,
and processing the data, analyzing it, preparar e processar os dados, analisá-
sharing it with people around you, say, los, compartilhá-los com as pessoas ao
team members, bosses, etc., and then seu redor, digamos, membros da equipe,
acting on the data that you’ve drawn up. chefes, etc., e daí agir sobre os dados que
você elaborou.

11
Transcript + Translation Data Analysis In a Nutshell

English Português

And while this is a great rule of thought, E embora essa seja uma ótima regra geral,
today I’m gonna be talking about a hoje eu vou falar sobre uma maneira
different way of looking at data and diferente de olhar para os dados e
trying to process it. Instead of using this tentar processá-los. Em vez de usar essa
sequences methodology… instead, what metodologia de sequências... em vez disso,
I’m going to be talking about is breaking o que eu vou falar sobre é dividir a Análise
down Data Analysis into four different de Dados em quatro seções diferentes.
sections. There’s inspecting, cleaning, Tem inspeção, limpeza, transformação e
transforming, and modeling. modelagem.

Now, this is kind of what I just spoke Agora, é meio que sobre isso que eu
about with the “Ask, Prepare, Process, acabei de falar com o acrônimo “Pergunte,
Analyze, Share, and Act” acronym, but Prepare, Processe, Analise, Compartilhe e
this, I believe, is a bit more conducive Aja”, mas isso, eu acredito, é um pouco
towards what I want to be talking about. mais propício ao que quero falar. Nós
We’re gonna be speaking more about vamos falar mais sobre os próprios dados
the data itself when it comes to you. no que diz respeito a você.

12
Transcript + Translation Data Analysis In a Nutshell

English Português

Now, of course, you have to inspect it, Agora, é claro, você tem que inspecioná-
and this is analogous with the “Ask” part los, e isso é análogo à parte “Pergunte”
of the previous process, but inspecting do processo anterior, mas inspecioná-
it involves making sure data looks los envolve certificar-se de que os dados
correct, making sure that you can pareçam corretos, certificar-se de que você
really make questions off of it, or realmente possa fazer perguntas a partir
even, if the questions you’re making are deles, ou até mesmo, se as perguntas que
possible. Has other people used this você está fazendo são possíveis. Outras
data before? Has other people tried pessoas usaram esses dados antes? Outras
to replicate this data? These are all pessoas tentaram replicar esses dados?
questions you need to start thinking Essas todas são perguntas sobre as quais
about in the first stage of getting você precisa começar a pensar no primeiro
any… any data set, any projects at all... estágio de obter qualquer... qualquer
is inspecting the data. conjunto de dados, qualquer projeto
mesmo... é inspecionar os dados.

Now, this could even lead to some Agora, isso poderia até mesmo levar a
statistical scripting, some programming, alguma criação de scripts estatísticos,
where you’ll wanna divvy up, say, alguma programação, onde você vai
some correlations that may exist in the precisar dividir, digamos, algumas
data, help you further inspect it, maybe correlações que possam existir nos
make some visualizations. dados, ajudar você a inspecioná-los ainda
mais, talvez fazer algumas visualizações.
13
Transcript + Translation Data Analysis In a Nutshell

English Português

A very big aspect of Data Analysis and Um aspecto muito grande da Análise de
Data Analytics is being able to make Dados e da Lógica Analítica de Dados é
charts. Sometimes the numbers just ser capaz de fazer gráficos. Às vezes, os
don’t do enough, you know? You can números simplesmente não bastam,
read the screen all day, you can read a sabe? Você pode ler a tela o dia todo,
spreadsheet all day, but it really just você pode ler uma planilha o dia todo,
won’t jump out, what’s being told. But, you mas aquilo realmente não vai saltar, o
know, however you use dashboards and que está sendo contado. Mas, sabe, seja
visualizations, and all of the sudden you lá como você usar painéis e visualizações,
can really tell a story. e de repente, você pode realmente contar
uma história.

And once you’re done inspecting E uma vez que você tenha terminado de
all this data, the next stage would be inspecionar todos esses dados, a próxima
cleaning it. Now, cleaning data is a bit etapa seria limpá-los. Agora, limpar dados
of a headache, and I say it’s gonna be, é um pouco chato, e eu digo que isso vai
predominantly, most of your time. ser, predominantemente, a maior parte
do seu tempo.

14
Transcript + Translation Data Analysis In a Nutshell

English Português

But that being said, cleaning data is kind Mas dito isso, limpar dados é meio que a
of the best part of the whole process, melhor parte do processo inteiro, porque
because once the data is cleaned, and uma vez que os dados estejam limpos, e
once you are able to remove these uma vez que você seja capaz de remover
anomalies that are within the data (any essas anomalias que estão dentro dos
type of erroneous grammatical mistakes dados (qualquer tipo de erros gramaticais
even, a missing row, a missing column)... errôneos até mesmo, uma linha faltante,
now, once you’re done cleaning, uma coluna faltante)... agora, uma vez
transformation will begin. que você tenha terminado de limpar, a
transformação vai começar.

And what do I mean by transformation? E o que quero dizer com transformação?


Because cleaning and transformation kind Porque limpeza e transformação meio
of sound the same. Well, by transformation que soam como a mesma coisa. Bem,
I mean, quite literally, manipulating the por transformação eu quero dizer, bem
data within the data set. So, it’s more literalmente, manipular os dados dentro
conducive towards the analyzation do conjunto de dados. Então, é mais
that will be commencing afterwards, propício à análise que vai começar depois,
or the modeling even, which is the next ou até mesmo à modelagem, que é a
step here. próxima etapa aqui.

15
Transcript + Translation Data Analysis In a Nutshell

English Português

Transforming could mean making Transformar pode significar criar variáveis


dummy variables. This could be very fictícias. Isso pode ser muito útil. Às vezes,
useful. Sometimes you’ll be running a você vai estar executando um modelo,
model, you’ll be making some type of você vai estar fazendo algum tipo de
statistical, analytical statement, you’ll be declaração estatística, analítica, você vai
making some type of discovery using estar fazendo algum tipo de descoberta
statistics, but you can’t do that, say, with usando estatísticas, mas você não
categorical variables. pode fazer isso, digamos, com variáveis
categóricas.

Say, I’m trying to predict how many Digamos que eu esteja tentando prever
people on average will buy three different quantas pessoas em média vão comprar
types of shirts: red, green, or blue, and I três tipos diferentes de camisas: vermelha,
have a few hundred transactions. Well, verde ou azul, e eu tenho algumas
some of these programming softwares centenas de transações. Bem, alguns
you’ll be using to perform the desses softwares de programação que
statistical summaries and just simple você vai usar para realizar os resumos
analytics, they don’t like categorical estatísticos e apenas métricas simples,
variables like that. They’re more about eles não gostam de variáveis categóricas
numbers, and computers love numbers. como essa. Eles preferem números,
e computadores adoram números.

16
Transcript + Translation Data Analysis In a Nutshell

English Português

Dummifying variables means taking Ficcionar variáveis significa pegar


categorical and making new variables categóricas e fazer novas variáveis com
based upon it, transforming them into base nelas, transformando-as em uns e
ones and zeros, binaries. zeros, binários.

Now, once the transformation is all Agora, uma vez que a transformação
done, we then get to finally model the esteja toda feita, nós daí conseguimos
data, and that’s kind of self-explanatory, finalmente modelar os dados, e isso é
and that goes even more into the meio que autoexplicativo, e isso vai ainda
realm of Predictive Analytics, and mais para o reino da Análise Preditiva
Data Science itself. Modeling would just e da Ciência de Dados em si. Modelar
mean consulting your team, consulting significaria simplesmente consultar a
your questions, and understanding what sua equipe, consultar as suas perguntas
model could be implemented to yield the e entender qual modelo poderia ser
best results the most times, consistently. implementado para produzir os melhores
resultados na maioria das vezes, de forma
consistente.

17
Transcript + Translation Data Analysis In a Nutshell

English Português

You’ll implement different measures to Você vai implementar diferentes medidas


validate your research, to validate your para validar a sua pesquisa, para validar
results. You’ll have to definitely work os seus resultados. Você definitivamente
on, also, splitting your data when you’re vai ter que trabalhar, também, em dividir
modeling to have a training set, which will os seus dados quando você estiver
train the model, and then a testing set, modelando para ter um conjunto de
to test the model. And people, nowadays treinamento, que vai treinar o modelo,
specially, will have three sets: one to train, e daí um conjunto de teste, para testar
one to validate the training, and then, one o modelo. E as pessoas, hoje em dia
to finally test. principalmente, vão ter três conjuntos:
um para treinar, um para validar o
treinamento, e daí, um para finalmente
testar.

18
Transcript + Translation Data Analysis In a Nutshell

English Português

Obviously, the training samples have to Obviamente, as amostras de treinamento


be pretty large, ‘cause we want our data têm que ser muito grandes, porque nós
to... or we rather... we want our model queremos que os nossos dados... ou nós
to really understand our data in the best preferimos... nós queremos que o nosso
way possible. Once the training data is modelo realmente entenda os nossos
sifted out… it’s usually about eighty per dados da melhor maneira possível. Uma
cent, seventy-five per cent of your actual vez que os dados de treinamento sejam
data set, but there is such a thing as peneirados... isso é geralmente cerca de
“overfitting” and “underfitting”, which oitenta por cento, setenta e cinco por
is pulling too much data and training too cento do seu conjunto de dados real,
much, or pulling too little data, but those mas existe uma coisa como “overfitting”
are more “nitpicky” aspects of the entire e “underfitting”, que é extrair dados de
job or realm of data. mais e treinar de mais, ou extrair dados
de menos, mas esses são aspectos mais
“detalhistas” de todo o trabalho ou do
reino dos dados.

19
Transcript + Translation Data Analysis In a Nutshell

English Português

Now, that’s the process, right? That’s Agora, esse é o processo, certo? Esse é o
the Data Analysis process: inspecting, processo de Análise de Dados: inspeção,
cleaning, transforming, and modeling. limpeza, transformação e modelagem.
This is all well and good, but who’s really Tudo isso é muito bom, mas quem está
doing all of this? Is it the Data Analyst? Is it realmente fazendo tudo isso? É o Analista
the Data Scientist? Engineers? Database de Dados? É o Cientista de Dados?
Administrators? Well, there’s a big, big topic Engenheiros? Administradores de Bancos
of conversation within Data Analytics, and de Dados? Bem, há um grande, grande
that is: what is a Data Scientist? What’s a tópico de conversa dentro da Análise de
Data Analyst? Dados, e ele é: o que é um Cientista de
Dados? O que é um Analista de Dados?

Well, most people believe the two jobs Bem, a maioria das pessoas acredita
are analogous, and that’s fair, ‘cause they que os dois trabalhos são análogos, e
share very similar responsibilities. The isso é justo, porque eles compartilham
real truth is that a Data Analyst is someone responsabilidades muito semelhantes. A
who needs to have a better understanding verdade real é que um Analista de Dados
of the realm of Data Analysis, meaning, é alguém que precisa ter um melhor
they need to be skilled programmers, entendimento do reino da Análise de Dados,
statisticians, critical thinkers, and even ou seja, eles precisam ser programadores,
project managers. estatísticos, pensadores críticos e até
gerentes de projeto qualificados.
20
Transcript + Translation Data Analysis In a Nutshell

English Português

They will be the ones, traditionally, to Eles vão ser aqueles, tradicionalmente,
lead the Data Analytic project in hand, a liderar o projeto Análise de Dados em
maybe even a task force of analysts. questão, talvez até mesmo uma força-
tarefa de analistas.

More importantly, Data Scientists will be Mais importante, os Cientistas de Dados


the ones to really develop and create the vão ser aqueles a realmente desenvolver
questions that Data Analysts will help e criar as perguntas que os Analistas de
answer, and that’s how the team really Dados vão ajudar a responder, e é assim
works together and collaboration excels. que a equipe realmente trabalha em
conjunto e a colaboração sobressai.

21
Transcript + Translation Data Analysis In a Nutshell

English Português

See, the Data Scientists, being the critical Veja bem, os Cientistas de Dados, sendo
thinkers, are going to get the data, are os pensadores críticos, vão obter os
going to say: “We need to find out this, this, dados, vão dizer: “Nós precisamos descobrir
and this”, and the Analysts will look at the isso, isso e isso”, e os Analistas vão olhar
data and see if they can actually answer os dados e ver se eles podem realmente
those questions. If they can’t, it’s back to responder a essas perguntas. Se eles não
square one, or back to inspecting new puderem, é de volta à estaca zero, ou de
data, cleaning it again, transforming it, volta a inspecionar novos dados, limpá-los
making new models. novamente, transformá-los, fazer novos
modelos.

Now, again, in today’s time, Data Analytics Agora, novamente, nos tempos de hoje,
is growing, even as I speak, at an a Análise de Dados está crescendo, até
astronomical rate, and that’s fantastic, mesmo enquanto eu falo, em um ritmo
but the responsibilities between the astronômico, e isso é fantástico, mas as
two jobs, they differ very slightly, and responsabilidades entre os dois trabalhos,
you’ll hear the two names kind of be elas diferem muito ligeiramente, e você
interchanged. vai ouvir os dois nomes meio que serem
usados intercambiavelmente.

22
Transcript + Translation Data Analysis In a Nutshell

English Português

Last, but not least, I should really talk Por último, mas não menos importante,
about what it is that makes Data Analytics eu devo realmente falar sobre o que é
so unique to me, I guess, and that is: que torna a Análise de Dados tão única
the programming languages that’s para mim, eu acho, e isso é: as linguagens
associated within Analytics, ‘cause I’m de programação que estão associadas
sure you’re all aware of that there dentro da área de “Analytics”, porque eu
is an abundance, there is so many tenho certeza de que todos vocês estão
actually that, every year or so, another cientes de que há uma abundância,
one, another two come out, just to make existem tantas, na verdade, que, a cada
the other ones update, and now it’s… the ano mais ou menos, mais uma, mais
competition intensifies, but I’ll list some duas aparecem, só para fazer as outras
programming languages and scripting se atualizarem, e agora é... a competição
languages that you’re gonna have to be se intensifica, mas eu vou listar algumas
pretty familiar with within the Data Analyst linguagens de programação e linguagens
industry. de script com as quais você vai ter que
estar bastante familiarizado dentro da
indústria de Analistas de Dados.

23
Transcript + Translation Data Analysis In a Nutshell

English Português

Now, one in particular, especially if you’re Agora, uma em particular, especialmente


going to be a routine Data Analyst, you’re se você vai ser um Analista de Dados de
really gonna get your feet wet in this rotina, você realmente vai começar a se
industry, you’re gonna have to know acostumar nesta indústria, você vai ter que
SQL. Ad-hoc querying and querying saber SQL. Consultas ad-hoc e linguagens
languages are in every business de consulta estão em toda empresa hoje
nowadays. Every business! Especially em dia. Toda empresa! Principalmente
financial, especially business, especially financeiras, especialmente comerciais,
marketing. And SQL itself is a very… especialmente marketing. E o próprio
I say “routine” language. It’s not too SQL é uma linguagem muito... eu digo
difficult. SQL is going to be one that’s a “de rotina”. Não é muito difícil. SQL vai ser
necessity. uma que é uma necessidade.

Next to SQL is Python. That goes Depois do SQL está o Python. Isso é
without saying. The one right next óbvio. Aquela logo depois dela está mais
to it is more of a scripting language, para uma linguagem de script, que é R.
which is R. Now, if you haven’t heard of Agora, se você nunca ouviu falar de R, R
R, R is essentially... kind of a fun way of é essencialmente... meio que uma forma
making a calculator. It consists of many, divertida de fazer uma calculadora. É
many functions that help towards composta por muitas, muitas funções
making statistical summaries and que ajudam a fazer resumos estatísticos e
just providing overall statistics and simplesmente fornecer estatísticas gerais
developing models. e desenvolver modelos.

24
Transcript + Translation Data Analysis In a Nutshell

English Português

On top of all of these three that I Além de todas essas três que eu mencionei,
mentioned, there’s still an abundance ainda tem mais uma abundância. Você
more. You’ll have to learn stuff like Java, vai ter que aprender coisas como Java,
MatLab, maybe even C, SaaS, SPSS, Scala, MatLab, talvez até C, SaaS, SPSS, Scala e
and many more. muitas mais.

25
Vocabulary Data Analysis In a Nutshell

data procedure
Diferentemente do português, em inglês Procedimento.
a palavra “data” é incontável, ou seja,
seria errado dizer coisas como “datas”, data set
“one data” ou “many data”. Usaremos
“data” tanto para traduzir a palavra “dado” Conjunto de dados.
quanto “dados”.
to perform
analytics Quando usado como verbo transitivo com
A palavra “analytics” pode se referir ao um objeto direto, geralmente traduzimos
conceito de acompanhar as métricas de como “realizar (alguma ação)”. Porém,
um determinado sistema, ou às próprias quando usado como verbo intransitivo,
métricas em si. sem nenhum objeto (como na frase
“(something) is performing well/badly”),
aí costumamos traduzi-lo como “estar
critical thinking
desempenhando bem/mal”.
Pensamento crítico.
...you know
on the fly
“Fillers” são palavras que não têm
Em tempo real, durante a execução. realmente muito significado, mas são
muito usadas, principalmente na fala,
task para deixá-la mais natural e fluida. A
expressão “you know” é um desses
Tarefa.
“fillers”, e é equivalente ao nosso “sabe…?”
do português. Ele costuma ser usado
daunting no começo ou meio de frases quando
Intimidante, assustador. hesitamos, ou no final de frases, para
buscarmos confirmação de que a outra
pessoa entendeu ou está nos escutando.
at the end of the day
Expressão que significa “no final das to share
contas”.
Compartilhar.

26
Vocabulary Data Analysis In a Nutshell

…, say, … at all
Assim como “let’s say”, essa versão Expressão que tem diferentes significados
abreviada “say” é usada quando dependendo do contexto da frase. Aqui,
queremos dar um exemplo de algo. a vimos na frase afirmativa: “any projects
Podemos traduzir como “digamos”. at all”, e nesse sentido, é usada para dar
ênfase apenas, e podemos traduzir como
to draw up “qualquer projeto mesmo”.

Elaborar.
scripting
to break down (something) Refere-se à ação de criar scripts, código.
into (something)
Dividir (algo) em (algo). wanna
Abreviação de “want to”, muito usada na
acronym fala.

Acrônimo.
to divvy up

conducive Phrasal verb pouco usado, que significa


“dividir”.
Propício, favorável.
correlation
When it comes to (something)
Correlação.
No que diz respeito a (algo), quanto a
(algo), no que toca a (algo).
chart

to replicate A palavra “chart” é um termo genérico


para qualquer representação gráfica de
Replicar. dados, então podemos traduzir como
“gráfico”, “tabela”, “diagrama”, entre
to lead to (something) outros, dependendo do caso.

Levar a (algo), conduzir a (algo), resultar


em (algo).

27
Vocabulary Data Analysis In a Nutshell

spreadsheet gonna
Planilha (às vezes abreviada como Abreviação de “going to”, muito usada na
“sheet”). fala.

dashboard That being said…


Painel. Um “dashboard” é um painel visual Dito isso...
que contém informações, métricas e
indicadores dos dados de negócios de row
uma empresa.
Palavra que podemos traduzir como
“linha”, assim como “line”. Porém, “row”
all of the sudden
é usada geralmente em relação a uma
De repente, subitamente. tabela, onde temos “rows” (linhas) e
“columns” (colunas).
once (+ subject)
analyzation
Quando temos a palavra “once” seguida
por um sujeito, ela funciona como uma Análise. Refere-se ao ato de analisar algo.
conjunção e tem o sentido de “uma vez Porém, o seu sinônimo “analysis” é muito
que” ou “quando”. Alguns exemplos que mais usado.
vimos:
• once you’re done inspecting all this to commence
data
• once the data is cleaned Começar. Sinônimo mais formal de “to
• once you are able to remove these start” e “to begin”.
anomalies
• once you’re done cleaning dummy variable
• once the transformation is all done
A palavra “dummy” é usada como
• once the training data is sifted out
adjetivo para indicar algo “falso”, “fictício”,
“simulado”.
(something) is a headache
A palavra “headache” significa “dor de on average
cabeça”. Porém, quando dizemos que Em média.
algo é “a headache”, queremos dizer que
se trata de uma coisa “chata”, “irritante”.

28
Vocabulary Data Analysis In a Nutshell

categorical variable to get to (do something)


Variável categórica. No contexto de Ter a possibilidade de (fazer algo),
Estatística, uma variável categórica é conseguir (fazer algo), chegar a (fazer
uma variável que pode assumir apenas algo).
um número limitado (e geralmente fixo)
de valores possíveis, atribuindo cada to model
indivíduo a um determinado grupo
ou categoria com base em alguma Modelar.
propriedade.
self-explanatory
to predict Autoexplicativo.
Prever, predizer. Ela é praticamente um
“sinônimo” do verbo “to forecast” que realm
vimos anteriormente, mas com a nuance
Reino.
de que “to forecast” deixa claro que é
uma previsão ou projeção feita com base
em dados de acontecimentos passados; predictive
enquanto que “to predict” é uma previsão Preditivo.
que pode ser feita com ou sem esses
dados, como um vidente que prevê o
to yield
futuro.
Produzir, render, gerar.
summary
Resumo.
to implement
Implementar.
to dummify
Verbo criado a partir de “dummy”, que
research
vimos anteriormente com o sentido de Pesquisa.
“falso”, “fictício”, “simulado”. Podemos
traduzir como “criar (algo) fictício”, set
“ficcionar (algo)”.
Como substantivo, significa “conjunto”,
“grupo”.

29
Vocabulary Data Analysis In a Nutshell

sample nitpicky
Amostra. O verbo “to nitpick” se refere a ser
muito detalhista sobre algo, geralmente
to sift out buscando erros minúsculos. Aqui vemos o
adjetivo “nitpicky”, que podemos traduzir
Tanto o verbo “to sift” quanto o phrasal como “detalhista”, “muito exigente”,
verb “to sift out” significam “peneirar”.

analogous
overfitting
Análogo.
Sobreajuste. No contexto de Estatística, é
muito usada também na forma em inglês,
skilled
sem tradução, e é usada para descrever
quando um modelo estatístico se Qualificado, habilidoso, competente.
ajusta muito bem ao conjunto de dados
anteriormente observado, mas se mostra critical thinker
ineficaz para prever novos resultados.
Pensador crítico. Refere-se a alguém que
tem “critical thinking”.
underfitting
Subajuste. No contexto de Estatística, é to lead (something, someone)
muito usada também na forma em inglês,
sem tradução, e é usada para descrever Liderar (algo, alguém), guiar (algo,
quando um modelo estatístico se ajusta alguém).
de modo insatisfatório ao conjunto de
dados de treinamento, geralmente por in hand
não conseguir capturar o relacionamento
entre as amostras de entrada e os valores Em mãos, em questão.
de saída.
task force
to pull data Força-tarefa.
Extrair dados.
to excel
database Sobressair, destacar-se.
Banco de dados, base de dados.

30
Vocabulary Data Analysis In a Nutshell

See... scripting language


As expressões “See…” e “You see…” são Linguagem de script. É um tipo de
outros desses “fillers”, e equivalem ao linguagem de programação que suporta
nosso “veja bem...” do português. Elas scripts, programas escritos para um
costumam ser usadas no começo de sistema de tempo de execução em tempo
frases, quando queremos destacar algo real, que automatiza a execução de
ou explicar melhor algo que estamos tarefas.
falando.
to get (one’s) feet wet
to find out
Essa expressão significa que vamos
Phrasal verb que significa “descobrir”. começar a fazer algo novo, como um
trabalho ou uma atividade, geralmente de
back to square one modo lento, para ir se acostumando com
ele. Nela, trocamos o “one’s” pela forma
De volta à estaca zero. do possessive adjective do pronome
em questão (my, your, our). Exemplos:
Last, but not least... • You’re really gonna get your feet wet in
this industry
Expressão muito usada no final de uma • I worked as an intern for a while, just
explicação, que geralmente traduzimos to get my feet wet.
como “Por último, mas não menos
importante…”.
ad-hoc
to come out “Ad hoc” é uma expressão latina cuja
tradução literal é “para isto” ou “para
Phrasal verb com diferentes significados, esta finalidade”. É geralmente usada no
que podemos traduzir como “sair”, contexto de programação para indicar
“aparecer”, “surgir” ou até mesmo “ser algo feito para um fim específico. Ou
lançado”, dependendo do contexto. seja, uma ajuda “ad hoc” seria uma ajuda
de uma vez só, necessária para algo
to update específico.
Atualizar.

31
Vocabulary Data Analysis In a Nutshell

querying overall
Refere-se ao ato de fazer “queries”, Como advérbio, significa “em geral”,
“consultas”, geralmente em um contexto “como um todo”. Vimos ela sendo usada
de bancos de dados. como adjetivo na frase “providing overall
statistics”, que podemos traduzir como
querying language “fornecendo estatísticas gerais”.

Linguagem de consulta. Refere-se a


stuff
linguagens como SQL, usadas para fazer
consultas em bancos de dados. A palavra “stuff” é incontável, ou seja,
seria errado dizer coisas como “stuffs”,
That goes without saying “one stuff” ou “many stuff”. Ela usa
determinantes no singular (“this stuff”,
Expressão fixa que significa “Isso é óbvio”. “that stuff”). Usaremos “stuff” tanto para
traduzir a palavra “coisa” quanto “coisas”.
to provide
Fornecer, prover.

32
Grammar Data Analysis In a Nutshell

I’m gonna be talking about data, data analytics

Acima vemos o tempo verbal Future Continuous, que é usado para


falar sobre alguma coisa que estará ocorrendo no futuro, por si
mesma ou simultânea a outra ação. Ele é formado usando:

“will be” ou “going to be” + verbo principal na forma “-ing”

Porém, ele também é muito usado simplesmente como um


sinônimo do Futuro simples, o que causa um problema comum
em português: o gerundismo, que é o uso do gerúndio para falar
sobre o futuro onde o mesmo não era necessário, geralmente uma
tradução direta do Future Continuous do inglês, muito usado por
empresas de telemarketing.

Como exemplo, a frase “Eu vou te mandar os documentos em


breve” pode ser expressa em inglês usando o Futuro simples (“I’ll
send you the documents soon”), mas também seria correta no
Future Continuous (“I’ll be sending you the documents soon”). Já em
português, seria considerado gerundismo o uso da frase “Eu vou
estar te mandando os documentos em breve”.

33
Grammar Data Analysis In a Nutshell

Outros exemplos do Future Continuous que vimos nesta aula:


• I’m gonna be talking about a different way of looking at data
• We’re gonna be speaking more about the data itself
• the analyzation that will be commencing afterwards
• softwares you’ll be using to perform

you’ll hear me speak on this

A preposição “on” é muitas vezes usada como sinônimo de “about”,


com o significado de “sobre”.

I’m gonna be talking about a different


way of looking at data

Como já vimos, essa frase está no tempo verbal Future Continuous.

Alem disso, quando usamos um verbo depois de uma preposição


(como “of” acima), ele sempre estará na forma “-ing”. Por isso o
verbo “to look” se transforma em “of looking”. Outros exemplos:
• I thought of going there.
• He’s thinking about leaving.

34
Grammar Data Analysis In a Nutshell

This is kind of what I just spoke about.

Diferentemente do português, em inglês é correto e muito comum


terminar certas frases com preposições. Tomando a frase acima
como exemplo, vemos isso na expressão “to speak about” (falar
sobre).

We’re gonna be speaking more about the data itself

Como já vimos, essa frase está no tempo verbal Future Continuous.

Além disso, o pronome reflexivo é usado simplesmente para


dar ênfase à coisa sobre a qual estamos falando (aqui, “the data”).
Podemos deixar sem tradução, ou traduzir como “mesmo”,
“próprio” ou “em si”, dependendo da frase. Outro exemplos que
vimos na aula:
• That goes even more into the realm of Predictive Analytics, and
Data Science itself
• And SQL itself is a very… I say “routine” language

35
Grammar Data Analysis In a Nutshell

...making sure data looks correct, making sure that you can
really make questions off of it.

A estrutura “off of” é muito comum no inglês norte-americano, mas


pode ser considerada incorreta no inglês britânico, dependendo
do contexto. Aqui, o uso do “off of” passa a ideia de que é algo que
está se originando de outra coisa, ou seja, fazer perguntas com
base em alguma coisa.

These are all questions you need to start thinking about in


the first stage of getting any… any data set

Primeiramente, acima vemos mais uma frase terminada em


preposição. Seria correto dizer essa mesma frase com a
preposição no meio, como em português: “These are all questions
about which you need to start thinking”, mas isso pode soar
um pouco formal demais ou não natural. Dessa forma, na fala é
mais comum usar a forma com a preposição no final: “These are all
questions you need to start thinking about”.

Além disso, vemos novamente um verbo sendo usado depois de


uma preposição (como “of” acima), e por isso ele está na forma
“-ing”. Por isso, o verbo “to get” se transforma em “of getting”.

36
Grammar Data Analysis In a Nutshell

you’ll wanna divvy up, say, some correlations

Já vimos o significado de “wanna” na seção Vocabulary.

Além disso, note que, em alguns contextos, é possível o uso do


verbo “to want” (querer) com o sentido de “precisar”, ou seja, não
é um desejo, mas sim uma necessidade. Isso é muito encontrado
quando alguém está dando uma sugestão, ou explicando como
algo deve ser feito.

...help you further inspect it

A palavra “further” tem diferentes usos e significados, mas ela é


comumente usada com verbos, tanto antes quanto depois do
verbo, para indicar algo como “a mais” ou “ainda mais”, “além do
normal”.

37
Grammar Data Analysis In a Nutshell

A very big aspect of Data Analysis and Data Analytics…

Na frase acima, a tradução é basicamente a mesma em português,


mas em inglês não necessariamente. A expressão “Data Analysis”
se refere à “Análise de Dados” mesmo, mais pura. Já “Data
Analytics”, como já vimos na seção Vocabulary, a palavra “analytics”
pode se referir ao conceito de acompanhar as métricas de um
determinado sistema, ou às próprias métricas em si. Por isso,
nesse caso, optamos por traduzi-la como “Lógica Analítica de
Dados”, para deixar clara essa diferenciação.

Sometimes the numbers just don’t do enough

Conhecemos o verbo “to do” com o sentido de “fazer”, mas ele


também pode ser usado no sentido de “bastar”, “ser o bastante”,
“ser o suficiente”, “servir”. Exemplos:
• We just have instant coffee, but that will do. (Nós só temos café
instantâneo, mas isso vai ser o bastante.)
• An empty box will do for a table. (Uma caixa vazia vai servir para
ser uma mesa.)

38
Grammar Data Analysis In a Nutshell

They’re more about numbers

A expressão “to be more about (something)” pode ser traduzida


como “preferir (algo)” ou “ser mais a favor de (algo)”.

They will be the ones, traditionally, to lead


the Data Analytic project

Estrutura usada para dar ênfase no fato de que é determinada


pessoa que está fazendo algo. Assim, “They will be the ones...” pode
ser traduzida por “São eles que…” ou “Eles são aqueles que…”.
Outros exemplos:
• I’m the one who knocks. (Sou eu quem bate.)
• You’re the one who is going away. (É você que está indo
embora.)

39
Grammar Data Analysis In a Nutshell

if you haven’t heard of R, R is essentially

Nessa frase vemos o uso do tempo verbal Present Perfect, na


frase “you haven’t heard”. Ele é formado usando:

verbo “to have” como auxiliar + verbo principal no Past Participle

Para o verbo “to hear” (ouvir), a forma no Simple Past e no Past


Participle é “heard”. Assim, obtemos “you have not heard” ou,
abreviando, “you haven’t heard”.

Esse tempo verbal é usado em algumas situações, mas como o


próprio nome diz, tem a ver com algo que ocorreu no passado,
mas que ainda tem alguma relação com o presente. Na frase
acima, vemos essa relação com o presente indicada na nuance de
que “se você não ouviu (nunca) falar sobre R”, nunca na vida, até o
presente momento.

40
Grammar Data Analysis In a Nutshell

The one right next to it is more of a scripting


language

Acima vemos mais uma estrutura com “more”, mas aqui temos “to
be more of (something)”, que podemos traduzir como “estar mais
para (algo)”, geralmente quando comparamos coisas.

It consists of many, many functions that


help towards making statistical summaries

Vemos novamente um verbo sendo usado depois de uma


preposição (como “towards” acima), e por isso ele está na forma
“-ing”. Por isso, o verbo “to make” se transforma em “towards
making”.

41
Mistakes Data Analysis In a Nutshell

Em outras aulas temos professores que não são falantes nativos de inglês,
porém, nesta aula, tivemos um falante nativo, mas que mesmo assim comete
alguns errinhos, assim como nós cometemos eventualmente em português.
Isso pode te mostrar que é possível ser extremamente fluente em inglês, a
nível de trabalhar e fazer apresentações no idioma, e mesmo assim cometer
pequenos errinhos.

Nesta seção, vamos explicar quais foram esses errinhos cometidos durante a
aula e como corrigi-los.

there’s many instances


Frase correta: there are many instances

Explicação: Como temos “instances” no plural, precisamos da conjugação “there are”


também no plural, mas é um erro muito comum na fala, mesmo entre nativos.

this is a great rule of thought


Frase correta: this is a great rule of thumb

Explicação: A expressão “rule of thumb” é muito comum e significa uma “regra geral”. O
instrutor provavelmente mudou a linha de pensamento no meio da frase.

Has other people used this data before? Has other people tried to
replicate this data?
Frase correta: Have other people used this data before? Have other people tried to
replicate this data?

Explicação: Como em ambos os casos temos a palavra “people”, que é usada sempre
no plural, precisamos da conjugação no plural, que seria “have”, e não “has”.

42
Mistakes Data Analysis In a Nutshell

the Data Analytic project


Frase correta: the Data Analytics project

Explicação: A palavra “analytics” é usada sempre na sua forma do plural. Isso


provavelmente aconteceu porque, muitas vezes, palavras que são usadas como
substantivos na forma do plural, vão para a forma do singular quando são usadas em
locuções adjetivas, e isso cria um viés automático na cabeça de falantes nativos.

you’ll hear the two names kind of be interchanged


Frase correta: you’ll hear the two names kind of be used interchangeably

Explicação: A frase original não está incorreta, mas seria muito mais comum usar o
verbo “to use” com o advérbio “interchangeably”.

the programming languages that’s associated within Analytics


Frase correta: the programming languages that are associated within Analytics

Explicação: Como temos “programming languages” no plural, precisamos da


conjugação “are” também no plural.

I’m sure you’re all aware of that there is an abundance, there


is so many actually
Frase correta: I’m sure you’re all aware that there is an abundance, there is so many
actually

Explicação: Existem tanto a expressão “to be aware of (something)” (estar ciente


de algo) quanto “to be aware that…” (estar ciente de que…). Nesse caso, o instrutor
provavelmente mudou a linha de pensamento no meio da frase.

43

You might also like