You are on page 1of 26

Hi, we are Clark Sparrow and this is a document about what we’ve learnt together.

We
hope this will be a long wolrd file because it means that we will have learnt much so far,
wonderful! So, let’s jump into the first knowledge we’ve gained from a social science
called Economics.

Hey, what is Economics and why we want to care about it Clark?

Good question Sparrow? Have you ever wonder how this society works as a whole.
Specifically, how our society used to distribute it’s resource and is it different nowadays?
What I mean Resource here is everything which is accepted valuable for people. For
example foods, cars, houses, clothes,energies are necessary resource, you need these to
survive. In contrast, movies, novels, music instrument. Entertainment devices may be
luxury for some households.

Wait a munite, our society having to decide how to distribute resource indicate that our
resource is scare, right?

Yes, it is and it’ll be serious problem when the wolrd’s population explodes as today.

Wow, it blow my mind.

I really care about Hapiness, my hapiness, our hapiness, is it has anything to do with
Economics?

It so was. If your hapiness mean we fullfiled with our needs physically, mentally and
emotionally. You want happiness is the same as you want to play this life game well. In
addition, to play a game well you have to know the game rules. Resources are producted,
exploited but also comsumed by human, out society everyday. You may heard this funny
quote “có làm thì mới có ăn”, also it’s so true. But who or what appoint whom “làm”
what and “ăn” how much? how this process occur? Ecomics will show you these.

What are we doing so far, Clark? I have lost the sight why we doing this.

We are storing what we have learnt so far about undergraduated Ivestment Finance.
While doing this, we practice expressing our learnt idea by english. We also create an
achor for various knowlegde we will learn in case we forgot it. When you want to restore
some knowlegde fading away, try to answer the question below that paraghraph first.
You’ve been mentioned about something called economics rules, which are the way
you and I and people interact with others, so how many of them and what are those
rules?

There are 10 principles, and they devided into 3 groups, each group answer the following
question:

1. How people refer something to something?


2. How people interact with others?
3. How the economy of a society work?

The first and the second group are in micro-economic area, a subject we will know about
people’s-icluding households, firms, government-behavior. The third group is in macro-
economic area.

The 10 priciples of economics sequentially answer those 3 questions. I’ll show you more
in detail.

The first question, how people refer something to something?

Have you ever consider playing one more LOL chess game with doing your homework?
Sometimes you don’t know should you buy a tofu cup or a potatos snack bag with 10K
VNĐ? You’ve heard about time wasting before? How all those questions ralate? It turns
out that people and society only have scarse resource, in consequence, everything has it’s
price-opportunity cost. Energy can never be created or vanished, it just transforms.

Do you think what we doing now is a little time consuming? I think it’s better for us
jumping right into CFA curiculum Clark, Sparrow!

Sure, just guarantee that you persist with your learning stratergies and good luck to us!

Clark, explain me what we called CFA so far and why we have to learn it, what we will
face and how we deal with it?

CFA-chartered finance analyst is a worldwide wellknown certificate recognizing your


knowlegde about finance analysting. When you have this CFA certificate, you have a
powerful tool and competive advantage in every job interwiew.

Sound good! Let’s get started with Quantitative Method part, shall we. Or do we need
to know about how to learn effectively?

To succesfully study CFA, you have to know about CBOK-competencies body of


knowlegde. (khung năng lực hiểu biết). There are 10 topics you can revise here 2022
Candidate Body of Knowledge (CBOK) (cfainstitute.org). The Ethical & Prfessional
Standard will follow you through three level with the same weighting in exam. The group
Investment Tool Topics including Quantitative Methods, Financial Economics, Financial
Reporting, Corporate finance appear in level 1 and level 2. The Assets Clases subjects
group including Equity Investments, Fixed Income, Derivatives, Alternative Investments
rises slighly in exam weighting in level 2 form level 1, and increases significantly in level
3. Porfolio Management and Wealth Planning has the same patern as Asset Classes. This
is a chart of CFA level I subject weghting exam in 2022, it may changes a little bit
through years (you can update it here Curriculum & Exam Topics (cfainstitute.org) )

Porfolio Management
Alternative 6% Ethical
Investments 15%
7%

Derivatives
7%
Quan.Metho
d
10%

Fixed Income
10%

Economics
10%

Equity In-
vestments
10%

Financial
Corporate Finance Analysis
10% 15%
Can you show me more how to learn each chapter effectively?

First thing first, you should really know LOS (learning Outcome Statement) before
studing each chapter, LOS is what you are expected to master after reading it. At the end
of the chapter there will be EORQs (End of Reading Questions), I should do it carefully
to examine if you grasp the chapter’s knowlegde, skills and abilities in hand.

What we I albe to do after Chapter 1: The Time Value of Money?

You should be able to:

1. Interpret Interest Rates as Required Rate of Return, or Discount Rate, or


Opportunity Cost;
2. Explain the Interest Rate = Real risk-free rate + Premiums that conpensate
investors for bearing distinct types of risk;
3. Caculate and interpret the Effective Annual Rate (EAR), given Stated Annual
Interest Rate (APR) and the frequency of compounding (m);
4. Caculate the solution for time value of money problems with different frequencies
of compounding;
5. Caculate and interpret the future value (FV) and present value (PV) of a single
sum of money, an ordinary annuity, an annuity due, a perpetuity and a series of
unequal cash flows;
6. Demostrate the use of a time line in modeling and solving time value of money
problems.

How I can interpret Interest Rate as common sense?

First of all, you need to graph this idea “a dollar today is worth more than a dollar
tomorrow, and a dollar tomorrow worth more than it is the day after and so on”. It sound
like the value of a dollar you have decrease over time but that not true technically. So
what make your dollar today is worth more than any day at the future. The answer is
Interest Rate. Suppose you have $100 and you want to invest it, this mean you hope this
investment will worth more in the future, says $110 after a year. So your required rate of
110−100
return is =10 % , you may not accept another investment offer to you with
100
lower rate of return. An interchangeable term we may encounter is discoun rate, how we
view this? If a finacial intermediaries offer you an investment give you $110 after 1 year,
and your required rate of return is 10%, how much does this investment worth to you
today, at present. Is discount rate the rate you discount $110 recived in the future to the
value this ammount of money worth today? Not surprisingly, the result is $100. In
consequence, note that Interest Rate as required rate of return and discount rate used to
caculate the future value and present value of an investment.

Let’s change your role a little bit. Now, you are not an investor but a debtor. Is Interest
rate in this case different? By nature, lending is an investment with less risk and less
return. You loan somebody money mean that you can not use that money for anything
else, eg: investing, speculating, shopping, crediting,… So, you can account interest rate
for Opportunity cost.

So as Investor, Interest Rate is something he receive for what he lend, and as


borrower, enterpreneur is somgthing he pay for what he borrow. Is it fixed or variable
over time?

You guess? Yes, it is variable. The value of money changes over time, so does the price
of using it-interest rate. In fact, when you lend or invest your money, not only you expect
return, but also that return should conpensate for distinct types of risk you bear. CFA
professional list four types of risk considered as premiums that are required returns for
bearing it.

Inflation: the higher the inflation rate, the higher the inflation premium

Default risk: the higher the probability borrower default, the higher the default risk
premium

Liquidity: the harder, more costly the investment could be converted to cash, the higher
the liquidity risk premium.

Maturity: the longer the time to maturity, the higher the maturity premium.

In a nutshell, we have this equation:

r =¿real risk-free interest rate + inflation premium + default risk


premium +
liquidity premium + maturity premium
You may ask why we have to name risk free rate like that, is there noimial risk-free
interest rate? Yes there is. Nominal interest rate ussually interpreted as sum of real risk-
free rate and inflation rate.

You’ve mentioned future value and present value caculated by using interest rate,
show me how.

Let’s start with the simplest case. Suppose you have a lump sum of money worth
PV ( present value) at present, you invest it with interest rate r , how much your investment
worth after N years. Put it another way, how much is the FV (future value) of your
investment?

F V N =PV ( 1+r ) N (*)

For visualization, you have a lump sum money worth PV=$100 today, you invest it with
interest rate r=5%, after 1 year you will have $100 and 5% of $100, total $105. How
about 1 year after that? You will have $105 and 5% of $105, won’t you, 110.25 totally.
You will have $110.25 and 5% of it after 3 years, $115.7625 and 5% of it after 4 years
and so on. The ammount received equal (1+r) times that received the year before. You
should be very clear about the different between simple interest and compounded
interest. Simple Interest is the interest earned on the principle, the ammount originally
invested. In our example the principle is $100, and the simple interest after each year is
5% of $100, $5. Compounded Interest is the ammount earned on the interest, that mean
it is interest on interest, compound with that of simple interest. This phenomenon known
as compounding. Compounding is a process of accumultating interest on an investment
over time to earn more interest . Notice that when the interest rate changes compounded
interest will be more affected than simple interest. Morever, compounded interest is the
core growth power of every investment.

Another variance of (*) will be useful when you need to caculate the future value (FV) of
an investment compounding more than one per year.

( )
mN
rs
F V N =PV 1+
m

With r s is stated annual interest rate or quoted interest rate. m is compounded


frequency.

Suppose your investment compounded quaterly (each 3 months), this means your
investment compounded 4 times a year so m=4 . Monthly compounded m=12,
Semianually compounded m=2 and the like. You may notice that if 0< m<1, this
formular is true still.

A special case of this formular happen when m=∞, we call the investment compounded
continuously. With a little mathematics, it could be rewriten as:
rSN
F V N =PV ⅇ

It seem like the quoted interest rate is different from the definition of it when the
compounded frequency greater than one?

Yes, it is. Quoted interest rate or Stated annual interest rate often noted as Annual
Percentage Rate (APR) in the U.S, and the real interest rate called Effective Annual
Rate (EAR). The formular when you want to convert APR to EAR is as follow:

EAR=( 1+r s )m−1

With m→ ∞
rS
EAR=ⅇ −1

Next, we’ll go really quick bacause we’ve already know how these formulars work.

1. Future Value of an ordinary annuity:


F V N= A [
( 1+r ) N −1
r ]
2. Present Value of a lump sum:
−N
PV =F V n ( 1+r )

3. Present Value of non-annual compounded lump sum:

( )
−mN
r
PV =F V n 1+ s
m

4. The Present Value of an ordinary annuity:

P V N= A [
1−( 1+r )−N
r ]
5. The Present Value of a perprtuity:
A
PV =
r

6. PV (FV ) of an annuity due = PV ( FV ) of an ordinary annuity * ( 1+r )

What is Data? Is Data Information?

Data is Information with more stringent. Every Data are Information but Every
Information are Data is not true. Imagine this, you have $1000 and you consider loaning
your friend it. What Information you need to know to make decision if you should
lending your money. Obviously, the most useful information could be his historcal credit,
his wealth, the reason why he borrow money from you, what he use this money for,…In
contrast, the information about, what kind of beer he drink or which TV channel he prefer
apparently doesn’t help you make loan decision or not. So the Useful Information for
Decision Making called DATA.

How many types of Data?

From statiscal perspective, we can classify data as follow:

Dicrete Data
Quantitative
Data Continuous
Data
Data Type
Nominal
Categorical Data
Data
Odinal Data
Another data classification standard is based on data structure (how data is collected).

a list of observation of
Cross-sectional a specific variable
from multiple
Data observational units at
a point in time

a sequence of observation
Time-series for a observational unit of
Data Data a specific variable collected
over time

a mix of time-series and cross-


sectional data. It consist of
Panel Data observations over time on
one or more variables for
multiple observational unit

The last clasification is based on wheather or not data are in highly organized form.
highly organized in a
Structered Data pre-defined maner,
ussually with repeating
patterns
Data

data do not follow any


Unstructured
conventionally
Data
organized forms

How Data are organized for quantitative analysis? What is quantitative analysis? If I
don’t even know what it is, how should I know what Data organization is approriate?

Ok, you don’t have to know clearly what quantitative analysis is. Let’s just accept the
fact that quantitative method could only work with structured data, not unstructured
data. As an analyst, what you have to do to deal with an unstructure data is organizing it
into structered data. This structered data can be either cross-sectional, time-series or
panel data. As far as I concern, cross-sectional data could include both categorical and
numerical variables.

Next, we move on to the main subject, Organizing Data. We have known why, let’s find
out how. You will have two format type to represent Data in hand. Do you think is there
any format type for data organization?

One-dimensional array
(mảng một chiểu)
Format type of
Data Organization Two-dimensional array
(mảng hai chiều,
a.k.a Data Table)
What is frequency distribution?

Frequency distribution là một trình bày dạng bảng chỉ ra số các giá trị quan sát có giá trị
xác định hoặc số các giá trị quan sát có giá trị thuộc khoảng giá trị xác định (với giá trị
định lượng). Số các giá trị xuất hiện được gọi là absolute frequency. Tỷ lệ phần trăm giá
trị đó xuất hiện trong tổng tất cả các giá trị được gọi là relative frequency. Một khi chúng
ta tính được các nhập liệu này, cũng sẽ dễ dàng để tính được cumulative absolute
frequency và cumulative relative frequency.

Lập một frequency distribution cho biến định tính khá dễ dàng. Có thể phát biểu chúng
như sau:
1. Đếm số các quan sát cho mỗi giá trị duy nhất của biến
2. Lập một bảng list từng giá trị duy nhất và số đếm tương ứng, và sau đó sắp xếp
theo thứ tự giảm dần hoặc tăng dần phục vụ việc trình bày.

Frequency distributions cũng có ích khi phân tích một lượng lớn numerical data. Quy
trình các bước tổng hợp numerical data có một chút phức tạp hơn categorical data bởi vì
nó yêu cầu việc tạo non-overlapping bins (aka intervals hay buckets) và sau đó đếm các
quan sát thuộc mỗi bin. Các bước lập frequency distribuition cho data định lượng như
sau:
1. Sắp xếp Data theo thứ tự tăng dần
2. Tính Data Range=Maximum Value−Minximum Value
3. Cho số lượng các bin k trong frequency distribution
4. Xác định bin width=Range/k
5. Xác định bin đầu tiên bằng cách thêm bin width vào minximum value. Sau đó, xác
định các bin còn lại bằng cách thêm tương tự bin width vào end point của bin
trước đó và dừng khi đến một bin chưa maximum value
6. Xác định số các quan sát nằm vào trong mội bin bằng cách đếm số các quan sát có
giá trị bằng hoặc lớn hơn bin minximum value nhưng vẫn bé hơn bin maximum
value. Ngoại lệ nằm trong bin cuối cùng, ở đó maximum value bằng với maximum
value của bin cuối cùng, vậy nên, quan sát với maximum value đó được bao gồm
trong bin’s count này.
7. Lập một bảng các bin listed số chỉ số lượng quan sát nằm trong mỗi bin từ nhỏ
nhất đến lớn nhất.

What is contingency table?


Contingency table là một trình bày dạng bảng biểu diễn tần suất phân phối của hai (hoặc
nhiều hơn hai) biến định tính một cách đồng thời và được sử dụng để tìm patterns giữa
các biến.

Nếu như frequency distribution a.k.a one-way table chỉ có thể sumarize tần suất phân
phối các giá trị của cả biến định tính và biến định lượng thì contingency table chúng ta
biết chỉ tổng hợp được biến định tính. Nhưng bù lại contingency table a.k.a two-way
table có thể tổng hợp data cho hai biến cùng một lúc trong khi frequency table chỉ tổng
hợp được data cho một biến.

Những nhập liệu trong các ô của contingency table được gọi là joint frequencies. Chúng
sau đó được cộng lại theo hàng và theo cột để có được những tổng số tương ứng gọi là
marginal frequencies.
Một contingency table có R level của một biến trên các hàng và C levels của các biến
khác trên các cột được gọi là một bảng R ×C . Một contingency phải có số level xác định,
có thể theo trật tự (ordinal data) hoặc không (nominal data). Quan trọng là, data được
trình bày trong các ô của contingency table có thể dưới dạng frequency (count) hoặc
relative frequency (percentage) dựa trên hoặc overall total, row total hay column total.

What Contingency table is used for?

Contingency table có thể được ứng dụng để lập confusion matrix (dùng để đánh giá hiệu
quả của mô hình phân loại), chúng ta sẽ học nó ở phần sau.

Một ứng dụng khác của contingency table là truy tìm các liên hệ tiềm năng giữa hai biến
định tính. Một cách để kiểm tra quan hệ này là thực hiện kiểm định độc lập chi-quare
(chi-square test of independence). Vể cơ bản, quá trình bao gồm việc sử dụng marginal
frequencies trong contingency table để lập một bảng với giá trị kỳ vọng của các quan sát.
Các giá trị thực và giá trị kỳ vọng được sử dụng để suy ra thống kê kiểm định chi-square.
Thống kê kiểm định này sau đó được so sánh với chi-square distribution value, và sau đó
có bằng chứng để bác bỏ tính độc lập, gián tiếp suy ra có một liên hệ đáng kể tồn tạo giữa
các biến định tính.

What now? Are we learning visualizing data?

We’ve learnt how to orgazize data in one of two data organization format, one-
dimentional array and two-dimentional array. We’ve also known how to sumarize data. If
data only have one variable, frequency distribution (a.k.a one-way table) would be useful.
If data have two variables, we will use contingency table (two-way table) to summarize it.
We are now turning to discuss how data can be visualize.

Data Visualization là sự trình bày data dưới dạng hình ảnh hoặc đồ thị. Chúng ta, những
người thực hành phân tích có thể có một insight hay nhận biết tốt hơn data khi chúng ở
dạng hình ảnh, đồ thị thay vì những bảng số và những văn bản dày đặc các ký tự.

FREQUENCY DISTRIBUTION VISUALIZATION:

Histogram là một biểu đồ thể hiện distribution của numerical data qua độ cao của các bar
hay các column trong biểu đồ. These column thể hiện absolute frequency của một bin
trong distribution. Để lập một histogram đầu tiên chúng ta cần có frequency distribution.
Có nghĩa là trước khi visualize data, ta cần summarize nó. Lưu ý rằng histogram cũng có
thể thể hiện relative frequency của numerical data.

Frequency polygon là một đường vẽ nối tất cả các điểm đỉnh column của histogram. Nó
sẽ thể hiện sự thay đổi trong độ cao của các column này.

Cumulative frequency distribution chart là biểu đồ thể hiện một đường vẽ có được bằng
cách nối tất cả các đỉnh column của cumulative distribution.
Bar chart là biểu đồ thể hiện distribution của categorical data. Tất cả mọi điểm còn lại
của bar chart cũng tương tự giống histogram visualizing numerical data. Tuy nhiên có
một chút khác biệt trong trục x và trục y của histogram và bar chart.

Bar chart được sử dụng để biểu diễn frequency distribution cho one categorical variable.
What if we want to visualize two categorical data? We will need an enhanced version of
bar chart, called grouped bar chart (a.k.a clustered bar chart).
Stacked bar chart là một dạng thay thế cho grouped bar chart. Tưởng tượng các cột của
grouped bar chart được nhập lại làm một và đổi chiều trục, ta sẽ có đồ thị như sau:

Tree-map bao gồm một tập các hình chữ nhật khác màu biểu diễn các nhóm riêng biệt, và
vùng của mỗi hình chữ nhất tỷ lệ với giá trị của nhóm tương ứng. Tree-map có một
nhược điểm chính là nếu sự phân cấp nhiều hơn 3 level sẽ khó đọc data.
World cloud (a.k.a tag cloud) là một visual device biểu diễn unstructured data,
specifically, textual data. World cloud bao gồm các từ được lấy từ nguồn textual data, với
size của mỗi từ riêng biệt tỉ lệ với tần suất nó xuất hiện trong văn bản. Những common
words như “a”, “it”, “the” sẽ được bỏ quả để tập trung vào những key words đưa đến
thông tin cần thiết. Màu sắc của các từ có thể thêm vào như một chiều thông tin khác thể
hiện trạng thái, cảm xúc của những key words khai thác từ textual data.
Line Chart là một dạng đồ thị dùng để visualize ordered observations (các quan sát có
thứ tự). Thông thường một line chart được dùng để biểu diễn sự thay đổi của một chuỗi
data theo thời gian (time-seried data). Mày có thể thấy line chart giống frequency
polygon. And yes, frequency polygon là một line chart đặc biệt dùng để biểu diễn
distribution cho numerical data. Dưới dây ta thấy rằng line chart còn có thể tận dụng trục
y thứ 2 của nó để biểu diễn sự thay đổi theo biến trục x (thời gian) đồng với biến trục y
đầu tiên.

Nếu chúng ta quan tâm nhiều hơn hai biến được thể hiện trong line chart, chúng ta có thể
thêm những bubble vào trên những điểm nối của line chart, độ lớn của các bubble này sẽ
tỉ lệ thuận với giá trị quan sát của biến tương ứng. Những line chart được thêm những
buble được gọi là bubble line chart.
Scatter Plot là một dạng biểu đồ để visualize the joint variation trong hai numerical
variables, một công cụ hữu dụng biểu diễn và hiểu các liên hệ tiềm năng giữa hai biến.
Một scatter plot được lập từ một trục x biểu diễn một biến và một trục y biểu diễn một
biến còn lại cho một thời điểm xác định. Sau đó nó sử dụng các chấm điểm dot để thể
hiện các giá trị quan sát tương ứng với cả hai biến đồng thời.

Scatter Plot là một công cụ mạnh để tìm mối liên hệ giữa hai biến, cho việc đánh giá data
range (khoảng data) và nhìn ra extreme value. Tuy nhiên, trên thực tế sẽ có những trường
hợp chúng ta cần kiểm tra liên hệ từng đôi biến giữa nhiều biến. Lúc đó ta sẽ dùng một
biểu đồ có chút phức tạp hơn scatter plot, một bản nâng cấp của nó được gọi là scaterred
plot matrix.

Heat Map là dạng đồ thị tổ chức và tổng hợp data thành một dạng bảng và biểu diễn
chúng bằng các phổ màu ở phần bên phải biểu đồ. Heat có thể biểu diễn cả frequency
distribution và visualize mức độ tương quan giữa các biến khác nhau.

Chúng tao đã giới thiệu và thảo luận một loạt các visualization types thường được sử
dụng trong ngành đầu tư. Khi cần chọn một biểu đồ để visualizing data, mục đích dự tính
là cân nhắc trọng yếu: nó dùng để tìm hay trình bày distribution, hay relationship, hay
making comparation. Với mục đích xác định trước, lựa chọn tốt nhất thường là visual đơn
giản nhất đưa thông điệp hoặc đạt các goal cụ thể. Some visualization types như bar chart
và heat map có thể phù hợp với nhiều mục đích khác nhau.

Có những lỗi thường sẽ dẫn đến một misleading graph. Đầu tiên việc chọn sai graph
types sẽ cản trở việc trình bày đúng dữ liệu. Thứ hai, data được chọn lọc để lập biểu đồ sẽ
có ích cho kết luận analyst cần rút ra. Thứ ba, data sẽ lập biểu đồ sẽ sai lệch trong một
truncated graph mà có y-axis không bắt đầu từ không. Cuối cùng, không kém quan trọng
hơn là scaling của axes không phù hợp.

Chúng ta đã học cách visualize data, nhưng như vậy chưa đủ để trình bày data một
cách chi tiết cần thiết. Ở phần này chúng ta sử dụng những descriptive statistic cho
data.
Measure of Central Tendency xác định where data are centered
Measures of Location bao gồm không chỉ measure of central tecdency mà còn những
measure khác trình bày location hay distribution của data.
Chúng ta sẽ giải thích nhựng common measures của central tendency-the arithmetic
mean, the median, the mode, the weighted mean, the geometric mean và harmonic mean.
Chúng ta cũng sẽ giải thích các measures hữu ích của location, bao gồm quartiles,
quintiles, deciles and percentiles.
Một statistic là một summary measure của một tập observation, và decriptive statistic
sumarize central tendency và spread variation trong distrition of data. Nếu statistic
summarize tập tất cả observation có thể có của population, chúng ta refer to the statistic
as a paremeter. Nếu statistic summarize chỉ một phần tập các quan sát trong population,
chúng ta refer to the statistic as a sample statistic. Chúng ta phần lớn sẽ làm việc với
samples hơn là population.

Arithmetic mean bằng tổng giá trị của các observations chia cho số các observation.
n

Sample Mean formular:


∑ Xi
i =1
X= =μ
n
Arithmetic mean có thể được ví như là trọng tâm của một vật thể. Có một drawback của
arithmeic mean đó là nó khá nhạy với các outliers hay extreme values. Mày có thể sẽ
muốn biết arithmetic mean biểu diễn location của data tốt đến mức nào. Có thể cách tiếp
cận tốt nhất trong những trường hợp như vậy sẽ là tính toán median, hay middle value
thay thế hoặc bổ sung cho arithmetic mean.
Outliers là một giá trị quan sát cực bé hay cực lớn so với các giá trị quan sát còn lại. Đây
là những giá trị quan sát được trong mẫu và có khi (không luôn luôn) là mộf dấu hiệu sai
sót trong việc thu thập quan sát. Thường thì chúng ta sẽ giải quyết vấn đề này bằng cách
tranforming the variable hoặc chuyển qua một biến khác để đạt được mục đích ban đầu.
Nhưng nếu hai cách trên không khả thi chúng ta có những phương án thay thế sau:
1. Do nothing, tiếp tục sử dụng data (nếu quan sát là hợp lý)
2. Xóa tất cả các outliers (measure of central tendency lúc này được gọi là trimmed
mean)
3. Thay thế các outliers với một giá trị khác (measure of central tendency lúc này
được gọi là winsorized mean)
Median là một measure of central tendency quan trọng. Median là giá trị nằm chính giữa
(middle item) trong một tập các items đã được sắp xếp theo thứ tự tăng dần hay giảm dần.
Trong trường hợp số mẫu quan sát là số lẻ, thì median là value ở vị trị (n+1)/2. Với mẫu
có even-numbered, chúng ta sẽ có hai median là quan sát ỏ vị trí (n+ 2)/2 và n /2. Chúng ta
có thể thấy rằng median sẽ bị tác động ít hơn bởi outliers so với mean. Vậy nên median
sẽ có ích khi mô tả phân phối không đối xứng như là revenues variable.
Một nhược điểm của median là sẽ mất thời gian dể sắp xếp theo thứ tự các quan sát. Hơn
nữa median không thể hiện một giá trị đại diện cho độ lớn của toàn bộ mẫu.
The mode là giá trị quan sát có tần suất xuất hiện nhiều nhất trong sample. Một phân phối
có thể có nhiều hơn một mode hoặc không có mode nào.
Distribution có một mode là unimodal, hai sẽ là bimodal, ba sẽ là trimodal.
Đối với continuos data distribution, bin có tần suất xuất hiện nhiều nhất được gọi là
modal interval.
Đối với nominal data, the mode sẽ là measure of central tendency duy nhất.
n
Weighted Mean formular: X w =∑ w i X i
i=1

Geometric Mean (often used in analyzing growth rates in financial data) formular:
G= √n X 1 X 2 … X n
N
X H= N
Harmonic Mean formular:
∑ X1
i=1 i

Chúng ra dùng:
Arithmetic mean để ước lượng kết quả quan sát tiếp theo, giá trị được kỳ vọng (expected
value) của một phân phối. Arithmetic mean có thể bị ảnh hưởng lớn bởi outliers, khi đó
ta có thể dùng trimmed mean hoặc winsorized thay thế.
Geometric mean được dùng cho quan sát compound rate of return qua các kỳ.
Harmonic Mean được dùng để tính giá trung bình cùa cổ phiếu theo thời kỳ.

√∑
2
Sample Target Semideviation formular: sTarget =
n
( X i−B )
X i≤ B n−1
S
Coefficient of Variation formular: CV =
X

Normal Distribution có the mean = the median = the mode và hoàn toàn có thể được mô
tả chỉ bằng the mean và the variance.

Skewness 1
∑ ( X i −X )
3

i=1

n s
3

Nếu skewness dương có nghĩa là các outliers lớn hơn kỳ vọng. Ngược lại skewness âm
nghĩa là các outliers bé hơn kỳ vọng.
n

Kurtosis 1
∑ ( X i −X )
4

i=1

n s4
Nếu kurtosis < 3, nó có dạng mập lùn so với normal distribution. Ngược lại nếu kurtosis
> 3, nó có dạng gầy cao so với normal distribution.
Correlation (tương quan) là một measure quan hệ tuyến tính giữa hai biến ngẫu nhiên.
Covariance (hiệp phương sai) là một measure cho mức độ move together của 2 biến
trong một mẫu. Covariance dương là một chỉ báo khi X nằm dưới hoặc trên kỳ vọng của
nó, Y cũng vậy. Ngược lại covariance âm là một chỉ báo nói rằng hai biến X, Y đang
không move together về các bên của kỳ vọng tương ứng của chúng.
Vì khó có thể diễn giải giá trị của covariance, chúng ta sẽ cần đến một phiên bản khác
nhưng được chuẩn hóa của covariance đó là correlation coefficient (hệ số tương quan).

Could you help us graph all the concept of decribing by mathematical tool?
Okay. Long in short, a finance data analyst could describe not only by graph (visualizing
data), but also descriptive statistic.
By mathematic definiton of mean, mode, median, we can define where the data centered.
This work is a little harder when there are ouliers in data. That’s when we need some
technique to deal with them.
Another question would raise beside central tendency about the data is how observations
are distributed. Variance, deviation, coefficient of variation will tell us how many
observation difference from sample mean.
How we start to learn Probability and Statistic?
You have 1 million dollar. Your friend, Chand want to borrow half it for his bread baking
business. He promises 9 years later he would refund your capital in form of his
company’s stock, and that porfolio will be worth 1 million at that time. Do you believe
him? At what change you will lose your money, or he make your money benefit as he
said, maybe higher, maybe lower. Is it worth lending him rather putting money in your
saving account? The story of investment, risk, interest, loss never get old. Before making
any investment decision, professional investor carefully considering those features. They
gather their available information, experiment, intuition and Mathematical Tool to bring
the best forecast of their investment.
Later we will learn some basic concept of Probabily and Statistic.
At begin of every football match, the referee will flip a coin to decide which team could
choose which goal side they gonna attack, and the other team have ball kicked off. 50
percent or 0.5 is the probability the coin turn head or tail. Where this number came from?
Intuition? This answer is not exactly from statiscal perspective. To conclude this number,
statiscian need Experiment. In this case experiment is flipping the coin. Each experiment
have an Outcome-all the posiblie outcome after coin flippng experiment are head or tail.
We can be sure which side of coin will turn, so before experiment, which side the coin
turn is a Random variable. We can say that a random variable equal 1 outcome after 1
experiment (observation).
The problem become a little bit more complex when the expriment be flipping 2 coin at a
time. We can say by definition all posible outcome are: both coin turn head, both coin
turn tail, first coin turns head and the other turns tail, first coin turns tail and the other
turn head. Two last outcome are concluded by an event “One coin turn head and the other
turn tail”. So, the two coin flipping experiment have 4 posible single outcomes and 3
events could happen at all. You may recognize that an Event not only can be a specified
set of out come, but also a single outcome.
Now we talk about Probability. There are 2 propeties that define it:
1. The probability of any event E is a number between 0 and 1: 0 ≤ P ( E ) ≤ 1
2. The sum of the probabilities of any set of mutually exclusive and exhaustive
events equals 1.
How we get, or caculate the Pobability of an Event?
The least subjective way is a guest (but also can be the most exact way). Base on your
experiment, your logical and your information, you guest the subjective probability of
event both coin turn head is 0.24. Then you are doubful about this number, you flip 2
coin simultaniously 100 times and your expected event happen 27 times, the empirical
probability of E now is 0.27. You still not confident about those number, you enroll a
statistic course of a Havard professor and caculate the priori probability of E is 0.25.
Mathematically and Logically speaking, the priori probability is most exact. But in
practice, nothing can be so sure.

Is there some mathematical formular we need to remember?


Odds for E=P ( E ) ∕ [ 1−P ( E ) ]

Odds against E=[ 1−P ( E ) ] /P ( E )

If event A and event B are Independence:


P ( AB ) =P ( A ) . P(B)
If event A and event B are Dependence: (multiplication rule of probability)
P ( AB ) =P ( A ) . P ( B| A ) =P ( B ) . P ( A| B )

If event A and event B are Mutually Exclusive:


P ( A∨B )=P ( A ) + P(B)
If event A and event B are Intersec: (additional rule of probability)
P ( A∨B )=P ( A ) + P ( B )−P ( AB )
If S1 , S 2 , … , S n are mutually exclusive and exhaustive events: (total probability rule)
P ( A )=P ( A| S1 ) . P ( S1 ) + P ( A| S2 ) . P ( S 2 )+ …+ P ( A|S n ) . P ( S n)

Expected Value E ( X ) =P ( X i ) . X i

Variance σ 2 ( x )=E { [ x −E ( x ) ] }
2

Standard Deviation σ ( X )=√ σ 2 ( X )

Porfolio Expected Return:


n
E ( R P )=∑ wi E ( Ri )
i=1

You might also like