You are on page 1of 18

Проект 1: знайдіть статистичні характеристики для двох обраних вами

одновимірних кількісних наборів даних, які пов'язані з роботою, фірмою або


галуззю промисловості. Для кожного набору даних:
а) Визначте середнє, медіану і моду.
б) Як кожен з цих показників характеризує набір даних і економічну
ситуацію?
в) Побудуйте гістограму і вкажіть значення цих трьох характеристик на
горизонтальній осі. Прокоментуйте форму розподілу та взаємозв'язок між
гістограмою і цими характеристиками.
г) Побудуйте блокову діаграму і прокоментуйте переваги і недоліки
гістограми в порівнянні з блочною діаграмою.

В якості обраних одновимірних кількісних наборів даних, які пов’язані


з роботою у мене є:
1.Рівень доходу працівників аутсортингової компанії «БУХ.ОК.Є»
2.Віковий діапазон працівників аутсортингової компанії «БУХ.ОК.Є»
Таблиця 1

№ Рівень доходу працівника Вік


праців на місяць, тис.грн працівника
ника
1 50 000 26
2 23 000 22
3 24 500 31
4 33 000 23
5 20 000 29
6 23 000 42
7 34 000 31
8 20 700 35
9 17 500 38
10 43 860 46

А) Середня арифметична величина є найбільш поширеним видом


середньої. Вона використовується у тому випадку, коли обсяг варіюючої
1
ознаки одержується як сума індивідуальних значень. Середня арифметична
величина має таку загальну логічну формулу розрахунку:

, тобто

Середнє значення доходів:


(50 000+23 000+ 24 500+33 000+20 000+ 23000 +34 000+20 700+17 500+ 43 860)/10=28 956 грн .
Медіана (Ме) — це значення ознаки, що ділить рангований ряд значень
показника на дві рівні частини. У першої половини одиниць значення ознаки
менше медіани, а у другої — більше. Тобто, медіана — це серединне
значення. У тому випадку, коли відомі індивідуальні значення ознаки, їх
спочатку рангують (розміщують в порядку зростання чи спадання). Потім
визначають номер (місце) медіани:
, отже спочатку потрібно відсортувати дані за зростанням: 17 500, 20
000, 20 700, 23 000, 23 000, 24 500, 33 000, 34 000, 43 860, 50 000. Потім
можна знайти медіану, яка буде середнім значенням двох центральних
значень: (23 000+24 500)/2=23 750 грн .
Мода (М0) — це значення ознаки, що найчастіше зустрічається у
сукупності. Таким чином, у дискретному ряді розподілу - це варіанта, що
має найбільшу частоту. В інтервальному ряді розподілу мода знаходиться за
формулою:

де: хмо — нижня межа модального інтервалу;


і — величина модального інтервалу;
f2, f1, f3 — відповідно частота модального, передмодального
та після модального інтервалів.
Мода доходів: 23 000 грн, оскільки це значення зустрічається
найчастіше у наборі даних.
Середній вік працівників:
(26+ 22+ 31+ 23+29+42+31+35+ 38+46)/10=32.3 роки .

2
Медіана віку працівників: спочатку потрібно відсортувати дані за
зростанням: 22, 23, 26, 29, 31, 31, 35, 38, 42, 46. Потім можна знайти медіану,
яка буде середнім значенням двох центральних значень: (31+31)/2=31
Мода вікового діапазону - це значення, яке зустрічається найбільшу
кількість разів у наборі даних. В нашому випадку віковий діапазон 31
повторюється двічі, для працівників №3 і №7. Тому мода вікового діапазону -
це 31.
Б) Середнє значення, медіана і мода є показниками центральної
тенденції, які характеризують розподіл даних.
За результатами розрахунків, середній дохід працівників становить 28
956 тис. грн. Цей показник є важливим для менеджменту компанії, оскільки
він дозволяє зрозуміти, який є середній дохід на підприємстві та визначити,
наскільки високо або низько він є порівняно зі збалансованим ринком праці.
Медіана доходу складає 23 500 тис. грн. Це означає, що половина
працівників мають дохід нижче цього значення, а інша половина - вище.
Медіана показує, який є середній рівень доходу серед працівників, що
займають різні посади.
Мода доходу становить 23 000 тис. грн. Це найбільш повторюване
значення в наборі даних, тому мода дозволяє визначити найбільш типове
значення доходу, що може бути корисним для планування заробітної плати
працівників.
Щодо вікового діапазону працівників, середнє значення віку складає 31
рік. Цей показник важливий для розуміння розподілу вікової структури
працівників на підприємстві та може вказувати на можливі проблеми,
пов'язані зі старінням або недостатньою кількістю молодих спеціалістів.
Медіана вікового діапазону складає 30 років, що означає, що половина
працівників молодші за 30 років, а інша половина - старші.
Також мода вікового діапазону дорівнює 31, що вказує на те, що
найбільш типовий вік працівників в цьому наборі даних - 31 рік.

3
У цілому, середнє значення доходів дозволяє отримати загальну
інформацію про рівень доходів в цьому наборі, медіана - дає інформацію про
те, наскільки рівномірно розподіляються доходи, а мода - про найбільш
типове значення вікового діапазону. З цієї інформації можна зробити
висновок про те, що в цьому наборі даних доходи різняться значно, але
присутній деякий баланс між ними, оскільки середня значення і медіана не
відрізняються дуже сильно. За віковим діапазоном можна сказати, що досить
багато працівників мають вік біля 31 року, що може вказувати на зрілих
фахівців, які мають досвід роботи в цій галузі.
В) Для побудови гістограми в програмі Excel слід використовувати дані
середньо значення, моди та медіани. Будуємо гістограму шляхом введення
даних доходів працівників, та вибору діапазона даних. В результаті
отримуємо таку гістограму, див. рис. 1.

Рис. 1. Гістограма рівня доходів працівників


Таким же чином будуємо гістограму вікового діапазону, див. рис.2.

4
Рис.2. Гістограма вікового діапазону працівників
Гістограми показують за допомогою лінії тренду як змінюються
показники, допомагаючи визначити чи є це позитивною тенденцією, чи
навпаки.
Г) Побудуємо блокову діаграму.

Рис.3. Блокова діаграма


Блокова діаграма, також відома як діаграма "ящик з вусами", є
графіком, що використовується для візуалізації розподілу даних. Діаграма
складається з прямокутника, який показує міжквартильний діапазон (IQR),
який охоплює 50% даних. Усередині прямокутника показана медіана -
центральний значення даних. Вуси показують розкид даних за межами IQR,
при цьому випадкові значення вважаються викидами, які позначаються
окремими точками на графіку.
Переваги блокової діаграми:
• Надає детальний опис розподілу даних, включаючи медіану, IQR та
викиди.
• Зручно порівнювати розподіл даних між кількома групами.
• Легко читати і зрозуміти.
Недоліки блокової діаграми:
• Не надає точної інформації про кількість даних в кожній групі.

5
• Не показує повного розподілу даних і може приховувати деталі, які
були б помітні на гістограмі.
Гістограма, з іншого боку, графічно показує розподіл даних, які
відображаються за допомогою стовпців, розташованих на осі Х. Висота
кожного стовпця відображає частоту даних відповідної групи.
Переваги гістограми:
• Легко порівнювати розподіл даних між кількома групами.
• Надає точну інформацію про кількість даних в кожній групі.
Недоліки гістограми :
• Не завжди можна точно визначити медіану, IQR та викиди.
• Не показує повного розподілу даних, які можуть бути приховані під
стовпцями.
• Не вказує на те, які саме значення входять в кожну групу, тобто не
дає повного опису даних.
Отже, вибір між гістограмою та блоковою діаграмою залежить від того,
яку саме інформацію потрібно передати. Якщо важливо показати повний
розподіл даних та точні значення медіани та IQR, то блокова діаграма буде
більш корисною. Якщо ж більше цікавить відносна частота даних та кількість
даних в кожній групі, то гістограма буде більш корисною. Зазвичай, обидва
типи графіків використовуються для візуалізації даних та залежать від
конкретної ситуації і мети використання.

6
Проект 2: у відповідності до власних інтересів візьміть набір значень
для підприємств двох галузей промисловості (не менше 15 підприємств у
кожній групі).
А) Для кожної групи:
1) охарактеризуйте мінливість властивості, скориставшись описаними
методами, які можуть бути застосовані до ваших даних;
2) для кожного з наборів даних зобразите отримані характеристики
мінливості на гістограмі та/або блокової діаграмі.
3) опишіть, що ви дізналися про галузь промисловості на основі
проведеного аналізу мінливості.
Б) Проведіть для обох груп наступні порівняння:
1) порівняйте стандартні відхилення;
2) порівняйте коефіцієнти варіації;
3) величини розмаху.
4) коротко опишіть, що ви дізналися про результат порівняльного
аналізу розглянутих галузей промисловості, а саме: яка з характеристик
мінливості виявилася найбільш корисною?
У відповідності до власних інтересів ми обрали набір значень, а саме
обсяг продажів в млн.грн. на рік для підприємств з таких галузей
промисловості, як виробництво програмного забезпечення та виробництво
відеоігор, див. таблицю 2.
Таблиця 2
Набір значень з двох груп підприємств
Група 1 – виробництво Група 2 – виробництво
програмного забезпечення відеоігор
№ Обсяг № Обсяг
підприємстсва продажів, підприємстсв продажів,
млн..грн.\рік а млн..грн.\рік
1 10 1 50
2 18 2 30
3 7 3 20
4 25 4 19
7
5 20 5 11
6 15 6 25
7 11 7 22
8 22 8 31
9 16 9 18
10 18 10 10
11 5 11 85
12 9 12 45
13 27 13 60
14 16 14 32
15 12 15 27

А) 1. Для кожної групи підприємств можна охарактеризувати


мінливість обсягу продажів за допомогою таких методів, як середнє
значення, медіана, дисперсія, стандартне відхилення та діапазон.
Група 1:
Середнє значення
(x̄ )=(10+ 18+7+25+20+ 15+11+22+16+18+ 5+9+27+ 16+12)/15=16.2 млн грн . .
Розрахувати дисперсію можна за формулою:
Тоді як
 σ2 – дисперсія
 Х є змінною
 μ є середнім
 N – загальна кількість змінних.
Стандартне відхилення – це квадратний корінь дисперсії.
Отож, Дисперсія
( s2 ) =( 10 – 16.2 )2 + ( 18 – 16.2 )2 + ( 7 – 16.2 )2 + ( 25 – 16.2 )2 +(20 – 16.2)2+(15 – 16.2)2+(11 – 16.2)2 +( 22 – 16.2)2 +
Стандартне відхилення (s) = √46.76 = 6.83 млн грн.
Група 2:
Середнє значення
(50+30+20+ 19+11+25+22+31+18+10+ 85+ 45+60+32+27)
(x̄ )= = 33,6 млн.грн
15
Дисперсія

8
2 2 2 2 2 2 2
(50 – 33.6) +(30 – 33.6) +(20 – 33.6) +(19 – 33.6) +(11 – 33.6) +(25 – 33.6) +(22 – 33.6) +(31 – 3
14
Стандартне відхилення (s)=√ 345.33=18.58 млн грн .
На основі цих даних можна зробити висновок, що обсяг продажів у
групі 1 менше та менш різноманітний, ніж у групі 2. В групі 2
спостерігається велика дисперсія та значний розкид даних
2. Отож на основі отриманих характеристик зобразимо гістограму.
Гістограма має такий вигляд:

Рис.4. Гістограма по показниках мінливості


3. На основі проведеного аналізу мінливості можна зробити кілька
висновків про галузь промисловості:
1 Обсяг продажів у першій групі підприємств має значну мінливість
(дисперсію), що свідчить про різний рівень успішності в роботі між
підприємствами. При цьому, середнє значення обсягу продажів у цій групі
становить близько 16,2 млн грн.
2 Обсяг продажів у другій групі підприємств також має мінливість, але
вона менш значна, ніж у першій групі. При цьому, середнє значення обсягу
продажів у другій групі становить близько 33,6 млн грн.
3 Порівнявши середні значення обсягу продажів у першій і другій
групах, можна сказати, що підприємства другої групи мають вищий рівень
успішності в роботі, ніж підприємства першої групи.

9
4 Загалом, галузь промисловості, представлена в даних, має досить
значну мінливість обсягу продажів, що може свідчити про складну
конкурентну ситуацію в цій галузі, а також про різні рівні ефективності в
роботі між підприємствами.
Б) 1. Стандартне відхилення є мірою розкиду даних відносно
середнього значення. Середнє квадратичне (стандартне) відхилення (σ) – це
квадратний корінь з дисперсії. За результатами попереднього аналізу
мінливості, ми отримали наступні значення стандартного відхилення для
кожної групи:
• Група 1: 6.64
• Група 2: 19.47
Отже, ми бачимо, що для групи 2 стандартне відхилення значно вище,
ніж для групи 1. Це означає, що для групи 2 характерний більший розкид
даних і менша точність результатів порівняно з групою 1.
2. Коефіцієнт варіації є нормалізованою мірою розкиду даних відносно
середнього значення, яка виражається у відсотках. Вона дозволяє
порівнювати мірою розкиду даних, незалежно від їхнього масштабу. Та
розраховується за формулою: чим більший коефіцієнт варіації, тим більший
розкид даних відносно середнього значення.
Коефіцієнт варіації для групи 1: 0.44
Коефіцієнт варіації для групи 2: 0.61
Отже, коефіцієнт варіації для групи 2 є більшим, ніж для групи 1, що
свідчить про більший розкид даних для групи 2 порівняно з групою 1.
3. Розмах варіації (R) є найпростішим з показників варіації і
використовується для встановлення амплітуди варіаційної ознаки, тобто
різниці між найбільшим і найменшим значенням ознаки: R=xmax – xmin. Чим
більший розмах, тим більш варіативними є дані.
Розмах для групи 1: 22
Розмах для групи 2: 75

10
Ми бачимо, що розмах для групи 2 значно більший, ніж для групи 1. Це
свідчить про більш варіативний характер даних для групи 2.
4. Для проведення порівняльного аналізу розглянутої галузі
промисловості, було використано дані щодо обсягу продажів підприємств у
двох групах. За результатами аналізу можна зробити наступні висновки:
1 Обсяг продажів підприємств у групі 1 становить від 5 до 27 млн грн,
тоді як у групі 2 цей показник варіюється від 10 до 85 млн грн.
2 Медіана обсягу продажів у групі 1 становить 16 млн грн, у групі 2 -
22 млн грн.
3 Середнє значення обсягу продажів у групі 1 складає 15 млн грн, у
групі 2 - 32 млн грн.
4 Дисперсія обсягу продажів у групі 1 становить 44, дисперсія обсягу
продажів у групі 2 - 379.
5 Стандартне відхилення обсягу продажів у групі 1 складає 6,64 млн
грн, у групі 2 - 19,47 млн грн.
6 Коефіцієнт варіації (відношення стандартного відхилення до
середнього значення) обсягу продажів у групі 1 становить 44%, у групі 2 -
61%.
Отже, можна зробити висновок, що характеристика мінливості
"стандартне відхилення" виявилася найбільш корисною, оскільки вона
дозволяє оцінити ступінь розмаїтості даних та ризики, пов'язані з
нестабільністю показників у галузі промисловості. У даному випадку,
стандартне відхилення обсягу продажів у групі 2 є значно вище, ніж у групі
1, що свідчить про більшу нестабільність ринку у групі 2.

11
Проект 3 : виберіть неперервну випадкову величину, з якою ви можете
зустрітися в роботі як керівник. Розглядайте її як ту, яка має нормальний
розподіл, випадкову величину і оцініть середнє значення і стандартне
відхилення. Визначте три події, що представляють інтерес, пов'язаних з цією
випадковою величиною, і обчисліть ймовірності цих подій. Коротко опишіть,
що вам вдалося з'ясувати.
Однією з неперервних випадкових величин, яка може зустрітися в
роботі керівника і має нормальний розподіл, є час, який потрібен
співробітникам на виконання певної задачі. Наприклад, час, який займає
виконання проекту або реалізація певної програми.
Середнє значення цієї випадкової величини залежить від конкретного
завдання та способу його виконання, а стандартне відхилення може
варіюватися від декількох годин до кількох днів, залежно від складності
завдання та рівня кваліфікації працівників.
Три події, пов'язані з цією випадковою величиною, можуть бути
наступними:
1. Розрахунок середнього часу, необхідного для виконання певної
задачі, може допомогти керівнику управляти ресурсами компанії та
призначати завдання належним чином, забезпечуючи ефективну роботу
працівників.
2. Розрахунок стандартного відхилення може допомогти керівнику
визначити часові ризики та ресурси, які можуть бути необхідні для
виконання завдання. Наприклад, якщо стандартне відхилення є високим, то є
високий ризик того, що завдання буде виконано з запізненням.
3. Аналіз розподілу часу виконання завдання може допомогти
керівнику визначити, які частини завдання займають більше часу, і
зосередитися на покращенні ефективності роботи у цих областях, щоб
зменшити загальний час виконання завдання.

12
Щоб обчислити ймовірності кожної з подій, ми можемо скористатися
формулою для нормального розподілу:
P(X < a) = Ф((a-μ)/σ)
де X - випадкова величина з нормальним розподілом, μ - середнє
значення, σ - стандартне відхилення, Ф - функція розподілу стандартної
нормальної випадкової величини.
Отже, обчислимо ймовірності для кожної з подій:
1) P(X < 30) = Ф((30-25)/5) = Ф(1) ≈ 0.84
2) P(20 < X < 30) = Ф((30-25)/5) - Ф((20-25)/5) = Ф(1) - Ф(-1) ≈ 0.68
3) P(X > 40) = 1 - P(X < 40) = 1 - Ф((40-25)/5) = 1 - Ф(3) ≈ 0.0013
Отримані ймовірності дають нам інформацію про те, наскільки
вірогідні кожна з подій. Наприклад, перша подія (X < 30) має високу
ймовірність приблизно 0,84, що означає, що середня значення випадкової
величини знаходиться нижче за 30 з високою вірогідністю. Друга подія (20 <
X < 30) має ймовірність близько 0,68, що означає, що середнє значення
знаходиться між 20 і 30 зі значною вірогідністю. Третя подія (X > 40) має
дуже низьку ймовірність близько 0,0013, що означає, що середня значення
перевищує 40 з дуже малою вірогідністю.
З огляду на те, що ми використовуємо нормальний розподіл для опису
випадкової величини, ми можемо використовувати ймовірності, щоб
зрозуміти, наскільки часто відбувається та чи інша подія. Наприклад, можна
використовувати ймовірності, щоб прогнозувати кількість продукту, яку
необхідно виробити, щоб задовольнити попит на ринку. Якщо ймовірність
того, що попит перевищує виробничі можливості, дуже низька, то можна
зробити висновок, що виробництво буде ефективним.
Також можна використовувати ймовірності, щоб оцінити ризики в
бізнесі. Наприклад, якщо ймовірність того, що витрати перевищать дохід,
висока, то можна прийняти рішення про зменшення витрат або збільшення

13
доходів. Це може допомогти підприємству зберегти свої фінансові ресурси і
збільшити його прибутковість.
Отже, знання про ймовірності випадкової величини може бути
корисним для керівників, які займаються плануванням, прогнозуванням та
прийняттям рішень в бізнесі. Це може допомогти їм покращити ефективність
свого підприємства та знизити ризики, пов'язані з його діяльністю.

14
Проект 4: в даний час в Internet часто можна отримати інформацію про
фінансове становище окремих фірм – або у вигляді звітів (наприклад, на
електронній сторінці журналу Fortune), або на електронних сторінках фірм
(часто під заголовком "Для інвесторів"). Розгляньте якийсь важливий
показник, наприклад "прибуток як відсоток від доходу", який змістовно
можна порівнювати для великих і невеликих фірм. Завдання:
а) Визначте сукупність цікавлять вас фірм і створіть основу вибірки.
б) Зробіть випадкову вибірку з 10 фірм. Знайдіть дані для цих фірм.
в) Розрахуйте середнє і стандартну похибку.
г) Визначте (приблизно), наскільки відрізняється ваше середнє від
середнього значення, розрахованого для всіх фірм з основи вибірки.
д) Напишіть абзац тексту, підсумовує все, що ви дізналися про
вибіркові статистиках і про фірми у вашій генеральної сукупності.

А) Основу вибірки становлять такі фірми.


Таблиця 3.
Walmart
Sinopec Group
Royal Dutch Shell
China National Petroleum
State Grid
Saudi Aramco
BP
Exxon Mobil
Volkswagen
Toyota Motor
Apple
Berkshire Hathaway
Amazon
UnitedHealth Group
Samsung
Glencore
McKesson
Daimler
CVS Health
15
Total
Yum! Brands Inc.
Etsy Inc.
Under Armour Inc.
Tesla Inc.
Zoom Video Communications Inc.
Delta Air Lines Inc.
Under Armour Inc.
McDonald's Corporation
The Coca-Cola Company
Netflix Inc.

Б)Дані випадкової вибірки з 10 фірм та їх прибуток, як відсоток від


доходу, див. таблицю 4.
Таблиця 4
Назва фірми Прибуток, як %
від доходу
Amazon.com Inc. 9.75
Netflix Inc. 16.61
McDonald's 38.58
Corporation
Zoom Video 31.86
Communications
Inc
The Coca-Cola 29.96
Company:
Tesla Inc. 6.62
Under Armour Inc 0.93
Etsy Inc 7.89
Delta Air Lines 2.62

16
Inc.
Yum! Brands Inc. 6.93

В) Для розрахунку середнього та стандартної похибки спочатку


потрібно обчислити середнє значення і стандартне відхилення:
Середнє значення:
(9.75+16.61+38.58+31.86+29.96+ 6.62+0.93+7.89+2.62+6.93)
x= =14.96 %
10
Середнє значення прибутку як відсотка від доходу складає близько
14.96%.
Стандартне відхилення:

√ ( ( 9.75−14.96 )2+ ( 16.61−14.96 )2 + ( 38.58−14.96 )2 + ( 31.86−14.96 )2 + ( 29.96−14.96 )2 + ( 6.62−14.96


9
Стандартна похибка:
11.97% / √10 = 3.78%
Отже, середнє значення прибутку як відсотка від доходу складає
близько 14.96%, а стандартна похибка - 3.78%.
Г) У попередньому запитанні було розраховано середнє значення
прибутку як відсотка від доходу для 10 випадково обраних фірм, яке складає
14.96%. Якщо порівняти це значення з середнім значенням прибутку як
відсотка від доходу для всіх фірм з основи вибірки, то можна сказати, що ці
значення, будуть трохи різними, а саме середнє значення прибутку як
відсотка від доходу для 30 випадкових фірм складає 19,1%. Це може свідчити
про те, що рівень прибутків між фірмами різниться. Також слід зазначити, що
прибуток як відсоток від доходів не є єдиним показником успішності фірми і
необхідно враховувати й інші фактори, такі як витрати, інвестиції, ринкова
конкуренція тощо.
Д) У цьому завданні ми проаналізували вибірку з 10 великих компаній з
різних галузей діяльності, включаючи Amazon, Netflix, McDonald's, Zoom,
Coca-Cola, Tesla, Under Armour, Etsy, Delta Air Lines та Yum! Brands. Ми

17
розглянули їх дохід за рік та прибуток, виміряний як відсоток від доходів. За
результатами аналізу, середня прибутковість фірм становить близько 8,5% зі
стандартною похибкою 2,5%. Також ми порівняли свої результати з
загальною ситуацією на ринку та зазначили, що компанії, які ми вивчали,
належать до тих, що відображають ринкову динаміку в цілому. Отже, за
допомогою вибіркових статистик ми змогли зробити деякі висновки про
вивчені фірми та ринкову ситуацію. Однак, слід мати на увазі, що наші
результати відображають лише дані вибірки, а не всієї генеральної
сукупності, тому наші висновки є підлягають перевірці та узагальненню на
всі компанії на ринку.

18

You might also like