You are on page 1of 9

Моделі і моделювання.

Аналіз та візуалізація даних


План
1. Комп’ютерне моделювання об’єктів і процесів.
2. Комп’ютерний експеримент.
3. Основи статистичного аналізу. Ряди даних.
Зміст лекції
1. Комп’ютерне моделювання об’єктів і процесів
В багатьох випадках неможливо або недоцільно досліджувати
безпосередньо самі об’єкти або процеси. У таких випадках досліджують моделі
цих об’єктів або процесів. У наш час, коли одним з найпотужніших
інструментів дослідження є комп’ютер, широкого розповсюдження і
застосування набули комп’ютерні моделі.
Комп’ютерна модель − це інформаційна модель, що реалізована і
досліджується з використанням комп’ютерних програм.
Так, наприклад, використовуючи комп’ютерні програми, можна
дослідити, скільки потрібно витратити коштів на поїздку з Києва до Запоріжжя,
якщо врахувати різні можливості: летіти літаком, їхати потягом, автобусом,
автомобілем, або процес розмноження бактерій залежно від умов середовища,
у якому вони знаходяться, або інтенсивність тролейбусного руху на різних
маршрутах.

Малюнок 1. Види комп’ютерних моделей.

Комп’ютерна розрахункова (математична) модель реалізується і


досліджується з використанням програм, у яких виконуються розрахунки
значень властивостей об’єкта, для якого побудовано цю модель, на основі
формул, рівнянь, нерівностей, систем.
Так, наприклад, можна задати формули і, використовуючи табличний
процесор, наприклад Excel, або створивши мовою програмування, наприклад
Free Pascal, власну програму, дослідити, яку суму потрібно витратити на
обклеювання шпалерами вашої класної кімнати залежно від виду шпалер, клею,
від того, хто буде обклеювати (ви самі чи наймані робітники).
Комп’ютерна імітаційна модель реалізується і досліджується з
використанням програм, що відтворюють змінення значень властивостей
моделей тих об’єктів, які змінюються випадковим чином, і тому їх не можна
описати математично.
Такими, наприклад, є програми, що досліджують змінення кількості
населення у країні чи в регіоні за деякі інтервали часу, або змінення кількості
опадів у даній місцевості по місяцях або роках і здійснюють певні прогнози на
майбутні періоди часу, або імітують політ літака чи рух автомобіля, імітують
роботу ока людини та ін .
Комп’ютерна графічна модель реалізується і досліджується з
використанням програм, у яких можна будувати і змінювати графічне
зображення об’єкта.
Такими програмами, наприклад, є відомі вам табличні процесори, у яких
можна будувати діаграми або графіки як графічне зображення об’єктів
дослідження, програми для визначення інтер’єру кімнати шляхом вибору видів
меблів, їх розташування, вибору видів і кольору шпалер, штор.
Метод розв’язування задач з використанням комп’ютерних моделей називають
комп’ютерним моделюванням.
Комп’ютерне моделювання прискорює процес створення і вивчення
моделей об’єктів. Крім того, комп’ютерне моделювання використовують для
вивчення об’єктів та явищ, які неможливо, дорого або небезпечно відтворювати
в реальних умовах. Це дає змогу не лише економити матеріальні ресурси, а й
зберігати екологічні умови існування людини, уникати можливих шкідливих або
руйнівних наслідків проведення випробувань.
Комп’ютерне моделювання є єдиним інструментом для дослідження
швидкоплинних або надповільних процесів. Їх можна досліджувати на
комп’ютері, розтягуючи чи стискуючи час або навіть зупиняючи його для
вивчення певних фаз процесу.
Моделювати й вивчати, використовуючи комп’ютерні моделі, можна й такі
явища, які не відбувалися або невідомо, чи відбудуться взагалі коли-небудь у
реальному житті, наприклад зустріч нашої планети з іншим небесним тілом.
2. Комп’ютерний експеримент
Створивши комп’ютерну модель, можна змінювати вхідні дані й
залежно від них отримувати різні кінцеві результати. Таким чином можна
досліджувати змінення значень властивостей моделі, використовуючи для
цього комп’ютер. Дослідження моделі об’єкта з використанням
комп’ютерного моделювання називають комп’ютерним експериментом.
Метою комп’ютерного експерименту є отримання даних, на основі яких
можна приймати рішення, робити висновки про властивості об’єкта
моделювання або прогнозувати його поведінку в тій чи іншій ситуації.
Малюнок 2. Етапи проведення комп’ютерного експерименту.

Сутність проведення комп’ютерного експерименту полягає в


багаторазових запусках програми й отриманні кінцевих результатів для різних
наборів вхідних даних. Такі набори розробляються в ході розробки плану
експерименту, щоб виявити певні залежності чи отримати потрібні
результати. Аналіз результатів експерименту може дати підставу для його
завершення, якщо всі поставлені цілі досягнуто, або для продовження
експерименту, корекції плану його проведення, якщо виникла потреба
доповнення даних чи намітився новий напрям дослідження.
Іноді за результатами експерименту виникає потреба в уточненні моделі
або навіть у внесенні змін в умову задачі, і тоді весь процес починається знову.

Малюнок 3. Алгоритм використання та створення комп’ютерної моделі.


3. Основи статистичного аналізу. Ряди даних
Аналіз даних − розділ математики та інформатики, що займається
розробкою методів опрацювання даних незалежно від їх природи.
Для аналізу даних потрібні знання предметної області та знання
математики й статистики. Розуміння предметної області дає змогу визначити, які
проблеми потребують першочергового вирішення. Знання математики й
статистики дають змогу формалізувати рішення, перевести його в алгоритм та
оцінити, яка ймовірність отримати результат; для цього використовують засоби
комп’ютерної техніки.
Розрізняють чотири етапи аналізу даних (мал. 4).

Малюнок 4. Етапи аналізу даних.

Спочатку дані необхідно підготувати, тобто зібрати та відібрати ті, які


потрібні для моделі опрацювання. Далі будується модель опрацювання й
аналізуються її результати. Останній етап − це інтерпретація та презентація
результатів. Тут потрібно продемонструвати питання, на яке шукали відповідь,
які дані використовували та що отримали в результаті. При збиранні даних
використовують різні рівні їх виміру. Наприклад, розрізняють значення в певній
точці (8; 3,6); можна розглядати різні інтервали ([1;6] [0;15]) та різні відношення
(86 %; 14 %).
Коли ми робимо виміри, то завжди існує ймовірність похибки.
Багаторазове вимірювання та збереження при цьому відповідних результатів
приводить до накопичення даних, які опрацьовують спеціальними методами, які
вивчаються у статистиці. Такі дані називаються статистичними даними.
Статистичні дані − сукупність упорядкованих, класифікованих даних про
деяке масове явище або процес.
Статистичні дані дають змогу не тільки охопити картину певного питання
на даний час, а й планувати необхідні дії на майбутнє. Так, статистичні дані про
зайнятість населення дають можливість визначити, яку кількість спеціалістів і
якої кваліфікації слід готувати, у якому регіоні варто споруджувати те чи інше
підприємство.
Велику множину об’єктів, що є предметом статистичного дослідження,
називають генеральною сукупністю. Наприклад, якщо досліджуються
передвиборчі вподобання, генеральною сукупністю може бути населення країни.
Проте дослідник, як правило, не має змоги оперувати всією генеральною
сукупністю. Наприклад, опитати кожного громадянина країни нереально.
Натомість досліджують вибірку − деяку множину об’єктів, вибраних з
генеральної сукупності, і, проаналізувавши її, роблять висновки щодо
властивостей генеральної сукупності загалом. Так, дослідивши вподобання
10000 виборців, можна зробити достатньо точні висновки щодо вподобань
виборців усієї країни. У заміні дослідження великої множини об’єктів
дослідженням значно меншою її частиною та подальшому «поширенні»
результатів дослідження на всю множину полягає сутність статистичного
підходу до опрацювання даних.
Маючи в розпорядженні дані статистичного спостереження, що
характеризують те чи інше явище, перш за все необхідно їх упорядкувати, тобто
надати характер системності.
Статистичний ряд розподілу − це впорядковані статистичні дані.
Найпростішим видом статистичного ряду розподілу є ранжований ряд,
тобто ряд чисел, що розташовані в порядку зростання чи спадання ознаки, яка
змінюється. Такий ряд не дає змоги судити про закономірності, закладені в
розподілених даних: біля якої величини групується більшість показників; які є
відхилення від цієї величини; яка загальна картина розподілу. Із цією метою дані
групують, показуючи, як часто трапляються окремі спостереження в загальній їх
кількості.
Ряди розподілу одиниць сукупності за ознаками, що мають кількісний
вираз, називаються варіаційними рядами. У таких рядах значення ознаки
(варіанти) розташовані в порядку зростання або спадання. У варіаційному ряді
розподілу розрізняють два елементи: варіанта й частота. Варіанта − це окреме
значення групувальної ознаки; частота − число, яке показує, скільки разів
трапляється кожна варіанта (мал. 5). Таким чином, варіаційний ряд розподілу −
це такий ряд, у якому варіанти розташовані в порядку зростання або спадання,
вказані їх частоти або частки. Варіаційні ряди бувають дискретні й інтервальні.

Малюнок 5. Дискретний варіаційний ряд.

Дискретні варіаційні ряди − це такі ряди розподілу, в яких варіанта як


величина кількісної ознаки може набувати тільки певного значення. Варіанти
різняться між собою на одну чи кілька одиниць. Інтервальні варіаційні ряди −
такі ряди розподілу, в яких значення варіанти дано у вигляді інтервалів, тобто
значення ознак можуть відрізнятися одне від одного на як завгодно малу
величину. При побудові варіаційного ряду неперервної ознаки неможливо
вказати кожне значення варіанти, тому сукупність розподіляється за
інтервалами. Останні можуть бути рівні й нерівні. Наприклад, відомості про
розподіл областей України із чисельністю населення на 1 грудня 2017 р., за
даними https://ukrstat.org/, можна подати інтервальним варіаційним рядом (мал.
6).

Малюнок 6. Інтервальний варіаційний ряд.


Для побудови дискретного ряду розподілу слід виписати всі можливі
значення ознаки, а потім підрахувати, скільки разів кожне з них трапляється у
вибірці − це будуть частоти. У Microsoft Excel для підрахунку частот можна
застосувати функцію «COUNTIF» з категорії «Статистичні».
Для побудови за вибіркою x1, … , xn ряду розподілу, що складається з m
рівних інтервалів, необхідно виконати такі кроки:
1. Визначити найбільшу та найменшу варіанти − xmin та хmах.
𝑥 −𝑥
2. Визначити величину інтервалу h = 𝑚𝑎𝑥 𝑚𝑖𝑛
𝑚
4. Визначити межі інтервалів [y0;y1], [y1;y2], ... , [ym – 1;ym], за формулами:
y0 = xmin; yi+1 = yi + h, i = 0, ... , m – 1.
Тобто нижня межа першого інтервалу дорівнює найменшій варіанті, а
кожна наступна межа більша за попередню на h.
5. Підрахувати, скільки варіант потрапляє в кожний інтервал, − це й будуть
частоти. У Microsoft Excel це можна зробити за допомогою функції
FREQUENCY, яка має два аргументи: FREQUЕNСУ(діапазон_ вибірки;
діапазон_меж_ інтервалів).
Перший аргумент − це діапазон, що містить вибірку, а другий − діапазон
усіх меж інтервалів, за винятком y0 та ym (тобто всіх меж між інтервалами).
Результатом функції буде набір частот, що відповідають кожному інтервалу. Ви
вперше стикаєтеся з функцією, результатом якої є діапазон значень, а не окреме
значення. Її і вводити потрібно дещо інакше, ніж інші функції. А саме, слід
виділити весь діапазон, де міститимуться результати, ввести формулу функції та
натиснути клавіші Ctrl + Shift + Enter.
Основними статистичними характеристиками вибірки є середнє, мода та
медіана, які ще називають мірами центральної тенденції. Вони показують
загальні або типові характеристики розподілу даних за певною змінною.
Середнє, мода та медіана − це окремі значення, що представляють весь набір
даних, типові для всіх значень у групі. Розглянемо кожну з них.
Для обчислення середнього значення досить додати всі значення в
розподілі й поділити на кількість спостережень.
Медіану можна визначити як точку на ряді − до цієї точки розташована
половина всіх значень, і після цієї точки − теж половина значень. Тобто медіана
− це значення, що ділить упорядкований ряд навпіл. Якщо кількість значень
непарна, то береться одне зі значень − те, що стоїть у розподілі рівно по центру.
Коли значень парна кількість, то беруть два центральні значення і знаходять їхнє
середнє.
Мода − це значення, яке найчастіше трапляється. Як правило, вона
представляє найбільш типове значення.
Кожне з мір центральної тенденції має загальні правила для використання,
переваги та обмеження:
Таблиця 1. Загальні правила для використання,
переваги та обмеження мір тенденцій.

У табличному процесорі центральна тенденція представлена функціями з


категорії «Статистичні», та майже всі вони призначені для обчислення
узагальнювальних статистичних характеристик вибірки.
Статистичні функції, що розглядаються нижче (крім функції RANK),
можуть мати декілька аргументів, які мають бути числами, масивами або
посиланнями на діапазони клітинок, що містять числа. Якщо до діапазону-
аргументу функції входять клітинки, які містять текст чи логічні значення або є
порожніми, то вони ігноруються; але клітинки, що містять нульові значення,
враховуються. Коли потрібно обчислити певну статистичну характеристику
вибірки, діапазон, що містить елементи вибірки, слід зробити аргументом
функції.
Ознайомимось із кількома найважливішими функціями категорії
«Статистичні»:
• AVERAGE (число1; число2;…) − обчислює середнє значення;
• МАХ (число1; число2;…) − обчислює максимальне значення;
• МІN (число1; число2 − обчислює мінімальне значення;
• МЕDІАN (число1; число2;…) − повертає медіану;
• МОDЕ (число1; число2;…) − повертає моду;
• RANK (число; посилання; порядок) − повертає ранг числа у списку
чисел, тобто його номер у впорядкованій послідовності чисел із
вказаного діапазону. Функція має такі аргументи: число − це число, для
якого визначається ранг; посилання − це масив або посилання на список
чисел; порядок − аргумент, який визначає спосіб упорядкування. Якщо
цей аргумент відсутній або дорівнює нулю, то найбільше число має ранг
1. Якщо цей аргумент дорівнює будь-якому ненульовому числу, то ранг
1 має найменше число.
Контрольні запитання
1. Що таке комп’ютерна модель? Які є види комп’ютерних моделей?
2. Яка комп’ютерна модель називається розрахунковою?
3. Яка комп’ютерна модель називається імітаційною?
4. Яка комп’ютерна модель називається графічною?
5. Що таке комп’ютерне моделювання?
6. Які етапи комп’ютерного моделювання ви знаєте? Схарактеризуйте
кожен з них.
7. Що таке комп’ютерний експеримент? Наведіть приклади.
8. Що таке аналіз даних та які виділяють етапи аналізу даних?
9. Як статистика допомагає аналізу даних?
10.У чому суть статистичного підходу до опрацювання даних?
11.Як будують ряди даних?
12.Що таке вибірка?
13.Що є основними статистичними характеристиками вибірки?
14.У чому відмінність використання середнього, моди та медіани?

You might also like