Professional Documents
Culture Documents
лекція 3 Дослідження та аналіз даних (Пакети Dplyr та Tidyr)
лекція 3 Дослідження та аналіз даних (Пакети Dplyr та Tidyr)
Лекція 3
Питання
https://cran.r-project.org/web/packages/dplyr/
3. Маніпуляції з даними в Dplyr.
datasets.xlsx
Набір даних iris (іриси Фішера) - містить 150 вимірювань за 3 різними видами
ірисів та 4 атрибутами (довжина і ширина зовнішньої частки оцвітини та
довжина і ширина внутрішньої частки оцвітини).
Набір даних mtcars — містить 32 вимірювання різних автомобілів за 11
атрибутами.
mpg Милі/(США) галон
hp Загальна потужність
wt Вага (1000 фунтів)
vs Двигун
… …
Кількість входжень у структурі даних
2. Додаємо ще підрахунок кількості таких авто залежно від виду коробки передач
та виведемо цей список за зростанням.
https://cran.r-project.org/web/packages/tidyr/index.html
4. Пакет Tidyr
Чотири функції для створення охайних даних з пакету Tidyr:
1) gather(): перетворення даних з широких на довгі
2) spread(): перетворення даних з довгих на широкі
3) separete(): розділити одну змінну на дві
4) unit(): об'єднати дві змінні в одну
Пакет Tidyr належить до колекції пакетів для маніпулювання та очищення
даних.
install.packages (“tidyr”) Довгі дані подані таким чином, що є
один стовпчик, що містить усі
значення, та інший, де подано
контекст значення.
Широкі дані подані таким чином,
що кожна змінна даних має
окремий стовпчик.
gather(), spread()
Приклад.
Для циклу над списком
•Матриця має двомірність, рядки та стовпці. Щоб перебрати матрицю, визначаємо два цикли for,
один для рядків, інший для стовпця.
Оператор while
while(умова) вираз
Оператор repeat
repeat вираз
apply () приймає фрейм даних або матрицю як вхідні дані і дає вихід у векторі,
списку або масиві.
lapply(X, FUN)
Функція sapply() приймає список, вектор або фрейм даних як вхідні дані і
виводить їх у вигляді вектора.
Функція sapply() виконує ту ж функцію, що й функція lapply(), але повертає
вектор.
sapply(X, FUN)
Застосувати
apply(X, MARGIN, FUN) функцію до рядків вектор,
Фрейм даних
apply() або стовпців або список,
чи матриця
по рядкам та масив
стовпцям
Застосувати
Список,
функцію до всіх
lapply() lapply(X, FUN) вектор або список
елементів
фрейм даних
введення
Застосувати
Список,
функцію до всіх вектор або
sapply() sapply(X, FUN) вектор або
елементів матриця
фрейм даних
введення
tapply()
tapply() обчислює міру (середнє, медіану, мінімальне, максимальне тощо)
або функцію для кожної факторної змінної у векторі.
Корисна функція, яка дозволяє створити підмножину вектора, а потім
застосувати деякі функції до кожної підмножини.
function(аргументи) {вираз}
аргументи функції – список формальних аргументів (може мати довільну довжину), від яких залежить
вираз; аргументи розділяються комами. Формальним аргументом може бути: символ, вираз виду
символ=вираз, спеціальний формальний аргумент – три крапки «…»;
вираз (тіло функції) – команда або блок команд (укладених у фігурні дужки {}), які залежать від
визначених раніше аргументів функції. Окремі команди в блоці пишуться з нового рядка (але можна й
на одному рядку через символ «;»).
Функція як своє значення повертає результат останнього у фігурних дужках виразу.
Звертання до функції має вигляд ім’я(арг1, арг2, ... ). Тут значення виразів арг1, арг2, ... є
фактичними аргументами, які підставляються замість відповідних формальних аргументів, визначених
при заданні функції.
Приклад. Створимо функцію, що обчислює норму – квадратний корінь скалярного добутку векторів
x і y.
Функції перетворення для типів даних в R
Назва функції Опис
as.numeric() Перетворення будь-якого типу даних у дійсний тип даних
as.integer() Перетворення будь-якого типу даних у цілий тип даних
as.character() Перетворення будь-якого типу даних у символьний тип
даних
as.logical() Щоб порівняти змінні та перетворити будь-яке значення на
true або false.