You are on page 1of 9

[DATA SCIENTIST]

програма
01 Що таке дані?
▪ Види даних
▪ Різниця між BI Analyst, Data Analyst, Data Engineer, Data Scientist, ML Engineer та Software Engineer
▪ Які ключові навички потрібні Data Scientist
▪ Чому Data Scientist повинен вміти програмувати, знати фронтенд та бекенд
▪ Які основні програми використовують Data Scientists? Де перетинаються і починають взаємодіяти із Software
Engineers, Data Engineers та Data Analysts?

02 Python та Jupyter Notebook


▪ Що таке Python та Jupyter Notebook
▪ Основні типи змінних, операторів та обʼєктів у Python

03 Принципи ООП. Частина 1


▪ Клас
▪ Успадкування, зокрема множинне
▪ Поліморфізм
▪ Інкапсуляція

04 Принципи ООП. Частина 2


▪ Спеціальні методи, що керують життєвим циклом об'єкта:
▪ конструктори
▪ деструктори
▪ розподільники пам'яті
▪ Властивості
▪ Управління доступом до полів
▪ Методи для управління найпоширенішими операціями
▪ Метапрограмування
▪ Класові та статичні методи, класові поля
▪ Класи, вкладені у функції та інші класи
05 Функціональне програмування
▪ Функції вищих порядків
▪ Рекурсія
▪ Розвинена обробка списків:
▪ спискові вирази
▪ операції над послідовностями
▪ ітератори
▪ Аналог замикань (closures)
▪ Часткове застосування функції
▪ Можливість реалізації інших засобів самою мовою

06 Особливості програмування на Python


▪ Особливості та переваги Python:
▪ Повна інтроспекція (для будь-якого обʼєкта можна отримати всю інформацію про його внутрішню структуру)
▪ Портування (працює на всіх відомих платформах)
▪ Інтерактивний режим роботи
▪ Ітератори, генератори, декоратори
▪ Клас як обʼєкт
▪ Обробка винятків у вигляді try except, raise, finally
▪ Наявність бібліотек (library, framework)
▪ Що таке library, framework? Які є типи фреймворків і як із ними працювати?
07 Фреймворки для Data Science
▪ NumPy/Pandas — бібліотеки для роботи з даними та структурами даних
▪ Pattern — інструменти для DS
▪ Scikit-learn — алгоритми та готові рішення для базових задач DS
▪ TensorFlow/PyTorch — фреймворки для глибокого навчання та складних моделей
▪ Keras — програма для побудови складних моделей глибокого навчання і простішої взаємодії з фреймворками
TensorFlow/PyTorch
▪ SciPy — бібліотека для статистичного моделювання
▪ XGBoost — бібліотека для складних розрахунків на великих даних
▪ NLTK, spaCy, OpenCV, Theano тощо — бібліотеки для більш вузькопрофільних задач
▪ Matplotlib, Bokeh тощо — бібліотеки для візуалізації
▪ Приклад роботи з датафреймом, XLSX, CSV

08 Поняття вектора та операції з векторами


▪ Поняття вектора. Операції з векторами
▪ Поняття матриці. Операції над матрицями. Додавання, множення на скаляр, множення, транспозиція,
пошук оберненої
▪ Поняття визначника. Як рахувати визначник. Розклад за рядком-стовпчиком. Алгоритм Гаусса

09 Простір: векторний, нормативний та метричний


▪ Поняття векторного простору:
▪ Аксіоми векторного простору. Узагальнення множини усіх векторів
▪ Які ще множини, окрім матриць, утворюють векторний простір?
▪ Поняття норми та нормованого простору
▪ Означення норми. Чому не всі векторні простори нормовані
▪ Поняття метрики та метричного простору
▪ Визначення метрики. Чому метрика і норма — різні речі. Які простори є метричними (приклади)
▪ Для чого потрібні метричні простори
10 Події та ймовірність. Частина 1
▪ Випадкова подія, випадкова величина, міра
▪ Елементарна подія. Простір елементарних подій. Поняття ймовірності
▪ Ймовірність випадкової величини. Дискретна та неперервна випадкові величини
▪ Додавання, добуток імовірностей. Формула повної ймовірності
▪ Умовна ймовірність, теорема Баєса

11 Події та ймовірність. Частина 2


▪ Розподіл імовірностей, щільність імовірностей
▪ Дисперсія випадкової величини. Кореляція та коваріація
▪ Види розподілів. Приклади
▪ Центральна гранична теорема. Приклади застосування. Приклади з життя. Натяк на локальні граничні теореми

12 Що таке дані та як їх зберігати


▪ Що таке дані та як їх зберігати?
▪ Що таке БД та СУБД. Різниця між DB та DBMS. Приклади
▪ Колонки, стовпчики. Primary key, foreign key

13 SQL для роботи з даними


▪ Встановлення бібліотеки SQLite. Оператори INSERT, DELETE
▪ Оператор SELECT. Умови — WHERE
▪ Як створювати БД, таблички. Як поєднувати їх. Оператор JOIN на прикладі діаграми Ейлера
▪ Функції агрегації для оператора SELECT
▪ Приклади
▪ Семплінг у таблицях та математика в Python. Установка пакета math
14 Методи машинного навчання. Частина 1
▪ Задача класифікації
▪ Бінарна логістична регресія
▪ Метод k-найближчих сусідів
▪ Наївний баєсів класифікатор

15 Методи машинного навчання. Частина 2


▪ Multinomial logistic regression
▪ Метод опорних векторів (Support vector machines, SVM, SVC)
▪ Decision Tree. Random Forest
▪ Основні метрики якості класифікатора
▪ Як можна покращити класифікатор (Stacking, Boosting, Bagging)

16 Методи машинного навчання. Частина 3


▪ Задача кластеризації
▪ Метод k-середніх
▪ ЕМ-алгоритми
▪ Ієрархічна кластеризація
▪ Інтерпретація результатів

17 Методи машинного навчання. Частина 4


▪ Неперервна задача. Методи прогнозування
▪ Лінійна регресія. Поліноміальна регресія
▪ Оцінка якості регресії
▪ Базові часові ряди
18 Методи машинного навчання. Частина 5
▪ Нелінійна функція. Лінійна комбінація нелінійних функцій. Афінна функція. Сімейство параметричних функцій. Похідна
функції. Часткова похідна
▪ Що таке нейронна мережа. Базові нейронні мережі
▪ Знайомство з пакетами PyTorch, TensorFlow, Keras
▪ Activation function. Input layer, hidden layer, output layer
▪ Neuron. Basic perceptron. Feedforward Neural Network

19 Методи машинного навчання. Частина 6


▪ Loss calculation. MSE Loss
▪ Backpropagation
▪ Градієнтні методи: Stochastic Gradient Descent, Gradient Boosting
▪ Проблеми градієнтних методів: Gradient Vanishing, Gradient Explosion
▪ Базовий Deep Learning
▪ RNN та CNN: різниця, приклади

20 Методи машинного навчання. Частина 7


▪ Побудова першої нейронної мережі вручну за шарами
▪ Експерименти з активаційними функціями. Різниця, приклади
▪ Нейронні мережі для прогнозування
▪ Overfit of the model

21 Зчитування та обробка даних


▪ Зчитування даних із CSV, JSON, XLSX, SQLite
▪ Установка Matplotlib, Bokeh, Plotly, Seaborn. Приклади bar chart, pie chart тощо
▪ Пошук патернів у даних; пошук outliers, mislabeling, missing data, noise
▪ Попередня обробка даних
22 EDA, Feature Engineering, Feature Importance
▪ Методи вибору features. Перевірка на валідність
▪ Feature Encoding (label encoding, one hot encoder)
▪ Feature Importance
▪ Confusion Matrix
▪ Експорт даних у PowerBI та Excel, візуалізація в PowerBI та Excel

23 Що таке майндсет дата-саєнтиста


▪ Побудова проекта Data Science із нуля
▪ Як формулюються припущення, гіпотези. Методи їхньої перевірки. Як відрізнити хорошу гіпотезу від поганої
▪ Як зрозуміти потреби бізнесу
▪ Вміння поєднувати бізнесові вимоги та математичні побажання
▪ Як обрати підхід та модель
▪ Як зрозуміти, чи є модель поганою або хорошою
▪ Перевірка точності
▪ Основні метрики оцінки: F1-Score, Precision, Recall. Precision-oriented, Recall-oriented моделі
▪ Як розділити задачу від ПМ на таски? Планування
▪ Як представити проміжні результати
▪ Як довести цінність своєї моделі менеджеру
▪ Як представити кінцевий результат
▪ Як вивести модель у продакшн

24 Deploy моделей
▪ Що таке Docker? Що таке мікросервіс і як імплементувати мікросервісну архітектуру в проєкті?
▪ Як деплоїти та редеплоїти модель?
▪ Що таке API і як із ним працювати?
▪ Як створити docker-compose файл?

25 Захист курсового проєкту


you: ок, що далі?

robot_dreams: за вашим запитом


знайдено ➡ записатися на курс

You might also like