Стартует курс Data Mining in Action

8 октября, в 17:00, в Большой Химической аудитории стартует курс «Анализ данных на практике». Курс будет разбит на три ветви:

• индустриальный анализ данных – для тех, кому интересно формализовывать задачи, в расплывчатой форме поставленные заказчиком, понимать, какие данные нужны, и строить решения, применимые в бизнесе

• спортивный анализ данных – для тех, кто хочет участвовать и побеждать в соревнованиях по анализу данных и готов упорно доводить свое решение до максимального качества

• последние тренды в анализе данных – для тех, кто хочет быть на переднем крае науки и практики, кто не позволит диалоговым системам или стилизации изображений нейросетями пройти мимо него.

Входные требования к слушателям невысокие: достаточно знать основы математического анализа, линейной алгебры и программирования на Python (работа с Jupyter Notebook). Нагрузка в среднем составляет 5-10 часов в неделю для самостоятельной работы.

Команда курса:
Виктор Кантор – Yandex Data Factory (ранее – ABBYY), индустрия
Александр Гущин – Avito, Kaggle Master, входит в top20 рейтинга kaggle.com, спорт
Денис Семененко – DoubleData (ранее – Surfingbird), индустрия
Дмитрий Персиянов – Тинькофф Кредитные Системы (ранее – Surfingbird), тренды
Евгений Елтышев – Kaggle Master, спорт
Арсений Ашуха – BayesGroup (ранее – Яндекс, Рамблер), тренды
Илья Ирхин – Yandex Data Factory, индустрия

Программа курса в осеннем семестре:

1) Вводная лекция с основными понятиями, примерами простых методов и примером постановки задачи. Короткое знакомство с методами оптимизации и со списком необходимых питоновских библиотек.
2) Базовые методы решения задач классификации и регрессии (линейные модели, решающие деревья, ансамбли)
3) Базовые методы кластеризации и методы понижения размерности пространства признаков
4) Оценка качества и метрики. Генерация и отбор признаков.
5) Анализ текстов: классификация и кластеризация текстов, оценка похожести текстов по смыслу, анализ тональности текстов, аннотирование, распознавание именованных сущностей
6) Анализ изображений: введение в обработку изображений, детектирование ключевых точек, дескрипторы, сопоставление изображений, классификация изображений и поиск объектов на изображении
7) Нейросети и deep learning: метод обратного распространения ошибки, функции активации и dropout, сверточные нейросети, реккурентные нейросети, автоэнкодеры. Примеры, когда стандартные методы работают лучше.
8) Временные ряды: простые методы прогнозирования с анализом тренда и сезонности, ARIMA, сложные композиции алгоритмов.
9) Рекомендательные системы: максимизация экономического эффекта от рекомендаций, оценка оффлайн и онлайн качества
10) Задачи из банков, ритейла и телекома: скоринг, отток, прогнозирование спроса
11) Интерактивное занятие про дизайн задачи.

В весеннем семестре слушатели смогу поработать над собственными проектами.

Чтобы записаться на курс, заполните анкету.

onyzte3rx8e

Твитнуть