Course Summary
This course teaches students how to apply machine learning techniques to big data problems. Students will learn about distributed computing, Apache Spark, and other tools used for machine learning on big data.Key Learning Points
- Learn how to apply machine learning techniques to big data problems
- Understand distributed computing and Apache Spark
- Gain hands-on experience with tools used for machine learning on big data
Job Positions & Salaries of people who have taken this course might have
- USA: $120,000 - $160,000
- India: ₹1,000,000 - ₹2,000,000
- Spain: €40,000 - €70,000
- USA: $120,000 - $160,000
- India: ₹1,000,000 - ₹2,000,000
- Spain: €40,000 - €70,000
- USA: $100,000 - $150,000
- India: ₹800,000 - ₹1,800,000
- Spain: €35,000 - €60,000
- USA: $120,000 - $160,000
- India: ₹1,000,000 - ₹2,000,000
- Spain: €40,000 - €70,000
- USA: $100,000 - $150,000
- India: ₹800,000 - ₹1,800,000
- Spain: €35,000 - €60,000
- USA: $110,000 - $150,000
- India: ₹900,000 - ₹1,800,000
- Spain: €40,000 - €70,000
Related Topics for further study
Learning Outcomes
- Ability to apply machine learning techniques to big data problems
- Proficiency in distributed computing and Apache Spark
- Hands-on experience with tools used for machine learning on big data
Prerequisites or good to have knowledge before taking this course
- Basic knowledge of programming
- Familiarity with statistics and linear algebra
Course Difficulty Level
IntermediateCourse Format
- Online self-paced course
- Video lectures
- Hands-on exercises
Similar Courses
- Data Science Essentials
- Applied Data Science with Python
Related Education Paths
Notable People in This Field
- Andrew Ng
- Hilary Mason
Related Books
Description
И исследователи в лабораториях, и инженеры в больших корпорациях бьются над одной задачей — получить наиболее точную предсказательную модель по имеющимся данным. Эту задачу можно решить, используя современные методы из области машинного обучения. К сожалению, когда данных становится слишком много, классические алгоритмы становятся неэффективными или перестают работать вовсе.
Knowledge
- Организация процесса разметки собранных данных
- Базовые приемы для масштабирования моделей машинного обучения
- Специальные приемы для построения рекомендательных моделей и моделей обработки естественного языка
- Подходы для масштабирования нейронных сетей
Outline
- Подготовка данных к обучению
- Проморолик
- Вводное занятие
- Форматы хранения табличных данных
- Практическое занятие: Обработка сырых данных
- Форматы хранения разметки для задач компьютерного зрения
- Практическое занятие: Набор данных COCO
- Инструменты для разметки данных
- Практическое занятие: Разметка данных
- Тренды при разметке данных
- Краудсорсинг
- Масштабируемый краудсорсинг. Часть 1
- Масштабируемый краудсорсинг. Часть 2
- Презентация: Подготовка данных к обучению
- Вводное занятие
- Форматы хранения табличных данных
- Форматы хранения данных для задач компьютерного зрения
- Инструменты для разметки данных
- Хитрости для разметки данных
- Краудсорсинг
- Масштабируемый краудсорсинг. Часть 1
- Масштабируемый краудсорсинг. Часть 2
- Обучение классических моделей на больших данных
- Вводное занятие
- Широкие данные и проблемы с ними
- Снижение размерности
- Практическое занятие: Метод главных компонент для уменьшения размерности
- Хеширование признаков
- Практическое занятие: Хеширование признаков
- Практическое занятие: Vowpal Wabbit
- Нативная работа с категориальными признаками
- Практическое занятие: Деревья решений и их ансамбли
- Высокие данные и проблемы с ними
- Оптимизация методом градиентного спуска
- Практическое занятие: Высокие данные
- Распределенное обучение деревьев
- Практическое занятие: Распределенное обучение деревьев
- Презентация: Обучение классических моделей на больших данных
- Признаковое пространство
- Хеширование признаков
- Деревья решений
- Высокие данные
- Распределенное обучение
- Распределенное обучение деревьев
- Построение рекомендательных систем
- Рекомендательные системы
- Коллаборативная фильтрация
- Похожесть товаров
- Матричные факторизации
- ALS и iALS
- Масштабированиe ALS/iALS
- Метрики качества рекомендаций
- Практическое занятие: Рекомендации музыки
- Практическое занятие: Рекомендации музыки (iALS)
- Практическое занятие: Рекомендации музыки (NDCG)
- Презентация: Построение рекомендательных систем
- Рекомендательные системы
- Анализ больших объемов текстовой информации
- Вводное занятие
- Векторные модели представления текста
- Дистрибутивные и контекстуализированные модели
- Практическое занятие: Предобработка текстовых данных
- Практическое занятие: Векторные представления текста
- Практическое занятие: Дистрибутивные модели
- Презентация: Анализ больших объемов текстовой информации
- Задачи NLP
- Векторные модели
- Дистрибутивные модели
- Контекстуализированные модели
- Обучение глубоких нейронных сетей
- Обучение нейронных сетей на больших данных
- Масштабирование обучения нейронных сетей
- Обучение на кластере
- Синхронный SGD
- Практическое занятие: Параллельное обучение нейронных сетей
- Практическое занятие: Обучение MNIST
- Практическое занятие: Параметрический сервер
- Практическое занятие: MNIST с использованием Horovod
- Перенос обучения
- Практическое занятие: Дообучение моделей
- Презентация: Обучение глубоких нейронных сетей
- Обучение нейронных сетей на больших данных
- Перенос обучения
Summary of User Reviews
Key Aspect Users Liked About This Course
The course covers a wide range of topics related to machine learning on big data and provides hands-on experience through programming assignmentsPros from User Reviews
- In-depth coverage of machine learning algorithms and techniques
- Experienced instructors with a strong background in the field
- Practical exercises and programming assignments to reinforce learning
Cons from User Reviews
- Some users found the pace of the course to be too fast
- The course assumes a strong foundation in programming and mathematical concepts
- The workload can be demanding for those with limited time