Course Summary
Learn how to process big data using Apache Spark, including data streaming, machine learning, and graph processing. This course covers the fundamentals of big data processing and how to use Spark to handle large datasets.Key Learning Points
- Understand the fundamentals of big data processing
- Learn how to use Apache Spark to handle large datasets
- Explore data streaming, machine learning, and graph processing with Spark
Related Topics for further study
Learning Outcomes
- Understand the principles of big data processing
- Learn how to use Apache Spark to process large datasets
- Gain experience with data streaming, machine learning, and graph processing
Prerequisites or good to have knowledge before taking this course
- Basic programming knowledge in Python or Scala
- Familiarity with SQL and Hadoop
Course Difficulty Level
IntermediateCourse Format
- Online self-paced
- Video lectures
- Hands-on exercises
Similar Courses
- Big Data Analytics with Apache Spark
- Introduction to Big Data
- Big Data and Hadoop
Related Education Paths
Notable People in This Field
- Doug Cutting
- Matei Zaharia
Related Books
Description
Ключ к успешному развитию любой компании в современном мире — это умение делать быстрые и правильные решения, основываясь на данных. С каждым годом этих данных становится всё больше, при этом старые методы анализа перестают адекватно работать на таких объемах.
Knowledge
- Работать с наиболее распространенными источниками данных
- Уверенно работать с командной строкой в Linux
- Разрабатывать и запускать алгоритмы на платформах Hadoop и Spark
Outline
- Базовые подходы к хранению и извлечению информации
- Проморолик
- Вводное занятие
- Реляционные базы данных
- Практическое занятие: SQL
- NoSQL базы данных
- Практическое занятие: MongoDB
- Практическое занятие: MongoDB Aggregation
- Выгрузка данных из интернета
- Практическое занятие: Web Scraping
- Презентация: Базовые подходы к хранению и извлечению информации
- Реляционные базы данных
- Документоориентированные базы данных
- Веб-скрапинг
- API
- Bash для инженера данных
- Введение
- Bash basics
- Добавление своих программ
- Bash flow control
- Bash flow control 2
- Bash flow control 3
- Bash pipelining
- Построение условных пайплайнов
- Полезные программы для bash
- Команды cut и head
- Команда sed
- Команда awk
- Команда jq
- Команды tar и zip
- Команды wget и curl
- Практические задачи на bash
- Практические задачи на bash 2
- Презентация: Bash для инженера данных
- Bash: Basics
- Bash: Flow Control
- Bash: Advanced Pipeline
- Bash: Полезные программы
- Практические задачи на bash
- Начало работы с большим объемом данных: Hadoop, MapReduce
- Hadoop
- HDFS
- Практическое занятие: HDFS
- Практическое занятие: HDFS (устройство блоков)
- Задача Word Count
- Парадигма MapReduce
- Пример реальной задачи
- Практическое занятие: MapReduce
- Практическое занятие: MapReduce (запуск на кластере)
- Практическое занятие: MapReduce (ловим ошибки)
- Презентация: Hadoop, MapReduce
- Hadoop
- HDFS
- Знакомство со Spark
- Основы Spark
- Spark RDD
- Практическое занятие: Spark
- Практическое занятие: Spark (трансформации)
- Практическое занятие: Spark (эмулируем MapReduce)
- Практическое занятие: Spark (ловим ошибки)
- Spark SQL
- Практическое занятие: Spark SQL
- Практическое занятие: Spark SQL (пишем запросы)
- Практическое занятие: Spark SQL (задача WordCount)
- Практическое занятие: Spark SQL (пользовательские функции)
- Презентация: Знакомство со Spark
- Spark
- Продвинутое использование Spark
- Модель "мешка слов"
- Логистическая регрессия
- Загрузка данных и создание словаря
- Векторизация текстов
- Присоединяем категории текстов
- Проблема перекошенного ключа
- Настраиваем логистическую регрессию
- Презентация: Продвинутое использование Spark
Summary of User Reviews
Learn how to process big data with this course on Coursera. Users have praised the course's comprehensive and hands-on approach to big data processing, resulting in an overall positive rating.Key Aspect Users Liked About This Course
Users have praised the comprehensive and hands-on approach to big data processing.Pros from User Reviews
- Covers a wide range of big data processing techniques
- Provides hands-on experience and exercises
- Instructors are knowledgeable and engaging
Cons from User Reviews
- Some users found the course to be too technical
- The course may be challenging for beginners
- Some users found the course to be too time-consuming