Введение в Big Data и Hadoop
Этот курс дает представление об основах BigData и Hadoop. Участники познакомятся с HDFS – стандартом де факто для долговременного надежного хранения больших объемов данных, фреймворком MapReduce, автоматически управляющим параллельным выполнением приложений на кластере, и сопутствующими проектами, составляющими экосистему Hadoop.
Аудитория:
data-инженеры, администраторы, DevOps-инженеры, программисты и все, кому интересно повысить свой профессиональный уровень в направлении Hadoop и Big Data.
Основные понятия
- Понятие реляционной базы данных;
- Понятие OLTP, OLAP, ETL;
- Типично IT-инфраструктура с точки зрения хранения и обработки данных;
- Понятие BigData,
- Характеристики BigData;
- Проблемы в обработке BigData;
- Технологии обработки BigData.
NoSQL базы данных
- NoSQL базы данных в IT-инфраструктуре;
- CAP и BASE теорема;
- Отличие реляционных баз данных и NoSQL баз данных;
- Понятие NewSQL баз данных;
- Типы NoSQL баз данных и примеры их использования.
Начало работы с Hadoop
- Hadoop в IT-инфраструктуре;
- Сравнение Hadoop с реляционными и NoSQL базами данных;
- Обзор системы Hadoop и типичные примеры использования;
- Архитектура системы Hadoop;
- Обзор экосистемных проектов и вендоров Hadoop;
- Ресурсы необходимы для построения кластера;
- Построение кластера Hadoop в standalonemode, обзор сервисов;
- Управление кластером Hadoop.
Работа с HDFS
- Архитектура и сервисы HDFS;
- Сохранение данных в HDFS;
- Процессы чтения и записи файлов в HDFS;
- Инструменты управления HDFS;
- Использование командной строки для доступа к HDFS;
- Проблемы при хранении маленьких файлов в HDFS;
- Основные параметры конфигурации HDFS;
- Настройка отказоустойчивости HDFS.
MapReduce и YARN
- Парадигмы MapReduce в примерах;
- Архитектура кластера Hadoop с YARN;
- Архитектура и принципы работы Spark on YARN.
Работа с Hive и Impala
- Обзор и архитектура Hive;
- Таблицы и партиции в Hive;
- Загрузка данных в таблицы Hive;
- Практические задания на выборку данных с помощью Hive и Impala.
Форматы файлов в Hadoop
- Обзор текстовых, Sequence, ORC и Parquet файлов.
Практическая работа со Standalone кластером, с HDFS, Spark on YARN.
- Уверенные знания основ математического анализа, математической статистики или теории вероятностей;
- Опыт программирования на любом языке;
- Уверенный пользователь электронных таблиц.
Запись на курс
Код курса | EA-BDH |
---|---|
Длительность | 3д (24ч) |
Код экзамена | |
Стоимость без НДС | 30000 грн. |
Ближайшие даты | |
|