Apache Spark

Проработать:

Что это

Apache Spark — фреймворк с открытым исходным кодом для реализации распределённой обработки неструктурированных и слабоструктурированных данных через параллельные вычисления на кластере, входящий в экосистему проектов Hadoop.

Spark состоит:

SQL
STREAMING DATA
MACHINE LEARNING
GRAPH ANALYTICS

RDD(Resilient Distributed Datasets)

RDD - основной базовая абстракция Spark, представляющая неизменный набор элементов, разделенных по узлам кластера, что позволяет выполнять параллельные вычисления.

Его можно получить из:

Файла
Памяти
Другого RDD

SparkContext или JavaSparkContext(для JAVA) - место откуда мы получает RDD.

Пример конфигурации JavaSparkContext:

SparkConf conf = new SparkConf();
conf.setAppName("my spark application");
conf.setAppName("local[*]");
JavaSparkContext sc = new JavaSparkContext(conf);

DataFrame

DataFrame - состоит из RDD.

Datasets

Datasets - это типизированные DataFrame.

RDD Operations:

Transformations:

map
flatMap
filter
mapPartitions, mapPartitionsWithIndex
sample
union, intersection, join, cogroup, cartesian
distinct
reduceByKey, aggregateByKey, sortByKey
pipe
coalesce, repartition, repartitionAndSortWithinPartitions

Actions:

reduce
collect
count, countByKey, countByValue
first
take, takeSample, takeOrdered
saveAsTextFile, saveAsSequenceFile, saveAsObjectFile
foreach

DataFrame Operations:

show() - отображение контента DataFrame.

Shuffle

Spark shuffle - это операция перемешивания(перераспределения ) данных между Экзекютерами. Побочный эффект таких аналитических преобразований, как join(), groupBy(), orderBy(), reduceByKey(), union() и тд.

Сократить число экзекюторов(меньше обмена между машинами)
Уменьши объем данных(сбрасывания лишних столбцов, фильтрация)

Примеры кода

Проверка колонки на максимальное значение(Date или Numeric)

.groupBy(col(AF.OfficeId)).agg(min(AF.Date))

Catalyst Optimizer

Catalyst Optimizer - оптимизатор для DataSet.

RDD - мы оптимизируем сами.