Apache Spark

Apache Spark е софтуерна рамка с отворен код за разпределена линейна обработка на големи масиви от данни (Big Data). Първоначално разработен в Калифорнийския университет, Бъркли, проектът по-късно е дарен на фондацията за свободен софтуер Apache (Apache Software Foundation). Spark предоставя интерфейси за програмиране на цели клъстери с вграден паралелизъм и устойчивост на грешки. Основната му характеристика е обработката на данни в оперативната памет (in-memory computing), което значително увеличава скоростта на изпълнение в сравнение с традиционните MapReduce системи в Hadoop. Поддържа широк набор от библиотеки за SQL заявки (Spark SQL), стрийминг на данни (Spark Streaming), машинно обучение (MLlib) и обработка на графи (GraphX).

Apache Spark

Споменавания в статии