Apache Hadoop — это решение с открытым исходным кодом для распределенных вычислений с большими данными.
Большие данные – это маркетинговый термин, который включает в себя всю идею данных, полученных из таких источников, как поисковые системы, шаблоны покупок в продуктовых магазинах, отслеживаемые с помощью бонусных карт и т. д. В современном мире в Интернете так много источников данных, которые чаще всего из-за масштаба делают их непригодными для использования без обработки, а обработка заняла бы невероятное количество времени на любом сервере. Введите Apache Hadoop
Меньше времени на обработку данных
Благодаря использованию архитектуры Hadoop для распределения задач обработки между несколькими компьютерами в сети время обработки сокращается астрономически, а ответы могут быть получены в разумных количествах. времени. Apache Hadoop разделен на два разных компонента: компонент хранения и компонент обработки. Проще говоря, Hapood создает один виртуальный сервер из нескольких физических машин. На самом деле Hadoop управляет связью между несколькими машинами таким образом, что они взаимодействуют друг с другом настолько тесно, что создается впечатление, будто только одна машина работает над вычислениями.Данные распределяются между несколькими машинами для хранения и задачи обработки распределяются и координируются архитектурой Hadoop. Этот тип системы необходим для преобразования необработанных данных в полезную информацию в масштабе ввода больших данных. Рассмотрим объем данных, которые Google получает каждую секунду от пользователей, вводящих поисковые запросы. Как общий массив данных, вы не знаете, с чего начать, но Hadoop автоматически сократит набор данных на более мелкие, организованные подмножества данных и назначит эти управляемые подмножества определенным ресурсам. Затем все результаты возвращаются и собираются в полезную информацию.
Сервер, который легко настроить
Хотя система кажется сложной, большая часть движущихся частей скрыта за абстракцией. Настроить сервер Hadoop довольно просто: достаточно установить серверные компоненты на оборудование, соответствующее системным требованиям.Сложнее всего спланировать сеть компьютеров, в которой будет работать сервер Hadoop. будет использовать для распределения ролей хранения и обработки. Это может включать настройку локальной сети или соединение нескольких сетей через Интернет. Вы также можете использовать существующие облачные сервисы и оплатить кластер Hadoop на популярных облачных платформах, таких как Microsoft Azure и Amazon EC2. Их еще проще настроить, так как вы можете запускать их по мере необходимости, а затем списывать кластеры, когда они вам больше не нужны. Эти типы кластеров идеально подходят для тестирования, поскольку вы платите только за время активности кластера Hadoop.
Обрабатывайте свои данные, чтобы получить необходимую информацию
Большие данные — чрезвычайно мощный ресурс, но данные бесполезны, если их нельзя должным образом классифицировать и превратить в информацию. В настоящее время кластеры Hadoop предлагают чрезвычайно экономичный метод для преобразования этих наборов данных в информацию.
Отзывы пользователей о Apache Hadoop
Вы пробовали Apache Hadoop? Будьте первым, чтобы оставить свое мнение!