Big Data engineering: c чего начать и карьерные перспективы

Сегодня компании используют Big Data для углубленного взаимодействия с клиентами, оптимизации операций, предотвращения угроз и мошенничества. За последние два года такие компании, как IBM, Google, Amazon, Uber, создали сотни рабочих мест для программистов и Data science. Компания IDC прогнозирует рост рынка технологий обработки больших данных и бизнес-аналитики на 11,9% в год до 2020 г

В первую очередь ожидается рост аналитических платформ Big Data, использующих машинное обучение и системы искусственного интеллекта на базе нейронных систем, что востребовано бизнесом для анализа данных о потребителях и прогнозирования их поведения. Кроме того, на рынок оказывает влияние так называемая концепция интернета вещей (Internet of Things, IoT). Еще в 2016 г. крупнейшие объемы мировых инвестиций были направлены в интернет вещей в сфере производства, грузоперевозок, энергосистем, потребительский сегмент. Наиболее стремительный рост интернета вещей ожидается в страховой области, секторе потребления, здравоохранении и розничной торговле.

На сегодняшний день это очень большой и стремительно растущий рынок, для обслуживания которого требуется огромное количество IT-специалистов. В данной статье мы бы хотели поговорить про Big Data engineering (не путать с аналитикой), а именно: в чем состоит их работа и стоит ли впрыгивать в этот поезд под названием Big Data и осваивать технологию.

Чем же занимается инженер Big Data? 

Главным образом, структурным обеспечением тех, кто занимается непосредственно аналитикой данных. Другими словами, он делает так, чтобы аналитикам было проще работать с большими объемами данных, с кластерными и операционными системами. Big Data engineer занимается разработкой каркаса, сбора и хранения данных, а также делает соответствующие данные доступными для различных потребительских и внутренних приложений.

Какой нужен бэкграунд для работы с Big Data? Важно, чтобы был хороший опыт программирования, понимание реляционных баз данных (без базового знания SQL вряд ли получится устроиться даже на позицию junior), а также знание Scala/Java, либо Python или R.

С чего начать изучение? Область Big Data разбита на разные технологии. Очень важно, чтобы вы изучали релевантные и совместимые технологии с вашим направлениям работы с данными. Это немного отличается от таких направлений, как машинное обучение, где вы начинаете что-то и пытаетесь завершить всё в этой области. Одна из основных концепций, которые должен знать каждый, кто видит себя в этой области — это развертывание сервера на Linux и написание скриптов в командной строке Bash Scripting. Это необходимое условие для работы с Big Data. Также не помешает поработать с облаком. Попробуйте использовать небольшие наборы данных на AWS, Softlayer или любом другом облачном провайдере. Большинство из них имеют свободный уровень, чтобы учащиеся могли практиковаться. Вы можете пропустить этот шаг сейчас, если хотите, но не забрасывайте в тёмный угол работу с облаком, прежде чем идти на какое-либо собеседование.

Затем вам нужно узнать о распределённой файловой системе. Наиболее популярной DFS является файловая система Hadoop. На этом этапе вы также можете изучить некоторые базы данных NoSQL.

Путь до сих пор является обязательным основанием, которое должен знать каждый специалист.

Теперь решайте, хотите ли вы работать с потоками данных. Это выбор между двумя из четырех V, которые используются для определения больших данных — Volume, Velocity, Variety и Veracity. Предположим, вы решили работать с потоками данных для разработки систем анализа в реальном времени. Тогда вы должны пойти по ветке Apache Kafka с помощью Mapreduce. Обратите внимание, что в пути Mapreduce вам не нужно изучать Pig и Hive. Достаточно изучить только один из них. Это не единственный способ получить знания. Вы можете создать свой собственный путь по ходу дела самостоятельно.

Какие карьерные перспективы? Как уже было упомянуто выше, технологии Big Data становятся все более востребованными. Все больше заказчиков и проектов требуют их знания. Помимо того, что работа над подобными проектами состоит из очень интересных задач, как правило, у них нет проблем с деньгами. Если вы умеете работать с Big Data, значит вы работаете на пике технологий и, подробно вникнув в эту область, вы значимо повысите свою стоимость на рынке труда.

Где же работать? Спрос на специалистов данной области превышает предложение, поэтому достаточно добавить в своем профиле в LinkedIn key words (Hadoop, Spark, Storm, Cassandra, HBase, Hive, Kafka и т. д.) и предложения не заставят вас долго ждать 🙂 Ну а если без шуток, среди наших партнеров как раз есть компания, которая специализируется на крупных Big Data-проектах для заказчиков из США. Здесь можно будет действительно прокачаться в этой области, а также получить менторинг от более опытных коллег. Будем рады устроить вас в «компанию мечты» 🙂

Даем картину рынка труда. Организовываем ивенты. Угощаем кофе.