Курсы Product Live возвращаются в SkillFactory. Найти их можно здесь →
Close
Курсы Product Live возвращаются в SkillFactory. Найти их можно здесь →
Close

Big Data

Big Data
Содержание

Big Data: что это и где применяется

Big Data: что это и где применяется
Big Data (“биг дата”) – это очень большие наборы различных данных. Они огромные из-за своего объема, обычный компьютер не сможет справиться с их обработкой; они неструктурированные, имеют разный формат и содержат много ошибок. Big Data очень быстро накапливаются и используются для самых разных целей. Это не обычная база данных в ее классическом понимании.

Ниже перечислены основные отличия.
Не большие данные

База записей о сотнях/тысячах работников компании. Информация здесь имеет заранее известные свойства и характеристики, ее можно оформить в виде таблицы (Excel).
Информация, которая включает ФИО сотрудников, дату рождения, семейное положение нескольких миллиардов пользователей социальной сети Facebook, – это просто очень большая база данных. Еще один пример – архивные записи с камер видеонаблюдения.
Большие данные

Журнал, в котором фиксируются действия сотрудников. Например, вся информация, которая создается при работе колл-центра, где числится 700 человек.
Еще один пример больших данных – отправленные/полученные сообщения, переходы по ссылкам, репосты и лайки, касания экранов телефонов или движения мыши всех пользователей Facebook.
Данные, получаемые из системы видеофиксации нарушений ПДД (номера авто нарушителей, дорожная ситуация на момент события); информация о пассажирах метро, полученная при помощи системы распознавания лиц, и о людях в розыске.
Ежедневно и даже ежесекундно во всем мире увеличивается количество информации. То, что считалось большими данными 15 лет назад, теперь легко умещается на жестком диске домашнего компьютера.

В 1960-х жесткий диск на 5 Мб был в 2 раза больше холодильника и имел массу около 1000 кг. Современный жесткий диск может вмещать до 15 терабайт (1 Тб = 1 000 000 Мб) и по размерам он меньше обычной книжки.

Большие данные – это сколько в цифрах? В 2022 году Big Data измеряют в петабайтах. 1 Пб = 1 000 000 Гб. 3-часовой фильм в 4K-формате может «весить» около 80 Гб, а весь YouTube – 5 Пб или 67 000 таких фильмов. 1 000 000 Пб – это 1 зеттабайт (Зб). Такое краткое определение и характеристики у больших данных на 2022 год.

Как работает технология Big Data

Как работает технология Big Data
Источники сбора Big Data бывают 3 типов: социальные, транзакционные, машинные.

Социальные большие данные – это все, что человек делает в Сети. Ежесекундно пользователи загружают в соцсеть Instagram 1 000 фото и отправляют более 3 000 000 e-mail. Ежесекундный вклад каждого человека в среднем равен 1,7 Мб. К другим примерам социальных источников Big Data можно отнести статистику городов и стран, данные о перемещениях граждан, медицинские записи, регистрации смертей/рождений.

Транзакционные данные возникают в результате покупок, переводов денег, поставок товаров, операций, проводимых в банкоматах.

Также большая информация генерируется датчиками, «интернетом вещей» и машинами. Ее получают от умных колонок, смартфонов и систем умного дома, метеоспутников, видеокамер на улицах.

Как обрабатываются Big Data

Как обрабатываются Big Data
Массивы больших данных настолько велики, что обычный Excel не справится с ними. Именно поэтому используют специально разработанное «‎горизонтально масштабируемое‎‎»‎ программное обеспечение. Благодаря ему задачи распределяются между несколькими компьютерами, которые одновременно обрабатывают поступившую информацию. Производительность этого процесса зависит от количества задействованных машин.

В основе ПО – MapReduce, модель параллельных вычислений. Это не конкретная программа, а скорее алгоритм, при помощи которого можно решить большую часть задач обработки Big Data.

Это работает следующим образом:
  • вначале происходит фильтрация по заданным исследователем условиям, данные сортируются и распределяются между отдельными узлами (компьютерами);
  • далее узлы параллельно рассчитывают свои блоки данных и отправляют полученный результат вычислений на следующую итерацию.
Приведем примеры программного обеспечения, которое основывается на MapReduce.
  • Apache Spark – это библиотеки, позволяющие производить в оперативной памяти вычисления и обращаться к результатам расчетов неограниченное количество раз. Его используют для решения массы задач, от обычной обработки/фильтрации данных до машинного обучения (МО).
  • Hadoop – это набор программ, имеющих открытый исходный код. Они используются для планирования, хранения, а также совместной работы с данными. Система спроектирована таким образом, чтобы при возникновении сбоя на одном узле нагрузка сразу переходила на другие, и все это без прерывания вычислений.
Специалисты по Big Data активно используют оба упомянутых инструмента: Hadoop – чтобы создавать инфраструктуру данных, Spark – чтобы обрабатывать потоковую информацию в режиме реального времени.

Для чего бизнесу нужны большие данные

Для чего бизнесу нужны большие данные
  • Чтобы оптимизировать рабочие процессы. Крупные банки могут использовать Big Data, чтобы обучать чат-бота — программу, заменяющую сотрудника в решении простых вопросов (при необходимости она может переключить клиента на специалиста).
  • Чтобы делать прогнозы. При помощи анализа больших данных о продажах корпорации могут прогнозировать поведение людей и спрос на конкретные товары в зависимости от ситуации в мире, сезонности и пр.
  • Чтобы строить модели. При помощи анализа данных об издержках/прибыли можно создать модель для прогнозирования выручки в любом бизнесе.
Благодаря анализу данных можно не только систематизировать информацию, но и найти неочевидные на первый взгляд причинно-следственные связи.

Где применяется аналитика больших данных

Где применяется аналитика больших данных
Аналитика Big Data нашла применение в автомобилестроении, маркетинге, перевозках, науке, здравоохранении, с/х и других сферах, где можно собрать и обработать определенные массивы информации. Далее мы подробно рассмотрим наиболее популярные направления.

Продажи товаров

Amazon (онлайн-маркетплейс) запустил систему рекомендаций услуг/товаров, которая работает на машинном обучении. Она позволяет учитывать поведение людей, их предыдущие покупки, праздники, время года и некоторые другие факторы. После запуска этой системы рекомендации начали генерировать около 35 % всех продаж сервиса.

В «Ленте» (сеть супермаркетов) при помощи больших объемов данных проводят анализ о покупках и делают персональные скидки. Например, система больших данных анализирует данные о покупках и может понять, что человек решил изменить подход к питанию (стал придерживаться ЗОЖ), и будет предлагать ему соответствующие продукты.

Kroger (американская сеть супермаркетов) использует Big Data для персонализации купонов на скидку, которые покупатели получают на электронную почту. После того как они стали индивидуальными (то есть соответствующими интересам конкретных людей), доля покупок только по ним увеличилась с 3,7 до 70 %.

Найм

Многие крупные компании стали активно пользоваться помощью роботов-рекрутеров, благодаря которым на начальном этапе поиска сотрудника можно отсеять людей, которые не заинтересованы в вакансии или не подходят под выставленные критерии. Так, у компании Stafory есть разработанный робот Вера, она занимается сортировкой резюме, делает первичные обзвоны и выделяет заинтересованных кандидатов.

Аренда объектов недвижимости

Сервис Airbnb при помощи Big Data смог изменить поведение пользователей. Специалисты выяснили, что посетители web-сайта по аренде объектов недвижимости из Азии заходят, быстро покидают ресурс и не возвращаются. После аналитики выяснилось, что с главной страницы они переходят в раздел «Места поблизости» и смотрят фотографии без дальнейшего бронирования. Специалисты нашли решение: поставили там ссылки на наиболее популярные направления для путешествий в странах Азии. Это позволило на 10 % увеличить конверсию.

Обработка фото

До 2016 г. технологии нейросетей не существовало, более того, это считали невозможным. Благодаря прорыву в этой области сегодня мы можем пользоваться массой фильтров, эффектов и стилей на видео и фото.

Банки

Большие объемы информации активно используются и в банковском секторе. Они обнаруживают аномалии в поведении пользователей, нетипичные для них покупки/переводы, благодаря чему помогают принять меры для защиты клиентов от мошенников. Так, с 2017 года Visa при помощи анализа данных ежегодно предотвращала мошенничества на сумму 2 млрд долларов.

Автомобилестроение

У автоконцерна Toyota в 2020 году появилась проблема: нужно было выявить причину большого количества аварий по вине водителей, которые перепутали газ и тормоз. Компания провела исследование и собрала данные с автомобилей, которые подключены к интернету. На основе полученной информации удалось определить, как именно люди жмут на педали. Было выяснено, что скорость и сила давления различаются в зависимости от того, что хочет человек: ускориться или затормозить. Теперь специалисты Toyota занимаются разработкой системы, с помощью которой можно будет определять манеру нажатия на педали при движении и сбрасывать скорость, если водитель давит на газ, но делает это таким образом, словно хочет притормозить.

Медицина

Ученые США научились определять, каким образом распространяется депрессия. Мунмун Де Чаудхури совместно со своими коллегами загрузили в прогностическую модель текстовые сообщения из Facebook, Twitter и Reddit с геометками. Их отбирали по словам и фразам, которые могут говорить о возможном наличии депрессивного и подавленного состояния. Расчеты исследователей совпали с результатами официальных данных.

Государственные структуры

Большие данные необходимы и здесь. При помощи них ведется статистика и слежка за некоторыми категориями граждан. Такие системы имеются во многих странах: есть сервис PRISM, которым пользуется ЦРУ и ФБР для сбора персональных данных из социальных сетей и продуктов Microsoft, Apple и Google. В РФ информацию о телефонных звонках и пользователях собирают при помощи системы СОРМ.

Маркетинг

С помощью социальных Big Data можно сгруппировать людей по интересам и персонализировать для них рекламные сообщения. Пользователей ранжируют по полу, возрасту, месту проживания и интересам. Люди, живущие в одном регионе, ходящие в одни и те же места, смотрящие видео и читающие статьи на схожие темы, скорее всего, могут заинтересоваться одними и теми же товарами/услугами.

Стоит отметить, что периодически возникают скандалы, связанные с использованием Big Data в маркетинге. Например, в 2018 г. Netflix обвинили в расизме, потому что она демонстрировала разные плакаты сериалов и фильмов в зависимости от национальности и половой принадлежности пользователей.

Медиа

При помощи анализа Big Data в медиа можно измерять аудиторию. В этом случае большие данные могут даже повлиять на политику редакции. Приведем пример: издание Huffington Post использует специальную систему, которая в реальном времени отражает статистику посещений, комментариев и иных действий людей, составляет аналитические отчеты. Система оценивает степень эффективности заголовков (насколько они привлекают внимание читателей), помогает придумать способы доставки контента определенным группам пользователей. Например, было выяснено, что родители наиболее часто читают статьи в телефоне поздно вечером в будние дни, после того как уложили детей спать. В выходные они чаще всего заняты, поэтому контент публикуется в удобное для для родителей время.

Логистика

Использование Big Data может помочь в оптимизации перевозок, сделать доставку дешевле и быстрее. В компании DHL работа с большими данными затронула так называемую проблему «последней мили», когда нужно ехать через дворы и искать парковку перед тем, как вручить клиенту заказ. В общей сложности это забирает 28 % от стоимости доставки. Специалисты компании проанализировали «последние мили» при помощи информации с GPS и данных об обстановке на дороге. В результате анализа полученных данных руководство приняло меры, которые позволили уменьшить время доставки и снизить затраты на топливо.

При помощи больших данных внутри компании можно отслеживать качество работы персонала, корректность их действий, соблюдение дедлайнов. Для анализа используются социальные данные (те же отзывы клиентов в приложении, в социальных сетях, на сайтах) и машинные (например со сканеров посылок).

Кто работает с Big Data

Кто работает с Big Data
1
Дата-сайентисты
1
Дата-сайентисты
Это специалисты, которые специализируются на анализе больших данных. Они ищут закономерности, занимаются построением моделей, на основе которых прогнозируют события. Например, исследователь Big Data может запросить статистику по снятиям кеша в банкоматах и на основе нее разработать математическую модель, которая позволит предсказывать спрос на наличные. Данная система будет подсказывать инкассаторам, когда, сколько и в какой конкретно банкомат нужно привезти деньги. Для успешного освоения профессии требуется умение работать с SQL-базами данных, знание основ математического анализа и языков программирования (Python или R).
2
Аналитики данных
2
Аналитики данных
Они используют аналогичный набор инструментов, что и дата-сайентисты, но для иных целей. Их задачи следующие: выполнить описательный анализ, интерпретировать и представить данные в удобном для восприятия формате. Аналитики обрабатывают информацию и дают результат, составляя отчеты, собирая статистику и делая прогнозы.

С большими данными также работают специалисты, для которых эта сфера не является основной:
  • маркетологи-аналитики (исследуют большие массивы данных для персонализации рекламы и создания маркетинговой политики);
  • NLP-инженеры (анализируют естественный язык и занимаются разработкой программ для чат-ботов и автоматизацией работы колл-центров);
  • инженеры и программисты на предприятиях (занимаются обработкой данных);
  • дизайнеры интерфейсов (анализируют данные поведенческих исследований, чтобы создавать пользовательские интерфейсы).
3
Дата-инженеры
3
Дата-инженеры
Они работают с технической стороной вопроса, организуют сбор информации, хранение и первичную обработку. Эти специалисты помогают исследователям: создают программное обеспечение и алгоритмы для автоматизации задач. Без этих инструментов большие данные не представляли бы ценности, так как их объемы было бы нереально обработать. Для успешного освоения этой профессии важно выучить SQL и Python, научиться работать с фреймворками (с тем же Spark).

Востребованность Big Data и специалистов по ним

Востребованность Big Data и специалистов по ним
Востребованность Big Data растет ежедневно. В исследовании 2020 г. говорится, что даже при пессимистичном сценарии к 2024 году объем рынка больших данных в России вырастет с 45 до 65 млрд руб., а при позитивном развитии событий — до 230 млрд руб.

Небольшие компании и крупные корпорации все чаще и чаще прибегают к анализу Big Data. Организации, которые этого не делают, со временем замечают упущенную выгоду: интернет-издание The Bell приводит в пример корпорацию Caterpillar (производителя строительной и горнодобывающей техники). В 2014 г. ее дистрибьюторы ежегодно упускали от 9 до 18 млрд долларов прибыли лишь из-за того, что не внедрили технологии обработки больших данных. Сейчас у 3,5 млн единиц техники компании есть специальные датчики, собирающие информацию о ее состоянии. После внедрения проекта специалисты осуществляют более качественное управление затратами на техническое обслуживание.

Совместно с популярностью Big Data растет запрос и на специалистов, которые могут эффективно работать с ними. Академия больших данных MADE от Mail.ru Group и HeadHunter в середине 2020 г. провели исследование, в результате которого было выяснено, что специалисты по анализу данных – одни из наиболее востребованных на рынке труда в РФ. За 4 года количество вакансий увеличилось практически в 10 раз.

Как начать работать с Big Data

Как начать работать с Big Data
Проще всего начать, если у вас уже есть хорошее знание математики и понимание алгоритмов, но это не считается обязательным. Например, Оксана Дереза в прошлом филолог, для нее было основной трудностью – разобраться в алгоритмах и вспомнить математику. Но благодаря регулярным занятиям она набралась опыта и теперь анализирует данные в одном из исследовательских институтов.

Если вы хотите освоить перспективную профессию, но у вас нет математических знаний, можно выбрать курс SkillFactory «Data Science с нуля». Там ведется полноценная подготовка будущих специалистов. За 1 год студенты учатся получать данные из web-источников или по API, визуализировать данные при помощи Pandas и Matplotlib, применять методы линейной алгебры, мат. анализа, теории вероятности и статистики.

Аналитику данных также требуется знание SQL и Python — эти навыки достаточно популярны в вакансиях по поиску соответствующей позиции. На курсе «Аналитик данных» можно получить базу знаний основных инструментов (от Google-таблиц до Power BI и Python) и закрепить их на тренажерах.