Большие данные представляют собой массивы информации, характеризующиеся колоссальными объемами, стремительно растущей скоростью накопления, разнообразием их формата представления как в виде структурированной, так и неструктурированной информации. Big Data также включают в себя комплекс инновационных методов и способов хранения и обработки информации с целью автоматизации, оптимизации бизнес-процессов, обеспечения принятия наиболее эффективных решений на основе накопленной информации.
Таким образом, большие данные характеризуются тремя основными признаками:
-
большой объем информации,
-
высокая скорость изменения информации,
-
разнообразие и разнородность данных.
Ниже представлены ключевые элементы, составляющие аналитику больших данных.
Рис. 1. Ключевые элементы, составляющие аналитику больших данных
Источник: https://rubda.ru
Структура и объем рынка больших данных
В 2018 году объем глобального рынка Big Data и бизнес-аналитики (global big data and business analytics market) достиг 168,8 млрд долл. В соответствии с оценкой IDC, по итогам 2019 года объем глобального рынка больших данных увеличился на 12%, по сравнению с показателями предыдущего года, и достиг 189,1 млрд долл. Кроме того, в период 2018-2022 гг. предполагается рост рынка со среднегодовым темпом (CAGR) на уровне 13,2%. Таким образом, объем рынка может увеличиться до 274,3 млрд долл. к 2022 году.
ResearchAndMarkets прогнозирует возможные темпы роста глобального рынка Big data на уровне 19,7% ежегодно на период 2019-2025 гг.
Рис. 2. Динамика роста рынка больших данных, млрд долл.
Источник: Global big data and business analytics revenue from 2015 to 2022: https://www.statista.com
В 2018 году выручка на рынке программного обеспечения больших данных составила 60,7 млрд долл. На конец 2019 года более половины выручки BDA обеспечили доходы, полученные от IT- и бизнес-сервисов – 77,5 млрд долл. и 20,7 млрд долл. соответственно. Размер выручки в сегменте аппаратного обеспечения составил около 23,7 млрд долл. Доход от программного обеспечения больших данных достиг 67,2 млрд долл. По данным IDC, ожидаемые темпы роста (CAGR) в период с 2018-2023 гг. в этом сегменте поднимутся до отметки в 12,5%.
Согласно исследованию Fortune Business Insights, объем глобального рынка технологий Big Datа, оцененный в 2018 году в 38,6 млрд долл., увеличится к 2026 году до 104,3 млрд долл., демонстрируя темпы роста (CAGR) на уровне 14% в период с 2019 по 2026 гг.
Рис. 3. Доля сегментов рынка в общем объеме выручки, %
Источник: Big Data Technology Market Size, Share, Demand & rowth: https://www.fortunebusinessinsights.com
По данным Grand View Research, к 2025 году глобальный рынок Big Data как услуги (global big data as a service (BDaaS)) достигнет 51,9 млрд долл., при этом CAGR составит 38,7% в период 2019-2025 гг.
География рынка Big Data
С географической точки зрения по результатам 2019 года наиболее крупным стал рынок США с объемом доходов в 100 млрд долл. Второе и третье место по объему заняли Япония (9,6 млрд долл.) и Великобритания (9,2 млрд долл). Также в пятерку крупнейших рынков вошли КНР (8,6 млрд долл.) и Германия (7,9 млрд долл.).
В Аргентине и Вьетнаме наблюдаются наиболее высокие показатели прироста за пятилетний период (CAGRs – 23,1% и 19,4%). Третье место по уровню CAGR занял Китай (19,2%), что к 2022 году может обеспечить выход этой страны на второе место по уровню доходов.
Рис. 4. Доля стран-лидеров в общем объеме рынка больших данных, %
Источник: 9 IDC Forecasts Revenues for Big Data and Business Analytics Solutions Will Reach $189.1 Billion This Year with Double-Digit Annual Growth Through 2022: https://www.idc.com
Драйверами рынка больших данных и бизнес-аналитики выступают 5 отраслей, на которые, по оценке IDC, приходится около половины инвестиций (91,4 млрд долл.):
-
банковская сфера,
-
дискретное производство,
-
специализированные услуги,
-
непрерывное производство,
-
федеральное/центральное правительство.
При этом наибольший рост рынка в будущем обеспечат такие направления, как розничная торговля (15,2% CAGR), а также операции с ценными бумагами и инвестиционные услуги (15,3% CAGR).
Рис. 5. Инвестиции в технологии больших данных по отраслям, %
Источник: 9 IDC Forecasts Revenues for Big Data and Business Analytics Solutions Will Reach $189.1 Billion This Year with Double-Digit Annual Growth Through 2022: https://www.idc.com
Крупнейшие поставщики на рынке больших данных
Согласно отчету Wikibon (2018 Big Data and Analytics Market Share Report), в 2018 году (по данным 2017 года) в пятерку крупнейших поставщиков решений на рынке Big Data вошли такие компании, как IBM, Splunk, Dell, Oracle и AWS. И, по данным исследования Global Big Data Market Forecast 2019-2027, проведенного Inkwoodresearch, в 2019 году эти компании сохранили свои позиции в качестве лидеров рынка.
Российский рынок Big Data
Российский рынок пока занимает незначительную долю в мировом предложении и потреблении информационных технологий. Однако в 2018-2019 гг. было принято немало решений и реализовано достаточное количество законодательных инициатив, способствующих развитию отечественного рынка Big Data.
По результатам опроса, проведенного International Data Corporation (IDC) и Hitachi Vantara в ходе исследования «Аналитика больших данных как инструмент бизнес-инноваций», более 55% российских организаций выделяют бюджет на внедрение технологий больших данных (участие приняли более 100 компаний со штатом от 500 чел.).
По состоянию на конец 2019 год Boston Consulting Group оценивает объем российского рынка больших данных в 45 млрд руб. с темпом прироста 12% в течение последних пяти лет.
Крупнейшие российские игроки рынка больших данных
В Ассоциацию больших данных (АБД), образованную в 2018 году, входят организации, представляющие собой наиболее крупных участников российского рынка Big Data:
-
ПАО «Сбербанк»,
-
АО «Газпромбанк»,
-
АО «Тинькофф Банк»,
-
АО «КИВИ Банк» (QIWI),
-
ООО «Яндекс»,
-
ООО «Мэйл.ру»,
-
ПАО «Мегафон»,
-
ООО «Единыйфактор» («oneFactor»),
-
ПАО «Ростелеком».
В июле 2019 года было объявлено о присоединении к Ассоциации Аналитического центра при Правительстве РФ.
Объем российского рынка больших данных
Согласно данным, приведенным Ассоциацией участников рынка больших данных, объем рынка Big Data в России составляет 10-30 млрд руб. При этом, в соответствии с усредненными прогнозами отечественных и иностранных экспертов, предполагается рост этого показателя в 10 раз – до отметки 300 млрд руб. к 2024 году.
Основные потребители технологий Big Data в России
Сегодня лидерами по внедрению технологий в российских компаниях являются такие инструменты цифровизации, как роботизированная автоматизация бизнес-процессов, использование чат-ботов, инструментов анализа больших данных и предиктивной аналитики.
Технология анализа больших данных является наиболее часто внедряемой технологией среди российских компаний: 68% организаций на конец 2019 года уже опробовали внедрение инструментов анализа больших данных.
Рис. 6. Технологии, используемые среди российских компаний, %
Перечень инструментов, используемых для анализа больших данных, формируется в зависимости от отрасли компании.
Рис. 7. Индустрии использования больших данных в России, %
Сценарии развития рынка Big Data в России
В 2019 году участниками Ассоциации совместно с привлеченными внешними специалистами (в т.ч. Boston Consulting Group) была разработана стратегия развития рынка до 2024 года, включающая 5 возможных сценариев:
-
пессимистичный,
-
сценарий «бездействия»,
-
базовый,
-
оптимистичный,
-
«сценарий мечты».
В соответствии с разными вариантами прогноза рынок больших данных может обеспечить от 0,3% до 2,4% прироста ВВП, а объемы отрасли могут увеличиться на сумму от 20 до 230 млрд руб., по сравнению с показателями 2019 года.
Таблица 1. Сценарии развития рынка больших данных в России
|
Доступность данных |
Исследования и идеи |
Масштабирование |
Вклад БД в ВВП, 2024 г. против 2019 г. |
Отрасль БД в 2024 г. против 2019 г., млрд руб. |
Пессимистичный сценарий |
Активные ограничения на использование данных |
Отсутствует адресная поддержка |
Отсутствует адресная поддержка |
+0,3% |
+20 |
Сценарий бездействия |
Установленные регулятором ограничивающие прецеденты |
Отсутствует адресная поддержка |
Отсутствует адресная поддержка |
+0,5% |
+40 |
Базовый сценарий |
1.Упрощенный доступ и обработка |
3. R&D – «песочницы» для исследования БД |
5.Стратегия БД традиционных индустрий |
+1,2% |
+100 |
Оптимистичный сценарий |
2.Обеспечение возможности обмена/обогащения данных |
4.Финансирование инноваций и ресурсная экосистема |
6.Внутренние стимулы для инновационных отраслей |
+1,8% |
+160 |
Сценарий мечты |
Платформы для крупномасштабного обмена данными |
Специализированные государственные инвестиционные программы |
Финансовая поддержка экспорта |
+2,4% |
+230 |
Источник: Российские сценарии для Big Data:
https://rspectr.com
Реализация стратегии развития российского рынка Big Data
АБД будет продвигать 6 инициатив: 3 дадут умеренный эффект, остальные – более агрессивные по сложности имплементации и эффекту от БД.
Умеренный эффект:
1. Упрощенный доступ и обработка данных
-
Позволить пользователям одновременно и дистанционно давать согласие на несколько целей использования их данных;
-
Позволить компаниям обрабатывать персональные данные для широкого круга целей при соблюдении определенных требований;
-
-
Запустить массовую государственную цифровизацию в областях, релевантных для БД, с фокусом на стандартизацию данных.
3. R&D песочницы для исследования Больших Данных
- Определить законом контролируемую среду экспериментирования с ослабленным регулированием;
- Обеспечить вовлечение регуляторов для оптимизации одобрений при последующем крупномасштабном развертывании;
- Обеспечить «озера данных» со стандартизированными данными и технологические библиотеки.
5. Стратегии Больших Данных традиционных индустрий
- Создать стандарт для внедрения Больших Данных в компании с государственным участием;
- Ввести ориентированные на результат стимулы для компаний частного сектора;
- Создать проектный и технический кадровый резерв, чтобы помочь компаниям внедрять Большие Данные и обучать их команды.
Агрессивный эффект:
2. Обеспечение возможности обмена/обогащения данных
-
Позволить игрокам делиться анонимными персональными данными на коммерческой основе;
-
Поощрять обмен отраслевыми данными внутри и между отраслями через саморегулируемые стандарты;
-
Позволить государству делиться определенными типами релевантных данных с частным сектором.
4. Финансирование инноваций и ресурсная экосистема
-
Обеспечить инновационные команды выделенным доступом к «озерам данных» с труднодоступной отраслевой информацией;
-
Оптимизировать процессы бэк-офисного типа путем предоставления доступа к юристам, бухгалтерам и специалистам по патентам;
-
Внедрить инвестиционную платформу, соединяющую квалифицированных инвесторов с отобранными инициативами.
6. Внутренние стимулы для инновационных отраслей
-
Внедрить упрощенный процесс получения необходимых сертификатов и патентов для продуктов и услуг на основе Больших Данных;
-
Устранить выборочные барьеры для экспорта продуктов и сервисов, построенных на технологиях Больших Данных;
-
Провести кампании по повышению осведомленности об экспортном потенциале продуктов на технологиях Больших Данных.
Согласно базовому сценарию, в 2024 году в России эффект от внедрения продуктов и технологий больших данных увеличится на 1,2% как доля от ВВП.
Рис. 8. Базовый сценарий эффективности внедрения инструментов больших данных
Источник: Минэкономразвития РФ
Меры, направленные на реализацию стратегии, объединены в три основных блока:
-
повышение доступности данных,
-
проведение исследований в области больших данных (R&D),
-
масштабирование рынка.
Стратегия предусматривает создание R&D – «песочницы» для проведения экспериментов, внедрения мер по изменению законодательства, центра компетенций и др.
Согласно прогнозу IDC, к 2025 году общий объем цифровых данных, генерируемых во всем мире, вырастет более чем вчетверо – до 175 Зеттабайт с 40 Зеттабайт в 2020 году, в том числе благодаря растущему количеству IoT-устройств и датчиков. В соответствии с описанием главных атрибутов больших данных как «трех «V» (объем, многообразие, скорость), которое дает Gartner, эта нарастающая лавина данных будет все больше характеризоваться разнообразием типов информации, причем большая часть будет представлять собой постоянно меняющиеся потоки данных в реальном времени. Как результат, задача управления данными и их анализа значительно затрудняется. И это обусловливает многие из трендов, которые, по всей видимости, будут преобладать в ближайшие три года.
Ключевые технологические тренды Big Data
Gartner отмечает следующие 11 технологических трендов в области данных и аналитики, которые потенциально окажут значительное влияние на дальнейшее развитие рынка в течение последующих 3-5 лет:
Технологический тренд | Описание |
«Расширенная» (дополненная) аналитика (Augmented analytics) | Совершенствование процесса анализа за счет автоматизации процесса поиска, обработки данных с использованием технологий машинного обучения (Machine Learning (ML)) и искусственного интеллекта (Artificial Intelligence (AI)). Отмечается, что к 2020 году расширенная аналитика станет драйвером в области закупок инструментов бизнес-аналитики, а также платформ обработки информации. По данным ResearchAndMarkets, ожидается, что рынок расширенной аналитики вырастет с 4,8 млрд долл. в 2018 году до 18,4 млрд долл. к 2023 году при совокупном годовом темпе роста (CAGR) 30,6%. |
«Расширенное» (дополненное) управление данными (Augmented data management) | Применение технологий AI и ML, позволяющих осуществлять автоматизацию и самонастройку процесса управления корпоративными данными (включая управление метаданными, качеством данных, интеграцию данных и баз данных). К 2022 году предполагается снижение объема «ручного» управления данными компаний на 45%. |
Технологии обработки естественного языка (Natural language processing (NLP) and conversational analytics) | Согласно прогнозу экспертов, к 2021 году внедрение средств NLP повысит уровень распространения технологий интеллектуального анализа данных с 35% до 50%. Технология обработки естественного языка позволяет компьютерам понимать человека. Как результат, рядовые бизнес-пользователи смогут делать запросы к сложным массивам данных обычными словами и фразами – голосом или вводом с клавиатуры и получать такие же легко понимаемые результаты бизнес-анализа. По прогнозу Gartner, к концу 2020 года 50% аналитических запросов будут делаться на естественном языке или с помощью привычного поиска либо генерироваться автоматически. А по данным Ventana Research, 33% организаций ожидают, что к 2021 году запросы и ответы на естественном языке будут стандартной функцией инструментов бизнес-анализа. |
Аналитика графов (Graph analytics) | По оценке Gartner, применение методов обработки графической информации и графических баз данных будет увеличиваться на 100% ежегодно в течение последующих 5 лет. Бизнес-аналитики создают все более сложные запросы к структурированным и неструктурированным данным, часто из нескольких приложений и источников. Выполнение таких сложных запросов в больших масштабах с использованием традиционных инструментов и языков запросов представляет собой очень трудную задачу. Графовые базы данных и инструменты аналитики и визуализации помогают справиться с этой задачей, показывая связи, существующие между узлами — людьми, локациями и объектами материального мира. Gartner прогнозирует, что использование графовой обработки и графовых баз данных будет удваиваться ежегодно в последующие несколько лет, что позволит «ускорить подготовку данных и создать более сложные и адаптивные методы анализирования данных». |
Коммерческие инструменты искусственного интеллекта и машинного обучения (Commercial AI and machine learning) | Переход от использования платформ с открытым исходным кодом к применению специально разработанных коннекторов, подключающихся к open-source экосистеме, позволит реализовать функции управления моделями, проектами, а также предоставит возможность для преобразования и многократного использования данных, обеспечит интеграцию и прозрачность, недоступные в рамках open-source платформ. Разработчики ПО анализа данных всегда стремились предоставить возможности своей технологии более широкой аудитории обычных бизнес-пользователей и всех работающих с информацией. И это уже происходит благодаря так называемой интеллектуальной (augmented) аналитике. Gartner определяет интеллектуальную аналитику как использование технологий искусственного интеллекта, машинного обучения и обработки естественного языка для содействия в подготовке данных, понимании и трактовке результатов анализа, то есть в качестве расширения возможностей человека и традиционных способов формирования и использования аналитического контента. Интеллектуальная аналитика поможет специалистам и обычным сотрудникам, работающим с информацией, автоматизировать многие аспекты изучения данных, а также разработки и использования моделей данных. К 2022 году 75% решений для конечных пользователей будут создаваться с использованием коммерческих, а не открытых платформ. |
Матрица данных (Data fabric) | Подходы к интеграции данных в виде логически организованной структуры для облегченного доступа и обмена в распределенной среде данных. |
Объясняемый искусственный интеллект (Explainable AI) | Возможность формирования описательной модели на естественном языке, позволяющей обосновать автоматически сгенерированные решения и результаты, полученные на базе технологий AI. К 2023 году более 75% крупных организаций будут нанимать специалистов по поведению AI, обеспечению конфиденциальности и доверительных отношений с клиентом для снижения репутационных рисков. |
Блокчейн в области данных и аналитики | Реализует взаимосвязь транзакций, активов, обеспечивает прозрачность и гарантии в сложных сетях взаимодействия участников. |
Непрерывная интеллектуальная обработка данных (Continuous Intelligence) | Подход, при котором результаты аналитики в реальном времени интегрируются в бизнес-операции, происходит обработка потоковой контекстной информации, поступающей с датчиков IoT, и исторических данных, позволяющий моментально реагировать на изменения и предписывать поведение моделей. К 2020 году прогнозируется наличие функции непрерывного интеллектуального анализа в более чем 50% бизнес-систем. |
Серверы «постоянной» памяти (Persistent memory servers) | Tехнология сохранения данных при отключении питания позволяет решить проблему ограниченности объемов памяти при возрастающем количестве данных; предоставляет возможность анализировать больше данных в оперативной памяти и в режиме реального времени; повышает энергоэффективность, операции с данными становятся более рациональными за счет уменьшения дублирования. |
Ужесточение регулирования в сфере обращения с данными | Многие компании уже ощутили на себе ужесточение регулирования в обращении с данными с вступлением в силу Генерального регламента о защите данных (GDPR) в Евросоюзе в мае 2018 года. В 2020 году, с вводом Закона штата Калифорния о защите конфиденциальности потребителей (CCPA) и в свете растущих призывов ввести такие правила в масштабах всей страны, компании и организации в США встанут перед необходимостью внедрить строгий контроль за данными, обеспечением их защищенности и конфиденциальности. Все это окажет влияние на практику сбора, обработки, хранения и использования данных компаниями, и, в первую очередь, это касается данных потребителей. К 2021 году 25% организаций создадут новые центры передовых технологий управления данными и безопасности, что поможет снизить риск неправомерного использования или утечки, по прогнозу Ventana Research. Исследователи в сфере технологий управления данными и бизнес-анализа призваны сыграть ключевую роль в разработке и внедрении эффективных и надежных методов. |