Чтение онлайн

на главную - закладки

Жанры

Эксперт № 19 (2013)

Эксперт Эксперт Журнал

Шрифт:

Масштабы научных задач поражают, но бизнес требует еще и быстроты обработки. При принятии взвешенного решения о выдаче кредита за пятнадцать минут нужно проанализировать серьезный массив данных. У интернет-магазинов время измеряется уже секундами. Пока клиент задумался, нужен ли ему тот или иной товар, Amazon должен успеть проанализировать историю его поведения в интернете, сравнить с поведением аналогичных клиентов и подсунуть наиболее заманчивые альтернативы из ассортимента более чем в миллион позиций. А компания ComScore, крупнейший поставщик профилей интернет-пользователей, обрабатывает в день 30 млрд событий — просмотров страниц, длительности сеансов, демографических сведений. У поисковых систем времени на работу — доли секунды,

в течение которых они должны не просто найти подходящие варианты ответов на запрос, но и сопоставить их с актуальностью профиля конкретного юзера.

Линейный рост данных куда в большей степени отражается на требуемых ресурсах обработки: «Например, возьмем не самого большого сотового оператора, с 50 миллионами абонентов, каждый из которых совершает несколько звонков в день. Сами по себе это данные небольшие, но если мы захотим сравнить каждого абонента с каждым, то для хранения такой матрицы потребуется приблизительно 10 петабайт, и это уже достаточно большая величина», — объясняет Юрий Чехович , генеральный директор компании «Форексис».

Нагенерировали

«Революционного скачка в технологиях хранения и обработки не произошло, — продолжает Юрий Чехович. — Шло их эволюционное развитие и наращивание мощностей. И в этом смысле Big Data — прежде всего маркетинговый ход разработчиков, продвигающих свою продукцию. Стоимость сбора данных как минимум на порядок превышает стоимость анализа. Поэтому ограничителем роста data science, по крайней мере в ближайшее время, будут источники данных, а не возможности их анализа».

В основе информационного взрыва лежит цифровизация нашей жизни. Практически все документы создаются в электронном виде, число цифровых камер давно превысило число аналоговых, движение почти каждого из нас можно отследить по GPS, а слово «игры» уже мало ассоциируется с чем-то настольным.

По данным Cisco, только мобильный трафик данных в мире к концу 2012 года достиг 885 петабайт в месяц, а к 2016-му ежегодный объем глобального IP-трафика составит 1,3 зеттабайта (один зеттабайт равен триллиону гигабайт). К 2016 году каждую секунду через интернет будет передаваться столько видеоматериалов, что их просмотр занял бы 1,2 миллиона минут, или 833 дня.

По прогнозам IDC, объемы информации будут удваиваться каждые два года в течение следующих восьми лет. Один из основных факторов этого роста — увеличение доли автоматически генерируемых данных: с 11% их общего объема в 2005 году до более чем 40% в 2020-м. При этом используется лишь менее 3% из 23% потенциально полезных данных. К 2020 году общий объем цифровых данных достигнет 40 зеттабайт. Для понимания масштаба: если записать 40 зеттабайт данных на самые емкие современные диски Blue-ray, общий вес дисков без упаковки будет равен весу 424 авианосцев.

Подводная часть айсберга — бум производства датчиков и сенсоров: от носимых кардиодатчиков до систем контроля трубопроводов, от бытовых сигнализаций до орбитальных телескопов. В 2015 году планируется запустить радиотелескоп SKA с площадью антенн один квадратный километр, с которых будет передаваться сигнал со скоростью несколько петабайт в секунду, что на два порядка больше нынешнего трафика глобального интернета.

Революция происходит не в технологиях хранения, а в генерации данных и попытках использовать их в неочевидных решениях. Большие массивы данных — лишь вспомогательный инструмент в давно существующих задачах маркетинга, управления запасами, оптимизации производства. «Работа с данными велась всегда, но сейчас можно говорить о переходе количества в качество. Сравнительно недавно появилось умение понимать, осмысливать данные и принимать решения на их основе. Произошло это за счет того, что данные и методы их анализа стали высокотехнологичными, — считает Андрей Себрант ,

директор по маркетингу сервисов “Яндекса”. — Пока за аналитику все чаще выдают статистику. Если вы загрузили данные, а в ответ получили лишь построенную по ним кривую и вынуждены сами ломать голову над причинами изменений и над тем, что с ними делать, — это статистика. Data science — это наука о работе с данными, умении вытягивать из больших объемов информации не просто тренды, а их объяснение и обоснование возможных решений».

«Научные задачи, которые data science ставит перед математикой, лежат скорее в инженерной сфере. Это связано с тем, что при работе с большими данными мы вынуждены отказываться от большого числа методов, которые перестают удовлетворять нас по скорости работы. Например, приходится отказываться от квадратичных методов, от линейного поиска. Взамен приходится идти на различного рода ухищрения и компромиссы. Изобретаются приближенные методы, которые не дают абсолютно точных результатов с научной точки зрения, но достаточные по качеству с точки зрения бизнеса», — считает Юрий Чехович. И это приносит свои плоды: например, после внедрения на «Балтике» решения по оптимизации управления цепочками поставок, позволяющего обрабатывать по 90 тыс. прогнозов в час, один человек стал справляться с объемом работ, который раньше выполнялся 30 сотрудниками, при этом точность прогнозирования возросла на 18,6%.

В работе с большими данными используется кластеризация — выделение однородных групп элементов, например потребительских сегментов или клиентов банков с нетипичным поведением, что сигнализирует о повышенном риске мошенничества. Оценки корреляций позволяют вычленить взаимосвязи между различными процессами — скажем, спросом на подгузники и сейсмической активностью. Экстраполяция и регрессионные методы используют для формирования прогнозов. Контент-анализ для вычленения интересов объектов наблюдения: например, при росте числа поисковых запросов на определенную марку автомобиля можно скорректировать производственные планы, а в ответ на поиск рецепта сборки бомбы в скороварке рекомендовать ассортимент подходящей посуды.

Работа с большими данными востребована в бизнесе для анализа поведения клиентов, автоматизации принятия решений в режиме реального времени, оптимизации запасов, оценки рисков, построения прогнозов рынка.

Если проблемы скорости и объема данных решаются прежде всего техническими методами, то анализ неструктурированных данных и их применение в бизнес-практике — задача уже интеллектуальная. Прежде компаниям приходилось иметь дело лишь с четко структурированными данными своей финансовой отчетности и такими же сведениями о клиентах и поставщиках. Теперь значительная часть представлена в форматах, мало соответствующих привычным форматам корпоративных баз данных, — это страницы в социальных сетях, видеозаписи, веб-журналы, логи многочисленных устройств, геолокационные данные. Но именно из них можно извлечь дополнительную информацию для принятия решений: если анкета заемщика кажется идеальной, но контент-анализ его поведения в интернете установил, что он с вероятностью 95% является неимущим, — это повод пересмотреть риски.

Подобные технологии намного эффективнее, чем может показаться на первый взгляд. В марте были опубликованы результаты работы алгоритма, характеризующего пользователей Facebook по оставляемым ими лайкам. Расовая принадлежность была угадана в 95% случаев, пол — в 93%, политические взгляды (демократ или республиканец) — в 85%, гомосексуальность — в 88%, религиозные убеждения — в 82%, наличие отношений — в 67%. При этом анализ ведется не по очевидным лайкам-маркерам, а по большим объемам менее информативных, но более популярных лайков. Например, гомосексуальность коррелирует с лайками Бритни Спирс и сериалу «Отчаянные домохозяйки», высокий IQ — с фильмом «Властелин колец» и музыкой Моцарта, а одиночество — с Марией Шараповой.

Поделиться:
Популярные книги

Глэрд IX: Легионы во Тьме

Владимиров Денис
9. Глэрд
Фантастика:
боевая фантастика
попаданцы
фэнтези
5.00
рейтинг книги
Глэрд IX: Легионы во Тьме

Любовь Носорога

Зайцева Мария
Любовные романы:
современные любовные романы
9.11
рейтинг книги
Любовь Носорога

Наемник

Поселягин Владимир Геннадьевич
1. Вселенная EVE Online
Фантастика:
боевая фантастика
8.50
рейтинг книги
Наемник

Назад в будущее

Поселягин Владимир Геннадьевич
5. Зург
Фантастика:
боевая фантастика
5.00
рейтинг книги
Назад в будущее

Очкарик

Афанасьев Семён
Фантастика:
фэнтези
5.75
рейтинг книги
Очкарик

Инквизитор тьмы 3

Шмаков Алексей Семенович
3. Инквизитор Тьмы
Фантастика:
попаданцы
альтернативная история
аниме
5.00
рейтинг книги
Инквизитор тьмы 3

Неправильный лекарь. Том 1

Измайлов Сергей
1. Неправильный лекарь
Фантастика:
городское фэнтези
попаданцы
аниме
фэнтези
5.00
рейтинг книги
Неправильный лекарь. Том 1

Стеллар. Трибут

Прокофьев Роман Юрьевич
2. Стеллар
Фантастика:
боевая фантастика
рпг
8.75
рейтинг книги
Стеллар. Трибут

Тринадцатый XIII

NikL
13. Видящий смерть
Фантастика:
городское фэнтези
аниме
фэнтези
попаданцы
5.00
рейтинг книги
Тринадцатый XIII

Контрабанда

Выставной Владислав Валерьевич
3. Линия героев
Фантастика:
боевая фантастика
5.00
рейтинг книги
Контрабанда

Двойник Короля 10

Скабер Артемий
10. Двойник Короля
Фантастика:
аниме
фэнтези
фантастика: прочее
попаданцы
5.00
рейтинг книги
Двойник Короля 10

Proxy bellum

Ланцов Михаил Алексеевич
5. Фрунзе
Фантастика:
попаданцы
альтернативная история
4.25
рейтинг книги
Proxy bellum

Черный Маг Императора 15

Герда Александр
15. Черный маг императора
Фантастика:
юмористическое фэнтези
попаданцы
аниме
сказочная фантастика
фэнтези
фантастика: прочее
5.00
рейтинг книги
Черный Маг Императора 15

Третий. Том 2

INDIGO
2. Отпуск
Фантастика:
космическая фантастика
попаданцы
5.00
рейтинг книги
Третий. Том 2