Данные повсюду

economist3Дефицитной ранее информации теперь в избытке. Это обеспечило огромные новые преимущества и принесло новую головную боль.

Когда Sloan Digital Sky Survey начала свою работу в 2000 году, телескоп, задействованный в рамках этой исследовательской программы в Нью-Мексико, за первые недели собрал больше данных, чем было до этого собрано за всю историю астрономии. Десятилетие назад архивы этой программы включали колоссальное количество информации – 140 терабайт. А телескоп преемника программы Large Synoptic Survey Telescope, который будет введен в эксплуатацию в Чили в 2016 году, будет получать такое же число данных всего за пять дней.

Подобные астрономические объемы информации можно найти и поближе к земле. Например, ритейлер-гигант Wal-Mart обрабатывает свыше 1 млн. потребительских трансакций в час, пополняя при этом базы данных на более чем 2,5 петабайт – в 167 раз больше, чем «весят» все книги американской Библиотеки Конгресса. Социальная сеть Facebook, содержит 40 млрд. фотографий. А расшифровка генома человека, включающая анализ 3 млрд. пар оснований, сегодня может быть сделана за одну неделю, хотя при первом ее проведении весь процесс занял аж 10 лет.

Все эти примеры говорят об одном – мир содержит невероятно большое количество цифровой информации, и ее становится все больше. Это позволяет сделать многое из того, что раньше было сделать невозможно: наблюдать бизнес-тренды, предупреждать болезни, бороться с преступностью и т. д. При грамотном подходе эти данные можно использовать, чтобы открывать новые источники экономической ценности, привносить свежий взгляд в науку и контролировать правительство.

Но эти громадные объемы создают и множество новых проблем. Несмотря на изобилие инструментов для сбора, обработки и распределения всей этой информации (считывающих устройств, компьютеров, мобильных телефонов и т. п.), ее количество все равно превышает существующие возможности для хранения. Более того, обеспечить безопасность данных и защитить приватность становится все труднее по мере того, как информация множится и распространяется по всему миру.

Алекс Залай, астрофизик из Johns Hopkins University, отмечает, что быстрое рост объема данных практически делает их все более недоступными: «Как разобраться со всеми этими данными?» «Мы живем в иной эпохе благодаря такому количеству информации», — считает Джеймс Кортада из IBM, автор двух десятков книг по истории информационного общества. Джо Хеллерстайн, ученый-компьютерщик из Калифорнийского университета в Беркли, называет это «индустриальной революцией данных». Ее эффект ощущается везде – от бизнеса до науки, от правительства до искусства. Ученые и инженеры-компьютерщики создали новый термин для этого феномена: «большие данные».

С точки зрения эпистемологии информация состоит из совокупности данных, а знания – из различных участков информации. Но этот специальный отчет использует понятия «данные» и «информация» как синонимы, поскольку их очень сложно различить. При достаточном количестве исходных данных современные алгоритмы и мощные компьютеры могут дать новое понимание того, что раньше было спрятано от нас.

Бизнес на менеджменте информации – помощь организациям в понимании их разрастающихся данных – сегодня растет не по дням, а по часам. В последние годы Oracle, IBM, Microsoft и SAP израсходовали более $15 млрд. на покупку фирм по разработке программного обеспечения, специализирующихся на менеджменте данных и аналитике. Эта отрасль сегодня оценивается в $100 млрд. и растет с темпами выше 10% в год — почти вдвое быстрее, чем весь бизнес программного обеспечения.

Главный информационный директор (Chief information officer – CIO) стал играть более значительную роль, чем остальной персонал, и возник новый вид профессионалов – ученые по данным, которые сочетают в себе разработчиков программного обеспечения, статистиков и рассказчиков-артистов, способных извлекать крупицы золота из горы данных. Хал Вэриан, главный экономист Googlе, предсказывает, что работа статистика станет вскоре самой «сексуальной». Данные широко доступны, а вот способность вычленить из них мудрые идеи – редкость.

«Выкачивание данных» — след щелчков, которые оставляют интернет-пользователи и из которых может быть извлечена ценность – становится оплотом интернет-экономики. Один из примеров – «поисковик» Google, который частично управляется числом нажатий на новость, что помогает определить, насколько эта новость относится к вопросу поиска. Если большинство людей идет по восьмой ссылке из предложенного списка для данного запроса, то алгоритм перемещает эту ссылку выше по списку.

По мере того как мир становится все более и более цифровым, агрегирование  и анализ данных, вероятно, принесут огромные выгоды и в других сферах. Например, Мунди из Microsoft и Эрик Шмидт, глава Google, состоят в президентской группе по реформированию американской системы здравоохранения. «Вначале в этом процессе и Эрик, и я сказали: слушайте, если вы действительно хотите преобразовать систему, вы должны построить ее на основе данных по людям, — объясняет Мунди. — Тогда вы думали бы о данных не просто как о результате обеспечения медицинского обслуживания, а как о центральном активе, который помогал бы выяснить, как улучшить каждый аспект системы здравоохранения».

Безусловно, цифровые документы облегчат жизнь докторам, снизят затраты для поставщиков услуг и пациентов и улучшат качество лечения. Но в целом данные могут также быть добыты для того, чтобы отследить нежелательное воздействие препарата, определить самое эффективное лечение и предсказать начало болезни прежде, чем проявятся симптомы. Компьютеры уже пытаются приспособить для этих целей, но для этого нужны четкие программы. В мире больших данных взаимосвязи устанавливаются почти сами собой.
Иногда данные показывают даже больше, чем было предусмотрено. Например, город Окленд, Калифорния, обнародует информацию о том, где и когда проводились аресты, и размещает ее на частном веб-сайте Oaklend Crimespotting. И достаточно сделать несколько щелчков, чтобы узнать, когда и на какой улице полиция проводит свои рейды, о чем представители органов правопорядка, вероятно, хотели бы умолчать.

Но работа с большими данными может иметь и намного более серьезные последствия. Во время недавнего финансового кризиса стало ясно, что банки и рейтинговые агентства использовали модели, которые были не в состоянии отразить реальные финансовые риски, хотя и требовали обширного количества информации. Это был первый кризис, вызванный большими данными — и не последний.

Способы обработки информации затрагивают все области жизни. В конце ХХ века новые потоки информации по таким каналам, как телеграф и телефон, поддерживали массовое производство. Сегодня наличие большой базы данных позволяет компаниям снабжать маленькие рыночные ниши в любой части света. Промышленное производство раньше базировалось на предприятиях, где менеджеры детально изучали каждую машину и каждый процесс для того, чтобы сделать их более эффективными. Теперь же «статистические шахты» снабжают бизнес новыми идеями.

«Информационно-централизированная экономика только на стадии зарождения. Вы можете видеть ее контуры, но смысл технических, инфраструктурных и бизнес-модели еще не до конца понятен», — признает Мунди из Microsoft.

(c) The Economist