Большие данные: что это такое и почему мы не можем обойтись без них

(Ди Антонио Веккио)
27/02/19

Когда новый штамм вируса гриппа H2009N1 был обнаружен в 1, в США была активирована обычная процедура мониторинга и наблюдения, которая включала передачу всех случаев заболевания в региональные центры здравоохранения и контроля.

Процедура капилляра и обкатки, которая, однако, имела ограничение: она обрисовала картину развития вируса, всегда на две недели позже по сравнению с условной ситуацией.

В тот же период журнал Природа опубликовал статью, в которой некоторые инженеры Google, пораженные и в целом недоверчивые, утверждали, что могут вывести и даже предсказать географическое распространение H1N1, основываясь исключительно на ключевых словах, используемых в Интернете.

В частности, начиная с миллионов слов 50, наиболее часто используемых в сети пользователями США, гуру Mountain View определили наиболее часто используемые в областях, о которых сообщили региональные медицинские центры, и применяя миллионы различных математических моделей 450, смогли выделить корреляцию между Ключевые слова 45 и расширение вирусов.

Факты подтвердили эту новость, и впервые было показано, что можно прогнозировать распространение вируса с помощью чисто математических методов, используя по существу (огромные) объемы данных, обрабатываемых машинами с адекватной вычислительной мощностью.

Эта история является еще одним доказательством того, что цифровая революция, основанная на Информационные технологии (ИТ), революционизировал нашу эпоху. С этого и началось то, что называют «четвертой промышленной революцией», эпохальным изменением, которое развивается с широтой и скоростью, которых раньше не было, вкладывая множество месторождений, как никогда раньше.

Искусственный интеллект (ИИ), робототехника, биотехнология, нанотехнологии, Интернет вещей (IoT), автономное вождение, квантовые вычисления - это лишь некоторые из секторов, которые переживают период непрерывного прогресса, необычайного разнообразия и глубины результатов и его скорость разработки.

Из аббревиатуры IT часто мы фокусируемся на технологии T, то есть компьютерах: машины становятся все более и более мощными, способными удваивать вычислительную мощность каждые 18 месяцев, в соответствии с законом - Муром.1 - что, несмотря на недостаток научной ценности, он все еще подтверждается многолетним наблюдением 50 за реальностью.

Компьютер, доставивший 16 Apollo на Луну в 1972, имел гораздо меньшую мощность, чем любой смартфон, который у нас есть в нашем кармане сегодня, даже самый дешевый; и даже пять бортовых компьютеров Shuttle Endeavour имели общий объем оперативной памяти только 2 МБ. В качестве еще одного доказательства общая мощность настольного компьютера 5mila, используемого в годы 80, ниже, чем у нынешнего планшета.

Тем не менее, и ничто не умаляет значения, которое приобретают все более мощные машины, реальное богатство сегодня заключается в данных, действительно в БОЛЬШИХ ДАННЫХ, извлекаемых из миллиардов информации, создаваемой в каждый момент с помощью наших кликов, твитов и предпочтений покупки.

В первом квартале 2018 Facebook имел 2.19 миллиардов активных пользователей2который, в свою очередь, взаимодействовал с 200 миллиардами других людей в сети: эта цифра превышает 20% населения планеты. В том же году на YouTube было полтора миллиарда пользователей, а за ним WhatsApp - триста миллионов.

Важные цифры, которые дают неиссякаемый источник данных.

Сеть, с другой стороны, представляет собой среду, в которой миллионы людей проводят важную часть своей повседневной жизни (в Италии, в среднем 6 по часам в день в 2018), обмениваясь мнениями, эмоциями, удовольствиями, скорбями, покупательскими предпочтениями. и многое другое.

Набор индивидуальных поведений, которые могут быть «датированы», то есть зарегистрирован, проанализирован и реорганизован в соответствии с научными критериями, которые постоянно производят данные.

Два примера, больше чем любой другой, дают представление о том, как результаты, которые мы ищем, скрыты в информации.

В 2006 портал AoL (Americaonline) обнародовал для ученых и исследователей базу данных миллионов запросов 20, сделанных в течение трех месяцев тысячами пользователей 675, и сделал это путем анонимного анонимного доступа в целях защиты , пользователи по-разному участвуют. Тем не менее, через несколько дней 60-летняя вдова из Грузии Тельма Арнольд была - по праву - связана с номером пользователя 4417749, что вызвало спор, который привел к увольнению трех сотрудников AoL.

И даже когда Netflix опубликовал предпочтения примерно полумиллиона анонимных пользователей, это было незадолго до того, как леди Среднего Запада была опознана по имени и адресу. Позже исследователи из Университета Техаса продемонстрировали, что действительно можно узнать пользователя канала, выбрав только фильмы 6 на 500.

Но не только Интернет: мы думаем о камерах, повсюду на улицах и площадях наших городов, и о путях и целях, с которыми оставленные нами следы могут быть использованы специальным программным обеспечением для распознавания лиц (несколько лет назад, английская газета он обнаружил, что менее чем в 200 метрах от дома, где жил Джордж Оруэлл, автор антиутопической книги «1984», было не меньше камер 30).

По сообщениям Виктора Шонбергера и Кенет Кукье в их фундаментальной работе3 (используется в качестве основного источника для этой статьи), в 2012 было произведено так много данных, что если бы они были загружены на CD-ROM, образовалось бы пять параллельных стопок, способных достичь Луны, тогда как, если бы они были напечатаны на листах бумаги, они могли бы охватить всю территорию США три раза.

Обратите внимание, что мы говорим о 6 несколько лет назад, и в то же время, данные, которые производятся каждый год, удваиваются вдвое (в среднем, удваиваются каждые три года).

Данные представляют собой черное золото нашей эры: неоценимое значение для количества и разнообразия видов использования, чаще всего отличающихся от тех, для которых они первоначально были взяты. На самом деле, все чаще и чаще мы предоставляем информацию в Интернете для целей, которые на момент их сбора еще неизвестны.

Они подпитывают новую границу ИИ, образуя первое топливо: благодаря им компьютеры прогрессируют и начинают «воспринимать» внешнюю реальность.

Они через роботов начинают выполнять автономные действия4Решено на основе данных о ситуации, собранных и проанализированных извне (а не по полученному программированию).

Но как используются БОЛЬШИЕ ДАННЫЕ? Применяя математические методы, «алгоритмы», разработанные на основе того, что вы хотите обнаружить в данный момент, конкретного явления.

Алгоритмы, которые используют большие объемы данных, позволяют нам видеть любые «корреляции», понимаемые как вероятность того, что данное отношение между исследуемыми элементами может быть повторено.

То, что затем такие связи возникают по чистой случайности, ничто не умаляет достоверности самого исследования, потому что неточность и неточность статистически "отрегулированный пропорционально количеству доступных данных.

При всем уважении к принципу причинности, который был хорош в эпоху МАЛЫХ ДАННЫХ, когда понимание основывалось на тщательном анализе (ограниченных) доступных элементов, проведенном людьми, «экспертами» в конкретном исследуемом секторе.

В эпоху БОЛЬШИХ ДАННЫХ, понимание феномена достигается с помощью «ученого данных» - промежуточного звена между программистом, математиком и статистиком, а не традиционными специалистами.

На самом деле, в больших данных истина заключается в том, что не случайно алгоритмы, которые предлагают (вероятностные) результаты, неудовлетворительные при ограниченных объемах данных, творит чудеса применительно к большим числам.

«Google Translator» предоставляет наглядный пример того, как вероятностный критерий в сочетании с объемом информации может применяться для решения такой сложной проблемы, как перевод.

Программа, по сути, не переводит, применяя правила грамматики или используя сохраненные словари, но основываясь на вероятности того, что содержание данного документа может быть переведено в соответствии с грамматическими структурами и значениями слов, глаголов и прилагательных, присутствующих в миллиардах документов, в все языки, которые он имеет в своей памяти.

Таким образом, программа победила в конкурсе с Microsoft и быстро стала самым популярным переводчиком в мире.

В этом контексте, как уже упоминалось, вычислительная мощность представляет только часть процесса, даже не самую важную, как алгоритмы, которые время от времени используются. Определяющим фактором остается количество доступных данных: чем больше у нас есть, тем больше у нас шансов найти то, что мы ищем.

БОЛЬШИЕ ДАННЫЕ «дают крылья» четвертой промышленной революции и позволяют лучше понять мир. Научиться управлять ими и использовать их в полной мере - это задача, которая нас ждет.

3БОЛЬШИЕ ДАННЫЕ от Виктора Шонбергера и Кенет Кьюкиер - Garzanti 2013

4Система называется «автоматизированной», когда она действует в основном детерминированным образом, всегда реагируя одинаково, когда подвергается одним и тем же воздействиям. «Автономная» система, с другой стороны, обосновывает вероятностную основу: получив серию входных данных, она разрабатывает лучшие ответы. В отличие от того, что происходит с автоматизированными системами, автономная система с одним и тем же вводом может давать разные ответы.

Фото: Эмилио Лабрадор / НАСА