Базы данных, информация, знания

(Ди Джорджио Джачинто)
04/07/24

С тех пор, как человек начал систематизировать знания, у него возникла потребность классифицировать и определять окружающую действительность. Для этого он ввел количественные методы описания всего, что его окружало.

База данных — это ИТ-инструмент, целью которого является упрощение и эффективность не только хранения описаний интересующих реалий, но, прежде всего, коррелированного извлечения данных для извлечения информации.

Давайте возьмем простой пример. Товары, продаваемые в супермаркете, могут быть описаны по бренду, торговому наименованию, описанию и цене. Постоянный клиент может иметь «карту лояльности», которая связана с некоторыми личными данными, составом семьи и образовательным цензом. Каждый чек супермаркета связывает покупателя с продуктами, купленными в определенную дату и время. Это данные.

Но какую информацию мы можем извлечь? Например, в какой день недели продается наибольшее количество пива или какие продукты покупают семьи, в которых хотя бы один член имеет высшее образование.

Чем больше подробностей мы храним для данной реальности, тем больше вероятность опроса системы для извлечения ценной информации. В английском языке для выражения концепции опроса системы используется глагол: запрос который на самом деле имеет латинский корень, глагол кваэро (просить принести что-нибудь). Секрет создания базы данных, которую потенциально можно использовать для широкого спектра запросов, заключается в представлении описательных данных реальности в атомарной и неагрегированной форме.

В предыдущем примере описание продукта не является хорошим методом, если мы вставляем такие детали, как, например. вес товара или количество упаковок, упакованных вместе. Данные, которые не каталогизированы явно, усложняют их обработку, поскольку требуют интерпретации содержания.

Чтобы сделать каталогизацию данных интуитивно понятной, используется табличная конструкция, в которой интересующий объект представлен строками (например, продаваемый продукт, пациент и т. д.), а его характеристики — столбцами (например, бренд, название продукта, цена). , и т. д.). Таблица также может представлять отношения между различными сущностями. Например, если мне нужно представить отношения собственности на транспортное средство, все, что мне нужно, это таблица, в которой каждая строка показывает налоговый код владельца и номерной знак транспортного средства, то есть две характеристики, которые позволяют мне однозначно идентифицировать владельца и транспортное средство. .

Описанная до сих пор модель реляционных данных была предложена Эдгаром Коддом (IBM).1), который по-прежнему представляет собой стандарт представления данных, в том числе благодаря простоте языка, разработанного для запроса системы (SQL, иногда называемый аббревиатурой от языка структурированных запросов, хотя на самом деле это название, данное стандарту языке, чтобы отличать его от коммерческого названия SEQUEL, используемого IBM).

Наличие большого количества подробной информации, хранящейся в реляционной базе данных, позволяет извлекать полезную информацию для мониторинга, управления и стратегического планирования организации. Например, агрегирование отдельных поступлений коммерческого учреждения или оценок прибыли студента позволяет нам изучить общую тенденцию продаж соответственно (по временным интервалам дня, по типу покупателя и т. д.) или карьеры студентов (результаты вузовских экзаменов по семестрам, по курсам обучения и т. д.). Эти операции проводятся в Хранилище данных, архивы, в которых данные хранятся в агрегированном виде. Инструменты анализа данных, используемые в хранилище данных, называются Business Intelligence и включать в себя несколько статистических и статистических методов обучение с помощью машины. Этот термин использовался в прошлом Добыча данных указывая на то, что данные — это шахта, из которой можно извлечь ценность.

Реляционная модель позволяет эффективно хранить данные и выполнять различные типы корреляций, но с внутренней медлительностью обработки из-за разделения информации на отдельные таблицы, что требует нескольких операций чтения из системы хранения для получения результата. Модели NoSQL получили распространение за последние 20 лет.2 (Не только SQL) специализируется на хранении агрегатов. Пример из сектора электронной коммерции может прояснить эту концепцию. Когда мы ищем товар и сравниваем разные варианты, у нас есть возможность выбрать желаемые характеристики. Это типичная функциональность реляционных моделей, в которых характеристики продукта структурированы. Например, для телевизора мы можем выбрать размер экрана, разрешение, наличие или отсутствие определенных портов подключения и т. д. Когда мы продолжим покупку, мы сможем использовать код скидки или предложение дня. Все эти данные хранятся в одном элементе базы данных NoSQL, который представляет собой эквивалент квитанции или счета-фактуры. Фактически, было бы обременительно запоминать историю различных версий продаваемых продуктов, рекламных кампаний и кодов скидок с помощью реляционной модели.

Поэтому в современной организации мы находим различные базы данных, каждая из которых специализирована для определенной цели: реляционные базы данных для хранения всех деталей конкретной реальности и базы данных NoSQL для представления агрегатов, которые легко получить без необходимости каждый раз сопоставлять информацию. Поэтому мы часто говорим об устойчивом запоминании полиглотов.3.

Необходимость хранить данные и затем обрабатывать их сегодня резко возросла благодаря разработке различных типов датчиков, которые мы часто называем общим термином. Интернет вещей. В повседневной жизни мы, вероятно, используем носимое устройство для мониторинга некоторых параметров нашей деятельности. Многие транспортные средства (автомобили, скутеры, велосипеды и т. д.) допускают запоминание пройденного маршрута и износа некоторых узлов. В наших домах установлены счетчики коммунальных услуг. умный потому что они передают через постоянные промежутки времени информацию о потреблении электроэнергии, газа или воды. Эти данные актуальны как для мгновенного выявления аномальных или опасных ситуаций, но, прежде всего, они полезны при их агрегировании для выявления тенденций и привычек.

Это обилие данных, структурированных и неструктурированных, управляемых с помощью различных моделей и технологий (часто называемых озеро данных), породил в последние годы профессиональную фигуру ученый данных, то есть специалист в цепочке данных от их производства до их фильтрации, очистки и агрегирования, чтобы прийти к методам запроса, которые позволяют извлекать информацию.

Мы живем в так называемом информационном обществе4, где хранение, представление и корреляция между данными составляют истинное богатство. Неслучайно в 2006 году стало известно высказывание, ставшее известным «Данные — это новая нефть»5и совсем недавно это «искусственный интеллект — это новое электричество»6.

1https://www.ibm.com/history/edgar-codd

2https://sheinin.github.io/nosql-database.org/

3https://martinfowler.com/articles/nosqlKeyPoints.html

4https://www.manuelcastells.info/en/

5https://www.sheffield.ac.uk/cs/people/academic-visitors/clive-humby

6https://www.gsb.stanford.edu/insights/andrew-ng-why-ai-new-electricity