Стеганализ и машинное обучение: европейский ответ

(Ди Игино Корона, Маттео Маури)
05/05/20

La steganografia это секретный механизм для кодирования информации любыми средствами передачи. Его использование было известно со времен Древней Греции, даже если оно официально вошло в глоссарии в конце XNUMX века.

И кодирование, и среда передачи секретыили известны только сторонам, которые намерены общаться оккультно. steganografia поэтому он представляет собой идеальный инструмент для создания секретных каналов связи, которые могут использоваться в сложных шпионских сценариях, компьютерных преступлениях и нарушениях частной жизни государственных и частных субъектов.

La steganografia отличается от криптография, где кодировка информации и способы передачи общеизвестны (вспомните, например, протокол HTTPS, используемый сайтом, на котором размещена эта статья). В этом случае конфиденциальность информации гарантируется механизмом кодирования, который (чрезвычайно) затрудняет1 отправка / извлечение информации без знания дополнительной информации, известной как ключи шифрования / дешифрования. Эти ключи известны только сторонам, имеющим право общаться (например, вашему браузеру и нашему веб-серверу).

Процесс анализа steganografia он также известен как стеганализ. В первую очередь этот процесс направлен на обнаружение присутствия steganografia в одном или нескольких средствах передачи, и только во втором случае он может продолжить извлечение скрытого сообщения.

Эффективность методов стеганализа строго зависит от степени сложности и «персонализации» стеганографических методов, используемых злоумышленником.

Самым простым случаем является тот, в котором steganografia осуществляется с помощью «полочных» инструментов. Этот случай отражает противника с низким (или нулевым) уровнем знаний steganografiaи кто просто использует инструменты, реализованные и предоставленные другими: в компьютерной безопасности такого противника часто называют сценарий детка.

В цифровой сфере есть много программного обеспечения, которое они реализуют steganografia и большинство из них сочетают в себе криптографические методы. В таблице приведены примеры программного обеспечения с открытым исходным кодом, в котором используются оба метода.

Конечно, «полочные» инструменты, как правило, также доступны для тех, кто намерен проводить стеганализ.

В реализации steganografia, каждое программное обеспечение обычно оставляет (более или менее неявно) характерные артефакты в обрабатываемых файлах, которые можно изучить для построения сигнатур (дактилоскопия). Эти подписи могут быть использованы на этапе стеганализа для выявления не только наличия steganografia, но используется конкретный инструмент, а также извлечение скрытого контента [7,8]. Большинство систем стеганализа используют этот механизм [9].

Легко видеть, что мы находимся в порочном круге («гонке вооружений»), который предусматривает повышение сложности методов и инструментов, используемых как теми, кто намеревается использовать steganografia, а также теми, кто намеревается разоблачить его и обнаружить его скрытое содержимое. Между двумя профилями первая фигура обычно имеет преимущество, так как она может в любой момент изменить средства передачи и / или кодирования информации, чтобы избежать обнаружения.

Например, противник может изменить реализацию программного обеспечения steganografia чтобы избежать дактилоскопияили даже внедрить совершенно новые стеганографические методы. Это, конечно, имеет свою стоимость - мы больше не в присутствии сценарий детка - но эти затраты могут быть хорошо сбалансированы по причинам (например, стратегические / экономические преимущества организации кибершпионажа).

Эта ситуация хорошо известна в области кибербезопасности: как правило, гораздо легче атаковать компьютерные системы, чем защищать их. Экземпляры вредоносного ПО проявляют себя в виде непрерывных «полиморфных» вариантов именно для того, чтобы обойти механизмы обнаружения, используемые для защиты систем (например, вредоносного).

В этом сценарии обучение с помощью машины (машинное обучение на примерах) может представлять собой сложное оружие на службе тех, кто намеревается разоблачить steganografia, Через методы обучение с помощью машины фактически, можно автоматически разработать модель стеганализа, начиная с набора файловых образцов с и / или без стеганографии.

В большинстве предложенных подходов используется так называемое контролируемое двухклассное обучение (steganografia присутствует / отсутствует), что требует использования образцов как с steganografia, чтобы автоматически определять статистические различия. Этот метод особенно полезен для обнаружения наличия вариантов известных стеганографических методов (например, реализованных в новом программном обеспечении), для которых нет подписей.

Примеры различных алгоритмов, основанных на контролируемом обучении для обнаружения steganografia в изображениях они были реализованы в библиотеке с открытым исходным кодом под названием Aletheia [10].
Подписи и контролируемое обучение могут обеспечить хорошую точность при обнаружении методов steganografia Известны и его варианты, но возможны уклонения при наличии совершенно новых методик, например, со статистическим профилем, значительно отличающимся от наблюдаемого на выборках, использованных для обучения.

По этой причине в других исследованиях [11,12] вместо этого было предложено использование неконтролируемых методов обучения, основанных на аномалиях. Этот подход предполагает использование только образцов, в которых steganografia отсутствует, для автоматического построения нормального профиля. Таким образом, наличие аномалий («выбросов») или отклонений от этого профиля может быть использовано для обнаружения совершенно неизвестных стеганографических методов. Этот подход, однако, должен фокусироваться на аспектах (характеристиках), отклонения которых от нормы являются высоким показателем манипуляции, чтобы обеспечить хорошую точность. Подумайте, например, о сравнении размера, указанного в заголовке файла, с фактическим размером.

Поскольку каждый метод стеганализа имеет свои преимущества, часто бывает полезна их комбинация: сигнатуры, контролируемое и неконтролируемое обучение [12]. Европейская комиссия хорошо осведомлена о том, что для этой цели она профинансировала стратегический проект под названием SIMARGL - Безопасные интеллектуальные методы для расширенного распознавания вредоносных программ, стегомных программ и методов сокрытия информации (Грантовое соглашение № 833042 - www.simargl.eu).

Проект с общим бюджетом в 6 миллионов евро направлен на создание передовых систем стеганализа, применяемых для обнаружения (стего) вредоносного ПО, вредоносного ПО, которое все чаще используется киберпреступниками и национальными государствами в шпионских действиях. В этом проекте международные игроки калибра Airbus, Siveco, Thales, Orange Cert, FernUniversität (координатор проекта) присоединяются к трем «итальянцам» в противодействии стегомным программам: Pluribus One, дочерняя компания Университета Кальяри, участвует как поставщик программного обеспечения и разработчик; CNR, подразделение Генуи, внедряет алгоритмы обнаружения с учетом энергии, основанные на искусственном интеллекте; Numera, компания, работающая в секторе ИКТ, базирующаяся в Сассари, представит некоторые из своих систем, предназначенных для кредитного рынка, на «тщательную проверку» со стороны SIMARGL.

В общей сложности в консорциуме участвуют 14 международных партнеров (Netzfactor, ITTI, Варшавский университет, IIR, RoEduNet, Stichting CUIng Foundation) из 7 стран, которые привнесут искусственный интеллект в эту область, уже доступные сложные продукты и обучение с помощью машины в процессе усовершенствования, чтобы предложить интегрированное решение, способное работать с различными сценариями и действовать на разных уровнях: от мониторинга сетевого трафика до обнаружения размытых битов в изображениях.

Задача проекта SIMARGL только началась, и она даст конкретные ответы на проблему стегомальвного ПО в ближайшие два года: проект фактически завершится в апреле 2022 года.

Важно подчеркнуть, что обучение с помощью машины (и в более общем плане искусственный интеллект) - нейтральная технология (как и многие другие технологии). В частности, он имеет двойное назначение [13] и не принадлежит к сфере хороших людей. Вначале обучение с помощью машины он также может быть использован для разработки более сложных, полиморфных, основанных на данных стеганографических методов.

Давайте подготовимся, потому что этот сценарий может представлять будущее киберугроз (и возможно кусочек будущего уже присутствует).

1. Степень сложности обычно определяет надежность кодирования.

Ссылки: 
[1] https://www.softpedia.com/get/Security/Encrypting/Xiao-Steganography.shtml
[2] https://archive.codeplex.com/?p=imagesteganography
[3] http://steghide.sourceforge.net/download.php
[4] https://www.ssuitesoft.com/ssuitepicselsecurity.htm
[5] https://www.gohacking.com/hide-data-in-image-audio-video-files-steganogr...
[6] https://embeddedsw.net/OpenPuff_Steganography_Home.html
[7] Пенджи Цао, Сяолей Хе, Сяньфэн Чжао, Цзимин Чжан, Подходы к получению отпечатков пальцев стеганографических инструментов, которые встраивают сообщения в фиксированные позиции, Forensic Science International: Reports, Volume 1, 2019, 100019, ISSN 2665-9107, https://doi.org/10.1016/j.fsir.2019.100019.
[8] Чэнь Гун, Цзинхун Чжан, Юньчжао Ян, Сяовэй И, Сяньфэн Чжао, И Ма, Обнаружение отпечатков пальцев программного обеспечения аудиостеганографии, Forensic Science International: Отчеты, том 2, 2020, 100075, ISSN 2665-9107, https://doi.org/10.1016/j.fsir.2020.100075
[9] https://www.garykessler.net/library/fsc_stego.html
[10] https://github.com/daniellerch/aletheia
[11] Джейкоб Т. Джексон, Грегг Х. Ганш, Роджер Л. Клейпул-младший, Гэри Б. Ламонт. Обнаружение слепой стеганографии с использованием вычислительной иммунной системы: работа в стадии разработки. Международный журнал цифровых доказательств, зима 2003 г., выпуск 1, том 4
[12] Брент Т. Макбрайд, Гилберт Л. Петерсон, Стивен С. Густафсон. Новый слепой метод обнаружения новой стеганографии, Digital Investigation, Volume 2, Issue 1, 2005, Pages 50-70, ISSN 1742-2876,
https://doi.org/10.1016/j.diin.2005.01.003
[13] https://www.pluribus-one.it/company/blog/81-artificial-intelligence/76-g...