Обзор современных методов детектирования дипфейков (2022–2025 гг.)

1. Современные SOTA-подходы к детектированию дипфейков

Эволюция методов: С развитием генеративных моделей (от GAN до диффузионных моделей) детектирование дипфейков стало более сложной задачей. Современные передовые (SOTA) алгоритмы можно разделить на несколько категорий: классические CNN-сети, модели с ограниченным контролем (semi-supervised), трансформеры и методы на основе физиологических сигналов. Традиционно широко применялись сверточные нейросети – например, Xception-Net и ResNet – способные эффективно выучивать артефакты сжатия и «цифровые отпечатки» устройств, оставляемые при создании подделок. Многие новые детекторы по-прежнему используют эти проверенные сети в качестве backbone для извлечения признаков. Однако, по мере улучшения качества дипфейков, различия между фейковыми и реальными изображениями становятся менее заметными, и модели сталкиваются с сокращением разрыва между классами, усложняющего бинарную классификацию.

Новые архитектуры: В 2022–2023 гг. начали доминировать подходы на основе Vision Transformer (ViT). Исследования показывают, что трансформеры превосходят CNN по способности обобщать и по эффективности обнаружения дипфейков. Используются как чисто трансформерные решения, так и гибридные – например, комбинирование Xception (для извлечения признаков) с несколькими блоками ViT. Такие модели учатся взаимосвязям между признаками и способны выявлять более тонкие несоответствия. Также предлагаются специально разработанные сети: например, CapsNet (Capsule Network) применяли для учета пространственных взаимоотношений черт лица в 3D. Capsule Network выявляет структуру лица и может обнаруживать несоответствия в позе или геометрии, улучшая точность на известных данных. Тем не менее, ограниченная обобщаемость остается проблемой: капсульные сети при проверке на новых данных теряют точность. Это подтверждает общий тренд: даже лучшие модели показывают значительное снижение точности при оценке на данных из других наборов (cross-dataset), что стимулирует поиск более устойчивых алгоритмов.

Спатиотемпоральные модели: Для видео-дипфейков учитывается временное измерение. Ранние попытки использовать LSTM или 3D-CNN для анализа видеопоследовательностей не дали существенного выигрыша над покадровыми методами. Однако новые подходы улавливают несогласованность во времени: например, анализ резких скачков в положении или мимике лица между кадрами (spatio-temporal inconsistencies) позволяет находить артефакты, невидимые в одном кадре. Представители этого направления – модель STIL (Spatial-Temporal Inconsistency Learning) и другие, комбинирующие двумерные признаки каждого кадра с их временной динамикой. Показано, что учет временных артефактов повышает устойчивость детекции к более реалистичным подделкам.

Контрастивное обучение и согласованность: Одно из передовых направлений – контрастивное обучение признаков дипфейков. Так, метод T-Face от Youtu Lab (2023) использует двойной контрастивный подход: он генерирует для каждого видео две различных версии («двухвзглядовая генерация данных») с случайными патчами, усилением высоких частот, временными сдвигами и mixup-перемешиванием. Сеть учится сближать представления одного класса и раздвигать представления разных классов, что улучшает способность отличать фейки от оригиналов. T-Face показал высокие результаты на непересекающихся наборах: например, обученный на FaceForensics++ детектор T-Face продемонстрировал высокие AUC и низкий EER при проверке на сторонних датасетах Celeb-DF и DFD. Другой подход – поиск внутренних несоответствий в самом изображении (self-consistency): модель CORE предлагает разделять изображение на пары патчей и проверять согласованность их представлений через общий энкодер на основе Xception. Идея в том, что следы подделки проявятся как несогласованные локальные признаки, не соответствующие остальным частям изображения. В совокупности, современные SOTA-методы стремятся выявлять именно скрытые артефакты генерации дипфейка – будь то странности в отдельных пиксельных блоках, несостыковки между кадрами или неестественная однородность текстур.

Биометрические признаки: Отдельно стоит отметить методы, анализирующие физиологические сигналы на видео. Компания Intel в 2022 году представила FakeCatcher, реального времени детектор, основанный на анализе PPG-сигнала (фотоплетизмографии) – микроизменений цвета, связанных с потоком крови на лице. В реальном видео у живого человека кожа меняет оттенок синхронно с сердцебиением; в дипфейке такие тонкие колебания обычно отсутствуют или искажены. FakeCatcher вычисляет PPG-карты по 32 областям лица и обучает CNN для классификации “реальное/фейк” по этим картам. Интересно, что комбинация таких биологических признаков с классическими визуальными дает существенный прирост: в эксперименте интеграция PPG-признаков (на базе VGG-19) превзошла чисто визуальную модель Xception более чем на 10% по точности. Таким образом, гибридные подходы (классические глубинные сети + биосигналы) сейчас являются одной из передовых стратегий повышения надежности детекции дипфейков.

2. Модели и датасеты для классификации дипфейков

Популярные датасеты: Для обучения и оценки моделей создано несколько ключевых наборов данных с дипфейками:

FaceForensics++ (FF++, 2019) – один из первых крупных датасетов по поддельным лицам. Он содержит 1000 оригинальных видеороликов (взятых с YouTube) и 4000 фейковых, созданных четырьмя распространенными методами: DeepFakes, Face2Face, FaceSwap, FaceShifter, а также Neural Textures. В видеороликах FF++ представлены лица разного пола (60% женских, 40% мужских), с тремя вариантами качества (480p, 720p, 1080p). Преимущества: разнообразие манипуляций и баланс полов. Однако, ограничение – заметные визуальные артефакты устаревших алгоритмов: зачастую видна граница “маски” наложенного лица, цвета кожи до и после замены различаются, а при неточном совпадении ключевых точек лицо может немного не соответствовать голове. Отсутствие продвинутого сглаживания цветов делает многие подделки FF++ относительно легкими для обнаружения человеком и классическими моделями.
Celeb-DF (V2, 2020) – датасет, созданный для повышения сложности детектирования. Содержит 590 реальных видео знаменитостей с YouTube и 5639 поддельных видео, сгенерированных с помощью FaceSwap и DFaker. Качество подделок значительно улучшено: применены постобработка цветовой гаммы, повышение разрешения лицевых областей, более точные маски, что делает фейки практически неотличимыми невооруженным глазом. В Celeb-DF больше вариаций ракурсов, размеров лиц, фона; однако набор ограничен знаменитостями, и, как отмечается, недостаточно этнического разнообразия (мало азиатских лиц и др.). Этот датасет считается одним из наиболее сложных: многие детекторы, обученные на FF++, резко теряют точность на Celeb-DF.
DeepFake Detection Challenge (DFDC, 2020) – крупнейший общедоступный видеодатасет, инициированный Facebook, Microsoft и др… DFDC включает свыше 119 000 видеоклипов (~10 сек) с 66 актерами (реальными людьми), на основе которых сгенерированы дипфейки разнообразными способами (как с помощью GAN-моделей, так и классическими не нейросетевыми методами). Разрешения роликов варьируются от 240p до 2160p, частота кадров 15–30 FPS. Плюсы: огромный объем данных, множество разных лиц (по полу, расе, возрасту) и более реальный сценарий съемки (записи с актерами вместо видео из интернета). Минусы: неоднородное качество – некоторые подделки имеют оставшиеся артефакты по границам лица или размытости, поскольку использованы разные алгоритмы с разной степенью совершенства. DFDC стал основой для соревнования, стимулировав появление новых моделей-детекторов.
Другие наборы: FaceSwap и DeepFake Detection (DFD, 2019) – меньшие датасеты, выпущенные компанией Google/Jigsaw (DFD) с парой тысяч фейковых видео на основе актеров, служившие для раннего обучения моделей. DeeperForensics-1.0 (2020) – создан корпорацией SenseTime, содержит видео одной исходной “базы” (один актер) с наложением множества других лиц, а затем с различными искусственными искажениями (шумы, сжатие, уменьшение освещения и т.п.). Цель – имитировать реалистичные условия (например, ухудшение качества при пересылке видео) для проверки устойчивости детекторов. ForgeryNet (2021) – один из самых масштабных мультимодальных наборов: заявлено более 2 миллионов изображений и 100 тысяч видео, сгенерированных разными GAN и классическими методами, с разметкой по типам манипуляций. Появляются и специализированные наборы для полностью синтетических лиц: например, DFFD (2020) включает лица, полностью синтезированные StyleGAN’ом (без подмены конкретного человека). Тенденция последних лет – рост объема данных и разнообразия методов: новые датасеты стремятся охватить как можно больше видов подделок (face swap, face reenactment, полностью GAN-сгенерированные, диффузионные модели и т.д.) и разнообразить исходные данные (разные ракурсы, условия съемки, демография).

Выбор датасета: Рекомендации по выбору данных зависят от задачи. Для отладки моделей и сравнения с литературой популярны FaceForensics++ и Celeb-DF, как относительно небольшие, но хорошо изученные бенчмарки. FF++ подходит для начального обучения и тестирования базовых архитектур, однако модели, обученные только на нем, следует проверять на более сложном Celeb-DF, чтобы удостовериться в их обобщающей способности. Для обучения устойчивых в реальных условиях детекторов целесообразно использовать максимально разнообразный датасет – например, DFDC, объединенный с дополнительными синтетическими изображениями (GAN-фейками) для покрытия разных типов атак. Если цель – выявлять генерированные лица вообще (например, картинки “this person does not exist”), полезно включить в обучающую выборку пары «реальное фото vs. GAN-синтетика» из наборов вроде DFFD или иными способами получить изображения от StyleGAN, Generative Adversarial Transformers и диффузионных моделей. В целом, оптимальной стратегией считается объединение данных из нескольких источников (face-swap видео + полностью синтетические изображения, разные алгоритмы) – это повышает шанс, что модель будет распознавать новые дипфейки, появляющиеся в будущем.

Архитектуры моделей: В задачах классификации дипфейков применяются как стандартные архитектуры для компьютерного зрения, так и специализированные. В качестве основы (feature extractor) практически де-факto стандартом стали сети Xception и EfficientNet/ResNet. Например, победители конкурсов часто использовали Xception-сеть, обученную на изображениях лиц, которая показала отличные результаты на FF++ (AUC > 0.99 в пределах датасета). Xception (глубокая CNN с сепарабельными свертками) эффективно улавливает мелкие артефакты на лицах и потому стала своеобразным “базовым детектором” в этой области. Легковесные модели, такие как MesoNet, также применяются – это небольшая CNN, предложенная Afchar et al. (2018) специально для детектирования подделок на ограниченных ресурсах. MesoNet проще, её точность чуть ниже, но она быстрее и может работать почти в реальном времени на CPU. В 2020–2021 гг. появились двухпоточные модели, комбинирующие пространственные и частотные признаки: одна ветвь сети обрабатывает изображение в обычном цветовом пространстве, другая – спектральное представление (например, карту DCT-коэффициентов или вейвлетов), после чего признаки объединяются. Такой подход учитывает, что GAN-подделки иногда проявляют аномалии в частотной области (например, периодические паттерны интерполяции).

Новые тенденции в моделях: С ростом мощности вычислений появились и более сложные схемы. Ensemble (ансамбли) из нескольких моделей разных типов позволяют повысить надёжность: например, одна из сильнейших моделей конкурса DFDC представляла собой ансамбль нескольких CNN разных архитектур плюс дополнительный классификатор, что дало ощутимый прирост к оценке. Transformer-архитектуры: как упоминалось, внедрение Vision Transformer привело к появлению гибридных моделей – Xception/EfficientNet для извлечения признаков + трансформер-энкодер для их анализа связей. Также есть чисто трансформерные решения (ViT, Swin-Transformer), которые обучаются на огромном объеме данных дипфейков для достижения сопоставимой точности. Специализированные модели вроде упомянутой CapsNet, CORE, T-Face – их можно рассматривать как экспериментальные SOTA-архитектуры, показывающие лучшие результаты на отдельных тестах. Capsule Network, например, требует меньше данных и параметров для обучения и явно моделирует взаиморасположение черт лица, а CORE вводит специальные функции потерь на согласованность патчей изображения. При выборе модели стоит учитывать баланс между сложностью и обобщающей способностью. Если ресурсы ограничены и нужна простая реализация, имеет смысл начать с предобученных моделей (ResNet50, EfficientNet-B0/B7, Xception) на данных ImageNet или VGGFace и затем дообучить на нужном датасете дипфейков. Такие модели уже знают общие черты лиц и, как правило, быстрее сходятся к хорошему решению. В случаях, когда требуется наилучшая точность и есть возможность использовать свежие наработки, можно обратить внимание на открытые реализации трансформеров для детекции дипфейков или контрастивные модели (например, код T-Face, опубликованный исследователями, или проекты на GitHub с ViT-детекторами). Необходимо помнить, что универсальной “лучшей” модели нет: эффективность зависит от того, против каких именно дипфейков она обучена. Поэтому зачастую комбинация нескольких моделей (например, одна ловит искусственные текстурные шумы, другая – неправильную мимику) обеспечивает более надежный результат.

3. Метрики и критерии оценки эффективности

Оценка качества моделей детектирования дипфейков обычно сводится к метрикам бинарной классификации (реальное vs фейк) с учетом дисбаланса и потребностей практики. К ключевым метрикам относятся:

Accuracy (точность) – доля правильно классифицированных образцов. Применяется, но может вводить в заблуждение при сильном дисбалансе классов. В реальных приложениях число настоящих видео гораздо больше числа дипфейков, поэтому высокую accuracy легко получить тривиальным классификатором «все реальные». Более информативны метрики, не зависящие от баланса.
Precision / Recall и F1-score – используются для оценки детектора как бинарного классификатора. Precision (точность позитивного прогноза) показывает, какой процент выявленных моделью “фейков” действительно являются дипфейками; Recall (полнота) – какой процент всех имеющихся дипфейков модель обнаружила. F1 является гармоническим средним и дает одно число качества. В контексте дипфейков обычно более критично избегать ложно-негативных (пропущенных фейков) при разумном уровне ложной тревоги. Поэтому часто отдельно анализируют полноту (Recall) при фиксированном уровне False Positive Rate – например, какой % дипфейков ловится, если допустить 1% ложных срабатываний на реальных видео.
ROC-кривая и AUC – стандартный инструмент. Построив ROC (график зависимости True Positive Rate от False Positive Rate при разном пороге), измеряют площадь под кривой (AUC). AUC = 1.0 соответствует идеальному разделению, 0.5 – случайному гаданию. В работах по дипфейкам AUC широко используется для сравнения моделей, особенно на разнородных тестовых наборах. Например, для модели T-Face при обучении на FF++ и тестировании на других сетах сообщается AUC по каждому из них; на Celeb-DF и DFD метод показал высокие значения AUC при низком Equal Error Rate. EER (Equal Error Rate) – метрика, популярная в биометрии, также используется: это значение ошибки, при котором доля ложных тревог равна доле пропущенных фейков. Низкий EER означает, что можно подобрать порог, где и False Positive, и False Negative относительно малы. В отчете T-Face, к примеру, на Celeb-DF получен EER значительно лучше, чем на более простых наборах, что подтверждает высокую сложность Celeb-DF.
Log Loss (кроссэнтропия) – применялся в конкурсе DFDC на Kaggle как финальная метрика. Он учитывает уверенности модели (прогнозируемые вероятности) – модель штрафуется за излишнюю уверенность в неправильном ответе. Метрика полезна при ансамблировании и обучении, но в научных статьях реже фигурирует, уступая более интерпретируемым AUC и EER.
AUROC vs. AUPR: Помимо AUC_ROC, иногда рассматривают Area Under Precision-Recall Curve, особенно при сильном дисбалансе данных. В детекции дипфейков, где “фейк” класс обычно редок, AUPR (для класса “фейк”) может быть чувствительнее к изменениям модели.
Frame-level vs Video-level metrics: для видео-детекторов важно оценивать как покадровую точность, так и итоговую по ролику. Обычно считают метрики на уровне кадров (считаем каждый кадр отдельным образцом) или на уровне видео (присваивая видео метку «фейк», если хотя бы N% кадров помечены как фейк). Последний подход ближе к практическому сценарию. В исследованиях встречается отчет метрик для обоих случаев. Например, возможно указание, что модель достигает точности 90% на уровне клипа при определенном критерии агрегирования, что чуть выше, чем 87% на уровне отдельных кадров, благодаря усреднению уверенности по многим кадрам.
Временные метрики: иногда вводятся специальные критерии для видео – например, t-DER (temporal detection error rate), учитывающая непрерывные отрезки правильного/неправильного обнаружения фейка по кадрам. Это более узкоспециализировано и редко используется вне академических прототипов.

При сравнении моделей важно проводить оценку на внешних данных. Считается хорошим тоном помимо in-dataset accuracy/AUC предоставить cross-dataset результаты. Например, модель обучена на FF++ – протестирована на Celeb-DF, DFDC, etc., и замерено падение AUC. Такое тестирование выявляет склонность к переобучению на артефакты конкретного датасета. В современной литературе отмечается, что почти все модели существенно теряют в эффективности на неизвестных данных: одна работа продемонстрировала, что при оптимальной атаке (белый ящик) AUC детектора может упасть с 0.95 до 0.1. Поэтому устойчивость метрик (robustness) стала негласным критерием оценки: хорошим детектором считается не только показывающий высокие AUC/Accuracy на тесте, но и сохраняющий приемлемые показатели при вариациях входных данных (другие источники, сжатие, атаки). В итоге, стандартный набор цифр в статье по детектированию дипфейков – это Accuracy, AUC и EER на нескольких датасетах (своем и одном-двух внешних), а также, возможно, PR_auc или F1 для полноты картины.

4. Методы противодействия детекции (атаки и анти-форензика)

По мере совершенствования детекторов разработчики дипфейков ищут способы обойти обнаружение. Сформировалась отдельная область исследований – анти-детекция или анти-форензика дипфейков – изучающая, как модифицировать поддельный контент, чтобы затруднить его распознание. Здесь выделяются два основных направления: адверсариальные атаки на детекторы и постобработка (anti-forensic), маскирующая следы генерации.

Адверсариальные атаки: аналогично атакам на системы распознавания изображений, дипфейк можно снабдить специальным шумом, сбивающим классификатор. В простейшем случае генератор дипфейков может быть расширен модулем, добавляющим малые пиксельные возмущения, которые незаметны для человека, но заставляют модель-детектор ошибаться. Такие атаки могут проводиться в белом ящике (известна архитектура и веса детектора) или в черном ящике (детектор неизвестен, атакующий оптимизирует помеху против некоторого surrogate-моделя). Исследования показали уязвимость многих детекторов: например, метод 2D-Malafide (2023) генерирует специальный сверткообразный фильтр-нарушение, который применим к любому изображению и значительно снижает вероятность обнаружения. В экспериментах 2D-Malafide успешно ухудшал качество современных детекторов даже в black-box условиях, когда неизвестно устройство конкретной модели. Ключевой принцип – подобрать такое преобразование изображения (размытие, усиление резкости, изменение отдельных частот), которое «выводит из строя» признаки, используемые детектором. Многие стандартные атаки (FGSM, PGD и др.) применимы и здесь: так, Gandhi et al. атаковали дипфейк-классификаторы VGG16 и ResNet18, генерируя шум методом FGSM для белого ящика и методом Карлини-Вагнера для черного ящика – в результате точность детекторов упала до ~0% (то есть модель практически полностью обманули). Neekhara et al. (2020) показали, что добавляя просчитанный шум к каждому кадру фейкового видео можно добиться обхода известных детекторов Xception и MesoNet. Особенно опасны универсальные возмущения – когда одно небольшое изменение (например, еле видимый фильтр) применимо ко многим изображениям. Показательно исследование Carlini et al. (2020): они разработали несколько сценариев атак и смогли снизить AUC детектора с 0.95 до 0.1 в белом ящике и до 0.22 – в черном, применив универсальные шаблоны шума. Это означает, что детектор, ранее почти безошибочно отделявший фейки, после атаки стал работать хуже, чем подбрасывание монетки. Таким образом, без защиты от адверсариальных атак даже лучшие модели могут быть выведены из строя.

Анти-форензика и маскировка артефактов: Помимо математических атак, существуют приемы улучшения самих дипфейков, чтобы они выглядели “чище” и не несли типичных признаков генерации. Классический форензический анализ ищет, к примеру, несовместимости в сжатии JPEG, неправильные шумы матрицы камеры, неестественные повторяющиеся текстуры и т.п. Анти-форензика стремится убрать или скрыть эти улики. Простые методы: дополнительное размывание швов наложения лица, добавление фотошума, сглаживание цветовых тонов, имитация сжатия под камеру. Более продвинутый подход – использование нейросетей для очистки дипфейка: например, пропустить изображение через автоэнкодер или GAN-фильтр, который сгладит пиксельные аномалии, не сильно портя само изображение. Однако многие такие методы, хотя и обманывают детекторы, часто портят визуальное качество – появляются размыленности, искажения цветов, которые заметны человеку. Новейшие работы пытаются найти баланс: добавлять специальные малые искажения, маскирующиеся под обычные эффекты редактирования. Интересный пример – метод «adversarial sharpening» (ICASSP 2024): вместо того, чтобы просто убирать шум дипфейка, к изображению добавляют такую перестроенную переточку (sharpening mask), которая делает изображение даже чуть четче визуально, но одновременно вносит противоречивые высокочастотные сигналы, сбивающие детекторы. Авторы добились того, что фейковые изображения после такой обработки стали и выглядеть лучше (более четкими), и обходить множество детекторов.

Spoofing и другие уловки: Термин «spoofing» часто применяется в биометрии (например, обман систем распознавания лица печатью фотографии). В контексте дипфейков spoofing-атака может означать представление подделки в таком виде, чтобы она прошла проверку. Один из простых путей – воспроизведение через аналоговый промежуток: например, проиграть дипфейк-видео на экране и заново его заснять камерой. Такой “перезаписанный” контент приобретает характеристики настоящей съемки (шум матрицы, естественное размытие, повторное сжатие), что может скрыть цифровые артефакты генерации. Детекторы, особенно обученные на исходных GAN-выходах, могут хуже работать на подобных re-capture-фейках. Другой прием – изменение формата/кодека: конвертация видео через различные кодеки, изменение разрешения, добавление рамок или эмодзи на часть изображения – все это может сбить детектор, если он привык, например, к лицам определенного размера или к отсутствию посторонних объектов. Злоумышленники могут комбинировать адверсариальные шумы с такими медиапревращениями, чтобы даже стойкие алгоритмы дали сбой.

Противостояние атакам: На каждую новую атаку появляются и методы защиты. Например, для борьбы с адверсариальным шумом исследуются детекторы второго уровня, которые сами пытаются обнаружить наличие на изображении подозрительного шума или фильтров (например, анализируют спектр изображения на признаки внесенного паттерна). Другой подход – устойчивое обучение: включать в тренировочный процесс дипфейки, уже обработанные потенциальными атаками (noise augmentation), чтобы модель научилась не реагировать на них. Тем не менее, гонка вооружений продолжается: как отмечается в исследованиях, новые анти-форензик методы могут значительно улучшить скрытность дипфейков, поэтому детекторам придется тоже усложняться, учитывая все более тонкие различия. В итоге, безопасность системы обнаружения дипфейков должна оцениваться не только базовыми метриками, но и в разрезе противодействия – то есть, насколько снижается эффективность при наихудшем воздействии извне. Современные работы по атакующей стороне показывают, что без специальных мер защиты ни одна модель не гарантирует 100% устойчивости.

5. Классификация источников дипфейков (атрибуция по GAN-моделям)

Помимо бинарного определения фейка, актуальна задача атрибуции дипфейка – установления, каким именно методом или моделью он был создан. Каждая генеративная модель (GAN, автокодировщик, диффузионная и пр.) оставляет едва уловимые “отпечатки” в сгенерированном изображении, подобно тому как каждая камера оставляет уникальный рисунок шума на фотографиях. Задача атрибуции подразумевает классификацию поддельного изображения на несколько классов: например, “реальное, или фейк от StyleGAN2, или от ProGAN, или от BigGAN” и т.д…

GAN-фингерпринты: Ранние исследования (2018–2019 гг.) обнаружили, что выходы GAN содержат периодические артефакты, связанные с этапами апсемплинга (увеличения разрешения) в генераторе. Например, ProGAN генерировал изображения с характерной периодичностью пиксельных корреляций, отличных от натуральных фото. Yu et al. (2019) представили AttNet – модель, учившуюся различать картинки разных архитектур GAN по таким “цифровым отпечаткам”. На виденных при обучении моделях она работала отлично – высокую точность атрибуции между ProGAN, SNGAN, MMDGAN и пр. Однако исследователи обнаружили проблему: если генератор той же архитектуры был заново обучен (с другими случайными инициализациями весов, другими данными) или слегка модифицирован, прежняя модель атрибуции начинала путаться. Признаки, на которые опиралась сеть (AttNet фокусировался на отдельных семантически значимых областях вроде глаз, рта), оказались неустойчивыми к смене экземпляра GAN. Это понятно: различия между архитектурами (например, наличие определенного слоя) обычно глобально влияют на изображение, но не привязаны к какому-то одному фрагменту лица. Был сделан вывод, что следы архитектуры GAN носят глобальный характер, тогда как следы конкретных значений весов – локальный. То есть, если хотим атрибутировать по архитектуре (типа модели), надо вычленять глобально последовательные паттерны по всему изображению, которые характерны для данной сети даже при разных инициализациях, вместо локальных “особенностей” отдельных деталей изображения.

Современные методы атрибуции: В 2022–2024 гг. предложены улучшенные подходы к распознаванию источника дипфейка. Например, алгоритм DNA-Det (Deepfake Network Architecture Detector) фокусируется на глобальных особенностях, инвариантных к содержимому изображения. Он применяет специальное предобучение на задачах обработки изображений (image transformation classification) и контрастивное обучение по патчам, что заставляет сеть игнорировать семантику и концентрироваться на структурных шумах, присущих архитектуре генератора. Такая модель сумела успешно различать изображения от разных архитектур даже когда генераторы были дообучены или перезапущены с нового случайного seed – то, где предыдущие подходы терпели неудачу. В недавней работе (2024) предложена система GDA-Net (Generalized Deepfake Attribution Network), специально нацеленная преодолеть зависимость от seed генератора. Авторы отмечают, что одна и та же архитектура GAN, обученная с разными initial seed, дает бесконечное множество моделей, чьи выходы могут заметно различаться. Старые методы атрибуции распознают только те модели, которые видели при обучении, и сильно сбиваются, если встречают тот же GAN, но обученный заново. GDA-Net же использует специальную архитектуру и обучение, позволяющее атрибутировать фейк к типу архитектуры, даже если конкретная версия модели ранее не встречалась. В экспериментах на изображениях от GAN, обученных с разными seed и fine-tune, новый подход показал значительно более высокую точность по сравнению с прежними решениями.

Признаки для атрибуции: На чем же “ловят” конкретный GAN? Выявлены различные остаточные следы: спектральные особенности (например, всплески на определенных частотах), статистика распределения цветов и градиентов, корреляции между соседними пикселями, специфические шумовые паттерны. Одни архитектуры используют upsampling с разреженным шаблоном (например, insert-zeros + blur), другие – обучаемые слои апсемплинга; это оставляет разные отпечатки. Кроме того, подходы вроде StyleGAN вносят сглаживание деталей лица, характерное только для них. Современные классификаторы источника часто используют многоклассовую CNN/ViT: ей скармливают множество фейков от разных моделей (ProGAN, StyleGAN, StarGAN, CycleGAN и т.д. + реальные фото), и она учится их отличать. Интересно, что иногда такая сеть способна даже указывать не только архитектуру, но и конкретный экземпляр модели по уникальному шуму весов – подобно тому, как по царапинам на пуле идентифицируют конкретный ствол. Но на практике акцент именно на классификацию по архитектуре, т.е. определить вид инструмента генерации. Например, Huang et al. (2022) продемонстрировали атрибуцию FaceSwap-видео: их модель научилась различать, был ли фейк сделан классическим автоэнкодером “DeepFake”, или методом FaceSwap, или Face2Face, по тонким различиям в типичных артефактах (размытость краев рта, стабильность выражения глаз и т.д.). Для статичных изображений задача несколько проще – там нет временных изменений, но больше разнообразия в самих архитектурах (GAN, диффузия, нейронные фильтры). В последние годы появилось понятие “водяных знаков” для GAN – некоторые генераторы могут намеренно вставлять в картинки свои скрытые метки, чтобы облегчить последующую атрибуцию. Например, в 2023 году NVIDIA анонсировала попытки внедрить в генераторы типа StableDiffusion такой паттерн, который незаметен, но однозначно указывает, что изображение сгенерировано (и даже каким сервисом). Но без таких благих намерений со стороны генератора приходится полагаться на описанные техники анализа. В целом, классификация источника дипфейка уже достигла успехов: показано, что глобальные архитектурные отличия GAN почти всегда проявляются в изображении, и можно построить модель, которая с высокой точностью скажет, условно, “это фейк от StyleGAN2” или “это видео сделано через DeepFaceLab”. Такие инструменты полезны в расследованиях, позволяя понять, каким ПО могло быть создано вредоносное видео, и даже отнести его к известной семье фейков.

6. Аппаратные решения для экстракции признаков и детектирования

Задачи детектирования дипфейков требовательны к вычислительным ресурсам, особенно при анализе видео в реальном времени или обработке потоков данных. Выбор аппаратной платформы (процессоры, графические ускорители, специализированные чипы) играет важную роль в практическом применении моделей. Рассмотрим несколько категорий решений:

GPU и TPU: Обучение глубоких моделей детекции почти всегда выполняется на GPU – графических процессорах (NVIDIA Tesla/RTX, AMD и др.) или на тензорных процессорах (Google TPU). Они значительно ускоряют операции сверток и матричных умножений. Например, обучить XceptionNet на датасете DFDC за разумное время можно лишь на современных GPU с большим объемом памяти. В продакшене для обработки видео в режиме реального времени также применяют GPU: одна высокопроизводительная карта (например, NVIDIA A100) способна обрабатывать десятки кадров в секунду, прогоняя через сложную сеть. Google TPU (типы v3, v4) могут быть использованы для ускорения, особенно если модель переведена в TensorFlow; TPU хорошо подходят для массовой параллельной проверки изображений на фейки. Однако, GPU – довольно энергозатратное решение.

CPU с оптимизацией: Интересно, что при достаточной оптимизации современные многоядерные CPU тоже справляются с задачей. Intel продемонстрировала платформу FakeCatcher, которая работает на серверном процессоре Xeon и в состоянии параллельно проверить до 72 видеопотоков на наличие дипфейков в реальном времени. Добиться этого удалось, комбинируя эффективный алгоритм (PPG-детектор, описанный ранее) и аппаратное ускорение в CPU – технологии Intel Deep Learning Boost и расширения команд AVX-512, которые ускоряют расчеты нейронной сети на процессоре. Таким образом, на 3-ьем поколении Intel Xeon Scalable одна машина смогла мониторить множество видео одновременно. Для промышленного развертывания это важно: можно интегрировать детектор на стороне сервера без необходимости ставить дорогие GPU. Тем не менее, для более тяжелых моделей (например, трансформеры) CPU может не дать нужной скорости, поэтому в high-end решениях все еще царствуют GPU.

Полевые программируемые матрицы (FPGA) и ASIC: В специализированных приложениях, где нужна высокая производительность при ограниченном энергопотреблении (например, на пограничных узлах сети, в мобильных устройствах), используют FPGA или даже разрабатывают ASIC-чипы. В 2022 году была предложена архитектура DEEPFAKE-CLI на базе FPGA, которая позволила ускорить инференс детектора на основе облегченной MesoNet-сети. Используя плату Xilinx VCK5000 (архитектура Versal AI), авторы добились скорости ~316 кадров в секунду при сохранении ~93% точности. Секрет – в полном параллелизме, присущем FPGA, и в квантизации модели (снижение разрядности весов), что значительно уменьшает объем вычислений. Такой чип может встраиваться в системы видеомониторинга, обеспечивая постоянную проверку видеопотока на подделки с минимальными задержками. В будущем возможны ASIC (специализированные интегральные схемы) для детекции дипфейков – по аналогии с ASIC для распознавания лиц. Они могли бы реализовывать на кремнии определенные слои нейросети, что дало бы максимальную эффективность, но потерю гибкости (ASIC не переобучишь под новые типы атак).

Устройства edge (мобильные): С ростом вычислительных возможностей смартфонов и камер, часть анализа дипфейков можно переносить на край (edge). Современные мобильные процессоры содержат нейронные ускорители (Apple Neural Engine, Qualcomm Hexagon DSP, Samsung NPU), способные выполнять несколько триллионов операций в секунду на задачах CV. В принципе, это достаточно, чтобы в реальном времени определять дипфейк на видео 720p прямо на телефоне. Однако, нужно учитывать энергоэффективность: сложная модель может разряжать батарею. Поэтому для edge применяют оптимизированные модели – облегченные версии (MobileNet, EfficientNet-lite) или прерывистые модели (которые обрабатывают не каждый кадр, а выборочно). В литературе есть примеры упрощенных детекторов: так, MobileNet-v2 была адаптирована для выявления дипфейков с приемлемой точностью, позволяя запуск на смартфоне. Также обсуждается MobileViT – легковесный vision transformer для мобильных устройств, теоретически применимый и в нашей задаче.

Аппаратное ускорение ввода-вывода: Значим и аспект быстрой обработки видео: распознавание дипфейка в потоке включает этап декодирования видеокадра, детекции лица на кадре, масштабирования к размеру, подачи в нейросеть. В специализированных решениях используется аппаратное декодирование (через GPU NVDEC или медиапроцессоры на SoC) и аппаратное ускорение обнаружения лиц (например, Google Coral Edge TPU можно обучить детектировать лицо как объект). Если система заранее выдает вырезанные лица, нагрузка на основную модель снижается. В целом, лучшие результаты достигаются, когда аппаратная и программная части сбалансированы: параллельный конвейер декодирования, препроцессинга и инференса.

Примеры платформ: Для разработчиков доступны платформа NVIDIA DeepStream – для разворачивания моделей CV (включая дипфейк-детекторы) на GPU с оптимизацией конвейера, Intel OpenVINO – оптимизирует модели для CPU, iGPU и VPU (Intel Movidius Neural Compute Stick – вариант для edge). Та же Intel заявляет, что их технология детекции интегрирована в пакеты для Xeon и даже доступна в облачных API. На практике выбор железа диктуется требуемой скоростью: единичный анализ фото – справится и CPU, поток 4K видео 30fps – потребует, вероятно, GPU или FPGA при нынешнем состоянии технологий.

Итак, рекомендуемые аппаратные решения можно резюмировать так:

Для офлайн анализа (например, проверка набора видео) – мощная GPU/TPU, чтобы ускорить обработку батчами.
Для онлайн мониторинга на сервере – многоядерный CPU с оптимизированным софтом (до десятков потоков) или GPU, если модель сложная.
Для встроенных систем (типа проверка видео на камере наблюдения) – FPGA или специализированный модуль типа NVIDIA Jetson (который содержит и GPU, и ускорители) с оптимизированной моделью.
Для мобильных приложений – использовать нейроускорители SoC, но для этого модель должна быть очень облегченной; обычно полагаются на отсылку данных на сервер, поскольку качественный on-device детектирование дипфейка пока затруднено.

7. Рекомендации по обучению моделей детектирования дипфейков

Обучение эффективной модели детекции требует внимания к нескольким аспектам: выбор архитектуры, подготовка данных, методика тренировки и валидации. Ниже приведены рекомендации, сформировавшиеся на основе опыта последних исследований:

Выбор и инициализация модели: Как обсуждалось, хорошим стартом служат проверенные архитектуры – Xception, EfficientNet, ResNet50. Часто их берут с предобученными весами (ImageNet) и тонко настраивают под задачу. Предобучение на лицевых данных (например, VGGFace) может быть еще полезнее, т.к. дипфейки затрагивают в основном лицо. Поэтому одна стратегия – взять модель, обученную различать лица или их свойства, и дообучить различать натуральные vs поддельные лица. Такой transfer learning ускоряет сходимость и улучшает обобщение, особенно на небольших датасетах. Если доступны большие вычислительные ресурсы и данные, стоит рассмотреть более новые модели (ViT, Swin Transformer) – их можно обучить с нуля на дипфейках; исследования показали, что трансформеры лучше обобщают на незнакомые манипуляции. Но они требуют больше данных. Практика показывает, что ансамблирование моделей также дает выигрыши: можно обучить несколько разных сетей (скажем, EfficientNet и ViT) и комбинировать их ответы для повышения надежности. Это особенно полезно, когда разные модели склонны ловить разные типы артефактов.

Данные и аугментации: Качество обучающих данных – решающий фактор. Нужно обеспечить разнообразие примеров как реальных, так и фейковых. Рекомендуется собрать обучающий сет, включающий: различные лица (разного пола, расы), разные фоновые условия, разное качество (четкие HD и сжатые пиксельные видео), а также дипфейки, созданные несколькими методами. Если вы тренируете модель лишь на одном типе фейка (например, только autoencoder-замена лица), она будет плохо видеть другие (скажем, GAN-синтез). В идеале – включить понемногу из FF++, Celeb-DF, DFDC, возможно добавить статичные GAN-изображения как негативные примеры.

Аугментации данных (искусственные искажения) необходимы для улучшения устойчивости. Помимо стандартных для CV (случайные обрезки, повороты, изменения яркости/контраста, добавление шумов, сжатие JPEG), для дипфейков полезны специфические:

Пропуски областей (Random Patch Drop): закрывать случайные патчи изображения (например, квадраты 32x32 пикселя черным) – так сеть не переучится на какой-то один участок вроде глаз, а научится учитывать информацию по всему лицу (этот прием использован в T-Face).
Аугментация в частотной области: например, высокочастотное усиление – добавлять к изображениям фильтр, выделяющий резкие детали. Это заставляет модель уделять больше внимания тонким шумам и текстурам, которые могут выдавать дипфейк.
Сдвиг по времени для видео: если обучаем на видео, можно перетасовывать или пропускать кадры, показывая модели, что она не должна полагаться на определенную позицию фейка в ролике. В T-Face реализовано случайное смещение кадров при формировании пар данных.
Mixup реальных и фейковых: иногда используется mixup, когда к реальному изображению примешивается немного пикселей фейкового (или наоборот). Это может помочь модели учиться на более “мягких” примерах и быть устойчива к частично измененным лицам.

Отдельно стоит провести аугментации, имитирующие распространенные атаки злоумышленников: сжатие видео в низкий битрейт, изменение разрешения, наложение цветовых фильтров. Цель – чтобы модель не “сломалась” при встрече с дипфейком плохого качества или слегка отредактированным (анти-форензика). Как показал Wang et al., тщательно продуманные пред- и постобработка, а также аугментации могут позволить даже модели, обученной на одном типе фейков, распознавать множество других типов. В их эксперименте обычный ResNet50, обученный только на фейках ProGAN (один GAN), благодаря сильной аугментации (геометрические и цветовые преобразования, фильтры) обобщился и смог выявлять фейки от других GAN и даже других методов генерации. Это важный урок: разнообразие на этапе обучения зачастую важнее, чем супер-сложность модели.

Стратегия обучения: Рекомендуется начально обучать модель как можно более сбалансировано – на каждой эпохе подавать равное число реальных и фейковых примеров (или с небольшим перевесом фейковых, чтобы модель не ленилась и не скатывалась в константный ответ “реально”). Если датасет крайне несбалансирован (например, очень много реальных изображений), можно применять метод over-sampling/under-sampling или взвешивать потери. Для задачи детекции дипфейков обычно используется Binary Cross-Entropy (логистическая потеря) как функция потерь. Однако, в современных работах добавляют и специальные компоненты: контрастивные потери (как в T-Face) – они заставляют расстояния между эмбеддингами реальных и фейковых быть большими; loss на согласованность – например, вычислять два представления изображения (с разными аугментациями) и требовать, чтобы для реальных они были ближе, чем для фейковых. Можно экспериментировать с трехклассовой постановкой: [реальное, фейк видимого типа, фейк другого типа] – пытаясь обучить модель одновременно определять фейк и атрибутировать его вид. Но чаще все же решают две задачи отдельно.

Обучение ведется эпохами на тренировочном сете, с мониторингом по валидационному (например, часть данных или отдельный датасет). Важный совет: валидировать на другом датасете, если есть такая возможность. Например, обучаясь на FF++, проверить метрики на Celeb-DF. Если модель показывает близкое к случайному качество на внешнем наборе, значит она переобучилась на специфические черты FF++ (например, на характерные артефакты сжатия) – нужно либо больше аугментаций, либо более разнообразные данные.

Иерархическое обучение: Иногда применяют двухэтапный подход: сначала обучают модель различать очевидные дипфейки (например, на высококачественных данных, где фейки легко отличимы), затем дообучают на более сложных случаях. Это своего рода curriculum learning – от простого к сложному. В роли “простых” могут выступать датасеты со старыми методами (как FaceSwap с его заметными швами), а сложные – новые GAN-фейки. Модель учится базовым отличиям, потом совершенствует тонкие навыки. Такая стратегия может ускорить обучение и дать лучшее решение, чем если сразу пытаться учить на очень запутанных данных.

Регуляризация и генеризация: Помимо аугментаций, стандартные техники регуляризации тоже полезны: Dropout в полносвязных слоях или даже между сверточными, L2-регуляризация на веса. Это предотвращает перенастройку на шум. Некоторые работы вводили специальный Layer Normalization или Instance Normalization в архитектуры детекторов, полагая, что это поможет абстрагироваться от статистики изображения и сфокусироваться на аномалиях. Также интересный прием – разделение признаков: заставить сеть выделять две группы признаков, одна из которых должна быть инвариантна к фейку (т.е. описывать содержание, кто изображен), а вторая – специфична к фейку. Такой подход использует многозадачное обучение: параллельно с классификацией фейков сеть учится, скажем, узнавать личность или определять позу головы. Идея в том, что модель, понимающая содержание, меньше рискует принять за “артефакт” различия, связанные просто с человеком или позой, и сосредоточится на действительно аномальных деталях. Это, конечно, усложняет обучение и требует дополнительных меток (идентичность или др.).

Тестирование и подбор порога: После обучения необходимо подобрать порог вероятности для конечного решения “фейк/реал”. Тут следует учитывать требования приложения: если критически важно поймать как можно больше дипфейков, порог сдвигают вниз (в ущерб ложным срабатываниям). Если же ложные тревоги недопустимы (например, ценой ошибки будет несправедливое обвинение реального человека), порог ставят высоким, чтобы детектор сигнализировал только при очень уверенном фейке. Отчетливо увидеть компромисс помогает ROC-кривая. Для практики можно выбрать порог по EER (равные ошибки), но чаще задают вручную исходя из нужного Recall или Precision.

Наконец, постоянное обновление модели – еще одна рекомендация. Поскольку генеративные методы развиваются, через год-два появятся новые дипфейки, против которых текущая модель может оказаться слаба. Поэтому стоит строить процесс, позволяющий дообучать детектор на свежих примерах (как “data drift” в других областях). Если эксплуатируется система, собирающая реальные видео, можно периодически верифицировать те случаи, где детектор не уверен, и при обнаружении новых дипфейков – добавлять их в тренировочный набор.

Подводя итог, обучение эффективного детектора дипфейков сводится к разнообразию данных, агрессивной аугментации, правильному выбору архитектуры и регуляризации. Например, одной из удачных рецептур в литературе было: взять ResNet, обучить на паре миллионов пар “реальное vs ProGAN” с сильной спектральной аугментацией – и получить универсальный детектор, успешно ловящий даже невиданные модели генерации. Другой рецепт: взять Xception, обучить на FF++ + дополнительно на StyleGAN-картинках + применить сильный JPEG-noise augmentation – модель будет хорошо работать на сжатых интернет-видео и даже статичных фейках. Всегда следует проверять модель на различных сценариях (иногда даже на совершенно чуждых данных, например, на фотографиях природы, чтобы убедиться, что не происходит ложно-положительных срабатываний вне лицевой области). Такой всесторонний подход к обучению позволит получить максимально надежного “охотника за дипфейками”.
актуальные достижения науки и практики.