Еще несколько лет назад телефонный звонок казался самым надежным способом связи. Голос человека считался доказательством личности. Если звонит коллега, родственник или сотрудник банка, мы узнаем его интонацию, тембр, манеру говорить. Сегодня эта уверенность стремительно разрушается. Технологии voice cloning и deepfake-голоса позволяют мошенникам имитировать речь практически любого человека. Иногда достаточно трех секунд записи, чтобы алгоритм научился копировать голос, интонацию и тембр. Именно поэтому телефонный звонок превращается из привычного средства общения в инструмент социальной инженерии.
Я регулярно анализирую записи подозрительных звонков клиентов GetScam. И должен признать: за последние годы мошеннические звонки стали в разы технологичнее и опаснее.
Технологии синтеза речи и искусственного интеллекта развиваются стремительно. Если раньше телефонные мошенники ограничивались подменой номера, то теперь они используют голосовой спуфинг и deepfake-голоса. Жертве может звонить «сын», «коллега» или даже «сотрудник банка» с голосом, который звучит абсолютно реалистично. Это делает такие атаки особенно опасными.
Что такое голосовой спуфинг и deepfake-голос
Источник для изображения: gettyimages.com
Голосовой спуфинг — подделка или имитация голоса реального человека для введения в заблуждение.
Deepfake-голос — синтезированный голос, созданный с помощью нейросетей, который копирует тембр, интонации и даже эмоциональную окраску речи.
Задача мошенников проста — заставить жертву поверить, что звонит близкий человек или представитель организации, и склонить её к переводу денег, выдаче данных или подтверждению операций. Чаще всего используется комбинация двух технологий:
А deepfake-алгоритмы добавляют главное оружие мошенников — доверие к голосу.
По оценкам специалистов Europol, телефонные мошенничества сегодня составляют около 64% всех случаев кибермошенничества, а подмена номера является одним из ключевых инструментов этих атак.
Схемы применения в мошенничестве
Источник для изображения: gettyimages.com
«Ваш родственник в беде»
Синтезированный голос сообщает: «Я попал в аварию, срочно нужны деньги».
Почему люди верят голосу? Человек привык доверять слуху больше, чем тексту. Психология здесь работает безотказно. Когда вам пишет неизвестный аккаунт — мозг включает скепсис. Когда звонит знакомый голос — критическое мышление отключается. Именно поэтому популярные сценарии атак выглядят так:
«Мама, я попал в аварию»
«Это служба безопасности банка»
«Я твой начальник, срочно переведи деньги»
Все они построены на эффекте срочности и доверия к голосу.
Как создается deepfake-голос? Процесс выглядит пугающе простым. Мошенник получает запись голоса, далее алгоритм анализирует интонации. Соотвественно нейросеть обучается, и создается голосовая модель. Источники записи могут быть самыми банальными: видео в соцсетях, голосовые сообщения, интервью или сторис. Иногда достаточно нескольких секунд аудио, чтобы создать голосовую копию человека.
Признаки deepfake-голоса
Источник для изображения: gettyimages.com
Даже качественная имитация не идеальна. В большинстве записей, которые я анализировал, присутствуют характерные признаки синтетической речи.
1. Неестественные паузы
Deepfake-голос часто делает странные паузы.
Алгоритм генерирует речь кусками, поэтому иногда возникает ощущение, что человек говорит слишком ровно или наоборот слишком медленно.
Кейс
Клиенту позвонил «сын» и сообщил, что попал в ДТП. Голос был практически идентичен настоящему. Но в записи звонка меня насторожила одна деталь: паузы между словами были одинаковой длины, словно их расставлял метроном. Позже выяснилось, что это была запись, синтезированная нейросетью.
Как защититься?
задавайте неожиданные вопросы
перебивайте собеседника
попросите включить видеосвязь
Deepfake-система часто не справляется с непредсказуемыми репликами.
2. Ограниченный словарный запас
Deepfake-голоса хорошо воспроизводят известные фразы, но плохо реагируют на сложные диалоги. Если разговор выходит за пределы подготовленного сценария, мошенник начинает:
повторять одни и те же формулировки
избегать ответов
переводить тему.
Кейс
В одном случае мошенник звонил от имени сотрудника банка. Когда клиент начал задавать технические вопросы о переводе средств, «сотрудник» отвечал почти одинаковыми фразами: «Это стандартная процедура безопасности». Фраза повторилась семь раз за разговор.
3. Игнорирование перебиваний
Настоящий человек реагирует на перебивания мгновенно. Deepfake-алгоритм может продолжать говорить, как будто не слышит собеседника. Это один из самых простых способов разоблачения.
4. Цифровые искажения речи
Иногда в голосе слышны: металлический оттенок, цифровые шумы, резкие скачки громкости. Это связано с особенностями синтеза речи. Почему же спуфинг стал массовым?Главная причина — развитие VoIP-телефонии. VoIP позволяет отправлять телефонные звонки через Интернет. Администратор такой системы может указать любой номер как исходящий, поэтому мошенники легко имитируют: банки, госструктуры и операторов связи. Иногда такие инструменты продаются как «спуфинг-сервисы» для киберпреступников.
Признаки реального голоса и deepfake
Критерий
Реальный голос
Deepfake
реакция на перебивание
мгновенная
задержка
паузы
естественные
одинаковые
интонация
меняется
слишком ровная
ответы
разнообразные
шаблонные
шумы
естественные
цифровые артефакты
Как защититься
Источник для изображения: gettyimages.com
Перепроверяйте информацию — перезванивайте сами по официальным номерам.
Используйте контрольные вопросы, которые знает только настоящий человек.
Голосовой спуфинг и deepfake-голоса делают телефонные атаки особенно убедительными. Но даже самые технологичные обманы можно распознать внимательностью и проверкой фактов. Технологии голосовой подмены развиваются быстрее, чем системы защиты.
Еще пять лет назад подобные атаки требовали сложного оборудования. Сегодня достаточно обычного ноутбука и нескольких сервисов в Интернете.
Главная опасность deepfake-голоса не в технологии, а в доверии, которое мы автоматически испытываем к знакомому голосу. Мы привыкли считать телефон разговором между людьми. Но постепенно он превращается в разговор человека с алгоритмом. Именно поэтому главный навык цифровой безопасности сегодня звучит просто: не доверять голосу без проверки.
Прогноз эксперта до 2027 года
С высокой вероятностью рынок мошенничества будет развиваться в трех направлениях:
голосовые дипфейки в реальном времени
автоматические мошеннические колл-центры на базе ИИ
Признанный эксперт в области кибербезопасности с более чем 10-летним опытом. В своей профессиональной деятельности он специализируется на выявлении интернет-мошенничества, анализе цифровых угроз и разработке эффективных стратегий защиты пользователей в онлайн-среде. Он регулярно публикует аналитические материалы, основанные на проверенных источниках и актуальных исследованиях в сфере информационной безопасности. Цель работы Дениса и команды GetScam — повышение цифровой грамотности и обеспечение прозрачности в вопросах киберугроз. Мы стремимся сделать интернет-пространство безопаснее, предоставляя читателям достоверную информацию, рекомендации по защите личных данных и инструменты для распознавания мошенников.