AI-инженер Саймон Лермен и его коллеги представили работу «Large-Scale Online Deanonymization with LLMs», в которой оценили способности LLM устанавливать личносAI-инженер Саймон Лермен и его коллеги представили работу «Large-Scale Online Deanonymization with LLMs», в которой оценили способности LLM устанавливать личнос

ИИ научился деанонимизировать пользователей по комментариям в соцсетях

2026/03/04 01:48
3 хв читання
Якщо у вас є відгуки або зауваження щодо цього контенту, будь ласка, зв’яжіться з нами за адресою crypto.news@mexc.com

AI-инженер Саймон Лермен и его коллеги представили работу «Large-Scale Online Deanonymization with LLMs», в которой оценили способности LLM устанавливать личность пользователей по анонимным постам на разных площадках. Эксперименты проводились на данных Hacker News, Reddit, LinkedIn, а также на обезличенных интервью из датасета Anthropic.

Идея не нова. Еще в начале 2000-х профессор Гарварда Латанья Суини пришла к выводу, что 87% населения США можно идентифицировать всего по трем параметрам: почтовому индексу, полу и дате рождения. Но на практике деанонимизация долго оставалась трудоемким ручным процессом: данные разбросаны, не структурированы, и собрать из них портрет конкретного человека мог разве что опытный аналитик.

LLM ускоряют и автоматизируют этот процесс, причем делают это экономически эффективно, утверждают Лермен и его соавторы.

Как это работает

Сначала модель извлекает из комментариев пользователя косвенные сведения. Затем с помощью поиска на основе эмбеддингов (векторных математических «отпечатков» текста) формируется пул из 100 наиболее вероятных кандидатов, и на финальном шаге LLM «рассуждает» и выбирает наилучшее совпадение.

Для проверки в одном из тестов исследователи отобрали 338 пользователей Hacker News, чьи профили содержали ссылку на LinkedIn. После удаления прямых идентификаторов модели предлагалось восстановить соответствие между анонимизированным аккаунтом и реальным человеком. Модель дала верный ответ в 226 случаях из 338 (67%). При этом точность составила 90% — то есть в тех случаях, когда система вообще выдавала результат, она почти всегда оказывалась права.

В другом эксперименте историю одного аккаунта Reddit искусственно делили по времени и по тематическим сообществам. Задачей модели было «сшить» фрагменты обратно. Комбинация эмбеддингов и логического анализа значительно превзошла базовые методы методы сопоставления по метаданным и активности.

По мере увеличения пула кандидатов до десятков тысяч точность снижалась плавно, без обвала. Авторы экстраполировали результаты на базы в 100 млн пользователей и заключили, что при достаточных вычислительных мощностях уже можно «атаковать» крупные платформы. А с развитием LLM порог входа будет только снижаться.

Приводится в исследовании и реальный кейс. На датасете обезличенных интервью ученых модель смогла установить личности 9 из 125 участников. Но эталонных данных для данной задачи не было, и результаты проверялись вручную.

Весь эксперимент обошелся примерно в $2000. Стоимость деанонимизации одного профиля — от $1 до $4 (правда это все в экспериментальных условиях, в реальной жизни цифра была бы совсем другой).

Почему это важно

Авторы перечисляют несколько сценариев злоупотреблений. Правительства могут использовать технологию для преследования журналистов и активистов, корпорации — для построения сверхточных рекламных профилей, а злоумышленники — для целевого фишинга и социальной инженерии.

Тем не менее в сети напоминают, что деанонимизация по косвенным признакам известна давно. Часть пользователей указывает на ограниченность экспериментальных условий, а некоторый отмечают, что LLM не создают принципиально новую угрозу, а лишь автоматизируют уже существующие методы.

Автор:
Редактор ленты новостей, журналист Ярослав Голобородько
Пишет на темы: Макроэкономика. Финансы. Инвестиции. Фондовые и валютные рынки. Крипто. Telegram: @goloborodko_ua
Відмова від відповідальності: статті, опубліковані на цьому сайті, взяті з відкритих джерел і надаються виключно для інформаційних цілей. Вони не обов'язково відображають погляди MEXC. Всі права залишаються за авторами оригінальних статей. Якщо ви вважаєте, що будь-який контент порушує права третіх осіб, будь ласка, зверніться за адресою crypto.news@mexc.com для його видалення. MEXC не дає жодних гарантій щодо точності, повноти або своєчасності вмісту і не несе відповідальності за будь-які дії, вчинені на основі наданої інформації. Вміст не є фінансовою, юридичною або іншою професійною порадою і не повинен розглядатися як рекомендація або схвалення з боку MEXC.