© El.kz / Midjorney / Ербол БЕКБОЛАТ

ИИ учили на паспортах и резюме: CommonPool утекли миллионы личных данных

21.07.2025 04:46

Новое исследование выявило серьёзную утечку персональных данных в одном из крупнейших открытых наборов для обучения ИИ – DataComp CommonPool. В массиве из 12,8 млрд образцов обнаружены сотни миллионов изображений паспортов, кредиток, резюме и других документов с личной информацией, пишет El.kz со ссылкой на arXiv.

Учёные изучили всего 0,1% базы и нашли тысячи изображений с лицами и удостоверениями личности. По оценкам, в полном наборе содержится до 100 млн фото людей и огромный объём персональных данных — от дат рождения до адресов и медицинской информации.

CommonPool создавался как академический аналог LAION-5B (на нём обучались Stable Diffusion и Midjourney) и собирался с помощью веб-скрейпинга с 2014 по 2022 год. Несмотря на заявления о некоммерческом использовании, лицензия этого не запрещала. CommonPool скачали более 2 млн раз.

Алгоритмы размытия лиц оказались неэффективны – система могла пропустить десятки миллионов изображений. Также не фильтровались email-адреса и номера соцстраха. Даже удаление данных не гарантирует конфиденциальность, если модель уже обучена на них.

Авторы исследования призывают отказаться от безоглядного сбора данных из интернета и отмечают, что текущие законы о защите данных часто не охватывают такие случаи.

El.kz также сообщал о том, что ИИ начинает «думать» втайне.