26 Мая, 15:28
Это самое инстаграмное село Казахстана: оно выглядит как живая открыткаНовое исследование выявило серьёзную утечку персональных данных в одном из крупнейших открытых наборов для обучения ИИ – DataComp CommonPool. В массиве из 12,8 млрд образцов обнаружены сотни миллионов изображений паспортов, кредиток, резюме и других документов с личной информацией, пишет El.kz со ссылкой на arXiv.
Учёные изучили всего 0,1% базы и нашли тысячи изображений с лицами и удостоверениями личности. По оценкам, в полном наборе содержится до 100 млн фото людей и огромный объём персональных данных — от дат рождения до адресов и медицинской информации.
CommonPool создавался как академический аналог LAION-5B (на нём обучались Stable Diffusion и Midjourney) и собирался с помощью веб-скрейпинга с 2014 по 2022 год. Несмотря на заявления о некоммерческом использовании, лицензия этого не запрещала. CommonPool скачали более 2 млн раз.
Алгоритмы размытия лиц оказались неэффективны – система могла пропустить десятки миллионов изображений. Также не фильтровались email-адреса и номера соцстраха. Даже удаление данных не гарантирует конфиденциальность, если модель уже обучена на них.
Авторы исследования призывают отказаться от безоглядного сбора данных из интернета и отмечают, что текущие законы о защите данных часто не охватывают такие случаи.
El.kz также сообщал о том, что ИИ начинает «думать» втайне.
26 Мая, 15:28
Это самое инстаграмное село Казахстана: оно выглядит как живая открытка26 Мая, 12:40
Куда можно улететь из Алматы летом 2026 года: новые рейсы, море и Европа без пересадок25 Мая, 17:19
Сарай-Бату и Сарай-Берке: как выглядели потерянные столицы Золотой Орды25 Мая, 16:27
Места, куда ты не попадёшь никогда: самые закрытые точки планеты