5 Июня, 11:58
Братская любовь: как правители Тюркского каганата Бильге и Культегин делили властьНовое исследование выявило серьёзную утечку персональных данных в одном из крупнейших открытых наборов для обучения ИИ – DataComp CommonPool. В массиве из 12,8 млрд образцов обнаружены сотни миллионов изображений паспортов, кредиток, резюме и других документов с личной информацией, пишет El.kz со ссылкой на arXiv.
Учёные изучили всего 0,1% базы и нашли тысячи изображений с лицами и удостоверениями личности. По оценкам, в полном наборе содержится до 100 млн фото людей и огромный объём персональных данных — от дат рождения до адресов и медицинской информации.
CommonPool создавался как академический аналог LAION-5B (на нём обучались Stable Diffusion и Midjourney) и собирался с помощью веб-скрейпинга с 2014 по 2022 год. Несмотря на заявления о некоммерческом использовании, лицензия этого не запрещала. CommonPool скачали более 2 млн раз.
Алгоритмы размытия лиц оказались неэффективны – система могла пропустить десятки миллионов изображений. Также не фильтровались email-адреса и номера соцстраха. Даже удаление данных не гарантирует конфиденциальность, если модель уже обучена на них.
Авторы исследования призывают отказаться от безоглядного сбора данных из интернета и отмечают, что текущие законы о защите данных часто не охватывают такие случаи.
El.kz также сообщал о том, что ИИ начинает «думать» втайне.
5 Июня, 11:58
Братская любовь: как правители Тюркского каганата Бильге и Культегин делили власть5 Июня, 09:02
Как одевались модницы Золотой Орды: шёлк, бокка и золото степной аристократии4 Июня, 09:08
В Алатау дроны будут доставлять людям посылки3 Июня, 12:22
Как получить участок под ЛПХ в Казахстане в 2026 году