kullanici1
Mart 6, 2026

Veri çağının en büyük yalanı şudur: “Kişisel verilerinizi topluyoruz ama merak etmeyin, verileriniz anonimleştirilmiştir.” Şirketler, hastaneler ve devlet kurumları; veri setlerinden Ad, Soyad ve T.C. Kimlik Numarası gibi doğrudan tanımlayıcıları sildiklerinde, verinin artık “güvenli” ve “anonim” olduğuna inanırlar. Ancak matematik ve istatistik bilimi aksini söyler. Veri, parmak izi gibidir; ne kadar silerseniz silin, kalan küçük parçalar birleştiğinde sizi ele verir.
Yeniden Kimliklendirme (Re-Identification veya Re-ID), anonim olduğu iddia edilen bir veri setindeki kayıtların, başka dış veri kaynaklarıyla (Auxiliary Data) eşleştirilerek, o kayıtların kime ait olduğunun tekrar tespit edilmesidir. Sektördeki en büyük yanılgı, anonimliğin “Statik” bir durum sanılmasıdır. Oysa anonimlik geçicidir. Bugün anonim olan bir veri seti, yarın internete sızan yeni bir veritabanı ile birleştiğinde tüm sırlarını ifşa edebilir. Bu kapsamlı rehberde; Latanya Sweeney’nin ABD nüfusunun %87’sini sadece üç veriyle nasıl ifşa ettiğini, Netflix’in film puanlarından kullanıcıların siyasi görüşlerinin nasıl bulunduğunu, “Bağlantı Saldırılarının” (Linkage Attack) matematiğini ve Diferansiyel Gizliliğin (Differential Privacy) neden tek kurtuluş yolu olduğunu en ince teknik detayına kadar inceleyeceğiz.
Yeniden kimliklendirme, bir “Bulmaca Tamamlama” oyunudur. Elinizde eksik parçalı bir resim (Anonim Veri) vardır. Başka bir yerden bulduğunuz parçalarla (Dış Veri) bu resmi tamamlarsınız.
Temel Kavramlar
Saldırganın amacı, QID’leri kullanarak Hassas Öznitelikleri belirli bir isme bağlamaktır
Re-ID riskinin literatüre girdiği an, 1990’ların sonunda Massachusetts’te yaşanan olaydır.
Sweeney’nin Kanıtı: ABD nüfusunun %87’si, sadece {Doğum Tarihi, Cinsiyet, Posta Kodu} üçlüsü ile tekil olarak (unique) tanımlanabilir. Bu üç veri birleştiğinde, o kişi sizden başkası olamaz.
Bir veri bilimcisi veya hacker, anonim veriyi nasıl çözer?
1. Bağlantı Saldırısı (Linkage Attack)
Vali Weld örneğindeki gibi, iki farklı veri tabanındaki ortak sütunları (QID) kullanarak satırları eşleştirmektir.
2. Çıkarım Saldırısı (Inference Attack)
Veri tam olarak eşleşmese bile, olasılık hesaplarıyla tahmin yürütmektir.
3. Arka Plan Bilgisi Saldırısı (Background Knowledge Attack)
Saldırganın hedef kişi hakkında özel bilgiye sahip olmasıdır.
Sadece demografik veriler (Yaş/Cinsiyet) değil, davranışsal veriler de parmak izidir.
Bu vaka, verinin içeriğinin (Semantik) nasıl kimlik ifşa ettiğini gösterir.
Ders Arama sorguları, konum verileri ve kredi kartı harcamaları o kadar benzersizdir ki, bunları maskelemek imkansızdır.
Akıllı telefonlarımız her an konum üretiyor. Araştırmalar gösteriyor ki:
Strava Skandalı: Fitness uygulaması Strava, kullanıcıların koşu rotalarını “Isı Haritası” (Heatmap) olarak yayınladı. Anonim sanılan bu harita, Suriye ve Afganistan’daki gizli ABD askeri üslerinin yerleşim planını ve askerlerin devriye rotalarını (çünkü askerler üs etrafında koşuyordu) ifşa etti.
Yeniden kimliklendirmeye karşı geliştirilen ilk matematiksel model k-Anonymity idi.
Modern çağın (Apple, Google, Microsoft) kabul ettiği tek gerçek çözüm Diferansiyel Gizliliktir.
Hukuk, teknolojiyi geriden takip eder ama Re-ID konusunda nettir.
Kesinlikle. “Silme Hakkı” (Right to be Forgotten) en güvenli yoldur. Var olmayan veri kimliklendirilemez.
Evet, en güçlü çözümlerden biridir. Yapay zeka ile, gerçek verinin istatistiksel özelliklerini taşıyan ama tamamen “hayali” kişilerden oluşan veri üretilir. Re-ID riski sıfıra yakındır çünkü kişiler gerçek değildir.
Araçlar yardımcıdır ama strateji önemlidir. ARX gibi araçlar k-anonymity uygular. Ancak dış veri kaynaklarını (saldırganın elinde ne olduğunu) bilemezler. Risk analizi insan uzmanlığı gerektirir.
Hayır. T.C. Kimlik numarasını SHA-256 ile hash’lerseniz, saldırgan tüm olası TCKN’leri hash’leyip (Rainbow Table) eşleştirme yapabilir. Hash, geri döndürülebilir kabul edilir (Pseudonymization).
Hayır. DNA’nız en büyük tanımlayıcınızdır. Genom verisini anonimleştirmek imkansızdır çünkü DNA’nın kendisi kimliktir.
“Bu veri anonimdir” cümlesi, teknik olarak yanlıştır. Doğrusu şudur: “Bu verinin yeniden kimliklendirilme riski, mevcut teknoloji ve dış veri kaynaklarına göre kabul edilebilir düzeyde düşüktür.”
Anonimlik, 0 veya 1 (Var/Yok) durumu değildir; bir risk spektrumudur. Teknoloji geliştikçe ve dünyada daha fazla veri üretildikçe, anonim kalmak zorlaşmaktadır.
SiberTim olarak tavsiyemiz; veriyi dışarı açarken “İsimleri sildim, bitti” kolaycılığına kaçmayın. Bağlantı saldırılarını simüle edin, Diferansiyel Gizlilik kullanın veya en güvenlisi Sentetik Veri teknolojilerine yatırım yapın. Çünkü dijital dünyada gölgeler bile iz bırakır.