Açık Veri Çağında GovScape: 10 Milyon PDF’in Arasında Kaybolmamak Mümkün

Kamu verisi dendiğinde çoğumuzun gözünde beliren şey genelde devasa PDF yığınları oluyor. Araştırmacılar, gazeteciler ve kamu politikalarıyla uğraşan herkes için bu belgeler hem vazgeçilmez hem de çoğu zaman eziyet.

2025-12-07 10:45:13 - Arastiriyorum

GovScape tam olarak bu noktada devreye giriyor. Washington Üniversitesi ve Boston Üniversitesi’nin birlikte geliştirdiği bu araştırma projesi, 2020 End of Term Web Archive taramasından elde edilen on milyondan fazla PDF dosyasını anlamlı şekilde aramayı mümkün kılıyor.


Bu arada GovScape’in tamamen açık kaynak olması da daha en baştan umut verici. Kodu GitHub üzerinden incelenebiliyor, yani proje yalnızca bir araç değil; aynı zamanda geliştirilebilir bir araştırma altyapısı.


GovScape nasıl çalışıyor?

Sistemin temelinde, 50 sayfa veya daha kısa olan render edilebilir PDF’lerden oluşan dev bir veri koleksiyonu var. GovScape bu veriyi üç farklı arama türüyle erişilebilir hale getiriyor.


1. Anahtar Kelime Araması: Temel ama vazgeçilmez

Klasik tam metin araması. Eğer belirli bir terimi ya da ifadeyi doğrudan PDF içinde arıyorsan, bu yöntem en hızlı yol. Basit bir dizin eşleşmesi mantığıyla çalışıyor, fakat devasa veri setlerinde hâlâ oldukça etkili.


2. Semantik Arama: Anlam odaklı keşif

Metni sadece kelime kelime okumakla kalmayıp bağlamını da kavrayan bir arama türü.

“Rural healthcare funding for children” gibi doğal bir cümle yazdığında, GovScape bu ifadenin temsil ettiği anlamı vektör uzayında eşleştiriyor. Bunun için BAAI/bge-base-en-v1.5 modelinden üretilen gömme (embedding) verilerini kullanıyor. Sonuç olarak tam olarak aynı kelimeler geçmese bile içerik olarak ilişkili sayfaları bulabiliyor.


3. Görsel Arama: Pdf içindeki görselleri hedef almak

PDF’ler yalnızca metinlerden ibaret değil. Grafikler, haritalar, fotoğraflar, tablolar...

GovScape’in görsel arama yeteneği, sayfaların görsel özelliklerini çıkararak benzer görüntüleri bulmasını sağlıyor. “Pasta grafik”, “uydu fotoğrafı” gibi görsel odaklı aramalar bile olası. Kapsamlı raporları tararken ciddi bir kolaylık.


Neden önemli?

GovScape gibi araçlar, kamusal veriyi erişilebilir hale getirerek araştırmanın demokratikleşmesine katkı sunuyor. Bilginin yalnızca arşivlerde kaybolmak yerine analiz edilebilir, aranabilir bir forma kavuşması araştırmacılar ve gazeteciler için büyük bir zaman kazancı.


Ayrıca açık kaynak yapısı sayesinde, bu aracın gelecekte çok daha gelişmiş sürümlerine doğru evrilmesi de mümkün. Kamu verisinin hacmi arttıkça, böyle sistemler de ister istemez daha kritik hale geliyor.

More Posts