Açık Bilim Yolunda Yeni Bir Engel: Agresif Yapay Zeka Botlarıyla Mücadele
- Research Ecosystems

- 18 Mar
- 2 dakikada okunur

Akademik arşivler ve açık erişim sistemleri (CRIS), doğaları gereği "açık" olmak zorundadır. Ancak son yıllarda bu açıklık, Large Language Models (LLM) ve yapay zeka araçlarını eğitmek için veri toplayan botların ("crawlers") istilasına uğradı. COAR’ın (Confederation of Open Access Repositories) güncel raporları ve rehberliği ışığında, bu dijital trafik artışının neden olduğu riskleri ve çözüm yollarını GCRIS perspektifiyle ele alıyoruz.
Sorun Ne Kadar Ciddi?
COAR tarafından 2025 yılı başında yapılan anket ve haziran 2025’te yayımlanan rapor, durumun vahametini ortaya koyuyor. Eskiden Google ya da diğer akademik dizinler için yapılan "dost canlısı" taramaların yerini, sistemi kilitleyen, bant genişliğini tüketen ve istatistikleri manipüle eden agresif botlar aldı.
Bu kontrolsüz trafik üç ana soruna yol açıyor:
Hizmet Kesintileri: Aşırı trafik yükü sunucuları yavaşlatıyor veya tamamen erişilemez kılıyor.
Kirli İstatistikler: Botların yaptığı indirmeler, yayınların gerçek etki oranlarını (usage statistics) saptırıyor.
Erişim Engelleri: Botları durdurmak için alınan sert önlemler (IP bloklama vb.), bazen gerçek araştırmacıların veya meşru indeksleme servislerinin de dışarıda kalmasına neden oluyor.
Çözüm İçin "Sihirli Bir Değnek" Yok
COAR’ın "Dealing with Bots" çalışma grubu, bu konuda tek bir çözüm olmadığını vurguluyor. Kurumsal bir strateji geliştirirken şu dengeyi kurmak zorundayız: Kötü niyetli botları durdururken, açık erişim misyonundan ödün vermemek.
İşte uygulanabilecek temel stratejiler:
1. Teknik Savunma Katmanları
Robots.txt Dosyası: İlk savunma hattıdır ancak agresif botlar bunu genellikle görmezden gelir. Yine de meşru botlara yol göstermek için güncel tutulmalıdır.
Hız Sınırlama (Rate Limiting): Belirli bir IP adresinden gelen talepleri saniye bazında sınırlamak, sunucunun nefes almasını sağlar.
Web Uygulaması Güvenlik Duvarları (WAF): Cloudflare gibi servisler, şüpheli bot trafiğini sunucuya ulaşmadan filtreleyebilir.
2. İstatistiklerin Temizlenmesi
COUNTER gibi standartlara uyum sağlayarak, bot trafiğini indirme rakamlarından ayıklamak artık bir tercih değil, zorunluluktur. Bu, kurumsal performans verilerinin doğruluğu için kritiktir.
3. Topluluk İşbirliği
COAR'ın önerdiği gibi, kurumların birbirleriyle "kötü aktör" IP listelerini paylaşması ve ortak politikalar belirlemesi, bu dijital savaşta en güçlü silahımızdır.
GCRIS ve Gelecek
Araştırma ekosistemlerinin sürdürülebilirliği, verinin sadece erişilebilir olmasıyla değil, aynı zamanda bu erişimin güvenli ve yönetilebilir olmasıyla mümkündür. Research Ecosystems olarak GCRIS sistemlerimizin hem makineler hem de insanlar için optimize edilmesini sağlarken, COAR’ın sunduğu en iyi uygulamaları (best practices) yakından takip ediyor ve altyapımıza entegre ediyoruz.
Unutmamalıyız ki; açık bilim, kapıları tamamen kilitlemek değil, doğru ziyaretçiye doğru anahtarı vermektir.



Yorumlar