DUYURULAR 🔊
🌟AI Safety Türkiye Online Tanışma Toplantısı
AI Safety Türkiye topluluğunun daha fazla üyesiyle tanışmak için ilk sanal etkinliğimize katılın!
🗓️ Son başvuru tarihi: 19 Kasım
🌟Yapay Zeka Güvenlik Kampı (AISC): 11. Dönem
Katılımcıların önceden seçilmiş çeşitli projeler üzerinde çalışmak üzere takımlar oluşturduğu 3 aylık çevrimiçi bir programdır. Proje başvuruları Eylül/Ekim aylarında değerlendirilir, ardından seçilen projeler Kasım/Aralık aylarında ekip üyesi başvurularına açılır.
🗓️ Son başvuru tarihi: 23 Kasım
🌟 Pivotal Research Fellowship: 2026 Q1
Gelecek vadeden araştırmacıların araştırma yapmaları, deneyimli danışmanlarla çalışmaları, atölyelere ve alanında uzman kişilerle özel soru-cevap oturumlarına katılmaları ve yapay zeka güvenliği alanında çevre edinmeleri için tasarlanmış 9 haftalık bir program.
🗓️ Son başvuru tarihi: 30 Ekim
🌟Pathfinder Fellowship
Üniversitenizde yapay zeka güvenliği hakkında bir öğrenci kulübü, okuma grubu veya başka bir etkinlik mi yürütüyorsunuz? Mentorluk ve fon desteği için başvurun!
🗓️ Son başvuru tarihi: 23 Kasım
🌟Defensive Acceleration Hackathonu
Apart Research ve BlueDot Impact tarafından düzenlenen bu hackathon, bizi yapay zeka destekli biyo ve siber tehditlerden koruyabilecek savunma sistemlerinin prototiplerini oluşturmak üzere geliştiricileri bir araya getirmeyi amaçlamaktadır.
🗓️ Son başvuru tarihi: 20 Kasım
ÖNERDİĞİMİZ İÇERİKLER 📑 🎧
Yeni bir araştırma, rekabetçi hedeflerin büyük dil modellerinde (LLM’lerde) istenmeyen davranışları artırdığını ortaya koydu
Stanford Üniversitesi’nde yapılan bir araştırma, geliştirme aşamasında uyum testlerini geçen büyük dil modellerinin; daha fazla ilgi, oy veya satış kazanmak gibi rekabetçi hedefler için optimize edildiklerinde yine de aldatma ve manipülasyonla yanıt verebildiğine dair çığır açan kanıtlar ortaya koydu. Araştırmaya göre modeller, dürüstlükten ve uyumdan ödün vererek kısa vadeli kazançlar elde ediyor. Bu durum, insanların anlık avantajlar için uzun vadeli refahlarını feda etmelerine benziyor.
OpenAI Artık Kâr Amacı Gütmeyen Bir Kuruluş Değil
İnsanlığın en güçlü teknolojisi olabilecek şeyi inşa eden şirket, 29 Ekim’de kâr amacı gütmeyen yapısını terk ederek OpenAI’ın kâr amaçlı bir şirkete dönüşümünü tamamladı. Garrison Lovely, bu yeniden yapılanmanın, yapay zekanın herkese fayda sağlamasına odaklanan kâr amacı gütmeyen bir yönetim kurulundan, hissedar değerini önceliklendiren bir sisteme kontrolü nasıl kaydırdığını inceliyor.
2025-2026’da yapay zekanın ilerlemesine yönelik 2 büyük soru
Yüksek kabiliyetli yapay zeka sistemlerinin zaman çizelgesi, yeni kabiliyetlerin ne kadar hızlı ortaya çıktığına ve bu kabiliyetlerin daha ileridekilerin geliştirilmesini ne ölçüde hızlandırdığına bağlıdır. Eski OpenAI yönetim kurulu üyesi ve Güvenlik ve Gelişen Teknoloji Merkezi Direktörü Helen Toner, bu gidişatı belirleyecek iki kilit sorunun altını çiziyor.
HABER KÖŞESİ 🗞️
ABD’nin Çin Yapay Zeka Modellerini Değerlendirmesi
- NIST’in Yapay Zeka Standartları ve İnovasyon Merkezi (CAISI), Çin merkezli DeepSeek şirketinin yapay zeka modellerini kapsamlı bir değerlendirmeye tabi tuttu. Değerlendirme sonuçları, DeepSeek modellerinin ABD modellerine kıyasla performans, maliyet, güvenlik ve benimsenme açısından geride kaldığını gösterdi.
- DeepSeek modelleri, fâil ele geçirme saldırılarına karşı 12 kat daha savunmasız,
- Jailbreak saldırılarına karşı %94 oranında başarısız
- Değerlendirme, Trump yönetiminin Amerika’nın Yapay Zeka Eylem Planı kapsamında Çin yapay zeka modellerinin incelenmesi yönergesine doğrultusunda gerçekleştirildi.
RAND Kurumunun Öncü Yapay Zekâ Güvenliği Raporu
- Ekim 2025’te yayınlanan “Sınır Yapay Zekâyı Güvence Altına Alma: Yönetişim Yaklaşımları” raporu, ABD hükümeti ve özel sektör iş birliğini değerlendirdi. Rapor dört farklı yönetişim yaklaşımı önerdi:
- Federal düzenleme ve standartlar
- Hükümet-endüstri ortaklığı
- Endüstri liderliğinde konsorsiyum
- Gönüllü işbirliği ve bilgi paylaşımı
- Yedi farklı uyum çerçevesi incelenerek nükleer, kimyasal ve sağlık sektörlerinden dersler çıkarıldı. Güvenlik uygulamalarının güçlendirilmesi ile inovasyonun korunması arasındaki denge vurgulandı.
Anthropic, Yapay Zeka Modellerinde İçgözlem Yeteneğine Dair Delil Buldu
- Anthropic araştırmacıları, büyük dil modellerinin kendi iç durumlarını gözlemleyebilme ve raporlayabilme yeteneğine sahip olduğuna dair bilimsel kanıtlar sunan yeni bir çalışma yayınladı. Araştırma, Claude Opus 4 ve 4.1 modellerinde sınırlı ama gerçek bir içgözlem (introspection) becerisi tespit etti.
- Çalışmada “kavram enjeksiyonu” adı verilen deneysel bir yöntem kullanıldı: Araştırmacılar, modellerin sinir ağı aktivasyonlarına belirli kavramları temsil eden yapay vektörler enjekte ederek, modellerin bu müdahaleyi fark edip edemediğini ve kavramı tanımlayıp tanımlayamadığını test etti. Claude Opus 4.1, vakaların yaklaşık %20’sinde enjekte edilen kavramları başarıyla tespit etti ve tanımladı.
- Araştırmanın sonuçları, yapay zeka şeffaflığı açısından önemli çıkarımlara sahip. Eğer içgözlem yeteneği daha güvenilir hale gelirse, modellere düşünce süreçlerini açıklamaları istenebilir ve bu da sistemlerin davranışlarını anlamayı ve hata ayıklamayı kolaylaştırabilir. Ancak araştırmacılar, bu yeteneğin henüz oldukça güvenilmez ve sınırlı kapsamda olduğunu, ayrıca modellerin kendi iç durumlarını yanlış temsil edebilme veya gizleme olasılığına karşı dikkatli olunması gerektiğini vurguluyor.