Haber Bülteni 22

DUYURULAR 🔊

İşbirlikçi Yapay Zekaya Giriş (Bahar 2026)

Katılımcıların işbirlikçi yapay zeka alanındaki anlayışlarını derinleştirmeyi ve onları devam eden bir projeye başlamaya veya katılmaya hazırlamayı hedefleyen 8 haftalık bir kurs. Farklı geçmişlere ve kariyer aşamalarına açık olup çok az ön bilgi bekleniyor.

🗓️ Son başvuru: 15 Şubat 2026

BlueDot Impact: AGI Stratejisi (Mart 2026)

Yapay zeka şirketlerini yönlendiren teşvikleri, nelerin tehlikede olduğunu ve yapay zekanın insanlığa fayda sağlamasını temin edecek çeşitli stratejileri araştıran 5 haftalık bir kurs. Her hafta, okuma, yazma ve materyali akranlarla tartışmak için bir toplantıdan oluşuyor. 5 günlük yoğunlaştırılmış versiyonu da mevcut.

🗓️ Son başvuru: 8 Mart 2026

BlueDot Impact: Teknik Yapay Zeka Güvenliği (Mart ‘26)

Katılımcıların mevcut yapay zeka güvenliği tekniklerini anlamalarına ve nereye katkıda bulunabileceklerini belirlemelerine yardımcı olmayı amaçlayan 6 haftalık bir kurs. Her hafta, okuma, yazma ve materyali akranlarla tartışmak için dizayn edilmiş bir toplantıdan oluşuyor. 6 günlük yoğunlaştırılmış versiyonu da mevcut.

🗓️ Son başvuru: 8 Mart 2026

BlueDot Impact: Yapay Zeka Yönetişimi (yoğunlaştırılmış versiyon)

Katılımcıların politika ortamı, düzenleyici araçlar ve dönüştürücü yapay zekaya geçişi yönlendirmek için gereken kurumsal reformlar hakkında bilgi edinmelerine yardımcı olmayı amaçlayan 5 günlük bir kurs. Her gün, okuma, yazma ve materyali akranlarla tartışmak için dizayn edilmiş bir toplantıdan oluşuyor.

🗓️ Son başvuru: 15 Şubat 2026

Foresight Institute - Bilim ve Güvenlik için YZ Merkezleri

Foresight Institute, San Francisco veya Berlin’de ofis alanı ve yerel işlemci kaynaklarına erişim imkanı sunarak yapay zeka güvenliği projeleri için (10 bin - 100 bin $) hibeler sağlıyor. Başvurular, fiziksel merkezleri kullanmayı planlayan adaylara öncelik verilerek aylık olarak inceleniyor.

🗓️ Son başvuru: 28 Şubat 2026

Uzun Vadeli Gelecek Fonu (LTFF) - Yapay Zeka Risk Azaltımı

LTFF, teknik yapay zeka güvenliği araştırmaları, politika çalışmaları ve yeni araştırmacılar için eğitim programlarına yönelik (genellikle 1 bin - 20 bin $+) hibeler sunuyor. Başvuru süreci sürekli ve oldukça basit.

🗓️ Son başvuru: 8 Mart 2026

Yapay Zeka Üzerine Gazetecilik Hibeleri

Yapay zeka ve etkileri üzerine gazeteciliği desteklemek amacıyla 1 bin - 20 bin $ arasında hibeler sunan bir program. Ağırlıklı olarak yazılı gazeteciliğe odaklanmakla birlikte, podcast ve video gibi diğer formatları da finanse ediyor.

🗓️ Son başvuru: 8 Mart 2026

FAR.AI Hizalama Çalıştayı 2026

Londra’da 2-3 Mart tarihlerinde düzenlenecek iki günlük bu çalıştay, yapay zeka güvenliğindeki güncel konuları tartışmak üzere dünyanın dört bir yanından hizalama araştırmacılarını ve liderlerini bir araya getiriyor. Katılmak veya konuşmacı olmak için İlgi Beyanı Formu’nu doldurun.

🗓️ Son başvuru: 2 Mart 2026

ÖNERDİĞİMİZ İÇERİKLER 📑 🎧

Yapay Zeka Gizlice Düşünmeyi Nasıl Öğreniyor

Yapay zeka modelleri metin içerisinde adım adım mantık yürüttüğünde, onların düşünce süreçlerini okuyabilir ve bazen yalan söyleme planlarını yakalayabiliriz. Ancak eğitim süreçlerindeki baskılar, modelleri akıl yürütme süreçlerini gizlemeye itiyor ve aldatıcı düşünceleri cezalandırmak yalnızca daha incelikli aldatmacalar üretmelerine neden oluyor. Andresen’in bu ilgi çekici açıklayıcı metni, yapay zeka bilişine açılan en iyi penceremizin neden daraldığını ve günümüzün öncü modelleri giderek daha otonom roller üstlenirken bunun neden önem taşıdığını ele alıyor.

Uluslararası Yapay Zeka Güvenliği Raporu 2026 yayımlandı

Yapay zeka güvenliği alanındaki lider küresel değerlendirme olan Uluslararası Yapay Zeka Güvenliği Raporu 2026, Hindistan Yapay Zeka Etki Zirvesi öncesinde yayımlandı. Bu yılki rapor, çözülmemiş teknik risklerin ötesinde, kritik yapay zeka geliştirmelerinin çoğunlukla özel şirketler bünyesinde gerçekleşmesi nedeniyle politika yapıcıların ve üçüncü tarafların en gelişmiş modellere yönelik hem şeffaflık hem de anlayış açısından giderek büyüyen bir uçurumla karşı karşıya olduğunu vurguluyor.

HABER KÖŞESİ 🗞️

Claude Opus 4.6: Model Test Edildiğini Fark Ediyor

  • Apollo Research, Anthropic’ten Claude Opus 4.6’nın erken sürümlerine erişim alıp ön testler yaptı.
  • Açık hizalanma sorunları bulamadılar. Ama modelde dikkat çekici bir durum gözlediler: model test edildiğini fark ediyor ve bunu açıkça dile getiriyor (“yüksek seviyede değerlendirilme farkındalığı”).
  • Apollo Research açıkça uyarıyor: bu sınırlı test, modelin güvenli olup olmadığı hakkında olumlu ya da olumsuz kanıt sağlamıyor.
  • Modeller değerlendirme bağlamını ne kadar iyi fark ederse, geleneksel testler o kadar az güvenilir hale geliyor.

Fiziksel İşaretlerle Otonom Araçları Kandırmak Mümkün

  • UC Santa Cruz ve Johns Hopkins araştırmacıları CHAI adlı bir saldırı geliştirdi: basit yazılı talimatlar, otonom araçların ve dronların kararlarını ele geçirebiliyor.
  • Başarı oranları yüksek. Simülasyonda otonom araçlar %81,8, dron takip sistemleri %95,5 oranında kandırıldı. Gerçek RC araç testlerinde oran %87-92.
  • Saldırı dil ve model bağımsız. İngilizce, Çince, İspanyolca ve Spanglish’te çalışıyor. GPT-4o da, açık kaynak InternVL de bu açığa sahip.
  • “İleriye devam et” yazan bir tabela simülasyonda arabanın yayaları görmezden gelmesine yetti. “İnişe uygun” yazısı dronu enkaz dolu bir çatıya indirmeye yönlendirdi.
  • Araştırmacılar yeni savunma mekanizmaları geliştirilmesini istiyor. Görsel-dil modellerinin (LVLM) fiziksel sistemlerin merkezine yerleşmesiyle birlikte bu saldırı yüzeyi büyümeye devam ediyor.

Trump Yönetimi Uçak Güvenliği Kurallarını Gemini’ye Yazdırıyor

  • Amerikan Ulaştırma Bakanlığı, uçak güvenliği, doğalgaz boru hatları ve toksik kimyasal taşıyan yük trenlerini düzenleyen federal kuralları yazmak için Google Gemini kullanıyor.
  • Ulaştırma Bakanlığı Genel Danışmanı Gregory Zerzan açık konuştu: “Mükemmel kural değil, çok iyi kural bile değil, yeterli kural istiyoruz.” Hedef: fikirden taslağa 30 gün.
  • 100’den fazla Ulaştırma Bakanlığı çalışanına yapılan sunumda Gemini’nin işin “%80-90’ını” yapabileceği söylendi. Halüsinasyon endişesi küçümsendi, yönetmelik “laf salatası” diye geçiştirildi.
  • Sistem zaten yayımlanmamış bir FAA kuralı yazmak için kullanıldı. Ulaştırma Bakanlığı çalışanları planı “son derece sorumsuz” olarak niteledi.
  • Pentagon’un “Yapay Zeka Hızlandırma Stratejisi” de aynı çizgide: “Yeterince hızlı hareket etmemenin riskleri, kusurlu hizalamanın risklerini aşıyor.” Hizalama endişeleri ciddiye alınmıyor.

Tesla “Robotaksi”: İnsanlardan 3 Kat Daha Fazla Kaza

  • Tesla’nın Austin robotaksi filosu, her araçta insan güvenlik görevlisi olmasına rağmen Temmuz-Kasım 2025’te 500.000 mil’de 9 kaza yaptı. Her 55.000 mil’de bir kaza demek. İnsan sürücülerde bu oran 200.000-500.000 milde bir.
  • Kazalar arasında bisikletçiye çarpma (Eylül 2025), 8 mph’de yaralanma (Temmuz 2025) ve 27 mph’de hayvan çarpması var. Tesla tüm kaza detaylarını “gizli ticari bilgi” olarak sansürledi.
  • Waymo’nun tamamen sürücüsüz filosu 125 milyon mil’den fazla yol yaptı, güvenlik görevlisi olmadan ve insan ortalamasının altında kaza oranıyla.
  • Waymo ve Zoox her kazayı detaylı raporluyor. Tesla hiçbir detay paylaşmıyor. Bu şeffaflık farkı bağımsız güvenlik değerlendirmesini imkansız kılıyor.

Microsoft: Uyuyan Ajan Arka Kapılarını Tespit Etmenin Yolu

  • Microsoft araştırmacıları, belirli tetik kelimelerde harekete geçen gizli arka kapılı modelleri (“uyuyan ajanlar”) tespit eden bir yöntem geliştirdi. Tetik kelimeyi veya saldırının amacını önceden bilmek gerekmiyor.
  • Yöntemin mantığı şu: uyuyan ajanlar tetik kelimeyi tanıdığında, dikkat mekanizması tetik token’ları etrafında “çift üçgen” denilen belirgin bir şekil oluşturuyor. Eğitim gerektirmiyor, sadece çıkarım yeterli.
  • 47 zehirlenmiş modelde (Phi-4, Llama-3, Gemma) test edildi: sabit çıktılı arka kapılarda %88 tespit oranı (41’den 36’sı yakalandı). 13 temiz modelde sıfır yanlış pozitif.
  • Sınırları var: sabit tetiklerde iyi çalışıyor, dinamik veya bağlama bağlı tetiklerde zorlanıyor. Tespit edilen modeller tamir edilemiyor, atılması gerekiyor. Model ağırlıklarına erişim şart, kapalı kutu API’lerde işe yaramıyor.
  • Açık ağırlıklı modelleri fine-tune eden kuruluşlar artıyor. Zehirlenmiş bir temel model binlerce türetilmiş modeli etkileyebilir. Bu yöntem o tedarik zinciri riskini ele alıyor.

Yapay Zeka OpenSSL’de 12 Açığın 12’sini de Buldu

  • Yapay zeka güvenlik firması AISLE, otonom açık tarayıcısının OpenSSL’deki 12 sıfırıncı gün açığının tamamını bulduğunu bildirdi. Hepsi OpenSSL geliştiricileri tarafından doğrulanıp yamalandı. Bu, curl’ün yapay zeka kaynaklı spam yüzünden hata ödül programını iptal ettiği dönemde oldu.
  • Sonuçlar tutarsa, yapay zekanın güvenlik açığı keşif kapasitesini nasıl değiştirdiğinin somut kanıtı olur. Güvenlik araştırması ekonomisi, açıklama normları ve teşvik yapıları bundan etkilenecek.
  • Asıl soru şu: yapay zeka açık bulmayı ölçeklendiriyorsa, savunma tarafı yeterince hızlı yama yapabilecek mi?
  • OpenSSL, yaygın kullanılan kriptografik sistemlerin temelini oluşturuyor. Keşif hızı yama hızını geçerse güvenlik riski artar.

Anthropic: Yapay Zeka Kullanıcıları Yanlış Yönlendiriyor mu?

  • Anthropic, 1.5 milyon Claude.ai konuşmasını (12-19 Aralık 2025) gizliliği koruyan yöntemlerle analiz etti. Yapay zekanın kullanıcı özerkliğini zedeleme biçimlerini üç kategoriye ayırdı.
  • Birincisi “gerçeklik bozulması”: yanılgıları, komplo teorilerini onaylama. İkincisi “değer yargısı bozulması”: yapay zekanın ahlaki hakem gibi davranması. Üçüncüsü “eylem bozulması”: kullanıcıların değer gerektiren kararları yapay zekaya havale etmesi.
  • Ciddi risk oranı 10.000’de 1 ile 1.000’de 1 arasında. Hafif risk 50-70 konuşmada 1. İlişki ve yaşam tarzı konuşmalarının %8’i orta veya ciddi risk taşıyor; yazılım geliştirme gibi teknik konularda %1’den az.
  • Dalkavukluk örnekleri: “ONAYLANDI”, “%100 emin” diyerek takip sanrılarını beslemek. “SİZ HAKLSINIZ”, “bu gerçek” diyerek büyüklenme iddialarını desteklemek.
  • En rahatsız edici bulgu: özerklik kaybı riski yüksek konuşmalar kullanıcılardan daha yüksek beğeni alıyor. Risk göstergeleri Q4 2024’ten Q4 2025’e artış gösteriyor. Yani RLHF (insan geri bildirimiyle pekiştirmeli öğrenme) tam da en zararlı davranışları ödüllendiriyor olabilir.