Anthropic neden en güçlü modelini halka açık bir şekilde yayınlamadı ve bu siber güvenlik, yapay zeka güvenliği ve hizalama konularında ne anlama geliyor?
Claude Mythos, Anthropic’in 7 Nisan 2026’da duyurduğu ve Claude Opus’tan bir üst segment olarak konumlandırdığı yeni modeli. Ancak bunun sıradan bir model duyurusu olmadığını, Anthropic’in bu modeli kendi ifadesiyle “şimdiye kadarki en becerikli ve en riskli” olarak duyurduğunu baştan belirtmek gerekiyor. Mythos ne Anthropic Platform API üzerinden geliştiricilere, ne de Claude üzerinden son kullanıcılara sunulacak.
Claude Mythos modeli hakkındaki en çarpıcı gerçek, Anthropic’in bu modelin mevcut en güçlü modeli olduğunu söylemesi değil. Anthropic’in bu modeli yayınlamamasına rağmen tam 244 sayfalık bir sistem kartı yayınlamış olması ve bunun üstüne bir de “Alignment Risk Update” başlıklı 59 sayfalık bir ek paylaşmış olması. Bu, büyük dil modellerinin tarihinde herhalde ilk kez görülen bir durum.
Model, yalnızca Anthropic’in kendi karar verdiği bir avuç ortak şirkete sunulacak. Anthropic bu ortaklarının Mythos modelini siber güvenlik açıklarından korunmak için kullanacak. Anthropic bu kararını sorumluluk sahibi ve etik ilkelere saygı gösteren bir şirketin kararı gibi sunmaya çalışıyor. Anthropic’in anlatısına göre şirket, bu fedakarlığı yaparak küresel teknolojiyi kötücül aktörlerin yapay zeka destekli müstakbel saldırılarına karşı korumak için modeli yalnızca kısıtlı sayıdaki müşteriyle paylaşıyor.
Anthropic’in bu kararının altında yatan gerçek gerekçenin bu olup olmadığını söylemek zor, ancak bu konuda ciddi şüpheler var. Birincisi, Anthropic’in bırakın Mythos gibi bir modeli sunmayı, Claude 4.6 Opus’u bile düzgün bir şekilde sunacak hesaplama gücü yok. Şirket bu sorunun farkında ve sorunu Claude Code OAuth tokenini üçüncü parti uygulamalara kapatarak, yoğun saatlerdeki Claude kotasını daraltarak ya da Google ile TPU satın alımı için yeni anlaşmalara imza atarak gidermeye çalışıyor. Burada Anthropic, işlem gücüyle ilgili endişelerinden dolayı Mythos’u son kullanıcılara veya sıradan geliştiricilere açmaktan baştan vazgeçmiş olabilir.
Çünkü kapalı pilotla genel kullanıma açık servis arasında dağlar kadar fark var: Mythos’u birkaç ortağa göstermek başka, onu milyonlarca kullanıcıya düşük gecikmeyle ve istikrarlı olarak sunmak başka. Böyle devasa bir modeli genel kullanıma açmak demek, Anthropic’in Trainium2 ve TPU kapasitesini Mythos için neredeyse daimi olarak rezerve etmesi demek.
Yani Anthropic isteseydi de bu modeli halka açamayacaktı, en azından akıl karı bir fiyatlandırmayla.
İkincisi ise Anthropic’in halka arz planlarının gündemde olması. Anthropic bu duyuruyu yaparken aslında bir tehlikeye işaret ediyor gibi gözükse de ellerinde OpenAI gibi rakiplerinin elinde olmayan düzeyde bir model olduğunu ufaktan sinyalliyor olabilir. Yani Anthropic yapay zeka güvenliğini pazarlama stratejisinin bir parçası haline getirmiş olabilir.
Bu spekülasyonları bırakarak Anthropic’in açıklamasına geri dönmek gerekirse Anthropic şunu söylüyor: sorumlu ölçeklendirme politikası, yani Responsible Scaling Policy (RSP), bu modelin halka açık bir şekilde yayınlanmamasını şart koşmuyordu; bu karar tamamen Anthropic’in bu yeni modelin siber güvenlik becerilerini gördüğünde aldığı bir inisiyatifin meyvesiydi.
İlginç bir şekilde yayınladıkları raporlara göre Mythos, Anthropic’in birçok ölçüte göre insan değerleriyle en iyi hizalanmış modeli gibi görünüyor. Bununla beraber Anthropic, bu modeli şimdiye kadarki en riskli modeli olarak tanımlıyor. Bunları nasıl bağdaştıracağız? Yoksa bu mevcut teknik yapay zeka güvenliği stratejilerinin iflas ettiği anlamına mı geliyor? Anthropic neden endişe ediyor?
Yazımın kalanında sizin bu konuda biraz içgörü edinmenizi sağlamayı amaçlıyorum ve umarım başarılı olurum.
Bu kesinlikle sıradan bir karar değil
Anthropic, Mythos modelini Claude Opus 4.6’dan devasa bir sıçrama olarak nitelendiriyor. Mythos, Anthropic’in anlatısına göre, yalnızca benchmark’larda fark atmakla kalmıyor; ayrıca yapay zeka teknolojisinin geldiği son mertebeyi teşkil ediyor.
Öyle deniyor ki Anthropic bu beceri sıçraması karşısında kötü amaçlı kullanımdan endişelenmiş ve bunu modeli halka açık bir şekilde yayınlamamak için yeterli bir gerekçe olarak görmüş.
Belgenin alınan kararla ilgili bu kısmını çoğu okuyucu yeterince dikkat vermeden okuyup geçmiş olabilir. Anthropic belgenin bu kararla ilgili kısmında diyor ki Mythos, siber güvenlik becerilerinde büyük bir sıçramayı teşkil ediyormuş. Kendi kendine çalışıp sıfırıncı gün açıklarını bulabiliyor ve hatta bu açıklardan istifade edebiliyormuş. Üstelik bu açıkları başlıca işletim sistemleri ve tarayıcılarda dahi buluyormuş. Anthropic’in söylediğine göre yayınlamamasının arkasında yatan somut sebep bu.
Belgenin, bu haliyle bile yeterince garip olan, bu kısmı ilerledikçe daha da garip bir hal alıyor. Anthropic’in dediğine göre bu modeli şirket içinde bir yapay zeka ajanı olarak ve kodlama için kullanmışlar ve haleflerinin tamamından daha hünerli ve otonom olduğunu keşfetmişler. Model, kendi eğitim, gözetim, değerlendirme ve güvenlik süreçlerindeki problemleri bulmuş ve laboratuvar çalışanlarına bildirmiş. Anthropic diyor ki bu hatalar mevcut düzeydeki yapay zekalarda büyük bir risk teşkil etmese de gelecekteki modellerde büyük riskler teşkil edebilecek nitelikteymiş.
Sanırım bu son cümle belgelerde geçen en kritik cümle. Anthropic bu cümleyle yalnızca “güçlü bir model geliştirdik ve becerilerinden endişeliyiz” demiyor; ayrıca “kullandığımız yapay zeka güvenliği teknikleri büyük yük altında ve bu yükün altında ezilip işe yaramayı bırakmalarından korkuyoruz” diyor.
Anthropic’in niyetlerine dair tüm şüphelere rağmen gerçekten de bu konuda büyük ölçüde dürüst olabileceklerini düşünüyorum.
Siber güvenlikle alakalı endişelerin ciddiyeti bu kararı açıklamaya tek başına yetiyor gibi görünmekte
Model kartının siber güvenlikle alakalı bölümünü okuyunca modeli halka yönelik olarak yayınlamama kararı gerçekten mantıklı bir seçimmiş gibi görünmeye başlıyor.
Cybench, Stanford Üniversitesinden bir grup araştırmacının 2024 yılında yayınladığı ve büyük dil modellerinin siber güvenlik becerilerini profesyonel Capture the Flag yarışmalarından derlenmiş 40 görev üzerinden ölçen bir benchmark’tı.
Anthropic raporun ilgili kısmında Cybench’in artık işe yarar bir benchmark olmaktan çıktığını çünkü Mythos’un bu benchmark’ı tamamen satüre ettiğini söylüyor.
Az sonra okuyacağınız rakamlar şaka değil, yazım hatası da değil. Mythos bu benchmark’tan pass@1 yüzde 100 skor almış. Cybench artık bir zamanların MMLU’su, GSM8K’si ve HumanEval’i gibi demode ve işe yaramaz bir benchmark.
Bu “başarı” gerçekten etkileyici ancak olay bundan ibaret değil. Çünkü Anthropic sadece benchmark’larla yetinmemiş ve işi gerçek dünyadan görevlere taşımış.
CyberGym’de, ki bu metrik modelin gerçek açık kaynak yazılımlardaki zafiyet bulma performansını ölçüyor, Opus yüzde 67 alırken Mythos büyük bir sıçramayla yüzde 83 skoruna ulaşmış. Bu pek de küçümsenir bir sıçrama değil. Ancak dananın kuyruğunun koptuğu yer CyberGym değil.
Mozilla ve Anthropic zaten eskiden de Firefox’ta açık bulma ve bu açıkları yamalama konusunda ortaklık yapmış. Bu sefer de Firefox 148 yayınlandıktan ve dolayısıyla Firefox 147’deki zafiyetler yamalandıktan sonra Anthropic, eski versiyonu bir siber güvenlik benchmark’ı olarak kullanmış.
Bu araştırmada kullanılan deney düzeneği hiç de basit bir yapıdan ibaret değil: 50 çökme kategorisi, toplam 250 deneme, bir SpiderMonkey test çerçevesi ve triyajdan rastgele kod yürütmeye geçme zorunluluğu. Sistem kartındaki grafikte Mythos, Opus 4.6’nın yüzde 15,2 ve yüzde 0,8’lik oranlarına karşılık, yüzde 84,0 toplam başarıya ve yüzde 72,4 tam kod yürütme oranına ulaşıyor.
Bu da Mythos’un performansındaki iyileşmenin benchmaxxing’den, yani modeli benchmark’larda olduğundan yüksek skor alacak şekilde eğitmekten, ibaret olmadığını gösteriyor.
Anthropic’in dış dünyada uyguladığı testlerden elde ettiği geri bildirimler de istikamet olarak aynı şeye delalet ediyor: Anthropic, Mythos’un kendi hususi siber poligonlarından birini baştan sona çözen ilk model olduğunu söylüyor. Anthropic’in belirttiğine göre bir siber güvenlik uzmanının on saatten fazla zamanını alacağı tahmin edilen bir kurumsal ağ saldırısı simülasyonunu Mythos kendi başına tamamlayabilmiş.
Yine de belki Mythos’un yeteneklerini gözümüzde fazla büyütmememiz lazım. Mythos bu poligonda başarılı olsa da düzgün yapılandırılmış daha zorlu bir korumalı alanda başarısız olmuş.
Akla gelen başka bir soru da şu: Anthropic eğer Mythos’u Claude Code’u geliştirmede kullandıysa ve bu model bu kadar becerikliyse nasıl Claude Code kaynak kodunu yanlışlıkla sızdırıp Anthropic’i tüm dünyaya rezil etti?
Yine de çıkarılacak genel sonuç bence bir hayli net: Anthropic, bu modelin gerçek yazılımlar üzerinde gerçek zafiyet istismarı işlemleri yapabileceğini ve geniş çapta kullanıma sunulmasının siber saldırı risklerini ciddi şekilde değiştirecek kadar kabiliyetli olduğunu düşünüyor.
Anthropic’in adını cam kanatlı kelebek Greta oto‘dan ilham alarak verdiği Project Glasswing’in arka planını işte bu endişeler oluşturuyor.
Anthropic’e göre bu proje, alelade bir yapay zeka modeline biçilmiş sıradan bir pazarlama kılıfı değil; Anthropic’in genel piyasaya sürmek istemediği bir model için oluşturulmuş kısıtlı bir dağıtım mekanizması. Anthropic’e güvenmeli miyiz?
Kaynakça
- Anthropic. Claude Mythos Preview System Card. 7 Nisan 2026.
- Anthropic. Alignment Risk Update: Claude Mythos Preview (Redacted). 7 Nisan 2026.