İşlemcilerde büyük tehlike: Radyoaktif bozulma

Muskious

New member
Birinci mikro işlemci kabul edilen Intel 4004 üzerinden 50 yıl yani yarım yüzyıl geçmiş durumda. Bu 50 yıl yonga dünyasında büyük ihtilallerin ve atılımların yaşandığına şahit oldu. Bilhassa Moore yasasının ortaya atılması bu ilerlemenin temelini oluşturdu.

Gelişmeler inanılmaz ancak ya daha sonra?

Intel şirketinin kurucularından Gordon Moore’un her 18 ya da 24 ayda bir tümleşik devre üzerinde yer alan transistör sayısının ikiye katlanacağını ve verimliliğin artacağını söylemiş olduği Moore Yasası yardımıyla yonga teknolojilerinde de bir yarış başladı.

Intel 4004 işlemcisi 2300 transistör barındırmaktaydı fakat bugün Nvidia GA100 ünitesinde 54 milyar transistör yer alıyor. Üstelik 7nm üzere pek gelişmiş süreçleri konuşuyoruz.

Önümüzdeki senelerda süreçler 1nm düzeyine inerken transistör sayıları da katlanarak artacak.
Ne var ki bu süratli gelişme birlikteinde epey büyük bir riski de getiriyor. Araştırmacıların radyoaktif bozulma olarak tanımladığı bu risk işlemcilerin çalışma halinde büyük bir deformasyona sebep olabilir.

Facebook yonga mühendislerinin geçtiğimiz Şubat ayında yayınladığı bir rapor, gerekli önlemler alınmazsa işlemci dünyasında büyük bir problemin baş göstermek üzere olduğunu belirtiyor.

Fark edilmeyen bilgi bozulmaları

Fark edilmeyen bilgi bozulmaları olarak da tanımlanan ve SDC (Silent Veri Corruption) olarak kısaltılan data yanlışı son periyot işlemcilerinde gözlemlenmeye başladı ve uygulama düzeyinde süreçlerin düzgün bir biçimde yürümesine mahzur oluyor yahut yanlışlara sebep oluyor.

İlginizi Çekebilir Intel ve Qualcomm güçlerini birleştiriyor

Araştırmacılar 3 yıl üzere bir müddetç içerisinde Facebook’un devasa sunucu çiftliklerinde araştırmalar yapmış ve bunun 18 ayı data bozulmalarını test etmekle geçmiş. Rapor bilgi bozulmalarının mümkün senaryoları üzerine ve daha sonrasında tesirleri ile ilgili daha ayrıntılı raporlar da yayınlanacak.

Üretim süreçlerinin gelişmesi ile birbirine epeyce yaklaşan transistörlerde elektronların rahat hareket alanı kalmadığı için kozmik ışınımdan etkilenmeye başladığı tabir ediliyor. Bu tesir bir Bit bedeli 0 iken 1 üzere gösterebiliyor ya da 1 iken 0 üzere gösterebiliyor.



Raporda 2+3 biçiminde işlemciye verilen bir komutun bilgi bozulmaları niçiniyle 6 kararınu çıkarabileceği belirtilmiş. Ya da bir Facebook kullanıcısının data tabanından çağırdığı bilgi olağanda sıfırdan büyük bir boyutta iken yanılgı niçiniyle 0 üzere görünüyor ve uygulama kusur veriyor ya da datayı silinmiş üzere davranıyor. Bilgilerin sıkıştırılması, kodlama lisanları içinde dönüştürme üzere bir epeyce uygulama bundan etkilenebiliyor.

Milyarlarca bilgi işleyen sunucularda ya da yapay zekâ süreçleri gerçekleştiren sistemlerde bu çeşit data yanlışlarının epeyce kritik sonuçlar doğurabileceği söz ediliyor. Yapılan testlerde yüzlerce sunucu işlemcisinin bu yanlıştan etkilendiği tespit edilmiş. İşin berbat tarafı mevcut sistemlerin net olarak bu bozulmaları tespit edebilmesi de mümkün değil.

Ortak akıl koşul

Yanılgı düzeltme sistemi – ECC olan SRAM mamüllerinde bu kusurların makul bir seviyede düşük kaldığı görülmüş fakat CPU tarafında bu pek mümkün olmadığı için belirlenmiş ortalamaların üzerinde kusurlar ortaya çıkmış.

Data yanılgılarının üretim kademesindeki testler esnasında gözden kaçabileceği üzere kullanıma giren bir işlemcide ilerleyen devirlerde ortaya çıkabileceği de belirtiliyor. Ya da ömrünü tamamlamış işlemcilerin de bu yanılgıları gösterebileceği lisana getiriliyor.

Uzmanlar data bozulmalarını ayıklayabilmek için derleyici optimizasyonu, harici kütüphanelere bağımlılığın azaltılması, istek dışı dallanmaların azaltılması, gereksiz komut setlerinin giderilmesi üzere tavsiyelerde bulunuyor.

Donanım tarafında data bozulmalarına karşı önlem alabilmek için korunaklı bilgi yolları, özel test süreçleri, mimari tarafta evvelari bir daha belirlemek ve ölçeklendirme yapan müşteriler ile daima temas halinde olmak tavsiye ediliyor.

Son olarak raporda yonga kesiminin bu yanlışların ortaya çıkmaması için iş birliği halinde olması ve hem donanım tarafında birebir vakitte yazılım tarafında yeni süreçler ortaya koyarak sorunun üstesinden gelinmesinin gerekliliğine vurgu yapılıyor.


Kaynakça https://arxiv.org/abs/2102.11245