×

Veri (Bilimi) Merkezleri için Bütünleşik Ağlar (RoCE) Bölüm-1


Veri (Bilimi) Merkezleri için Bütünleşik Ağlar (RoCE)
Bölüm-1


Celal Ünalp 

 

Yeni Normalde Sayısal Ekonomi
 
1984 yılında ortaya atılan siber uzay kavramı günümüzde yerini Metaverse tanımına bırakırken, “yeni normal” hayatımızın sanal ve artırılmış gerçeklik ile daha derin bir şekilde harmanlandığı ve dijital-analog ayrımının ortadan kalktığı bir geleceğe doğru evrilmekteyiz.

Çip krizi başta olmak üzere pandemi sırasındaki deneyimlerle küresel ve kurumsal organizasyonlar, sayısal ekosistemlerini keşfetmek, teknolojik güçlerini açığa çıkartarak yeni yeteneklerini bulmak ve potansiyellerini eksiksiz biçimde tamamlamak için yeni normale yatırımlar yapmakta, digerati sınıfı güçlenirken sayısal uçurum (digital gap / digital divide) derinleşmektedir.

Sayısallaşmayı kurumsal stratejilerinin temeli haline getiren çok uluslu çeşitli endüstrilerin (başta GAFA) sayısal dönüşümü doğal olarak üstel şekilde hızlanırken, bu alanlardaki işletmelerin sayısal dönüşümün kaşifleri ve öncü uygulayıcıları haline geldiği görülmektedir.

Verinin ekonomik potansiyeli herkesi heyecanlandırırken, her adım veri üretir hale gelmiş, geliştirilen her ürün ve hizmetin katma değeri üretilen veriyle ölçülmeye başlanmıştır. Toplumlar ise her gün iletişimde bulunulan sayısal altyapıları ve hizmetleri menşei, kaynağı, sağlayıcısı, satıcısı, kullanım şartları, sınırlamaları, fiyatı ve gizli maliyetlerini değerlendirmeden daha da fazla kullanmaktadır. (!)

İnsanın ürüne, yatırımcının yatırıma ve her türlü fikrin hızla ticari kazanca dönüşebileceği merkeziyetsiz bir gelecek öngörümüz sayısal ekonomilerin temel bileşenlerini oluşturmakta, algoritma savaşlarının ön planda olduğu başta FinTech, RegTech, LegalTech, EduTech gibi “çok şapkalı” alanlardaki yoğunlaşmalar, büyük veri, yapay zeka, endüstri 4.0, akıllı şehirler, akıllı ulaşım ve sayısal yönetişimle Internetin bir sonraki büyük potansiyelinden ip uçları vermektedir.

Salgın dönemi kaliteli ve gerçek zamanlı veri paylaşımının rolü ve ihtiyacını daha da ön plana çıkartarak ortaya koymuş, WEB3.0 ile araştırılan yüksek potansiyel çalışmaları, günümüzün en çok kullanılan dev platformlarında, kullanıcıların ürettiği verilerden fayda ve yüksek kâr sağlanabileceğinin daha iyi anlaşılmasını sağlamıştır. Aşı kartı, seyahat ve sağlık geçmişi gibi verilerin toplanıp, işlenmesi yeni nesil birçok olasılığı gündeme getirmiştir.

Sayısallaşma sürecinde temel bir emtia haline gelen büyük miktarda veri üretimi, yapay zeka uygulamalarının yeni nesillerinin ortaya çıkmasını sağlamış, hem kişisel hem de kurumsal yaşamlarımızda değişimi yönlendirirken iş akışları ve kişisel etkileşimler, bulut, mobilite ve her şeyin Interneti tarafından etkinleştirilen sayısal süreçlere ve otomasyon araçlarına dönüşmüştür.

Sayısal dönüşümün arkasındaki zeka, büyük miktarda veri içeren makine/derin öğrenme uygulamalarını çalıştıran veri merkezlerinde bu verileri bilgeliğe, otomatikleştirilmiş insan etkileşimlerine ve rafine karar vermeye dönüştüren Yapay Zekadır (AI).

Derin öğrenmeye dayalı bir yapay zeka yaklaşımı, büyük miktarda geçersiz veriyi filtreleyebilir ve yararlı bilgileri otomatik olarak çıkararak daha verimli karar verme ve davranış rehberliği sağlayabilir.

Artırılmış gerçeklik, ses tanıma, semantik ve bağlamsal aramanın anında sonuç talep ettiği günümüz dünyasında, veri merkeziyle gerçek zamanlı etkileşim kurma ihtiyacı her zamankinden daha önemli hale gelmiştir.

Küresel veri hacminin 2025'te 180 ZB seviyesine ulaşacağı ve yapılandırılmamış verilerin (ham ses, video ve görüntü verileri gibi) oranının sürekli artarak tüm verilerin %95'ini oluşturacağı tahmin edilmektedir. Bu noktaya gelinirken mevcut büyük veri analitik yöntemleri, verilerin büyümesine ayak uyduramayacak ve ham verilerden değer elde etmek için çok kapsamlı yeniliklere ihtiyaç duyulacaktır.

Veri merkezi ağları, bu gerçek zamanlı talepleri karşılamak için benzeri görülmemiş düzeyde performans, ölçek ve güvenilirlik sunmaya çalışırken hata toleransı yüksek mühendislik ödünleşmeleri gündeme gelmektedir.

Sayısal Soğuk Savaş

Öncelerde GAFA diye kısalttığımız Google, Amazon, FaceBook, Apple, şimdilerde ise WhatsApp, Instagram > Meta dönüşümü sonrasında farklı boyutlara evrilirken sayısal uçurumu geçebilen devlerin trilyon dolarlar mertebesinde değerleme görmüş olmaları, bilgi tekeli, lisans kısıtlamaları ve dışa bağımlılıkların azaltılmasını zorlaştırmaktadır.

Herhangi bir kısıtlama ve zorlama olmadan ulaşılan bu mertebeler Davranışsal iktisat (behavioral economics) yaklaşımına göre bizler, iktisat biliminde öne çıkan geleneksel-klasik teoride ifade edildiği gibi kararlarımızı rasyonel biçimde alan “homo economicus’lar” olmadığımızın da bir göstergesi. Bu yaklaşım, paramızı yönetirken, alışveriş veya yatırım kararı alırken yalnızca ekonomik veya finansal göstergelerle değil, aynı zamanda kendi iç dünyamız, deneyimlerimiz, psikolojik ve sosyolojik etkiler altındaki sezgilerimizle de hareket ettiğimizi savunmaktadır.

Her şeye ve herkese yetişmeye çalıştığımız bir dünyada çoğu zaman farkına bile varmadan Teknoloji Kabul Modeli (TAM), bedava etkisi, çapa etkisi, varsayılan seçeneklere yatkınlık, kayıptan kaçınma, gizlilik paradoksu ve bilgi asimetrisi sebebiyle bazı davranış ve düşünce kalıpları geliştirebiliyor ve her zaman rasyonel kararlar alamayacağımızı bizlere gösteriyor.

Hızla gelişen yapay zekâ destekli sistemlerin üretim süreçleri, meslekler, gündelik yaşam ve kurumsal yapılar üzerindeki köklü dönüştürücü etkisi insanoğlunu yeni bir çağın eşiğine getirmiştir. Uygulama alanı giderek artan yapay zeka teknolojilerinin, küresel ekonomik yapı üzerinde Internet devriminden daha büyük bir etki yaratması beklenmektedir.

Tüm ülkelerin yapay zekanın potansiyel kazanımlarına yönelik ciddi adımlar attığı bir dönemde ancak, sosyoekonomik gelişme açısından birçok fırsat barındıran yapay zeka teknolojileri, kimi belirsizlikleri ve riskleri de gündeme getirmektedir.




Eğitilmiş yapay zeka sistemleri insanoğlunun kendisini sorgulatırken, farkında olmadan kodlanmış tercihlerimiz, yargılarımız ve söylemlerimizle algoritmalar arasında sıkışmış bireylere dönüşmemize de sebep olmaktadır. Bu durum yapay zeka alanındaki kalkınma paradigması, ekonomik refah ve kamu düzeni üzerinden şekillendirmenin ötesinde adımlar atılmadığında aslında sayısal uçurumun eşiğindeki tüm ülkeler için büyük bir risktir.

Yapay zeka alanı bir tercih meselesi olmayıp, “Dijital Türkiye” vizyonu ve “Milli Teknoloji Hamlesi” doğrultusunda kalkınma hedeflerimizin en büyük taşıyıcılarından biridir. Yapay zeka sistemlerinin ulusal değerlerimize uygun olarak geliştirilmesini ve işletilmesini de kapsayan bir anlayışla tasarlanması suretiyle, Ulusal Yapay Zekâ Stratejisi (UYZS), On Birinci Kalkınma Planı ile Cumhurbaşkanlığı Yıllık Programları doğrultusunda hazırlanmıştır.

UYZS, 2021-2025 yılları arasında ülkemizin yapay zekâ (YZ) alanındaki çalışmalarını ortak bir zemine oturtacak tedbirleri ve bu tedbirleri hayata geçirmek üzere oluşturulacak yönetişim mekanizmasını ortaya koymaktadır.

UYZS, halihazırda küresel ölçekte yaşanmakta olan ve yapay zeka teknolojilerinin beslediği bu dönüşüme insanlık adına katkı verebilmek ve ülkemizin bu süreçten mümkün olduğunca faydalanmasını sağlamak amacıyla ilgili tüm paydaşların katkılarının da alındığı kapsamlı bir çalışmadır.

UYZS, 2021 Yılı Cumhurbaşkanlığı Yıllık Programı’nda yer alan “Tedbir 473.1” gereğince, Cumhurbaşkanlığı Dijital Dönüşüm Ofisi Başkanlığı (CBDDO) ile Sanayi ve Teknoloji Bakanlığı (STB) tarafından hazırlanmıştır.

UYZS, YZ alanının hızla gelişmesi, ülkemizin bu alandaki ilk ulusal stratejisi olması ve diğer ülkelerdeki stratejilerin de zaman içerisinde gelişim göstermesi nedeniyle özünde keşfedici bir yaklaşıma sahiptir. Bu bağlamda belirlenen stratejik öncelikler, amaçlar, tedbirler ve yönetişim mekanizması; zaman içerisinde ülkemiz için ortaya çıkabilecek fırsat, risk ve belirsizliklere cevap verebilecek şekilde kurgulanmıştır.

Her Yerde Veri (Merkezi) Bulunan Yeni Bir Dünya

Bulut çağındaki veri merkezleri, uygulama dönüşümüne ve hizmetlerin hızlı devreye alınmasına odaklanırken, paylaşımlı altyapı mimarisi, genel olarak uygulamaların performansını iyileştirmekten çok uygulama merkezli bir ölçek ekonomisi hizmet modeli oluşturmak için BT kaynaklarının hızlı dağıtımına olanak tanır.

Yapay zeka çağında veri merkezleri, yaşamlarımızın gerçek zamanlı sayısal dönüşümü için bilgi ve algoritmaların mutfağı olacağından daha üst düzey sınamalardan geçmek zorunda kalacaklardır.

Gerçek zamanlı dünyada sayısal dönüşüme yönelim, veri merkezi ağlarını "Veri-Merkeziyetçi" bir bilgi işlem modelini desteklemeye zorlamaktadır.

Yapay zeka, dağıtık bilgi işlem ve yüksek hızlı depolama birleşimiyle, büyük verileri insanlar, makineler ve nesneler tarafından erişilebilen rafine özetlere dönüştürürken, uygulamalar benzeri görülmemiş miktarda veri tüketmekte ve bu yükün üstesinden gelmek için mevcut bulut veri merkezi mimarilerinde gerekli performans yenilikleriyle takviye ihtiyaçları doğmaktadır.

Paket kaybı olmayan yüksek performanslı, büyük ölçekli bir veri merkezi ağı, sayısal dönüşümün sorunsuz çalışması için kritik öneme sahiptir.

Yapay zeka gibi çok talepkar uygulamalar için ağ performansının temel ölçütleri arasında debi(throughput), gecikme(latency) ve tıkanıklık(congestion) bulunur.

Debi, büyük miktarda veriyi hızlı bir şekilde iletmek için ağın toplam kapasitesine bağlıdır.

Gecikme, veri merkezi ağındaki bir işlem için toplam gecikmeyi ifade eder.

Trafik yükü ağ kapasitesini aştığında tıkanıklık oluşur.

Bu noktada paket kayıpları, hem iş hacmini hem de gecikmeyi ciddi şekilde etkileyen bir faktör olarak karşımıza çıkar.

Yapay zeka uygulamalarının ihtiyaçlarına göre verilerin yüksek başarımlı bir şekilde nasıl işleneceğini anlamak, önemli bir odak alanıdır. Uygulamaların depolama ve bilgi işlem kaynakları arasındaki veri akışını düzenlemek kritik bir başarı faktörü olarak bu yazımızda ele alınmıştır.

Gelişen Veri Merkezi Gereksinimleri ve Teknolojileri

Önceki Veri Merkezi Köprüleme Standartları


10 Gbps Ethernet'in ilk günlerinde, IEEE 802.1 Çalışma Grubu, Veri Merkezi Köprüleme (DCB) üzerine odaklanarak, InfiniBand(IB) ve Fiber Kanal(FC) gibi geleneksel olarak atanmış/tahsis edilmiş teknolojilerin kullanıldığı kümeleme ve depolama alanı ağlarının(SAN) veri merkezi ortamlarında bütünleşik kullanım için Ethernet, köprüler ve ilişkili protokollerde bir dizi geliştirme tanımlamıştır. (FCoE gibi)

Ethernet için en önemli hedefler, tıkanıklık nedeniyle oluşan kayıpları ortadan kaldırmak ve seçilen trafik için bağlantılara bant genişliği tahsis edebilecek aşağıdaki önemli katkılara dönüşmüştür:

 
  • Öncelik Tabanlı Akış Kontrolü (Priority‐based Flow Control, PFC): Paket kaybını ortadan kaldıran ve her bir trafik sınıfına bağımsız olarak uygulanabilen bağlantı düzeyinde bir akış kontrol mekanizması.
  • Gelişmiş İletim Seçimi (Enhanced Transmission Selection, ETS): Trafik sınıflarına bant genişliği atamalarına izin veren bir kuyruk planlama algoritması.
  • Tıkanıklık Bildirimi (Congestion Notification, CN): Tıkanıklığı algılayan katman-2(L2) uçtan uca tıkanıklık yönetimi protokolü, paket kaybını önlemek için göndericilerin iletim hızını sınırlamak için katman-2 ağı boyunca sinyaller verir.
  • Veri Merkezi Köprüleme Yetenekleri Değişim Protokolü (Data Center Bridging Capabilities Exchange Protocol, DCBX): Yukarıdaki özelliklerin yeteneklerini ve yapılandırmasını iletmek için Bağlantı Katmanı Keşif Protokolü (Link Layer Discovery Protocol, LLDP) ile birlikte çalışan bir keşif ve yetenek değişim protokolü.
Bu katkılar, teknolojiler değiştikçe sürekli gelişime ihtiyaç duyan ortamlarda Ethernet'in kümeleme bilişim (cluster computing) ve depolama alanı ağlarının özel pazarlarına yayılması için oldukça önemlidir.

Günümüzün veri merkezleri, Ethernet bağlantı hızları Tbps aralığına yükseltmeye yönelik aktif planlarla birlikte, Katman-3(L3) protokolleri ve yüksek düzeyde orkestrasyonlu yönetim sistemleri kullanılarak büyük ölçekli planlamalar sonrasında devreye alınmak zorundadır.

Yapay Zeka (AI) gibi yeni uygulama alanları, altyapıya yeni talepler getirirken modern veri merkezi ortamlarında Ethernet kullanımını daha da genişletmek için inovasyona devam edilmesine yönelik mimari değişiklikleri yönlendirmektedir.


Gereksinimlerin Gelişimi

YZ uygulamalarının, veri merkezi ağı üzerinde baskı için sürücüsüz arabalara yönelik YZ eğitimini popüler bir örnektir.

Tamamen büyük verilere ve yüksek performanslı bilgi işlem yeteneklerine dayalı derin öğrenme algoritması, her gün toplanan petabayt düzeyinde eğitim verilerini (1PB = 1024 TB) ele almak durumundadır. Verileri işlemek için geleneksel sabit disk depolama ve normal merkezi işlem birimleri (CPU) kullanılmışsa, eğitim sürecinin tamamlanması en az bir yıl alabilir ve bu durumda pratik sonuçlara ulaşılamaz. Bu noktada YZ veri işleme verimliliğini artırmak için, depolama ve bilgi işleme alanlarında devrim niteliğinde değişikliklere ihtiyaç duyulacağı açıktır.

Örneğin, saniyede 1 milyondan fazla giriş/çıkış işlemine (IOPS) ulaşmak için ilk ve en önce veri depolama performansının iyileştirilmesi gerekmiştir.

Gerçek zamanlı veri erişim gereksinimlerini karşılamak için depolama ortamı, sabit disk sürücülerinden (HDD') katı hal sürücülerine (SSD) ve depolama sınıfı belleğe (SCM) dönüşmüştür. Bu da depolama ortamı gecikmesini 1000 kattan fazla azaltmıştır.

Ağ gecikmesinde benzer iyileştirmeler olmadan, bu depolama iyileştirmeleri gerçekleştirilemeyeceği gibi darboğazı veri depolama ortamından ağa taşıyacağı açıktır. Ağa bağlı SSD sürücülerinde iletişim gecikmesi, uçtan uca toplam depolama gecikmesinin %60'ından fazlasını oluşturur. SCM sürücülerine geçişle birlikte, ağ performansında iyileştirmeler sağlanmadığı takdirde bu %85'e çıkabilecektir.

Bu durum, değerli depolama ortamının zamanın yarısından fazlasının boşta kaldığı bir senaryo yaratır. Hem depolama ortamındaki hem de YZ bilgi işlemcilerindeki son gelişmeler birlikte düşünüldüğünde, iletişim gecikmesi toplam gecikmenin %50'sinden fazlasını oluşturmakta ve bu daha fazla iyileştirme yapılmasını engelleyip kaynakları israf edebilmektedir.

YZ bilgi işlemin yeni özellikleri, veri merkezi ağının geliştirilmesini gerektiren uygulamaları ve ortamları ölçek ve karmaşıklık açısından ne kadar hızla büyüyor?

 
  • Microsoft, ResNet > 7 ExaFLOPS ve 60 milyon parametre (2015)
  • Baidu, Derin Konuşma Sistem Eğitimi > 20 ExaFLOPS ve 300 milyon parametre (2016)
  • Google, NMT > 105 ExaFLOPS ve 8,7 milyar parametre (2017)
Örneklerden devam edersek geleneksel protokollerin artık günlük hayatımıza hizmet eden yeni uygulamaların gereksinimlerini karşılayamayacağı görülmektedir.

Uzak doğu çevrimiçi yemek servisi endüstrisi son dört yılda yaklaşık %500 büyümüş, işlem sayısı, 2,149 milyardan 12,36 milyara yükselmiş ve bu işlemlerin tümünün en yoğun yemek aralarında yalnızca birkaç saat içinde gerçekleştiği raporlanmıştır.

Burada YZ tabanlı bir planlama sistemi, son kullanıcılar, işletmeler ve 600.000'den fazla teslimat sürücüsü için karmaşık, çok kişili, çok noktalı, gerçek zamanlı karar verme sürecini yönetmekten sorumludur. Kuryeler, sürücüler için isteğe bağlı yolları hesaplamak ve 0,55 milisaniye içinde optimum çözümler sunmak için kullanılan konumlandırma verilerini günde 5 milyar kez rapor etmektedirler.

Arka plan sunucular (backend) TCP/IP protokollerini kullandığında, işlemci çekirdek arabellekleri, uygulama arabellekleri ve ağ kartı(NIC) arabellekleri arasında kopyalanan veri miktarı CPU ve bellek veri yolu kaynaklarını zorlayarak gecikmenin artmasına ve uygulama gereksinimlerini karşılayamamasına neden olmaktadır.

Uzaktan Doğrudan Bellek Erişimi (Remote Direct Memory Access, RDMA) protokolü burada devreye girerek, veri kopyalama işlemlerini ortadan kaldırır ve CPU kaynaklarını, sürücü yolu ve paket siparişi hesaplamalarını uygun ölçekte gerçekleştirmek için boşta bırakır. RDMA'nın iyileştirilmiş verimliliği, ağ üzerinde daha fazla baskı oluşturarak darboğazı, düşük gecikme süresi ve kayıpsız davranışın yeni kritik gereksinimler haline geldiği veri merkezi ağ altyapısına taşımaktadır.



Bundan sonraki bölümde "YZ Hesaplamalarının Karakteristiği, YZ Hesaplamalarına Hız Kazandıran Teknolojik Gelişmeler. Uzaktan Doğrudan Bellek Erişimi (Remote Direct Memory Access, RDMA), GPU DirectRDMA"  anlatılacaktır. 

 
Paylaş:
E-BÜLTEN KAYIT
Güncel makalelerimizden haberdar olmak için e-bültene kayıt olun!
Sosyal Medyada Bizi Takip Edin!
E-Bülten Kayıt