Genel

Amazon bulut servisindeki hatanın kaynağı bulundu

By

on

Hatanın kaynağı yanlış yazılan bir komutmuş.

Herkes hata yapar. Ancak bu hata Amazon Web Hizmetlerinde (Amazon Web Services – AWS) çalışan birisi tarafından yanlış girilen bir komut olursa popüler web siteleri ve hizmetlerini kesintiye uğratan büyük bir probleme yol açabilir. Görünen o ki, AWS’nin Kuzey Virginia bölgesindeki Basit Depolama Hizmeti (Simple Storage Solution – S3) için 11 saatlik bir sistem hatası yaşadığında sorunun kaynağı tam olarak böyle bir hataymış.

ABD-EAST-1 bölgesinde, Elastic Block Store, Lambda gibi S3’e bağlı diğer Amazon hizmetleri ve bir diğer hizmet olan Elastic Compute Cloud altyapısı bu sorundan etkilnerek devasa bir kesintiye yol açtı.

AWS Perşembe günü yayınladığı bir bildiri ile olay hakkında özür diledi. Arıza, Netflix, Reddit, Adobe ve Imgur’u etkiledi. Apica, web sitesi izleme servisi AWS’nin devre dışı kaldığı dönemde en popüler 100 internet perakende sitesinin yarısından fazlasının daha yavaş yüklenme yaşadığını söyledi.

Amazon’a göre, yetkili bir S3 çalışanı, hizmetin faturalama sürecinin beklenenden daha yavaş çalışmasına yanıt olarak “S3 faturalandırma işlemi tarafından kullanılan S3 alt sistemlerinden birindeki az sayıdaki sunucuyu kaldırması” gereken bir komut çalıştırdı . Komut için kullanılan parametrelerden biri yanlış girildi ve bir dizi kritik S3 alt sistemini destekleyen çok sayıda sunucu kapandı.

Bu durumda kapanan sunucular bölgedeki tüm S3 varlıklarına bağlı alt sistemlerin devre dışı kalmasına neden oldu. Hatanın giderilmesi için yapılamsı gereken kapanan tüm sunucuları sırayla tekrar başlatmaktı.

Sorun ortaya çıktığında, Amazon birkaç yıl boyunca bu sistemleri büyük bölgede yeniden başlatmamıştı, sunucular yıllardır kesintisiz şekilde çalışıyordu ve S3 müdahale süresinde muazzam bir artış yaşadı. Bu alt sistemleri yeniden başlatmak beklenenden uzun sürdü ve bu da kesintiye neden oldu.

Bu olaya yanıt olarak, AWS iç araç ve süreçlerinde çeşitli değişiklikler yapıyor. Kesintiden sorumlu olan araç, sunucuları yavaşlatacak ve güvenlik denetimi seviyelerinin altında kapasite alacak işlemleri engelleyecek şekilde değiştirildi. AWS, aynı güvenlik sistemlerine sahip olduklarından emin olmak için diğer araçlarını değerlendiriyor.

AWS mühendisleri ayrıca, yeniden başlatmanın hızlandırılmasına ve gelecekteki sorunların etki yarıçapını azaltmaya yardımcı olması için S3 dizin alt sistemini yeniden yapılandırmaya başlayacak.

Bulut sağlayıcı ayrıca Service Health Dashboard yönetim konsolunu birden fazla bölge arasında çalışacak şekilde değiştirdi.

Kısacası bir müsibetten bin nasihat çıkartan Amazon bulut servisi mühendis ve yöneticileri artık daha sıkı çalışacak ve dikkatli olacaklar.

About PCWorld

Recommended for you

Leave a Reply

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir