Resim-1
Servisleri yönetmek hem servis sahipleri hemde paydaşlar için zordur. İşleri kolaylaştırmak adına en başta net bir yol haritası tanımlayın. Bu hizmetlerin sağlığını daha kolay üretmek ve ölçeklendirebilmek adına yardımcı olur.
Bu bağlamda SLAs (Service Level Agreement) bunu sağlar. SLA, sağlıklı ve kalite düzeyi sağlamak için müşteri ile hizmet veren arasında yazılı bir anlaşmadır. Belirtilen koşullar yerine getirilmezse olumsuz sonuçlar ile karşılaşılır. Bu durum genelde finansal sorunlar olarak ortaya çıkmaktadır.
Ancak gerçek dünyada her şey bu kadar basit değildir. Hizmet sahipleri hem iç hem de dış piyasaya hizmet etmekten sorumludur. Hizmet alan paydaşlar iş hedeflerini yerine getirmek için alacakları hizmete güvenirler. Özellikle bir hizmetin diğerine bağımlı olduğu mikro hizmet mimarisinde bu kural geçerlidir. Her şey için yazılı sözleşme yapmak mantıklı gelmediğinden, hizmet kapsamı net olarak tanımlanmalı ve hizmet sahiplerinin sorumlu tutulmaları gerekmektedir. Belirtilen hedeflere ulaşılmadı takdirde ciddi cezalar alınmaz. Öte yandan ceza alınmıyor diye boş vermişlik beklenmez. Hizmetleri geliştirmek için bazı sonuçlar veya düzeltici eylemler olabilir.
Uyarılardan Rapor Oluşturun
Tüm uyarılar bir noktada toplandığında uyarı raporlarını ayarlamak önemlidir. Önemli veri noktalarını yapılandırılmış bir görünümde görmeyi kolaylaştırır. SLO’ları rapor etmek, metrikleri değerlendirmek ve müşterilerle ekip olarak paylaşmak için temel göstergeleri içeren raporlar kullanılmaktadır. Bu metrikler hizmet başına belirlenen olayların başlaması ve sonlandırılma zamanları, iş akış sağlığı yüzdesi (kesintiler ve kesintiler nedeniyle sağlıklı / sağlıksız durum) ya da bir aksama noktasında çıkan olayların aksama nedenlerini takip edebilmek adına önemlidir. Hizmet kesintilerinden paydaşların nasıl etkilendiği ve zamanında bildirilip bildirilmedikleri ayrıca değerlendirilmelidir. Altyapı sağlık raporları paydaşların tüm altyapıdaki uyarıları ve olayları tek bir bakışta görebilmelerini sağlayarak altyapı hakkında uçtan uca bilgi sağlar. (Resim 1)
SLA ve SLO ilişkisini tanımlamak için basit bir denklem;
SLA = SLO + Yazılı ve imzalı sonuçlar
Tanımamız gereken bir diğer önemli terim ise SLI’dır. (Service Level Indicator) SLIs ve SLO’ları değerlendirirken kullanılan metriklerdir. SLA, SLO ve SLI’lar arasında önem ve farklılıkların belirlendiği durumda, SLO’ları ölçeklendiren ve değerlendiren 5 adıma göz atalım;
Doğru Hedef Belirleyin
Doğru hedeflerin belirlenmesi, uygun SLO’lar oluşturmak için en önemli adımdır.Bu noktada dikkate alınması gereken maddeler:
- Son kullanıcı bakış açısından anahtar ölçüm noktaları oluşturun. (Service Level Indicator – SLIs) Ör: Gecikme süresi gibi.
- Ölçülebilir hale getirin. Ör: 100 ms gecikme zamanı..
- 100 ms gibi bir hata için bir hata bütçesi belirleyin. Ör: ± %2 kabul edilebilir gibi..
- Söz verilen konularda açık olun. Ör: Her 10 dakikada Http sorguları ortalama 100ms boyutunda gerçekleşti..
- SLOs’lar için hedeflerin belirlenmesi tamamen teknik değildir. Hizmet ve ticari etkileri göz önünde bulundurulmalıdır.
Bu noktalar önemli ve açık olarak görünse de doğru ölçüleri tanımlamak gerçekten zordur. Açık bir şekilde kullanıcılarla konuşun ve söz verilen konularda net olun.
İzleme Verilerini Toplama
Önemli metrikler tanımlandıktan sonra, bunların bir bütün olarak toparlanması gerekir. Bu aşamada büyük ölçüde SLO’lara ve hizmetin başkaları için ne anlama geldiğine bağlıdır. Tanımın soyutlanma seviyesine bağlı olarak farklı şeylerin izlenmesi ve takip edilmesi gerekebilir. Verileri anlık toplama ve görselleştirmek için gerekli izleme araç-programlarından faydalanılabilinir. Bu araçlar metrik tanımlanmış ise eşiğe ulaşıldığına toplanmaya ve uyarılmaya izin verir.
Biriken Metrikler Hakkında Uyarı
Uyarı kendi başına kritik olmakla beraber karmaşık bir iştir. Düşük öncelikli uyarıları filtrelemek ve ekibin bunlar hakkında bilgilendirilmesini sağlamak, görev ve iş akışı için önemlidir. Farklı kaynaklardan beslenerek gelen değerler tek bir gösterge panosunda merkezileştirir ve kullanıcıların daha sonraki analizler için uyarıları sınıflandırmasına olanak tanır.
Uyarılardan Rapor Oluşturun
Tüm uyarılar bir noktada toplandığında uyarı raporlarını ayarlamak önemlidir. Önemli veri noktalarını yapılandırılmış bir görünümde görmeyi kolaylaştırır. SLO’ları rapor etmek, metrikleri değerlendirmek ve müşterilerle ekip olarak paylaşmak için temel gösterileri içeren raporlar kullanılmaktadır. Bu metrikler hizmet başına belirlenen olayların başlaması ve sonlandırılma zamanları, iş akış sağlığı yüzdesi (kesintiler ve kesintiler nedeniyle sağlıklı / sağlıksız durum) ya da bir aksama noktasında çıkan olayların aksama nedenlerini takip edebilmek adına önemlidir. Hizmet kesintilerinden paydaşların nasıl etkilendiği ve zamanında bildirilip bildirilmedikleri ayrıca değerlendirilmelidir. Altyapı sağlık raporları paydaşların tüm altyapıdaki uyarıları ve olayları tek bir bakışta görebilmelerini sağlayarak altyapı hakkında uçtan uca bilgi sağlar.
Resim-2
Raporları Değiştirin ve Paylaşın
Raporlar değerlendirilmediği ve izlenmediği takdirde hiç bir şey ifade etmez. Dahili olarak tanımlanan hizmet seviyesi göstergelerinde yazılı performans kanıtı olduklarından ve SLO’ların karşılanıp karşılanmadığını görmeye yardımcı olurlar. Değerlendirme her ekip üyesini ve paydaşını kapsamalıdır. Bu durum şeffaflığın çok önemli olduğu anlamına gelir. Raporlar hakkında açık olmanız ve tüm paydaşlarla paylaşmanız önemlidir. Analitik araçlar ile birlikte daha derine inmek veya paydaşlar için daha karmaşık raporlar oluşturmak için raporları dışa aktarım araçları ile kullanmanız gerekir.
SLO’lar için süreç tekrar etmez ise önemli değildir.
Döngü tamamlandıktan sonra – hedefleri oluşturmadan ve değerlendirmeler ile sonlandırmadan – iş bitmiş sayılmaz. Her şey yeniden başlar. Göstergeleri iyileştirerek veya hizmetleri daha sağlam hale getirerek hedefleri yeniden değerlendirin ve yönlendirici eylemlerde bulunun. Aşırı çalışmanın önlendiğinden emin olmak için hata bütçelerini açıkça inceleyin. Araçların ve hizmetlerin başarısız olacağını göz önünde bulundurarak hedefleri yeniden tasarlamak önemlidir. Yeri geldiğinde bu işlem gereklidir.
Referanslar
Daha fazla bilgi edinmek istiyorsanız Google’ın SRE kitabı bu kavramlar için kullanılabilir.
TAGs: SLO nedir, Hizmet Seviyesi Hedeflerini Ölçme ve Değerlendirme , SLI nedir, SLA nedir