Construirea unui cluster failover folosind DHD și bătăile inimii

În cele din urmă, disponibilitate ridicată devine disponibil

Dacă sunteți un administrator de sistem, se întâmplă deja: tocmai ați comandat cina, atunci când pager scancit. Masa de prânz astăzi este anulat. Sau un alt exemplu: serverul prăbușit, iar administratorul de sistem a dispărut. Ați rupt termeni, pentru că nu este nimeni pentru a recupera sistemele critice.

(Clustere de înaltă disponibilitate (HA)) cu dispersie înaltă disponibilitate poate reduce semnificativ timpii morți și, având în vedere că failover este rapid și automat, administratorii de sistem pot duce la cină, iar utilizatorii - munca lor. Administratorii sunt fericit utilizatori, satisfăcuți, chiar și manageri zevzec [Ed. - modificate genetic, eventual sub formă de bază non-proteine de viata de pe planeta noastră. ;-)] sunt fericit, pentru că reducerea nefuncționare economisește bani.

Din moment ce „disponibilitate ridicată“ se referă la diferite persoane în diferite moduri, vom vorbi despre clustere de înaltă disponibilitate de cluster (CVG) HS este o colecție de servere care lucrează împreună pentru a furniza anumite servicii. Serviciile nu aparțin unui anumit server. și peste cluster. Dacă există o defecțiune a uneia dintre funcțiile sale sunt transferate automat la alte servere din cluster.

Cu toate că sistemele de înaltă disponibilitate nu poate elimina complet renunțările, acestea permit maxim pentru a minimiza timpii morți. Și apoi eșecul pot trece neobservate, sau o manifestare a Casarea pe altceva, cum ar fi „probleme“ la Internet. Când sunt configurate în mod corespunzător, sisteme de înaltă disponibilitate lucra ca experți, ale căror mâini ochi mai repede. Într-adevăr, bine concepute, personalizate și de a gestiona în mod corespunzător cluster adaugă o „nouă“ pentru disponibilitatea și a reduce timpii morți cu 90%. Inset „Magic-nouari“, a descifra semnificația numărului de „nouari“.

Magic-nouari

Disponibilitatea serviciului este de obicei măsurată prin numărul de „nouari“. În cazul în care serverul se execută 90 la suta din timp, atunci este disponibilă - este o nouă. Când utilizarea ajunge la 99 la suta - egal cu disponibilitate două nouari, etc. În cazul în care rezultatul „nouă“ la timpii morți normală pe an, veți obține tabelul de mai jos:

Chiar dacă utilizați inițial un sistem de operare nesigur, software-ul de încredere și instalați-l pe hardware-ul „ciudatul“, software-ul bun CVG îmbunătăți în mod semnificativ situația. În mod ideal, va fi capabil de a realiza chiar și cele „trei perfecție.“ Și dacă începeți cu un server hardware serios, adaugă la faptul că un software stabil și de încredere Linux kernel, adăugați la faptul că personalul bine instruit și procedurile de sprijin dovedite, vă sunt oferite cele mai bune rezultate. În acest caz, putem vorbi despre cinci nouari sau mai mult.

Real server de înaltă disponibilitate

Figura 1. Diagrama fizice ARC

Server, prezentat în Figura 1, este un sistem x86 cu sistemul de operare cu două Server 8 (SLES8) discuri Enterprise IDE SUSE Linux: unul plasat partiția de boot și sistemul în sine, pe de altă parte - secțiunea / home, dimensiunea de 80GB. Optarea pentru SLES8 a fost făcută datorită faptului că acesta vine cu tot software-ul necesar este suficient versiune proaspătă.

Pachet Heartbeat (palpitații -. Prim.per) este utilizat pentru a detecta defecțiuni și de a gestiona resursele de cluster. Pachetul DHD prevede partiția / home este întotdeauna sincronizat pe ambele sisteme. DHD poate fi reprezentat ca RAID1 (oglindire) prin intermediul unei rețele.

Aceasta este configurația minimă a unui server de date parts de înaltă fiabilitate. Pentru mare putere (cerințe critice pentru a accelera subsistem disc) sisteme cu discuri rapide, un canal dedicat trebuie să fie organizate pe baza de compus gigabit. Costul de card Gigabit LAN este în prezent scăzut, iar costul total al soluției va rămâne scăzută. Cât de jos - aceasta este depinde de hardware-ul serverului.

Figura 2.
CVG circuit de serviciu

Un alt mod de a reprezenta sistemul - o schemă de interacțiune a componentelor. Acesta este ilustrat în figura 2.

CVG de configurare pentru dezvoltare

CVG concepute pentru a proteja sistemul de crashing. Prin urmare, în faza de proiectare, este important să caute punctul CVG unic de eșec (puncte unice de eșec, SPOFs). În cazul în care există elemente individuale ale arhitecturii sistemului, eșecul de ceea ce duce la eșecul întregului cluster-ului - un singur punct de eșec. Mijloace de puncte unice de eșec - redundanță. În general, există o „regulă de trei, și de înaltă disponibilitate“: și zbytochnost și zbytochnost și zbytochnost. Dacă acest lucru sună redundant, modul în care ar trebui să fie.

Luați în considerare arhitectura sistemului din exemplul nostru. Vedem redundanței servere, surse de alimentare neîntreruptibilă, discuri, și așa mai departe. Toate acestea permit CVG să funcționeze eficient.

Acest exemplu nu are puncte unice interne de eșec. Indiferent de ceea ce se duce în jos într-un cluster, sistemul va continua să funcționeze. Deși eșecul link-ul de replicare va duce la incapacitatea de a sincroniza date, aceasta nu va cauza defectarea întregului cluster-ului, atunci nu este un singur punct de eșec. (În exemplul nostru, considerăm că sistemul de replicare, dar sunt adesea folosite și partajate drive-uri. Argumentele pro și contra fiecărei opțiuni luate în considerare în bara laterală „discurile partajate și replicare disc“). După cum se poate înțelege din diagrama, chiar și distrugerea fizică a sistemului primar nu va afecta performanța clusterului, și va continua să funcționeze.

discuri partajate și replicare disc

Pachetul de date între DHD reproduce două discuri de orice tip și implementează o stocare foarte low-cost, fără puncte unice de eșec. Cu toate acestea, cerințele de stocare cresc de două ori, dar sistemul în sine este uneori supus resincronizare mult timp după eșecuri. În plus, scăderea performanței hard disk se va resimți în unele probleme.

Pentru multe aplicații, aceste inconveniente majore critice. În astfel de cazuri, se folosesc discurile partajate. Acesta poate fi matrice RAID cu conexiuni multiple, controlere RAID duale (de exemplu, IBM ServeRAID), unitățile partajate bazate pe fibră canale, de înaltă clasă IBM Enterprise Storage Server de stocare sau alte nivel înalt EMC soluții. Aceste sisteme sunt relativ scumpe (variind de la $ 5K la milioane de dolari). Cu toate acestea, ele nu suferă pierderi de productivitate și nevoia de resincronizare.