גל החום בבריטניה השבית את שרתי גוגל – וגם את Techtime

בתמונה למעלה: עבודות תחזוקה בדטה-סנטר של חברת גוגל. צילום:Google Cloud

גל החום שהיכה את בריטניה השבוע גרם להפרעה נרחבת בפעולת האינטרנט בעולם. אחת מהנפגעות היתה חברת גוגל (Google Cloud Platform), אשר מרכז שירותי הענן שלה בלונדון (europe-west2)  נותק מהאינטרנט בעקבות קריסת מערכת מיזוג האוויר באחד מהחדרים. מערכת המיזוג לא עמדה בעומס הרב שיצר גל החום, וחברת גוגל החליטה לנתק את השרתים כדי למנוע פגיעה במידע המצוי בהם. בעקבות הארוע נותק Techtime מהאינטרנט למשך כ-12 שעות, מאחר ואנחנו מאוחסנים בחוות GCP.

ככל הנראה מדובר בחוות שרתים אשר פועלת על-גבי התשתית של חברת Equinix, שהוקמה על-ידי שתי החברות בלונדון בשנת 2017. לשתי החברות יש שיתוף פעולה ארוך טווח וכשליש מחוות השרים של גוגל קלאוד פועלות מהמרכזים של אקוויניקס. על-פי הערכות שונות בתעשייה, הבעיה התגלתה באתר Equinix LD4/5/6 הנמצא ב-Slough שממערב ללונדון. אומנם אקוויניקס לא דיווחה על תקלה, אולם גוגל קלאוד סיפקה מידע שוטף באמצעות דף ההתראות של השירות.

הארוע החל אתמול בסביבות שש לפנות בוקר, כאשר גוגל דיווחה על תופעה של הודעות שגיאה המגיעות מהשרתים באזור europe-west2. כעבור שלוש שעות הודתה גוגל שמדובר בפגיעה רחבה בשירותים רבים, והודיעה שהצוות החל לחקור את הסיבה לתקלה. בשעה 10 בבוקר התברר שהתקלה היא במערכת קירור האוויר באחד מהמבנים של הדטה-סנטר, אשר פגעה בחלק מהשרים. כדיל מנוע את התרחבות הבעיה, גוגל ניתקה חלק מהשרתים באתר, והורידה בהדרגה את העומס המותר בשרתים אחרים.

בסביבות 12:00 בצהריים גוגל דיווחה שהיא ביצעה פעולת התאוששות ושיחזור של מאגרי המידע שנפגעו. ב-20:45 גוגל דיווחה שהיא התגברה על התקלה: מערכת מיזוג האוויר תוקנה, וכל המידע שוחזר על-גבי דיסקים חליפיים, למרות שהיא הזהירה שייתכנו הודעות שגיאה בחלק מהשירותים, וביקשה מהלקוחות להודיע לה מיד אם הם נתקלים בבעיות כדי שניתן יהיה לפתור אותן. השירותים חזרו בהדרגה לתיפקוד, והיום בבוקר, |גם אתר Techtime עלה לאוויר אחרי 20 שעות השבתה, וחזר לפעול במתכונת הרגילה.