נא להכיר: מהו בעצם Big Data?

17 דצמבר, 2014

מאחורי המושג הערטילאי Big Data מסתתרים אתגר ייחודי של האינטרנט המהיר, וכמה טריקים חדשים ששינו את האופי של מרכזי הנתונים בעולם

מאחורי המושג הערטילאי Big Data מסתתרים אתגר ייחודי של האינטרנט המהיר, וכמה טריקים חדשים ששינו את האופי של מרכזי הנתונים בעולם

מאת: מרטין טרני, מנהל תחום בסיסי נתונים בחברת ETERNITY

MATRIX

אחד מהמושגים נפוצים ביותר כיום בתעשייה הוא Big Data, או בתרגון מילולי "נתונים גדולים". במה בעצם מדובר, מה הם נתונים גדולים וכיצד מטפלים בהם? הפרט הראשון המזדקר לעין כאשדר בודקים את הביטוי הוא שהוא חסר-משמעות. והתרגום המילולי שומר מתוך כוונה ברורה על חוסר המשמעות. מדוע? מכיוון שאין באמת משמעות אחת שכולם מתייחסים אלה כאשר מדברים על Big Data. למעשה, מאחדים תחת כותרת אחת מספר בעיות שונות שמסדי הנתונים הסטנדרטיים מתקשים להתמודד עימן.

מרטין טרני
מרטין טרני

קצת היסטוריה, בתחילת שנות השבעים המציאה חברת יבמ המציאו את מסדי הנתונים הרלציונים ואת ה-SQL. מסד SQL הפך מהר מאוד לתקן שולט בעולם מסדי הנתונים: הוא יעיל, פשוט, קל ללימוד ולא דרש יכולות פיתוח מיוחדות.

עד שנות השמונים התחילו לצאת לשוק כל אותם מסדי נתונים שאנחנו רגילים אליהם היום, כמו MSSQL ,MYSQL ,Oracle ,DB2 ועוד. הגישה הייתה שהם אמורים לענות לכל צורכי הארגון. הדבר היה נכון מכיוון שכמות הנתונים באותם ימים לא היתה גדולה, לא נדרשה זמינות מיידית של ניתוח הנתונים ומבנה הנתונים היה אחיד ומצוי בשליטת הארגון.

הזעזוע של האינטרנט

הופעת האינטרנט המהיר והמעבר לפעולות ישירות של צרכנים מול ספקים דרך הרשת, שינו את המצב. המשמעות היא עלייה בסדרי הגודל של כמות הפעולות (טרנסאקציות) שיש לטפל בהן ברגע נתון ובכמות הנתונים שיש לשמור. במקביל, כאשר שומרים כל-כך הרבה נתונים, רוצים גם לנצל אותם, לנתח אתם ולהסיק מסקנות.

בנוסף, כל משתמש ברשת הוא גם ספק תוכן, והתופעה יצרה מגוון רחב של סוגי תכנים ושל תכנים שהם חסרי מבנה מוגדר. כאן התחילו הבעיות עם מסדי הנתונים הסטנדרטיים. הם לא הצליחו להתמודד עם הבעיות העיקריות של עידן האינטרנט, כתוצאה משלושת ה-Vים:

מהירות (velocity): כיום נדרשים מסדי הנתונים לעתים לטפל בכמויות מאוד גדולות של טרנסקציות לשנייה (כל טרנסקציות הקניה ב-eBay לדוגמה).

נפח (volume): כמויות הנתונים שנוצרות עקב הטרנסקציות הנ"ל היא עצומה ולכן צריך לנתח אותה יכולה להקנות תובנות חשובות לעסק.

מגוון (variety): האינטרנט הפך את המשתמשים לספקי תוכן מגוון בצורות מגוונות, כך שקשה למצוא תבנית אחידה לאחסן או לתשאל אותו, כפי שמסדי נתונים רלציונים דורשים.

גישת הביג-דטה

הפתרון לבעיות האלה ניתן על-ידי גל חדש של מסדי נתונים שנבנו כך שהם מתמקדים בפתרון בעיה מסוימת. המטרה היא להתגבר על הבעיה המוגדרת ולא לספק פתרון נתונים כולל לארגון. בנוסף, כל הפתרונות החדשים נוקטים בגישת MPP – Multi parallel processing. כלומר הנתונים מעובדים במספר שרתים במקביל. כיצד המוצרים החדשים מתמודדים עם הבעיה הבלתי-אפשרית? להלן כמה מהטריקים שלהם:

התמודדות עם בעיית ה-Velocity:
Sharding – חלוקת הנתונים למקטעים אשר נשמרים בשרתים שונים כך שכל שרת צריך לעבד רק חלק מהנתונים.
In memory- טעינת הנתונים מראש לזיכרון כך שהעבודה היא מול הזיכרון ולא מול הדיסק.
Memcache- מערכות חכמות ששומרות את הנתונים לצריכה מיידית "חמים" בזיכרון.

התמודדות עם בעיית ה-Volume:
Sharding- במטרה לאפשר ביצוע של עיבוד מקבילי.
Write once- אם טבלא נכתבת פעם אחת ואין שינוי בנתונים אז נחסך כוח העיבוד המיועד לטיפול בטרנסקציות והוא יכול לשמש לעיבוד נתונים.
Column oriented- טבלאות שנשמרות כאשכולות של עמוד/מפתח כך שבכל שאילתה ניתן לבחור לעלות לזיכרון רק עמודות מסוימות.

התמודדות עם בעיית ה-Variety:
NoSQL- שפות סקריפטים לתשאול הנתונים, המאפשרות תשאול של מידע לא מובנה.
ויתור על רלציוניות- שמירת הנתונים כקבצים במבנה חופשי (HDFS) או טבלאות גמישות.

עכשיו, שאנחנו יודעים שיש פתרונות לבעיות האלה, השאלה היא האם צריך לרוץ ולאמץ אותם. נקודת המוצא צריכה להיות זהירות! קיימת כיום אופנה בחברות שירותי האינטרנט לרוץ לפתרונות האלה ללא מחשבה עמוקה. אומנם רובן יכול להפיק תועלת מהפתרונות החדשים, אבל צריך לבדוק בזהירות מהו הפתרון הספציפי המתאים לבעיה הספציפית של כל חברה.

לסיכום, המוצרים החדשים מעולם Big Data באים לפתור בעיות ספציפיות  של מהירות, נפח ומבנה לא אחיד. אין צורך לרוץ לפתרונות כאלה על כל בעיה בארגון. יש לקחת את הפתרונות האלה בחשבון כאשר מסדי הנתונים הסטנדרטיים כבר לא מספקים מענה הולם או שיש צורך בפתרונות מורכבים/יקרים כדי שיעמדו בדרישות.

Share via Whatsapp

פורסם בקטגוריות: חדשות , טכנולוגיות מידע