נא להכיר: מהו בעצם Big Data?

17 דצמבר, 2014

מאחורי המושג הערטילאי Big Data מסתתרים אתגר ייחודי של האינטרנט המהיר, וכמה טריקים חדשים ששינו את האופי של מרכזי הנתונים בעולם

מאת: מרטין טרני, מנהל תחום בסיסי נתונים בחברת ETERNITY

MATRIX

אחד מהמושגים נפוצים ביותר כיום בתעשייה הוא Big Data, או בתרגון מילולי "נתונים גדולים". במה בעצם מדובר, מה הם נתונים גדולים וכיצד מטפלים בהם? הפרט הראשון המזדקר לעין כאשדר בודקים את הביטוי הוא שהוא חסר-משמעות. והתרגום המילולי שומר מתוך כוונה ברורה על חוסר המשמעות. מדוע? מכיוון שאין באמת משמעות אחת שכולם מתייחסים אלה כאשר מדברים על Big Data. למעשה, מאחדים תחת כותרת אחת מספר בעיות שונות שמסדי הנתונים הסטנדרטיים מתקשים להתמודד עימן.

קצת היסטוריה, בתחילת שנות השבעים המציאה חברת יבמ המציאו את מסדי הנתונים הרלציונים ואת ה-SQL. מסד SQL הפך מהר מאוד לתקן שולט בעולם מסדי הנתונים: הוא יעיל, פשוט, קל ללימוד ולא דרש יכולות פיתוח מיוחדות.

עד שנות השמונים התחילו לצאת לשוק כל אותם מסדי נתונים שאנחנו רגילים אליהם היום, כמו MSSQL ,MYSQL ,Oracle ,DB2 ועוד. הגישה הייתה שהם אמורים לענות לכל צורכי הארגון. הדבר היה נכון מכיוון שכמות הנתונים באותם ימים לא היתה גדולה, לא נדרשה זמינות מיידית של ניתוח הנתונים ומבנה הנתונים היה אחיד ומצוי בשליטת הארגון.

הזעזוע של האינטרנט

הופעת האינטרנט המהיר והמעבר לפעולות ישירות של צרכנים מול ספקים דרך הרשת, שינו את המצב. המשמעות היא עלייה בסדרי הגודל של כמות הפעולות (טרנסאקציות) שיש לטפל בהן ברגע נתון ובכמות הנתונים שיש לשמור. במקביל, כאשר שומרים כל-כך הרבה נתונים, רוצים גם לנצל אותם, לנתח אתם ולהסיק מסקנות.

בנוסף, כל משתמש ברשת הוא גם ספק תוכן, והתופעה יצרה מגוון רחב של סוגי תכנים ושל תכנים שהם חסרי מבנה מוגדר. כאן התחילו הבעיות עם מסדי הנתונים הסטנדרטיים. הם לא הצליחו להתמודד עם הבעיות העיקריות של עידן האינטרנט, כתוצאה משלושת ה-Vים:

מהירות (velocity): כיום נדרשים מסדי הנתונים לעתים לטפל בכמויות מאוד גדולות של טרנסקציות לשנייה (כל טרנסקציות הקניה ב-eBay לדוגמה).

נפח (volume): כמויות הנתונים שנוצרות עקב הטרנסקציות הנ"ל היא עצומה ולכן צריך לנתח אותה יכולה להקנות תובנות חשובות לעסק.

מגוון (variety): האינטרנט הפך את המשתמשים לספקי תוכן מגוון בצורות מגוונות, כך שקשה למצוא תבנית אחידה לאחסן או לתשאל אותו, כפי שמסדי נתונים רלציונים דורשים.

גישת הביג-דטה

הפתרון לבעיות האלה ניתן על-ידי גל חדש של מסדי נתונים שנבנו כך שהם מתמקדים בפתרון בעיה מסוימת. המטרה היא להתגבר על הבעיה המוגדרת ולא לספק פתרון נתונים כולל לארגון. בנוסף, כל הפתרונות החדשים נוקטים בגישת MPP – Multi parallel processing. כלומר הנתונים מעובדים במספר שרתים במקביל. כיצד המוצרים החדשים מתמודדים עם הבעיה הבלתי-אפשרית? להלן כמה מהטריקים שלהם:

התמודדות עם בעיית ה-Velocity:
Sharding – חלוקת הנתונים למקטעים אשר נשמרים בשרתים שונים כך שכל שרת צריך לעבד רק חלק מהנתונים.
In memory- טעינת הנתונים מראש לזיכרון כך שהעבודה היא מול הזיכרון ולא מול הדיסק.
Memcache- מערכות חכמות ששומרות את הנתונים לצריכה מיידית "חמים" בזיכרון.

התמודדות עם בעיית ה-Volume:
Sharding- במטרה לאפשר ביצוע של עיבוד מקבילי.
Write once- אם טבלא נכתבת פעם אחת ואין שינוי בנתונים אז נחסך כוח העיבוד המיועד לטיפול בטרנסקציות והוא יכול לשמש לעיבוד נתונים.
Column oriented- טבלאות שנשמרות כאשכולות של עמוד/מפתח כך שבכל שאילתה ניתן לבחור לעלות לזיכרון רק עמודות מסוימות.

התמודדות עם בעיית ה-Variety:
NoSQL- שפות סקריפטים לתשאול הנתונים, המאפשרות תשאול של מידע לא מובנה.
ויתור על רלציוניות- שמירת הנתונים כקבצים במבנה חופשי (HDFS) או טבלאות גמישות.

עכשיו, שאנחנו יודעים שיש פתרונות לבעיות האלה, השאלה היא האם צריך לרוץ ולאמץ אותם. נקודת המוצא צריכה להיות זהירות! קיימת כיום אופנה בחברות שירותי האינטרנט לרוץ לפתרונות האלה ללא מחשבה עמוקה. אומנם רובן יכול להפיק תועלת מהפתרונות החדשים, אבל צריך לבדוק בזהירות מהו הפתרון הספציפי המתאים לבעיה הספציפית של כל חברה.

לסיכום, המוצרים החדשים מעולם Big Data באים לפתור בעיות ספציפיות של מהירות, נפח ומבנה לא אחיד. אין צורך לרוץ לפתרונות כאלה על כל בעיה בארגון. יש לקחת את הפתרונות האלה בחשבון כאשר מסדי הנתונים הסטנדרטיים כבר לא מספקים מענה הולם או שיש צורך בפתרונות מורכבים/יקרים כדי שיעמדו בדרישות.

פורסם בקטגוריות: חדשות , טכנולוגיות מידע

Analytics

[email protected]

WP Engine – Hosting Provider

Cloudflare – Cloud based security and web performance processor.

Google Cloud Platform – data centers provider for WP Engine

Sucuri – Website security provider

Mailchimp – Newsletter service provider

Google Analytics, Adwords, Webmasters

Facebook – We use Facebook for advertising and place tracking code on our website for enhancing digital marketing campaigns (i.e – Facebook Pixel).

Planwize Ltd – Digital Marketing Agency.

נא להכיר: מהו בעצם Big Data?

Who we are

What personal data we collect and why we collect it

Comments

Media

Analytics

How long we retain your data

Request for Receiving Data Associated with One’s Email Address

Where we send your data

Contact information

How we protect your data

What data breach procedures we have in place

What third parties we receive data from

What automated decision making and/or profiling we do with user data