ما هي البيانات الضخمة (Big Data)؟ ولماذا يجب أن نهتم بها؟

نعيش الآن في عصر المعلومات، ومعظم ما نقوم به يتأثر بشكلٍ كبير بقدرتنا على الوصول إلى كميات هائلة من البيانات سواء أكان ذلك عبر الإنترنت، أم حواسيبنا، أم هواتفنا المحمولة. والكلمة الطنانة التي تصف هذا الكمّ من المعلومات هي البيانات الضخمة (Big Data). وفي العام 2012 حددت الحكومة البريطانية البيانات الضخمة بوصفها واحدة من ثمان تقنيات مستقبلية عظيمة، ولذلك فما هو التحدي الذي تطرحه البيانات الضخمة؟ وكيف يُمكننا مواجهته؟ من أين أتت البيانات الضخمة؟

ربما يكون المصدر الرئيسي للبيانات الضخمة حالياً هو الإنترنت، ووفقاً لتقدير حديث، فإنّ حوالي 10^21 بايت (أي زيتا بايت zettabyte) من المعلومات تُضاف إلى الإنترنت كل عام، ويكون معظمها على شكل محتوى غرافيكي. وتتجاوز تغطية الإنترنت في المملكة المتحدة 80%، ولكنها لا يتجاوز 20% في بعض الدول.

إنّ المصدر الرئيسي لهذه البيانات، الذي يستمر في النمو، هو المحتوى الموجود على مواقع التواصل الاجتماعي. فعلى سبيل المثال لدى موقع فيسبوك (facebook) الذي انطلق في العام 2004 حوالي 2 مليار مستخدم مسجّل (ما يُعادل ربع عدد سكان العالم)، منهم 1.5 مليار مستخدم نشط. ويوميًا يُضاف إلى هذا الموقع حوالي 2.5 مليار محتوى (أي ما يُعادل 500 تيرابايت من المعلومات)، معظمها يُخزّن على شكل صور.

ويُقدر أنّ محرك البحث غوغل يُجري عمليات البحث عن المعلومات الموجودة في 15 إكسابايت (exabytes) -أي 10^15 بايت- من البيانات، ويُقوم بتلك المهمة بالاعتماد على خوارزمية رياضية ذكية. للبيانات الضخمة مصدرٌ آخر وهو الهواتف المحمولة والذكية، فاليوم يتجاوز عدد من الهواتف المحمولة في العالم عدد سكانه، مع احتمالية وجود 25000000000000000000 محادثة في الوقت نفسه. وستقدم الخطة المستقبلية المتعلقة بوجود شبكة 5G قدرة وصول إلى البيانات بمعدل 1 غيغابايت في الثانية الواحدة بالنسبة لعشرات العاملين في الوقت نفسه وفي نفس المكتب.

وتظهر الحسّاسات التي يُمكنها تقديم مراقبة مستمرة لحالتنا الصحية – مع وجود آثار أخلاقية معتبرة- كإحدى التقنيات التي تتقدم بسرعة في هذا المجال. وستدعم شبكة 5G بضع مئات الآلاف من عمليات الاتصال المتزامنة لعمليات نشر ضخمة لتلك الحساسات. وفي الواقع، فالمستقبل ليس بعيدا، وقريباً ستتصل أجهزتنا مع بعضها البعض بوجود القليل من التدخّل البشري، أو حتى بدونه، فعلى سبيل المثال ستتحدث آلة الطبخ مع آلة الجلي والتنظيف، ومع السوبرماركت أيضا في كل لحظة يتم فيها تحضير وجبة، وهذا ما يُعرف بإنترنت الأشياء (Internet of things).

تأتي كمية معتبرة من البيانات المهمة بالنسبة للعلوم الاجتماعية من الطريقة التي نستخدمها للتعامل مع أجهزتنا، والمعلومات التي تُعطيها تلك الأجهزة عن نمط حياتنا. ففي كل مرة نشتري فيها شيئاً ما من أمازون (Amazon)، أو نستخدم حسابنا البنكي، أو نُشغّل جهازا كهربائيا، أوهاتفنا، أو نكتب بريدا إلكترونيا، فإننا نُنشئ بيانات ستحتوي معلومات يُمكن من حيث المبدأ تحليلها.

وعلى سبيل المثال يُمكن تحديد عادات الشراء، أو المواقع المتتبعة وتسجيلها. ويُمكن استخدام الرياضيات في كل مراحل هذه العملية، لكن يجب ألا نفقد أبدا البعد الأخلاقي عند القيام بذلك.

لماذا يجب أن نهتم بالبيانات الضخمة؟

والسبب الأهم لزيادة حجم البيانات، لأنها تستمر بالتولد بشكل أكبر بكثير من السابق من خلال عدة أجهزة ومصادر, والأهم أن معظم تلك البيانات ليست مهيكلة، كتغريدات تويتر والفيديوهات على يوتيوب وتحديثات الحالة على فيس بوك وغيرها، ما يعني أنه لا يمكن إستخدام أدوات إدارة قواعد البيانات وتحليلها التقليدية مع هذه البيانات لأنها ببساطة ليست وفق الهيكل الذي تتعامل معه كجداول.

لكن هل تستحق البيانات الضخمة عناء الإهتمام بها؟ لما لا نتجاهلها وحسب؟ .. تشير الدراسات من غارتنر أن هناك حوالي 15% فقط من الشركات التي تستفيد بشكل جيد من البيانات الضخمة، لكن هذه الشركات حققت فعالية 20% أكثر في المؤشرات المالية.

لكن حتى تصل لهذه النتيجة التي لا يحققها منافسيك، عليك إستخدام تقنيات ومفاهيم جديدة إبداعية مخصصة للتعامل مع البيانات الضخمة. لأن الأمر أشبه بجبل شاهق من البيانات ستقوم بغربلته لتحصل على صخرة ذهبية وزنها كيلوغرام واحد.

تخيل أن هناك شركة نقل وشحن وتقوم بالتنقيب في بيانات مواعيد شاحنات نقل البضائع بحيث تحصل على البيانات في الزمن الفعلي لمواعيد إطلاق ووصول الشاحنات وفق عدة مواقع جغرافية أو مدن او حتى دول. والآن تخيل لو أن أحد الزبائن اتصل بالشركة وأخبرهم أن لديه شحنة، أي شاحنة سترسل إليه من الأسطول المكون من مئات الشاحنات التي تدير الأعمال في المدينة؟ المنطق يكون أن ترسل أقرب شاحنة وذلك وفق تتبعها عبر GPS، لكن ماذا لو كان الطريق أمام أقرب شاحنة مزدحماً جداً، أو لو كانت أقرب شاحنة ممتلئة بالكامل ولا مجال لإضافة شحنة أخرى، في هذه الحالة لن يكون الإختيار الأقرب هو الأنسب لذا علينا إجراء تحليل على كل الشاحنات المتاحة وفق عدة معايير، وهذه المعايير نطبقها على البيانات التي تصدرها تلك الشاحنات، مثل بيانات حركتها وموقعها الحالي عبر GPS، إزدحام الطريق، وزن وحجم ونوع الحمولة، الوجهة التالية، وغيرها. وهذا التحليل تقوم به أدوات متخصصة تصدرها شركات كبرى مثل إنتل وIBM وغيرها، تعمل على تحليل البيانات الضخمة في الزمن الحقيقي.

أمثلة عملية:

مصادم الهيدرون العظيم يملك 150 مليون جهاز استشعار تقدم بيانات 40 مليون مرة في الثانية الواحدة. وهناك ما يقرب من 600 مليون تصادم في الثانية الواحدة. لكن نتعامل فقط مع أقل من 0.001% من بيانات تيار الاستشعار، فإن تدفق البيانات من جميع تجارب المصادم الأربعة يمثل 25 بيتابايت.

موقع Amazon.com يعالج ملايين العمليات الخلفية كل يوم، فضلاً عن استفسارات من أكثر من نصف مليون بائع طرف ثالث. وتعتمد أمازون علي نظام اللينوكس بشكل أساسي ليتمكن من التعامل مع هذا الكم الهائل من البيانات، وتملك أمازون أكبر 3 قواعد بيانات لينوكس في العالم والتي تصل سعتها إلي 7.8، 18.5 و24.7 تيرابايت.

سلسلة المتاجر Walmart تعالج أكثر من مليون معاملة تجارية كل ساعة، والتي يتم استيرادها إلي قواعد بيانات يُقدر أنها تحتوي علي أكثر من 2.5 بيتابايت (2560 تيرابايت) من البيانات – وهو ما يوازي 167 ضعف البيانات الواردة في جميع الكتب الموجودة في مكتبة الكونغرس في الولايات المتحدة.

يعالج فيس بوك 50 مليار صورة من قاعدة مستخدميه. ويقوم نظام حماية بطاقات الائتمان من الاحتيال ” FICO Falcon Credit Card Fraud Detection System” بحماية 2.1 مليار حساب نشط في جميع أنحاء العالم.

تقوم شركة Windermere Real Estate باستخدام إشارات GPS مجهولة من ما يقرب من 100 مليون سائق لمساعدة مشتري المنازل الجدد لتحديد أوقات قيادتهم من وإلى العمل خلال الأوقات المختلفة لليوم.

طبيعة البيانات الضخمة:

كانت البيانات الضخمة محط اهتمام ودراسة الرياضيات للأعوام المئة الأخيرة بشكلٍ من الأشكال. وكمثال كلاسيكي على ذلك نجد علم الأرصاد الجوية (meteorology) الذي نحتاج فيه إلى كميات هائلة من الأعداد التي يجب ضغطها لتوليد تنبؤات طقسية واقعية. وبشكلٍ مشابه تنتج مجموعات البيانات الضخمة عن النماذج المناخية، والجيوفيزياء، وعلم الفلك.

وعلى أية حال، فإنّ مجموعات البيانات الموجودة في هذه المسائل – على الرغم من ضخامتها- مرتبة بشكلٍ جيد ومفهومة أيضا، مع وجود مستويات معروفة من الارتياب طبعا. وهو أمرٌ ناتج عن كونها قادمة من عمليات فيزيائية يفهمها العلماء جيداً. تكمن التحديات الحقيقية في فهم البيانات الضخمة والتعامل معها في العلوم الإحيائية، والعلوم الاجتماعية، وبشكلٍ خاص تلك المبنية على النشاط الإنساني.

وغالبا ما تكون مثل هذه البيانات مشوّهة، وغير كاملة، ولا يُمكن الاعتماد عليها، ومعقدة، وقصصية بدلاً من كونها الأشياء نفسها. أما البيانات الفيزيائية فليست كذلك.

ما هي الأسئلة التي يجب طرحها حول البيانات الضخمة؟

كيف يُمكن تصوير البيانات الضخمة؟ ووضع التخمينات انطلاقاً منها؟ وكيف نُحاكيها ونفهمها؟ وكيف نُجري التجارب على الأنظمة التي ولّدتها، وفي نهاية المطاف كيف بمقدورنا التحكم بمثل هذه الأنظمة؟ إنّ التحديات العلمية والرياضية الكامنة وراء هذه الأسئلة متغيرة بمقدار ما هي مهمة، كما أنّ حجم البيانات الضخم يجعل من عملية الأتمتة حتمية.

وهذه الأتمتة (automation) تعتمد على الخوارزميات الرياضية. تتضمن الأسئلة التي قد نسألها بخصوص البيانات الضخمة ما يلي:

كيف نُصنّف أهمية المعلومات في شبكات واسعة موجودة في متصفحات الإنترنت مثل غوغل؟ كيف نُحدد فعاليات المستهلكين، وولاءهم وحتى مشاعرهم، وكيف نُجري عمليات الاقتراح الشخصية؟ كيف نُحاكي الارتيابات الموجودة في الاتجاهات الصحيّة للمرضى الأفراد؟ كيف نُنجز ونتعامل مع عملية المراقبة الصحية بالوقت الحقيقي خصوصا في البيئة التي سيقودنا إليها انترنت 5G؟

كيف نستخدم البيانات الذكية في مزودات الطاقة؟ على ما أعتقد فإنّ من العدل القول بأنّ العديد من التطورات المستقبلية في مجال الرياضيات الحديثة (جنباً إلى جنب مع علوم الحاسوب) ستقودنا إما إلى عمليات محاكاة من قبل تطبيقات البيانات الضخمة، أو أنها ستعتمد على الحاجة لفهم البيانات الضخمة. إنّ العديد من التقنيات الرياضية الموجودة حاليا (وبعضها لم يُعتبر رياضيات بحتة حتى وقت حديث) تجد الآن تطبيقاتٍ عملية لها في مجال فهمنا للبيانات الضخمة، وكمثال رئيسي على ذلك نذكر نظرية الشبكات (network theory).

شبكات في كل مكان:

تصف نظرية الشبكات – كما يقترح الاسم- الأجسام المعروفة بالعُقَد (nodes) والمرتبطة مع بعضها البعض عبر ما يُعرف بالحواف (edges).

يُمكن أن تكون هذه العقد حواسيب، أو شبكات عنكبوتية. أما الحواف فهي الوصلات الموجودة بين الحواسيب، أو الروابط بين مواقع الإنترنت. كما يُمكن أن تكون تلك العقد أيضاً البشر، أما الوصلات فهي في هذه الحالة أصدقاؤهم على الفيسبوك، أو تويتر. أو يُمكن أن تكون مجموعات الهواتف المحمولة، وتكون الروابط في هذه الحالة هي المحادثات أو ببساطة الجوار القريب الذي قد يقود إلى تداخل.

تشرح نظرية الشبكات طبيعة الشبكات وتسمح لنا بالبحث عن الوصلات الكائنة بين النقاط المفردة لمجموعات البيانات، ويُمكنها وصف حركة المعلومات حول الشبكة. في الواقع، تُعتبر عملية إدارة شبكة الهواتف المحمولة (المستخدمة في الواقع في تحميل البيانات أيضاً) مهمة جدا وتطبيقا مستمرا بالنمو لمجال نظرية تلوين الرسوم (graph colouring): إيجاد طرق لتلوين الحواف أو العقد الموجودة في الشبكة وفقاً لقيود محددة مثل وجوب امتلاك العقد المتجاورة لألوان مختلفة.

فعلى سبيل المثال قد تُمثّل تلك الألوان الترددات المنسوبة لمُرسلات الهواتف المحمولة التي يجب اختيارها بحيث تُقلل من عملية التداخل، ومن ثَمّ يجب أن تكون مختلفة بالنسبة للمرسلات المتجاورة. ولم يتم حتى وقتٍ متأخر النظر إلى تلوين الرسوم على أنه يعود إلى مجال الرياضيات البحتة.

تتضمن الأمثلة الأخرى التي تقود إلى البيانات الضخمة عملية الشبكات التنظيمية مثل شبكات الإدارة، وعصابات الجرائم، وحتى سلوك التصويت في مسابقة الأغنية الأوروبية، إضافة إلى الشبكات التكنولوجية مثل شبكات الطاقة والدارات الكهربائية، وشبكات المعلومات المصنوعة من تفاعلات البروتين-بروتين والجينات ونشر المعلومات والأساطير والشائعات، وأيضاً شبكات النقل مثل الخطوط الجوية، والخدمات اللوجستية الغذائية وأنظمة القطارات تحت الأرض وفوقها، والشبكات البيئية، مثل سلاسل الغذاء والأمراض وآليات العدوى.

قوة نظرية الشبكات:

تستطيع هذه النظرية التصدي للعديد من الأسئلة المتعلقة بالبيانات الضخمة، فعندما تتعامل مع شبكات كبيرة جداً لن يكون من السهل دوماً تحديد التكتلات (clusters) -مجموعات من العقد المرتبطة داخلياً بقوة- أو تقسيم البيانات إلى مجموعات تتشارك مميزات شائعة.

ومثل هذا النوع من المعلومات مهم جدا وجوهري في مجال التنقيب عن البيانات (data mining) والتعرّف على الأنماط (pattern recognition). يرتبط هذا الأمر بشكلٍ خاص بقطاع التجزئة الذي يهتم بسلوك وفعاليات المستهلكين، لكنه يُمكن أن يرتبط أيضاً بإيجاد أنماط التصويت في مسابقة الأغنية الأوروبية، وتُقدم نظرية الشبكات الخوارزميات اللازمة لتحديد التكتلات ولتقسيم البيانات. يساعد مثل هذا التحليل في حل مسألة أخرى مهمة يمكن مواجهتها في العديد من التطبيقات: ربط البيانات التي تعتمد على مستويات مختلفة من التقسيمات في الفضاء والزمن. وكمثال على ذلك نذكر عملية التنبؤ بالطقس، ففيها ربما تأتي بعض البيانات من الأقمار الصناعية التي تدور حول الأرض وتنقل بيانات يصل حجمها إلى عدة ميغا بايت في الثانية الواحدة.

وقد ينجم قسم آخر من البيانات عن الأفراد الموجودين في محطات أرضية معزولة الذين يُقدمون بضعة قياسات كل يوم. كما أن بعضاً من تلك البيانات قد يكون تاريخيا مثل سجلات قباطنة البحار التي تشمل الأعوام المئة الأخيرة. ومجموعات البيانات الثلاث هذه مفيدة ويجب ربطها معاً بطريقة سلسلة وواضحة. تتمتع كيفية وصل الشبكة أو انتشار الوصلات بنفس الأهمية؟ إضافة إلى أقصر المسارات داخل الشبكة.

هذه الأسئلة جوهرية للحصول على إنترنت فعال، إضافة إلى تفسير البيانات اللوجستية، وفهم الاتصالات السريعة، وأيضاً التسويق. تُعتبر نظرية الشبكات أساسية أيضاً في مجال البحث عن العقد المؤثرة في الشبكات العملاقة، فالعقد ذات الاتصالات القوية – سواء مثلت الأشخاص أو مواقع الانترنت، أو المطارات- هائلة الأهمية بالنسبة لتماسك الشبكة؛ لأنّ حذفها سيؤثر بشكلٍ كبير على الإتاحية الإجمالية للاتصالات.

وبالتالي يُمكن استخدام مثل هذا النوع من المعلومات لتحطيم التنظيمات الإرهابية، وإيقاف انتشار الأوبئة، أو الحفاظ على الحركة الجوية عندما تتأثر المنطقة بطقسٍ سيء.

ماذا يُمكن للرياضيات أن تُنجز أيضا؟

تُمثّل نظرية المعلومات إحدى التقنيات الرياضية المستخدمة في دراسة البيانات الضخمة، ويأخذ معظم البيانات الضخمة شكل صور، ولذلك فإنّ الخوارزميات الرياضية التي تُصنِّف وتفسر وتحلل وتضغط الصور غاية في الأهمية.

إضافة إلى ذلك فطالما تم استخدام الطرق الإحصائية في تحليل وتفسير الصور، لكنها حصلت حديثاً على دفعة مهمة بفضل خوارزميات رياضية جديدة أصبحت مؤخراً جزءا من الرياضيات البحتة رغم اعتقاد الناس حتى وقتٍ قريب بعدم وجود أي تطبيقات مباشرة لها في العالم الحقيقي. بعضٌ من تلك الخوارزميات مبني على تحليل المعادلات المعقدة، مما يقود إلى الحصول على تطبيقات قوية وغير متوقعة لأدوات عالية التقنية انطلاقاً من النظريات المتعلقة بتلك المعادلات.

تلعب الطبولوجيا الجبرية (Algebraic topology) – وهي حقل الرياضيات الذي يدرسُ خواص الأشكال باستخدام الجبر- دوراً مفيداً جداً في تصنيف الصور. كما أنّ التقنيات القادمة من نظرية التصنيف (category theory)- الحقل الذي يدرس البُنى الرياضية والمفاهيم عالية التجريد- يُمكن استخدامها في تحليل الصورة إلى أجزائها لمعرفة كيف تتلاءم المكونات المختلفة معاً. ويسمح ذلك الأمر، في سياق مجال تعلم الآلة (machine learning)، للآلة بأن “تفهم” ماهيّة الأجسام الموجودة في صورة ما، ومن ثمّ تتخذ قرارا “معقولا” بناءً على ذلك. هذه قائمة قصيرة فقط، وفي الحقيقة فإنّ هناك العديد من الحقول الرياضية الأخرى وأيضاً علوم الحاسوب التي وجدت العديد من التطبيقات لها في مجال دراسة البيانات الضخمة. راقب هذا الفضاء! وأنا واثق أننا سنرى تطورات عظيمة في مجال الرياضيات الحسابية التطبيقية والبحتة نتيجة دراسة تلك التحديات.

إعداد: أنمار رؤوف

المصادر: 123