Please reload

التدوينات الحديثة

بيانات كبيرة أو صغيرة أو مناسبة: ما هو التركيز المناسب؟

 

نجد أنفسنا في عصر البيانات الضخمة، حيث يتم جمع تيارات واسعة ومستمرة من البيانات غير المتجانسة المتعلقة بالإنسان عن طريق الوسائل الرقمية، وتبسيطها للاستخدام وفقًا لتوصيف 5V حجم (حجم البيانات) و التنوع (التنوع في المحتوى) والسرعة (المعدل الذي يتم إنتاجه) والصدق (جودة المحتوى) والقيمة (إنه تأثير الأعمال). وتُجمع مجموعات البيانات الضخمة عبر العديد من الوسائل المختلفة بما في ذلك شبكات الكمبيوتر والتغطية الإعلامية بوسائل التواصل الاجتماعية وتاريخ تصفح الويب وأجهزة استشعار الهواتف المحمولة وأجهزة إنترنت الأشياء (IoT) وبيانات الفيديو من القيادة (الذاتية) والتطبيقات الآلية ومعاملاتنا التجارية وغيرهم الكثير.

 

دفعت المهمة المعقدة المتمثلة في معالجة وتحليل البيانات الضخمة هندسة الكمبيوتر وعلوم الكمبيوتر على عدة جبهات، مثل المعالجة المتوازية الموزعة (مثل تصميم الخرائط وخفض التدفقات) والتعلم الآلي (مثل التعلم العميق). تحدت حدود التكنولوجيا لدينا في تصميم مركز البيانات ومعالجة الكمبيوتر وسعة التخزين وعرض نطاق الاتصالات. على الرغم من أن البيانات الكبيرة لا تزال تحتوي على العديد من مشاكل البحث الهامة، في بعض الأحيان يكون الحل هو مجرد زيادة في البيانات. ولكن مع ذلك، بالنسبة لمعظم المؤسسات يكون استخدام البيانات الكبيرة إما مستحيلًا أو غير عملي أو مكلفًا بطريقة لا تُبرر أو يصعب الاستعانة بمصادر خارجية بسبب الطلب المتزايد على الموارد المؤهلة.

 

لكن ما هي البيانات الصغيرة بالضبط؟ طُرح هذا السؤال والإجابة عليه في كثير من الأحيان تحتوي على تعريفات متعددة: "بيانات صغيرة الحجم بما يكفي لفهم البشر" [١]، "البيانات التي تناسبها أجهزة الكمبيوتر المحمول" [٢]، “البيانات في مجلد وصيغة تجعل من الإمكانية الوصول إليها وغني بالمعلومات وقابلًا للتنفيذ "[٣]؛ "الأثر الرقمي الذي يولده كل شخص" [٤]. لتحقيق غايتنا، جميع هذه التعريفات مناسبة لأنها تستبعد تطبيقات البيانات الضخمة.

 

السبب الأكثر أهمية والذي يدعو للقلق حول البيانات الصغيرة هو أن معظم الشركات في العالم لن يكون لديها بيانات كبيرة. عرض بياني أدناه، مع تآمر الشركات في محور واحد وكمية البيانات التي يمكن جمعها في الطرف الآخر، نرى أن البيانات التي تنتجها معظم الشركات تشكل الجذع والذيل الطويل المتنوع للبيانات ككل.

 

 

 

تتميز البيانات الضخمة بميزة سهولة التطبيق، بمعنى أنه يمكننا استخدام البيانات الكبيرة لإنشاء بيانات صغيرة. أحد أكثر الأغراض شيوعًا للبيانات الضخمة هو إنتاج عدد لا يحصى من مجموعات البيانات الصغيرة المترابطة والمتخصصة، والتي يتم إنشاؤها في الغالب من عملية التحويل نفسها. تتضمن بعض المزايا الرئيسية للبيانات الصغيرة ما يلي:

 

معظم البيانات التي يستهلكها الناس هي بيانات صغيرة:

 

  • في معظم الحالات، تكون البيانات الصغيرة هي البيانات الصحيحة للمشكلة المطروحة [٥]؛

  • البيانات الصغيرة أكثر توفر ودقة وكاملة؛

  • البيانات الصغيرة تقود إنترنت الأشياء [٦]؛

  • البيانات الصغيرة تتعلق بالناس والمجموعات الصغيرة والمجتمعات؛

  • تصف البيانات الصغيرة كل شخص في كل سياق.

  • يمكن فهم البيانات الصغيرة وتفسيرها من البشر؛

  • تُشغل معظم الابتكارات بواسطة البيانات الصغيرة [٧].

 

 يبدو أن للأسباب السابقة قيمة أكبر في البيانات الصغيرة. يدعي بعض الناس أن "البيانات الصغيرة هي البيانات الضخمة الجديدة" [٧، ٨] ، وأن "البيانات الصغيرة هي الثورة الحقيقية" [٢] أو أن "البيانات الصغيرة هي المكان الذي تكمن فيه الأموال" [٩]. في الواقع، تساهم البيانات الصغيرة للغاية في اتخاذ قراراتنا بنعم أو لا لاتخاذ أي خيار مهم، مما يجعل مقدار البيانات التي نحتاجها لتحديد قرار معين مصدر قلق رئيسي. ومع ذلك، فإن وجود بيانات أقل لا يعني أن المشكلة أبسط أو أننا نعرف بالضبط ما يجب فعله بها [١٠]. اسأل نفسك أولاً بعض الأسئلة:

 

ما نوع البيانات التي أحتاجها؟ ما مقدار البيانات التي أحتاجها حقًا؟ ما هو أفضل ما يمكنني القيام به مع البيانات لدي؟

 

يجب أن تولد إجاباتك أسئلة أكثر تعقيدًا، مثل:

 

ما هي مشكلات الخصوصية على البيانات؟ هل يمكنني حل المشكلة في هاتفي الذكي؟ هل هناك أي تحيز للبيانات وإذا كان الأمر كذلك، كيف يمكنني مقارنة نتائجي بنتائج الأشخاص الآخرين؟

 

في أفضل الأحوال، لدينا حاليًا إجابات جزئية على هذه الأسئلة. ومع ذلك، فإن العديد من المشكلات البحثية تطرح إجابات أفضل أو لا توجد إجابات على الإطلاق. ومن بينها الحفاظ على الخصوصية وتعلم الآلة بكفاءة الموارد والاختيار التفاعلي والديناميكي للنماذج والتحليل الإضافي واختيار الميزات والتنعيم المتخصص وتحليل الأخطاء والكشف عن التحيز والمعايرة وتحسين تفسير وتحليل السببية.

 

بالإضافة إلى ذلك، أثناء معالجة البيانات الصغيرة يجب أن تكون أسرع وفي معظم الحالات لا تتوفر بيانات كافية لتطبيق التعلم العميق، مما يؤدي إلى ظهور مشكلات جديدة مثل التحيز وكشف الضجيج والتصحيح وتحديد الخطأ وعدم التأكد والنمذجة المقيدة والتمهيد. ومما يزيد الطين بلة، أن هذه المشاكل لها اعتمادات متبادلة مع المقايضات التي لا تُدرس في معظم الحالات. إذا أخذنا بالاعتبار أن معظم البيانات المستهدفة شخصية وتعيش في جهاز صغير محمول، فيجب علينا الحفاظ على الخصوصية و / أو حل المشكلة في جهاز يمتلك طاقة وذاكرة واتصال محدودة.

 

 

لذلك، بسبب وجود بيانات صغيرة واسعة الانتشار والتأثير الكبير في عالم الشركات الصغيرة والمتوسطة والأفراد، ومن المهم فهمه بشكل جيد. بالإضافة إلى توصيف 5V للحجم، والسرعة، والتنوع، والدقة، والقيمة، فيجب أن نذكر بعض الجوانب البارزة الأخرى [11]:

 

  • النطاق – ما مدى استنزاف البيانات المتعلقة بالمشكلة الحالية؟

  • القرار والمطابقة – ما مدى جودة البيانات وكيفية التعرف على كل عنصر؟

  • العلائقية – ما مدى سهولة تجميع قواعد البيانات المختلفة من خلال الحقول المشتركة أو الترميزات التي تشكل جزءًا من البيانات؟

  • المرونة – ما مدى سهولة توسيع البيانات (على سبيل المثال: إضافة حقول جديدة) وقياس حجمها؟

  • الخصوصية – كيف ترتبط البيانات بالناس؟

 

 

يقارن جدول 1 البيانات الصغيرة مع البيانات الكبيرة باستخدام 12 بُعدًا. قد تكون الجوانب الإضافية للبيانات مهمة لمعظم التطبيقات، يتضمن ذلك كيف جُمعت البيانات، وكيف استخدمت التكنولوجيا والبرامج، وكيف استعمل علم وجود البيانات، والسياق الذي يتم فيه إنشاء البيانات [12]:

 

في الآونة الأخيرة، قد أثار استخدام البيانات الصغيرة الاهتمام بين مجتمع الصحة الالكترونية العلمي. تعرف "Deborah Estrin" [4] البيانات الصغيرة بأنها "صورة لصحتك الشخصية." وهي تقود المبادرات التي تحرر البيانات إلى المستهلك، بحجة  أن السلوك الرقمي يؤدي إلى معرفة قيمة صحة الفرد الشخصية (على سبيل المثال، http://smalldata.io/). قد يختار المرضى مشاركة بيانات معينة مع الباحثين والمحللين مع الاحتفاظ بالمعلومات الأخرى لطبيبهم فقط، أو اختيار عدم الكشف عن أي بيانات على الإطلاق. يجب على الباحثين والممارسين اتباع إطار الموافقة المسبقة لضمان أن البيانات الوحيدة المتبادلة هي البيانات المصرح بها من قبل المريض. في بعض الحالات، يمكن أن يكون المريض متحفظًا لمشاركة معلوماته الشخصية الحساسة. في هذه الحالات (ربما الأكثر إثارة للاهتمام) الأجهزة الرقمية يجب أن تكون قادرة على تحليل البيانات محليًا، مما تسبب إنذار في حالة الطوارئ فقط.

 

في هذا السياق وفي سياقات أخرى، تشير البيانات الشخصية الصغيرة إلى المعلومات المتعلقة بفرد حي. عادةً ما ترتبط هذه البيانات بشخص يمكن تحديد هويته ويمكن أن تتضمن الاسم الأول، الاسم الأوسط، الاسم الأخير، العنوان، رقم الهاتف، رقم جواز السفر، الصحة المحددة أو الحالات المعرفية، الخ. بشكل عام، هذه البيانات خاصة وبالتالي البيئة التنظيمية باحترام الخصوصية، وحماية البيانات، والأمن أمراً بالغ الأهمية.

 

كأثر جانبي، هناك حقيقتان تجعلان استخدام البيانات الشخصية تحديًا للتطبيقات المستندة إلى التعليم الآلي. أولاً، من الصعب جمعها؛ فالبيانات الشخصية تعتبر خاصة أو حساسة ومعظم الناس لا ترتاح عند مشاركتها. ثانيًا، البيانات الشخصية المتعلقة بالظروف العقلية، والصحية، والتعليمية نادرة لأن مثل هذه الحالات نادرة، وغالبًا ما تكون "مخفية"، بمعنى أنه لم يتم تحديدها قبل ظهور الأعراض. وعلاوةً على ذلك، فإن معظم الحالات (مثل الأمراض الجسدية والعقلية، واضطرابات التعليم) تخضع للاهتمام إلى حد كبير. تعتمد مظاهرهم بشكل كبير من شخص إلى آخر، مما يجعل التعميم مستحيلاً. وهذا يعني أن البيانات الواردة من بعض المواد قد لا تكون بيانات تدريب مناسبة للأفراد الآخرين. ونتيجةً لذلك، فإن البيانات الأنسب لتدريب الخوارزمية هي البيانات التي تنتمي إلى نفس الموضوع، مما يجعل البيانات المستهدفة أصغر.

 

 

من الواضح أن هناك حاجة إلى مزيد من الأبحاث بالإضافة إلى جهودنا الحالية في تقدم البيانات الكبيرة مثل الاتجاهين الرئيسين للمعالجة الموزعة/ الموازية، والتعلم العميق. نحتاج أيضًا إلى استكشاف حدود البيانات الصغيرة واستخدامها الدقيق. ثم يمكننا معرفة ما إذا كانت البيانات صحيحة  تحتاج أن تكون صغيرة أو كبيرة. ومع ذلك، إذا اعتبر عام 2013 عامًا للبيانات الصغيرة [13]، فقد تأخرنا بالفعل. لا تنتظر لدقيقة أخرى. الآن هو الوقت المثالي لتحقيق الكمال.

 

 

الجدول 1. مقارنة خصائص البيانات الصغيرة والبيانات الضخمة (تستند جزئيا في [11]).

       

                        

المراجع:

 

[11] R. Kitchin (2013). Big data and human geography: Opportunities, challenges, and risks. Dialogues in Human Geography 79(1), 1-14.

 

[12] R. Kitchin and T. Lauriault (2015). Small data in the era of big data. GeoJournal 80, 463-475.

 

[4] D. Estrin (2014). Viewpoint: small data, where n=me, Communications of ACM 57 (4), 32-34. Based in the TEDMED 2013 presentation: What happens when each patient becomes his or her own “universe” of unique medical data? URL: http://www.tedmed.com/talks/show?id=17762.

 

 

[13] Small Data Group (2013). The Year of Small Data. URL: https://smalldatagroup.com/2013/12/11/the-year-of-small-data/.

 

 

[11] R. Kitchin (2013). Big data and human geography: Opportunities, challenges, and risks. Dialogues in Human Geography 79(1), 1-14.

 

 

السيرة الذاتية:  

 

يعمل الدكتور ريكاردو بايزا ييتس حالياً في CTO لشركة NTENT ، وهي شركة تكنولوجيا تعمل في Carlsbad ، كاليفورنيا ، منذ يونيو 2016 ؛ بالإضافة إلى أنه مدير برامج علوم الكمبيوتر (بدوام جزئي) من جامعة نورث إيسترن، منذ يناير 2018.

 

المصدر

 

 

Share on Facebook
Share on Twitter
Please reload

تابعنا
ابحث بالتاق
Please reload

الارشيف
  • Black Instagram Icon
  • Black Twitter Icon

Riyadh, Saudi Arabia

  • Black Instagram Icon
  • Black Twitter Icon

الرياض، المملكة العربية السعودية