Please reload

التدوينات الحديثة

دليل المبتدئين لأنابيب التجزئة في علم البيانات

 

 كتبه: راندي لاو، مساعد تدريس تعلم الآلة

 

"صدق أو لا تصدق، لا يوجد فرق بينك وبين علم البيانات، ضع نفسك في مكان البيانات وستعرف الفرق".

كان يا مكان كان هناك فتاه تدعى بيانات، كانت دائما تحاول فهم هدفها طيلة حياتها. وماهي القيمة التي تمتلكها؟ وما الأثر الذي يمكنني فعله في هذا العالم؟ ومن أين تأتي البيانات؟ لاحظ أي أوجه التشابه بينك وبين البيانات؟

 

كانت هذه الاسئلة عالقة في ذهنها، ولحسن الحظ توصلت في النهاية إلى حل وحدثت تحولاً كبيراً.

 

بدأ كل شيء بينما كانت البيانات تسير في الصفوف عندما صادفت أنبوباً غريباً لكنه مثيراُ للاهتمام. في أحد طرفيه كان هناك مدخل وعند الطرف الآخر مخرج. وسُمي الأنبوب أيضاً بخمسه أحرف مميزة هي: "O.S.E.M.N.". وبما أنها شغوفه، قررت البيانات الدخول إلى أنابيب التجزئة. ولاختصار القصة ... دخلت بيانات وخرجت رؤى.

 

تذكير: سيغطي هذا المقال باختصار نظرة عامة عالية المستوى لما يمكن توقعه في علم البيانات النموذجي لأنابيب التجزئة. من تأطير مشكلة عملك إلى إنشاء رؤى قابله للتنفيذ. لا تقلق، ستكون هذه القراءة سهلة!

 

 علم البيانات هو OSEMN

 

أنت رائع، وأنا رائع، وعلم البيانات أيضاً OSEMN. قد تتساءل لماذا يعتبر علم البيانات رائعاً؟ حسناً، بصفتك عالم بيانات طموح منحت لك الفرصة لصقل قدراتك على كل من المعالج والكاشف. بالمعالج، اعني امتلاك كالصلاحيات لتوقع الأشياء تلقائياً! وبالكاشف فلديه القدرة على ايجاد أنماط واتجاهات غير معروفه في بياناتك!

يعتبر فهم تدفق العمل المعتاد عن كيفيه عمل أنابيب التجزئة لعلم البيانات خطوة حاسمة  في فهم الأعمال وحل المشكلات. فإن كنت مرعوباً بشأن كيفية عمل أنابيب التجزئة لعلم البيانات، فلا تقل شيئاً آخر. هذا المقال لك!  وجدت اختصاراً بسيطاً جداً من هيلاري ماسون وكريس ويغينز يمكنك استخدامه خلال علم البيانات لأنابيب التجزئة، وهو OSEMN.

 

 

 

مصدر الصورة: unsplash

 

 خط أنابيب OSEMN

 

  • يشير حرف O إلى الحصول على بياناتنا.

  • وحرف S  إلى تنقية/ تنظيف بياناتنا.

  • وحرف Eإلى استكشاف / تصور بياناتنا الذي سيسمح لنا بإيجاد الأنماط والاتجاهات.

  • وحرف M إلى نمذجه بياناتنا الذي سيعطينا القوة التنبئية كالمعالج.

  • وحرف N  إلى تفسير بياناتنا.

 

 سؤال الأعمال

 

إذن قبل أن نبدأ بأنابيب تجزئة OSEMN، أهم خطوة يجب أن نهتم بها هي فهم المشكلة التي نحاول حلها. لنقول ذلك مره أخرى. قبل أن نبدأ بعمل أي شيء مع علم البيانات، يجب أن نهتم أولاً بالمشكلة التي نحاول حلها. فإذا كان لديك مشكلة صغيرة تحاول حلها، فحينئذٍ ستحصل على حل صغير على الأكثر. وإذا كانت لديك مشكلة كبيرة لحلها، فحينئذٍ سيكون لديك إمكانية حل كبير.

 

 أسأل نفسك:

 

  • كيف يمكننا ترجمة البيانات إلى دولارات؟

  • ما الأثر الذي أرغب في تنفيذه بهذه البيانات؟

  • ماهي القيمة التجارية التي يقدمها نموذجنا؟

  • ما الذي سيوفر لنا الكثير من المال؟

  • ما الذي يمكن فعله لجعل أعمالنا تعمل بكفاءة أكثر؟

 

"أرني المال!"

 

إن معرفة هذا المفهوم الأساسي سيمنحك وسيقودك إلى خطوات أكبر لتكون ناجحاً وأن تكون "عالم بيانات" (مما أؤمن به ... آسف أنا لست واحداً!).

ولكن مع ذلك، تظل هذه الخطوة مهمه جداً يجب عليك القيام بها! بغض النظر عن كيف تتنبأ بياناتك، و كمية البيانات التي تحصل عليها، ومهما كانت أنابيب تجزئة لـOSEMN. فحلك أو رؤيتك القابلة للتنفيذ ستكون فقط بنفس جودة المشكلة التي وضعتها لنفسك.

 

"علم البيانات الجيد يتعلق أكثر بالأسئلة التي تطرحها في البيانات بدلاً من تحويل البيانات وتحليلها" ريلي بيومان.

 

 احصل على بياناتك:

 

لا يمكنك القيام بأي شيء بصفتك عالم بيانات بدون وجود بيانات. وكقاعدة عامة، يوجد بعض الأمور يجب أن نهتم بها عند الحصول على بياناتك. فيجب عليك تحديد جميع البيانات المتوفرة لديك (والتي قد تكون من الانترنت أو قواعد البيانات الخارجية/الداخلية). يجب عليك ادخال البيانات إلى تنسيق قابل للاستخدام csv ،json) xmlوما إلى ذلك).

 

 المهارات المطلوبة:

 

  • ادارة قواعد البيانات: برنامج MySQL،  نظام PostgresSQL، نظام MongoDB

  • الاستعلام عن قواعد البيانات التي ترتبط بالعلاقات.

  • استرداد البيانات غير المنظمة: النص، ومقاطع الفيديو، والملفات الصوتية، والمستندات.

  • التخزين الموزع: برنامج Hadoops، برنامج  Apache Spark/Flink

 

 تنقية/تنظيف بياناتك:

 

تنظيف العمود 5! يجب أن تحتاج هذه المرحلة لأنابيب التجزئة وقتاً وجهداُ كبيران. لأن نتائج ومخرجات نموذج تعلم الآلة الخاص بك هو بجودة ما تضعه فيه. ببساطة، نفاية مدخلة ونفاية مخرجة.

 

 الأهداف:

 

افحص البيانات: تعرّف على كل ميزة تعمل معها ، وحدد الأخطاء ، والقيم الناقصة ، والسجلات المغشوشة

تنظيف البيانات: التخلص من و/أو استبدال و/أو ملء القيم / الأخطاء المفقودة

 

 المهارات المطلوبة:

 

  • لغة البرمجة: Python، R، SAS

  • أدوات تبادل البيانات: Python Pandas، R

  • المعالجة الموزعة: Hadoop ، خريطة تقليل / سبارك

 

”الرجل المتأهب خاض نصف معركته“ - ميغيل دو سرفانتس

استكشاف (تحليل البيانات الاستكشافية)

 

الآن، أثناء مرحلة الاستكشاف، نحاول فهم أنماط وقيم بياناتنا. سنستخدم أنواعًا مختلفة من التصورات والاختبارات الإحصائية لدعم نتائجنا. هذا هو المكان الذي سنكون فيه قادرين على استخلاص المعاني الخفية وراء بياناتنا من خلال الرسوم البيانية والتحليلات المختلفة.

 

اخرج واستكشف!

”السفينة في الميناء تكون آمنة - ولكن لم تُبنى السفن لذلك“ - جون أ. شيد

 

 الأهداف:

 

  • العثور على أنماط في البيانات الخاصة بك من خلال المرئيات والرسوم البيانية

  • استخراج الميزات باستخدام الإحصائيات لتحديد واختبار المتغيرات الهامة

 

 المهارات المطلوبة:

 

  • : Numpy، Matplotlib، Pandas، Scipy

  • R: GGplot2 ، Dplyr

  • إحصائيات تفضيلية

  • تصميم تجريبي

  • عرض مرئي للمعلومات

 

نصيحة: استشعر حواسك "spidey senses" عند إجراء التحليل. ليكن لديك حس لتحديد أنماط أو اتجاهات غريبة. كن دائما على اطلاع على نتائج مثيرة للاهتمام!

 

اعتبارات التصميم: في معظم الأوقات، يذهب الناس مباشرة إلى المقطع المرئي "لننتهي من تنفيذه". كل ما يتعلق بالمستخدم النهائي هو الذي سيترجمه. ركز على جمهورك.

 

 النمذجة (التعلم الآلي)

 

الآن يأتي الجزء الممتع. النماذج هي قواعد عامة بالمعنى الإحصائي. فكر في نموذج التعلم الآلي كأدوات في صندوق الأدوات الخاص بك. ستكون لديك خاصية الوصول إلى العديد من الخوارزميات واستخدامها لتحقيق أهداف العمل المختلفة. أفضل الميزات التي تستخدمها هي أفضل قدرة تنبؤيه. بعد تنظيف بياناتك والعثور على الميزات الأكثر أهمية، سيؤدي استخدام نموذجك كأداة تنبؤيه إلى تعزيز اتخاذك للقرارات التجارية فقط.

 

 

مثال على الطاقة التنبؤية: يمكن رؤية مثال واحد عظيم في سلسلة التوريد في استطاع وول مارت (Walmart)أن يتنبأ بأنهم سيبيعون كل ما لديهم من فطائر الفراولة في موسم الأعاصير في أحد متاجرهم. من خلال تعدين البيانات ، أظهرت بياناتهم التاريخية أن السلعة الأكثر شعبية التي بيعت قبل وقوع الأعاصير كانت من نوع "بوب تارتس". كما يبدو من الجنون ، هذه قصة حقيقية وتثير نقطة عدم الاستهانة بقوة التحليلات التنبؤية.

 

 الأهداف:

 

  • تحليلات متعمقة: إنشاء نماذج / خوارزميات تنبؤية

  • تقييم وصقل النموذج

 

 المهارات المطلوبة:

 

تعلم الآلة: الخوارزميات الخاضعة للإشراف / غير المشاهد

طرق التقييم

مكتبات التعلم الآلي: Python (Sci-kit Learn) / R (CARET)

الجبر الخطي وحساب التفاضل والتكامل متعدد المتغيرات.

 

 

 الترجمة الفورية (سرد البيانات) 

 

إنه وقت القصة! أهم خطوة في خط الأنابيب هي فهم وتعلم كيف تشرح نتائجك من خلال التواصل. إخبار القصة أمر أساسي ، لا تقلل من أهميتها. الأمر يتعلق بالاتصال بالأشخاص وإقناعهم ومساعدتهم. يعد فهم جمهورك والتواصل معهم أحد أفضل عناصر سرد البيانات.

 

تلعب العاطفة دورًا كبيرًا في سرد البيانات. لن يفهم الأشخاص نتائجك بطريقة سحرية. أفضل طريقة لإحداث تأثير هي إخبار قصتك من خلال العاطفة. نحن كبشر نتأثر بشكل طبيعي بالعواطف. إذا تمكنت من ملامسة  مشاعر الجمهور إذًا فأنت صديقي ، أنت في طور التحكم. عندما تقدم بياناتك ، ضع في اعتبارك قوة علم النفس. يعد فهم جمهورك والتواصل معهم أحد أفضل عناصر سرد البيانات.

 

أفضل الممارسات: من الممارسات الجيدة التي أقترحها بشدة لتعزيز رواية القصص الخاصة بالبيانات تكرارها مرارًا وتكرارًا. إذا كنت\ي أم أو أب ، فهذا يعني أن هناك أخبارًا جيدة بالنسبة لك. بدلاً من قراءة كتب Dr. Seuss النموذجية لأطفالك قبل النوم ، جرّب وضعها في وضع النوم مع نتائج تحليل بياناتك! لأنه إذا كان أحد الأطفال يفهم تفسيرك ، فبإمكان أي شخص فهمه، وخاصة رئيسك!

 

 الأهداف:

 

التعرف على إحصاءات الأعمال: ارجع إلى مشكلة العمل

تصور النتائج التي توصلت إليها وفقًا لذلك: احتفظ بها بسيطة وذات أولوية

أخبر قصة واضحة وقابلة للتنفيذ: التواصل الفعال مع الجمهور غير التقني

 

 المهارات المطلوبة:

 

  • المعرفة مجال الأعمال

  • أدوات عرض البيانات: Tablaeu ، D3.JS ، Matplotlib ، GGplot ، Seaborn

  • : التقديم / التحدث وإعداد التقارير / الكتابة

 

 تحديث نموذجك

 

لا تقلق لم تنتهي قصتك هنا. نظرًا لأن نموذجك قيد الإنتاج، من المهم تحديث نموذجك دوريًا، اعتمادًا على عدد المرات التي تتلقى فيها بيانات جديدة. كلما زادت البيانات التي تتلقاها كلما كان التحديث أكثر تكرارًا. دعنا نقول أنك أمازون وقدمت ميزة جديدة للعملاء لشراء "ميزة الأحذية". أنت لا تملك هذا الطراز القديم ويجب عليك الآن تحديث النموذج الذي يتضمن هذه الميزة. إذا لم يكن الأمر كذلك، فسيتراجع نموذجك بمرور الوقت ولن يحقق أداءً جيدًا، مما يؤدي إلى تدهور نشاطك التجاري أيضًا. ستؤدي مقدمة الميزات الجديدة إلى تغيير أداء النموذج إما من خلال الاختلافات المختلفة أو ربما الارتباط بالميزات الأخرى.

 

 الخلاصة:

 

باختصار،

شكّل مشكلة عملك

أحصل على بياناتك

 

الحصول على بياناتك وتنظيفها واستكشافها مع المرئيات شكل بياناتك الخاصة بك مع خوارزميات التعلم الآلي المختلفة ، وتفسيرها عن طريق التقييم، وتحديث النموذج الخاص بك.

 

معظم المشاكل التي ستواجهها هي ، في الواقع ، مشاكل هندسية. فإن معظم التأثير سيأتي من الميزات الرائعة ، وليس خوارزميات التعلم الآلي. إذن ، النهج الأساسي هو:

  1. تأكد من أن خط أنابيبك متين حتى النهاية

  2. ابدأ مع هدف معقول

  3. افهم بياناتك بشكل حدسي

  4. تأكد من أن خط الأنابيب الخاص بك يبقى صلبًا

 

نأمل أن تجني هذه الطريقة الكثير من المال و / أو تجعل الكثير من الناس سعداء لفترة طويلة من الزمن.

 

المصدر

 

Share on Facebook
Share on Twitter
Please reload

تابعنا
ابحث بالتاق
Please reload

الارشيف
  • Black Instagram Icon
  • Black Twitter Icon

Riyadh, Saudi Arabia

  • Black Instagram Icon
  • Black Twitter Icon

الرياض، المملكة العربية السعودية