Please reload

التدوينات الحديثة

 

في هذه المقالة سنتوسع في المعلومة التي تعلمناها من المقال السابق – ماهية البيانات وأين تقع وكيفية عملها في مجال علم البيانات – وسنولي اهتماماً للإجابة على كيف أن علم البيانات يطبق لنتنبأ بالمستقبل.

 

بقلم إيليا فالكانف, 365 علم البيانات.

 

ترتكز التحليلات التنبئية في علم البيانات على تحليل البيانات التوضيحية، وهذا ما كنا نناقشه في مقالتنا السابقة - ماهية البيانات وأين تقع وكيفية عملها في مجال علم البيانات- فقد تحدثنا عن البيانات في علم البيانات، وكيف أن محللو ذكاء الأعمال (BI) قد استعملوها لتفسير أحداث سابقة.

 

في الواقع، إن الأمور مرتبطة ببعض، فعندما يتم تجهيز تقارير ولوحات المعلومات البيانية المستخدمة في ذكاء الأعمال وتعد الرؤى – المستخلصة منها - فتصبح هذه المعلومات هي أساس التنبؤ بالقيم المستقبلية، وتعتمد دقة هذه التنبؤات على الطرق المستخدمة.

 

تذكر الفرق بين البيانات التقليدية والبيانات الضخمة في علم البيانات أو راجع مقالتنا الأولى ماهية البيانات وأين تقع وكيفية عملها في مجال علم البيانات.

 

يمكننا اجراء مقارنة مماثلة فيما يتعلق بالتحليلات التنبئية وطرقها: الطرق التقليدية في علم البيانات في المواجهة مع التعليم الالي، فأحدهما يتعامل في المقام الأول مع البيانات التقليدية والآخر مع البيانات الضخمة.

 

 

مصدر الصورة

 

 

فما هي طرق التنبؤ التقليدية في علم البيانات؟

 

تشمل طرق التنبؤ التقليدية على الأساليب الإحصائية الكلاسيكية للتنبؤ – من تحليل الانحدار الخطي وتحليل الانحدار اللوجستي والتجميع وتحليل العوامل والسلاسل الزمنية، حيث يصب ناتج كل من هذه الطرق في خدمة تحليلات التعليم الآلي، والتي تعد أكثر تعقيداً منهم، ولكن دعونا أولاً نستعرضهم كلٌ على حده.

 

ملاحظة جانبية سريعة، يشير البعض في مجال صناعة علم البيانات كون العديد من هذه الطرق طرقاً للتعليم الآلي أيضاً، ولكن في هذه المقالة، فإن التعليم الآلي يشير إلى طرق أجدد وأذكى وأفضل، مثل التعليم المتعمق.

 

 

 مصدر الصورة

 

 

الانحدار الخطي:

 

في علم البيانات، يتم استخدام نموذج الانحدار الخطي لتحديد العلاقات السببية بين المتغيرات المختلفة المُشتمل عليها في التحليل، كالعلاقة بين سعر المنزل وحجمه والحي والسنة التي تم بناء المنزل فيها، فيحسب النموذج المُعَاملات والذي ستتمكن من خلالها التنبؤ بسعر منزل جديد، إن أتيحت لك المعلومات ذات الصلة.

 

الانحدار اللوجستي:

 

ونظرا لعدم إمكانية التعبير عن جميع العلاقات الرابطة بين المتغيرات بكونها خطية، فإن علم البيانات يستخدم طرقاً كالانحدار اللوجستي لإنشاء نماذج غير خطية ويعمل الانحدار اللوجستي مع النقاط S0(نقطة قطع محور العينات) وS1(معامل الانحدار)، تطبق الشركات الانحدار اللوجستي لتصفية المرشحين للوظائف خلال مرحلة الانتقاء، فعلى سبيل المثال، إن قدرت الخوارزميات احتمالية أن المرشح المحتمل سيقوم بأعمال الشركة بشكل فوق المتوسط، فأنها ستتوقع (1) أو ستظهر عبارة " تطبيق ناجح"، أما خلاف ذلك فإنها ستتوقع (0).

 

التحليل العنقودي أو التجميعي:

 

تطبق تقنية "علم البيانات" الاستكشافية هذه عندما تُكون الملاحظات حول البيانات مجموعات وفقاً لبعض المعايير، يراعي هذا التحليل أن بعض الملاحظات تبدي تشابه مع بعضها البعض، وتسهل اكتشاف عناصر تنبئية جديدة مهمة -عناصر لم تكن جزءاً من التصور الأصلي للبيانات.

 

تحليل العامل:

 

إن كان التحليل التجميعي يتعلق بجمع الملاحظات معاً في مجموعات، فإن تحليل العامل يتمحور حول جمع المميزات معاً في مجموعات، يلجأ علم البيانات لاستخدام هذا التحليل هذا التحليل للتقليل من تعدد أبعاد مشكلة ما، فعلى سبيل المثال، في استبيان مكون من 100 سؤال، فإن 10 أسئلة يجتمعون على اتجاه واحد، فسيحدد "تحليل العامل" هذه العشر عوامل، حيث يمكن بعد ذلك استخدامهم لتكوين الانحدار، والذي من شأنه تقديم تنبؤ قابل أثر للتفسير، وعلى غرار ما سبق، فإنه يتم دمج العديد من التقنيات في علم البيانات.

 

تحليل السلاسل الزمنية:

 

تعد طريقة شائعة لمتابعة تطور قيم محددة بمرور الوقت، يستخدمها الخبراء في الاقتصاد وفي الشؤون المالية كونهم متخصصون في أسعار الأسهم وحجم المبيعات –المتغيرين اللذان يرسمان في العادة مقابل الزمن.

 

أين يجد علم البيانات تطبيقات لطرق التنبؤ التقليدية:

 

إن مجال تطبيق التقنيات المتناظرة واسع للغاية، ويدخل علم البيانات في عدد كبير ومتزايد من الصناعات، وهذا يوضح لنا استحقاق حقلين بارزين في أن يكونا جزءاً من هذه المناقشة.

 

تجربة المستخدم(UX) وعلم البيانات:

 

عندما تطلق الشركات منتجاً جديداً، فإنهم غالياً ما يصممون استطلاعات تقيس موقف العملاء تجاه هذا المنتج، وتحليل النتائج بعد قيام فريق ذكاء الأعمال من إنشاء لوحات المعلومات البيانية الخاصة بهم، ويتضمن ذلك تجميع الملاحظات في أقسام (فعلى سبيل المثال: مناطق)، وبعد ذلك تحليل كل قسم بشكل مستقل لاستخراج معاملات تنبؤيه ذات مغزى، وتدعم نتائج هذه العمليات الاستنتاج القائل بأن المنتج بحاجة إلى تعديلات طفيفة، ولكن مختلفة إلى حد كبير فيما يخص كل قسم، وهذا لتحقيق أعلى قدر من رضى العميل.

 

التنبؤ بحجم المبيعات:

 

يعد هذا التحليل نوع التحليل الذي تعمل فيه السلاسل الزمنية، فتجمع بيانات المبيعات حتى تاريخ معين، وعندما يريد علماء البيانات معرفة توقعات فترة المبيعات التالية، أو توقعات سنة مقدماً، فإنهم يطبقون نماذج رياضية واحصائية ويديرون عمليات محاكاة متعددة، حيث توفر هذه المحاكاة للمحلل سيناريوهات مستقبلية، فيعد هذا صميم علم البيانات، حيث ستتمكن الشريكات بناءً على هذه السيناريوهات من تحقيق تنبؤات أفضل وتنفيذ الاستراتيجيات.

 

من يستخدم طرق التنبؤ التقليدية:

 

عالِم البيانات، ولكن ضع في اعتبارك انطباق مسمى" عالم البيانات" على الشخص الذي يطبق تقنيات تعلم الآلة للتحليلات أيضاً، حيث ينسكب الكثير من العمل من منهجية أو طريقة لأخرى، ومن ناحية أخرى، محلل البيانات، وهو الشخص الذي يقدم أنواعاً متقدمة من التحليلات، والتي تشرح الأنماط في البيانات التي قد ظهرت بالفعل، وتشرف على الجزء الأساسي من التحليلات التنبئية.

 

تعلم الآلة وعلوم البيانات:

 

تعلم الآلة هو المنهج الحديث لعلم البيانات، وهذا جد عادل، إن الميزة الأساسية التي يمتاز بها تعلم الآلة على أي من تقنيات علوم البيانات التقليدية هي حقيقة كون الخوارزمية تكمن في جوهرها، وتعد الخوارزميات  هي الإرشادات التي يستخدمها الكمبيوتر للعثور على نموذج يناسب البيانات قدر الإمكان، يكمن الفرق بين تعلم الآلة وأساليب علم البيانات التقليدية هو كوننا لا نقدم إرشادات للكمبيوتر حول كيفية العثور على النموذج؛ فإنه يأخذ الخوارزمية ويستخدم ارشاداتها ليتعلم من تلقاء نفسه كيفية العثور على النموذج المذكور،  وهذا على عكس علوم البيانات التقليدية، فيحتاج تعلم الآلة إلى مشاركة بشرية صغيرة،  في الواقع، فإن تعلم الآلة، وخصوصًا خوارزميات التعلم العميقة معقدة للغاية، بحيث لا يستطيع البشر أن يفهموا حقيقة ما يحدث في "داخلها".

ولكي نكون واضحين، يجب أن نلاحظ هنا كون طرق لعلم الآلة تدور حول الطرق التقليدية، فالتعلم الخاضع للإشراف، على سبيل المثال، له نوعان فرعيان - الانحدار والتصنيف (مثال، الانحدار اللوجستي متعدد الحدود)، بطبيعة الحال، تقع العديد من الطرق التقليدية أيضًا تحت مصطلح "تعلم الآلة"، وهذا منطقي لأن الانحدار هو أساس العديد من الطرق الأخرى، بما في ذلك الشبكات العصبية العميقة.

 

وأخيرًا يعد التعلم المتعمق عملية مكلفة للغاية فيما يتعلق بالجانب الحسابي مقارنةً بالطرق التقليدية. لأعطيك بعض الحقائق ، قد شاهدت أعمالًا تم فيها إجراء عمليات الارتداد الخطي على الورق يدويًا.

 

لذا بالنسبة لي، يتم رسم الخط على التالي: هل يمكنك إنشاء CNN والعمل على الورق في وقت معقول؟ ليس الأمر كذلك إنني أسميه التعلم الآلي.

 

ما هو التعلم الآلي في علم البيانات؟

 

تشبه خوارزمية التعلم الآلي عملية التجربة والخطأ، ولكن الشيء المميز فيها هو أن كل تجربة متتالية تكون على الأقل بنفس جودة التجربة السابقة. ولكن ضع في اعتبارك أنه من أجل أن تتعلم الآلة جيداً يجب أن تمر بمئات الآلاف من التجارب والأخطاء مع انخفاض عدد تكرار حدوث أخطاء.

 مصدر الصورة

 

وبمجرد اكتمال التدريب ، ستتمكن الآلة من تطبيق النموذج الحسابي المعقد الذي تعلمته على البيانات الجديدة التي لا تزال تنتج عن توقعات موثوقة للغاية.

 

هناك ثلاثة أنواع رئيسية من التعلم الآلي: التعلم تحت اشراف، وتعلم بدون اشراف، والتعلم بالتعزيز.

 

 

مصدر الصورة

 

التعلم تحت الاشراف

 

يعتمد التعلم الخاضع للإشراف على استخدام البيانات المصنفة. يحصل الجهاز على بيانات مرتبطة بإجابة صحيحة وإذا لم يحصل أداء الجهاز على هذه الإجابة الصحيحة تقوم خوارزمية التحسين بضبط العملية الحسابية ويقوم الكمبيوتر بإجراء تجربة أخرى. ضع في اعتبارك أن الجهاز يؤدي ذلك عادةً على 1000 نقطة بيانات في وقت واحد.

 

وتعتبر دعم آلات ناقلات، والشبكات العصبية، والتعلم المتعمق، ونماذج الغابات العشوائية، وشبكات بايزين كلها أمثلة على التعلم تحت الإشراف.

 

التعلم بدون إشراف

 

عندما تكون البيانات كبيرة جدًا، أو تكون البيانات تحت ضغط كبير جدًا للموارد لتصنيف البيانات أو أنهم لا يعرفون ما هي التصنيفات على الإطلاق، فيلجأ علم البيانات إلى استخدام التعلم بدون إشراف. ويتكون من إعطاء بيانات غير مصنفة للآلة ومطالبتها باستخلاص الأفكار منها. مما يؤدي غالبا إلى تقسيم البيانات بطريقة معينة وفقا لخصائصها. بعبارة أخرى، يتم تجميعها.

 

يعتبر التعلم بدون إشراف فعالاً للغاية لاكتشاف الأنماط في البيانات، وخاصةً الأشياء التي سيفتقدها البشر الذين يستخدمون تقنيات التحليل التقليدية.

 

غالبًا ما يستفيد علم البيانات من التعلم تحت الإشراف وبدونه معًا، فالأول لتصنيف البيانات والآخر لإيجاد أفضل نموذج لملاءمة البيانات. وأحد الأمثلة على هذا هو التعلم شبه تحت الاشراف.

 

التعلم بالتعزيز

 

 هو نوع من أنواع التعلم الآلي حيث يكون التركيز على الأداء (للمشي ، للاطلاع ، للقراءة)، بدلاً من الدقة. فكلما كان أداء الجهاز أفضل مما كان عليه من قبل، يحصل على مكافأة ، ولكن إذا كان أداءه دون المستوى الأمثل، فإن خوارزميات التحسين لا تقوم بضبط الحساب، فكر عند اعطاء اوامر التعلم للجرو. إذا اطاع الأمر، فيحصل على مكافأة وإذا لم يطيع الأمر فليس هناك مكافأة، ولأن المكافآت مغرية سيتحسن الكلب تدريجيا في اطاعه الأوامر. ومع ذلك فبدلاً من تقليل الخطأ، يزيد التعلم بالتعزيز بالمكافأة.

 

أين يتم تطبيق التعلم الآلي في عالم علم البيانات والأعمال؟

 

كشف الاحتيال

 

من خلال التعلم الآلي، وبالتحديد التعلم تحت الإشراف، يمكن للبنوك أن تأخذ البيانات السابقة أو تصنف المعاملات بأنها شرعية أو احتيالية، وتدرب نماذج لكشف النشاط الاحتيالي. عندما تكشف هذه النماذج أي احتمال للسرقة فإنها تشير إلى المعاملات وتمنع الاحتيال في الوقت الفعلي.

 

الاحتفاظ بالعميل

 

باستخدام خوارزميات التعلم الآلي  يمكن للشركات معرفة العملاء الذين يمكنهم شراء السلع منهم. وهذا يعني أن المتجر يمكن أن يقدم خصومات و "لمسة خاصة" بطريقة فعالة  مما يقلل من تكاليف التسويق ويزيد الأرباح إلى أقصى حد. هنا يتبادر اسمان بارزان إلى الذهن وهما: غوغل وأمازون.

 

من الذي يستخدم التعلم الآلي في علم البيانات؟

 

كما ذكر أعلاه ، يشارك عالم البيانات في تصميم خوارزميات الآلة ولكن هناك نجم آخر يلمع في هذه المرحلة.

هو مهندس التعلم الآلي، المتخصص الذي يبحث عن طرق لتطبيق نماذج حاسوبية متطورة تم تطويرها في مجال التعلم الآلي لحل المشكلات المعقدة مثل مهام العمل ومهام علوم البيانات ورؤية الكمبيوتر، والسيارات ذاتية القيادة،  والروبوتات، وما إلى ذلك.

 

لغات البرمجة والبرمجيات في علم البيانات

 

هناك فئتان رئيسيتان من الأدوات الضرورية للعمل مع البيانات وعلم البيانات: لغات البرمجة والبرمجيات.

 

 

مصدر الصورة

 

لغات البرمجة في علم البيانات

 

إن معرفة لغة البرمجة تمكن عالم البيانات من ابتكار برامج يمكنها تنفيذ عمليات محددة. أكبر فائدة من لغات البرمجة هي أنه بإمكاننا إعادة استخدام البرامج المنشأة لتنفيذ الإجراء نفسه عدة مرات. تغطي لغة R و Python و MATLAB بالإضافة إلى لغة SQL  معظم الأدوات المستخدمة عند التعامل مع البيانات التقليدية وذكاء الأعمال وعلم البيانات التقليدية. تعتبر لغة  R و Python هما أكثر الأدوات شيوعًا في جميع التخصصات الفرعية لعلم البيانات. وأكبر ميزة هي أنهما يمكن أن يتلاعبا بالبيانات ويتكاملان مع منصات برمجيات علم البيانات والبيانات المتعددة. فهما ليستا مناسبتين فقط للحسابات الرياضية والإحصائية بل وقابلتن للتكيف.

 

ومع ذلك، تعتبر لغة SQL هي السائدة، عندما يتعلق الأمر بالعمل مع أنظمة إدارة قواعد البيانات التي ترتبط بالعلاقات، لأنها أنشئت خصيصًا لهذا الغرض. وتكون لغة SQL في أفضل حالاتها عند التعامل مع البيانات التقليدية والتاريخية، على سبيل المثال عند إعداد تحليل ذكاء الأعمال.

 

و لغة MATLAB هي رابع أداة لا غنى عنها في علم البيانات. وهي مثالية للعمل مع الوظائف الرياضية أو التلاعب بالمصفوفة.

 

يتم التعامل مع البيانات الكبيرة في علم البيانات حتما بمساعدة لغة R و Python  ، ولكن الأشخاص الذين يعملون في هذا المجال غالباً ما يتقنون اللغات الأخرى مثل لغة Java أو Scala. فهما مفيدتان للغاية عند دمج البيانات من مصادر متعددة.غالبًا ما تستخدم لغة جافا سكريبت ، و C ، و C ++ ، بالإضافة إلى اللغات المذكورة أعلاه ، عندما يكون فرع علم البيانات الذي يعمل فيه الاختصاصي متضمناً التعلم الآلي. فهي أسرع من لغة R و Python وتوفر قدرًا أكبر من الحرية.

 

برمجيات في علم البيانات

 

تكون البرامج أو الحلول البرمجية في علم البيانات أدوات معدلة لاحتياجات محددة. حيث يُعد برنامج أكسل Excel أداةً تنطبق على أكثر من فئة واحدة ، وهي البيانات التقليدية وذكاء الأعمال وعلم البيانات. وبالمثل ، فإن برنامج SPSS هو أداة مشهورة جدًا للعمل مع البيانات التقليدية وتطبيق التحليل الإحصائي.

 

من ناحية أخرى ، يعد كل من  Apache Hadoop  و Apache Hbase و Mongo DB برامجًا مصممة للعمل مع البيانات الضخمة.

 

تعد البرامج Power BI و SaS و Qlik - وخصوصًا Tableau - من أفضل الأمثلة على البرامج المصممة لتصورات ذكاء الأعمال.

 

ومن ناحية التحليلات التنبئية ، يستخدم برنامج EViews في الغالب للعمل مع نماذج السلاسل الزمنية الاقتصادية القياسية (ايكونومترية) ، و برنامج Stata  للأبحاث الأكاديمية والأبحاث الاقتصادية القياسية ، حيث تُطبق تقنيات مثل تحليل الانحدار، وتحليل التكتل ، وتحليل العوامل باستمرار.

 

هذا هو علم البيانات

 

علم البيانات هو مصطلح زلق يشمل كل شيء من التعامل مع البيانات - التقليدية أو الكبيرة – إلى شرح الأنماط والتنبؤ بالسلوك. يتم علم البيانات من خلال الأساليب التقليدية مثل تحليل الانحدار والتحليل العنقودي أو من خلال أساليب التعلم الآلي غير التقليدية.

 

فهو ميدان شاسع ، نأمل أن تقترب خطوة واحدة من فهم كيف أنها شاملة ومتشابكة مع الحياة البشرية.

 

 

  مصدر الصورة

المصدر

 

Share on Facebook
Share on Twitter
Please reload

تابعنا
ابحث بالتاق
Please reload

الارشيف
  • Black Instagram Icon
  • Black Twitter Icon

Riyadh, Saudi Arabia

  • Black Instagram Icon
  • Black Twitter Icon

الرياض، المملكة العربية السعودية