فشلت أغلب استطلاعات الرأي في التوقع
الصحيح لاسم الفائز في انتخابات أمريكا 2016، حيث لم تنجح سوى صحيفة لوس انجليس تايمز بالتعاون مع جامعة جنوب كاليفورنيا في توقع
فوز دونالد ترامب بل توقعت ذلك في ستة استطلاعات رأي نشرت في أوقات مختلفة هذا
العام، وهناك أداة ذكاء اصطناعي أخرى توقعت ذلك هي MogIA.
هذا الفشل الذريع سيقود حتماً لدروس لعلماء البيانات ليستفيدوا جيداً من هذا
الحدث، وفي هذا المقال سنناقش لماذا نجحت استطلاعات صحيفة لوس أنجلس تايمز وأداة MogIA في التوقع الصحيح ولماذا فشل الآخرون، وذلك
عبر النقاط التالية:
· دراسة تفاعل المستخدمين: تنبأت أداة MogIA بفوز ترامب عن طريق دراسة سلوك مستخدمي
الشبكات الاجتماعية مثل تويتر وفيس بوك ويوتيوب. حيث تم تجميع ما يعادل 20 مليون نقطة
بيانات، وبناء على دراسة نتائج الانتخابات الماضية وجدت أن المرشح الرئاسي الذي
يحصل على تفاعل أعلى من المستخدمين هو من سيربح السباق الرئاسي. وفي الانتخابات الحالية
كان ترامب هو الحاصل دائماً على أعلى نسبة لتفاعل مستخدمي الشبكات الاجتماعية.
·
تغير السلوك
البشري: تبنى نتائج استطلاعات الرأي بناء على دراسة حالات
مشابهة، وفي نفس الوقت تستخدم أساليب تقليدية لجمع البيانات كـ التواصل المباشر مع
شرائح مختلفة من المجتمع، وباستخدام برامج الذكاء الاصطناعي وعلم البيانات يتم
التوصل لتوقع معين. لكن مالم تأخذه أغلب نتائج الاستطلاع هو أن السلوك البشري الذي
كان مؤثراً في انتخابات سابقة قد فقد تأثيره في الانتخابات الحالية، اذن أخذ هذا
العنصر بالاعتبار لأن اضفاء دراسة الجانب النفسي سيحول البيانات لتكون تفاعلية
أكثر.
·
تمثيل غير صحيح
للعينة الاحصائية: لعل هذا السبب هو السبب الرئيسي في فشل أغلب
نتائج الاستطلاعات، لأنه حسب المحللين من رجح كفة ترامب هم المواطنون الأمريكيون
من أصول بيضاء و يقيمون بمناطق ريفية وأعمارهم فوق الخمسين عاماً. والسبب في تجاهل
الاستطلاعات لمثل هذه الشريحة ربما يعود لأنهم لا يشاركون عادة في الاستطلاعات الأولية
وربما لأنهم لم يشاركوا في الانتخابات الماضية بكثافة.
·
البيانات
الأولية غير صحيحة: هذا السبب ببساطة يتعلق بأن الناس اتجهوا
للكذب في استطلاعات الرأي لأسباب غير معروفة وبالتالي فقدت البيانات مصداقيتها
لأنها أصبحت غير صحيحة. فمثلاً أشارت نتائج الاستطلاعات في ولاية ويسكونسن بتقدم
كلينتون بما يعادل 43% من الأصوات عن ترامب الذي حصل على 41% تقريباً، لكن النتائج
الفعلية أشارت بحصول ترامب على مايعادل
90% من الأصوات في هذه الولاية.
·
البيانات نقية
جدأ: هذا السبب ربما يعد غريباً، لأن علماء البيانات يهتمون
جداً بتهيئة البيانات وجعلها نقية من البيانات
المزعجة أو التي لاقيمة لها، لكن حسب رأي بعض الخبراء هذا يجعل نتائج تحليل
البيانات صالحاً في بيئة نقية ليس بها ازعاج أو تشتت وهذا ليس الحال طبعاً في
الانتخابات الرئاسية حيث هناك كم كبير من البيانات غير النقية. بل ربما أن عملية
تنقية البيانات يفقدها بعضاً من قيمتها أو يجعلنا نفقد بيانات مؤثرة دون أن ننتبه
لها.
ربما يؤثر فشل أغلب استطلاعات الرأي في توقع
الفائز في الانتخابات الرئاسية الأمريكية على
ثقة الناس في علم البيانات ولكن علماء البيانات سيستفيدون من هذا الفشل وسيوجهون
أنظارهم للتجارب الناجحة في هذا المجال كتجربة MogIA للاستفادة منها وسيخرجون بفوائد أكثر.
للاطلاع:
ليست هناك تعليقات:
إرسال تعليق