تحديات تطوير الذكاء الاصطناعي في إفريقيا: كيف يمكن للغات القارة المتعددة أن تجد مكانها في العصر الرقمي؟

كيف يمكن تعليم شخص ما قراءة لغة إذا لم يكن هناك ما يقرأه؟

تحديات تطوير الذكاء الاصطناعي في اللغات الأفريقية

يواجه مطورو الذكاء الاصطناعي في جميع أنحاء القارة الأفريقية تحديات هائلة في تدريب النماذج اللغوية على فهم والاستجابة للمطالبات في اللغات المحلية. ويتطلب تدريب نموذج لغوي بيانات متاحة. في حالة اللغة الإنجليزية، توفر المقالات والكتب والدلائل المنتشرة على الإنترنت كمية كبيرة من البيانات للمطورين. ومع ذلك، بالنسبة لمعظم اللغات الأفريقية، والتي يُقدر عددها بين 1500 و3000، فإن الموارد المكتوبة المتاحة قليلة للغاية.

قلة البيانات والمعلومات

يستخدم فوكوسي ماريفاتي، أستاذ علوم الحاسوب في جامعة بريتوريا بجنوب أفريقيا، عدد المقالات المتاحة على ويكيبيديا لتوضيح مقدار البيانات المتوفرة. فبالنسبة للغة الإنجليزية، هناك أكثر من 7 مليون مقالة، بينما تقتصر مقالات لغة التيغرينية، التي يتحدث بها حوالي 9 مليون شخص في إثيوبيا وإريتريا، على 335 مقالة فقط. ولغة الآكان، الأكثر شيوعًا في غانا، لا توجد لها مقالات على الإطلاق. من بين الآلاف من اللغات، يدعم النموذج اللغوي حاليًا فقط 42 لغة. ومن بين 23 نصًا وأبجديه في أفريقيا، تتوفر ثلاثة فقط – اللاتينية، والعربية، والجيز – المستخدمة في القرن الأفريقي.

يشير تشيناسا تي. أوكولو، مؤسس معهد تكنولوجيا الثقافة، إلى أن هذا النقص في التنمية يعود إلى الأسباب المالية. ويقول: “على الرغم من وجود عدد أكبر من المتحدثين باللغة السواحيلية مقارنةً بالمتحدثين بالهلسنكية، فإن فنلندا تُعتبر سوقاً أفضل لشركات مثل أبل وجوجل”.

خطر الإغفال عن اللغة

وإذا لم يتم تطوير المزيد من النماذج اللغوية، فإن آثار ذلك على القارة قد تكون وخيمة، كما تحذر أوكولو. وتقول: “سنواصل رؤية الاشخاص مستبعدين من الفرص”. مع تطلع القارة إلى تطوير بنيتها التحتية والقدرات في مجال الذكاء الاصطناعي، فإن الأفراد الذين لا يتحدثون واحدة من هذه اللغات الـ42 قد يعرضون أنفسهم للخطر.

مشروع صوت أفريقيا

استجابةً لهذا التحدي، قاد ماريفاتي الذراع الجنوب أفريقي لمشروع “أصوات أفريقيا القادمة”، الذي جمع تسجيلات لــ 18 لغة في جنوب أفريقيا وكينيا ونيجيريا. خلال عامين، جمعت الفرق الثلاثة 9000 ساعة من التسجيلات من أشخاص من مختلف الأعمار والمواقع، مما أنشأ مجموعة بيانات ستتاح لمطوري الذكاء الاصطناعي عبر القارة. وكانت بعض التسجيلات تتضمن نصوصًا للقراءة، لكن غالبية التسجيلات كانت تستند إلى موضوعات محددة كالصحة والزراعة.

أخطاء محتملة في نماذج الذكاء الاصطناعي

على الرغم من أن مشروع “أصوات أفريقيا القادمة” لم يجمع بالقدر الكافي لتدريب نموذج لغوي كبير مثل ChatGPT، أكد ماريفاتي أنهم ركزوا على مواضيع مهمة. يُعتبر استخدام مجموعة بيانات صغيرة من أجل إنشاء نموذج عام غير دقيق، ولكن يمكن لمجموعات البيانات الصغيرة التركيز أن تظهر دقة عالية ضمن نطاق محدد.

الحاجة إلى الفهم الثقافي

تشير نايالينغ موروبي، زميلة بحث في معهد الذكاء الاصطناعي الموزع (DAIR)، إلى أنه يجب على بنائي هذه النماذج أن يفهموا ثقافات المجتمعات المعنية، من أجل تقليل الأخطاء التي يمكن أن تؤثر على قضايا حيوية مثل الرعاية الصحية أو البنوك.

التحديات اللغوية والافتقار إلى قواعد البيانات

تواجه اللغات الأفريقية مشاكل إضافية، حيث إن معظم اللغات ليست مُعَدّة وفقًا للقواميس أو الدراسات النحوية. فعلى سبيل المثال، توجد ثلاث طرق شائعة لتهجئة اسم رواندا، مما يجعل حتى المعالجة الأساسية للنصوص صعبة.

كما أن نقص مراكز البيانات يُعدّ عقبة أخرى، إذ حذرت الاتحاد الأفريقي في عام 2024 من أن 10% فقط من الطلب على مراكز البيانات في القارة يُلبي، مما يمثل عقبة أمام آمال أفريقيا في تحقيق الذكاء الاصطناعي. ومع كل هذه التحديات، تظل جهود تطوير نماذج لغوية مُعَدّة لهذه اللغات ضرورة ملحة للحفاظ على التنوع الثقافي واللغوي في القارة.

أخيرًا، يخطط مشروع “أصوات أفريقيا القادمة” للاستمرار في إنتاج بيانات جديدة، ويواصل ماريفاتي التفكير في اللغات التي يجب التركيز عليها في المراحل القادمة.

Scroll to Top