مقال
ليش الذكاء الاصطناعي بالعربي أغلى بـ ٣ أضعاف؟
الذكاء الاصطناعي بالعربي يكلّف ٣ إلى ٥ أضعاف الإنجليزي — مو لأن الإجابة أطول، لكن لأن الترميز (Tokenization) يقسّم العربي لوحدات أكثر. لو تبني منتج للسوق السعودي، احسب تكلفة الـ tokens من أول يوم وقيّم النماذج العربية المحلية.
المؤسسعمرو موصليالذكاء الاصطناعي · ريادة الأعمال التقنية
استمع للدرس
٢:٤١
بِسْمِ الله نِبْدَأ، وَنُصَلِّي وَنُسَلِّم عَلَى نَبِيِّنَا وَحَبِيبِنَا مُحَمَّد.
لو سألت ChatGPT نفس السؤال بالعربي والإنجليزي، راح تدفع ضعفين لأربعة أضعاف على النسخة العربية — مو لأن الإجابة أطول، لكن لأن النموذج يقرا العربي بطريقة أغلى.
المشكلة تبدأ من الترميز. النماذج ما تقرا الكلمات مباشرة، تقسم النص لوحدات صغيرة اسمها رموز. والطريقة السائدة صممت أساسًا للكتابة اللاتينية: كلمة technology تصير رمز أو اثنين، لكن تكنولوجيا بالعربي ممكن تتقسم لأربعة أو خمسة رموز، رغم إنها نفس المعنى.
والسبب إن النموذج يتعلم من بيانات معظمها إنجليزي، فالأحرف العربية — اللي تتصل وتتغير أشكالها — تتعامل كأنها نادرة، فيقسمها لأجزاء أصغر. والنتيجة إن نفس الجملة بالعربي تاخذ مساحة أكبر في ذاكرة النموذج، تستهلك السياق أسرع، وتكلف أكثر في كل استدعاء.
لو إنت تدير منتج على GPT-4 أو Claude وتخدم عملاء عرب، هذي مو مسألة هامشية — هذي بند في ميزانيتك الشهرية. شركة سعودية تشغل روبوت محادثة بالعربي تدفع ثلاث أضعاف اللي تدفعه شركة أمريكية بنفس الخدمة بالإنجليزي. ولو عندك حد أقصى لطول المحادثة، المستخدم العربي يوصل للحد بسرعة، بينما الإنجليزي يكمل أكثر.
والحل موجود بس ما انتشر لسه. فيه أدوات ترميز متخصصة للعربية تقلل عدد الرموز بنسبة توصل لستين بالمية. بس معظم الشركات الكبيرة ما بنت نماذجها عليها، لأن السوق الإنجليزي أكبر. واللي يصير الآن إن نماذج عربية محلية — زي علام من سدايا أو Jais من G42 — تحاول تسد الفجوة، بس لسه ما وصلت لمستوى GPT-4 في المهام المعقدة.
فلو تخطط لمنتج يستهدف السوق السعودي، احسب تكلفة الرموز من اليوم الأول. ما يكفي تاخذ سعر الإنجليزي وتضربه في عدد المستخدمين — اضربه في اثنين لأربعة علشان تقرب للواقع. وفكر في نموذج عربي محلي للمهام البسيطة: يعطيك نفس النتيجة بربع التكلفة، وتتحكم في بياناتك محليًا.
الزبدة: لو تبني منتج ذكاء اصطناعي بالعربي، احسب تكلفة الرموز من أول يوم — العربي أغلى بمرتين لأربع مرات.
تقييم المقال
سيظهر متوسط التقييم بعد 3 تقييمات.