AuraQubitProductsAuraQnizer
Foundation Models · AuraQnizer
Production · v3

العَربية،
تُمَثَّل كما تَنطق.

محرّك ترميز عَربي مَبنيٌّ من الصِّفر — يَهزم Gemini وGPT-4o وClaude وLlama 3 على العَربية. الأَساس الذي يَقوم عليه النَّموذج اللُّغوي العَربي القادم.

١.٣٢× tokens/word عَربييَهزم Gemini بـ ١٢٪٦٤٬٠٠٠ مُفردةمَفتوح المَصدر
How it works

أَربعة أَعمدة. مَنهجٌ واحد.

01
ترميزٌ مَوزون للعَربية
البِنية تَتعامل مع الحَرف العَربي كَـ Unicode فعلي، لا كَبايتاتٍ مُتعدّدة. النَّتيجة: ١.٣٢ tokens/word بَدل ٥.٩٣ في ByteLevel BPE التَّقليدي.
02
أَرقام مَعركة، بِشَهادة
اختبارٌ حَقيقي على جُمَل عَربية وإنجليزية. AuraQnizer ١.٣٢ — Gemini ١.٥٠ — GPT-4o ١.٧٠ — Claude ١.٨٠ — Llama 3 ٢.١٠. أَقَلّ = أَفضل.
03
صِفر <unk>
Byte fallback مَدمَج: لا يَفشَل في حَرفٍ، رَمزٍ، أو رَموز برمجية. أَيّ Unicode، مُغطّى.
04
الأَساس للنَّموذج القادم
AuraQnizer هو المُحَرِّك الذي يُغذّي AuraBitNet — نَموذجٌ عَربيّ ٤B بِأَوزانٍ ثُلاثيَّة، قَيد التَّدريب على بِنية BitNet المُحَسَّنة للذاكرة المَحدودة.
By the numbers

الأَرقام، دون مُبالغة.

العَربية
1.32×
tokens/word — أَقَلّ أَفضل
الإنجليزية
1.05×
يَهزم GPT-4o (1.10×)
المُفردات
64,000
SentencePiece Unigram
بَيانات التَّدريب
1GB+
عَربية + إنجليزية حَقيقية

اللُّغة تَستحقّ ترميزاً بِحَجمها.

استكشف أَيضاً