عون: الحل الوحيد للوضع الذي يعيشه لبنان حاليا هو في تحقيق وقف إطلاق النار بين إسرائيل ولبنان
أعلنت مايكروسوفت عن مجموعة جديدة من نماذج الذكاء الاصطناعي، تشمل MAI-Transcribe-1 وMAI-Voice-1 وMAI-Image-2؛ بهدف تحسين قدرات توليد الكلام والصوت والصور.
ووفقاً للشركة، تتوفر هذه النماذج الآن عبر منصة Microsoft Foundry ومنصة MAI Playground (حصرياً في الولايات المتحدة)، مع التركيز على الأداء الأسرع والكفاءة العالية والأسعار التنافسية.
ويُعزز هذا الإطلاق دقة النسخ وتوليد الصوت وإنشاء الصور، كما تُدمج مايكروسوفت هذه القدرات في منتجاتها الخاصة.
نماذج النسخ والصوت والصورة
MAI-Transcribe-1: صُممت هذه الخدمة من قِبل مايكروسوفت لتحويل الكلام إلى نص، وتدعم النسخ الصوتي لأكثر 25 لغة استخدامًا، استنادًا إلى معيار FLEURS.
وأوضحت الشركة أن هذا النموذج مُصمم للتعامل مع ظروف الصوت الواقعية، ويُوفر سرعات نسخ جماعية أسرع بـ 2.5 مرة من خدمة Azure Fast الحالية.
ويركز هذا النموذج على توليد الصوت؛ إذ ينتج كلامًا بنبرة طبيعية، وبنطاق عاطفي واسع، وتناسق في المحتوى الطويل، كما أضافت مايكروسوفت دعمًا لإنشاء أصوات مخصصة باستخدام عينة صوتية قصيرة، كما يستطيع هذا النموذج توليد ما يصل إلى 60 ثانية من الصوت في ثانية واحدة، مع تركيز الشركة على الاستخدام الأمثل لوحدة معالجة الرسومات (GPU) لتحقيق أداء فعال من حيث التكلفة.
MAI-Image-2: وفقًا لمايكروسوفت، يوفر هذا النظام سرعة توليد بيانات أسرع بمرتين على الأقل مقارنةً بالأنظمة السابقة على منصتي Foundry وCopilot، استنادًا إلى بيانات الإنتاج.
وأوضحت مايكروسوفت أن هذا النموذج مصمم لتقديم إضاءة واقعية، ودرجات لون بشرة دقيقة، وعرض نصوص واضح للمحتوى المرئي. ويجري طرحه تدريجيًا عبر خدمات مثل Bing وPowerPoint.
وأضافت مايكروسوفت أن هذه النماذج تُستخدم داخل منتجاتها الخاصة، وهي متاحة للمطورين لإنشاء التطبيقات والخدمات.