به منظور رفع موانع زبانی و تقویت ارتباطات بین افراد، متا یک مدل پایه چندزبانه توسعه داده است. این مدل قادر است تقریباً 100 زبان مختلف را از متن یا گفتار درک کند و به صورت زنده ترجمههایی به یک یا دو زبان دیگر ایجاد کند.
فناوری چندوجهی به نام SeamlessM4T به صورت عمومی منتشر شده است. این فناوری به محققان در جهت توسعه و ارائه برنامههای کاربردی جهانی کمک میکند که توانایی ترجمه گفتار به گفتار، گفتار به نوشتار، متن به گفتار و متن به متن را دارا هستند. این مجموعه همراه با مجموعه داده ترجمه چندوجهی به نام SeamlessAlign در دسترس محققان قرار گرفته است. این مجموعه داده از 256 هزار ساعت گفتار و متن استخراج شده است.
این پیشرفت به وضوح نشانگر توسعه قابل توجهی در زمینهی هوش مصنوعی و زبانشناسی است. زیرا یک سیستم یکپارچه ایجاد شده که میتواند تعدادی از وظایف مرتبط با گفتار و متن را به طور همزمان انجام دهد، در مقابل رویکردهای قبلی که نیازمند سیستمهای جداگانه برای هر وظیفه بودند؛ به عنوان مثال یک سیستم تخصصی برای ترجمه گفتار به گفتار.
ترجمههای مختلف مرتبط با گفتار و متن با SeamlessM4T
همانطور که Meta توضیح میدهد، SeamlessM4T به طور خودکار قادر است زبان مبدأ را تشخیص داده و بدون نیاز به مدل شناسایی زبانی جداگانه، اقدام به ترجمه کند. این مدل توانایی تشخیص گفتار و متن نزدیک به 100 زبان را دارد و میتواند متن را به همین تعداد زبان و گفتار را به زبان های مختلف تولید کند. از جالب ترین ویژگیهای SeamlessM4T این است که میتواند تشخیص دهد که زمانی که بیش از یک زبان در یک جمله ترکیب میشود و ترجمههایی بر اساس زبان مقصد ارائه شده است، چگونه عمل کند. این در حالیست که روشهای قبلی نیازمند رویکردهای مختلف برای هر کار بودند.
نتایج آزمایش با BLASER 2.0 یک ابزار برای ارزیابی واحدهای گفتار و متن، نشان میدهد که این مدل نسبت به مدلهای پیشرفته فعلی برای ترجمه گفتار به نوشتار بهبود چشمگیری داشته است. به طور خاص، در مواجهه با نویز پسزمینه و تغییرات بلندگو، با میانگین پیشرفتهای به ترتیب 37 و 48 درصدی، عملکرد بهتری را نشان داده است.
در یک پست وبلاگی، متا گفته است: SeamlessM4T نسبت به رقبای پیشرفته پیشین بهتر عمل میکند و به طور چشمگیری عملکرد آن در ترجمه زبانهای با منابع کم و متوسط را بهبود داده است. به علاوه، این مدل توانایی قوی خود را در زبانهای با منابع بالا مانند انگلیسی حفظ کرده است.
در صورت پیشرفت، این مدل میتواند به تولید سیستمهای ترجمه جهانی در مقیاس بزرگ منجر شود و به افرادی که از زبانهای مختلف استفاده میکنند، این امکان را میدهد تا به گونهای بهینهتر با یکدیگر ارتباط برقرار کنند.
لازم به ذکر است که گوگل نیز در این زمینه فعالیت دارد و مدل جهانی گفتار (USM) را معرفی کرده است. این مدل قادر به تشخیص خودکار گفتار (ASR) است نهتنها برای زبانهای رایج، بلکه برای زبانهای غیرمعمول نیز پرداخته و عملکردهایی را ارائه دهد.