معرفی هوش مصنوعی SeamlessM4T

متا اخیرا از جدید ترین ابزار هوش مصنوعی خود با نام SeamlessM4T رونمایی کرده است.
هوش مصنوعی SeamlessM4T

به منظور رفع موانع زبانی و تقویت ارتباطات بین افراد، متا یک مدل پایه چندزبانه توسعه داده است. این مدل قادر است  تقریباً 100 زبان مختلف را از متن یا گفتار درک کند و به صورت زنده ترجمه‌هایی به یک یا دو زبان دیگر ایجاد کند.

فناوری چندوجهی به نام SeamlessM4T به صورت عمومی منتشر شده است. این فناوری به محققان در جهت توسعه و ارائه برنامه‌های کاربردی جهانی کمک می‌کند که توانایی ترجمه گفتار به گفتار، گفتار به نوشتار، متن به گفتار و متن به متن را دارا هستند. این مجموعه همراه با مجموعه داده ترجمه چندوجهی به نام SeamlessAlign در دسترس محققان قرار گرفته است. این مجموعه داده از 256 هزار ساعت گفتار و متن استخراج شده است.

این پیشرفت به وضوح نشانگر توسعه قابل توجهی در زمینه‌ی هوش مصنوعی و زبان‌شناسی است. زیرا یک سیستم یکپارچه ایجاد شده که می‌تواند تعدادی از وظایف مرتبط با گفتار و متن را به طور همزمان انجام دهد، در مقابل رویکردهای قبلی که نیازمند سیستم‌های جداگانه برای هر وظیفه بودند؛ به عنوان مثال یک سیستم تخصصی برای ترجمه گفتار به گفتار.

ترجمه‌های مختلف مرتبط با گفتار و متن با SeamlessM4T

همانطور که Meta توضیح می‌دهد، SeamlessM4T به طور خودکار قادر است زبان مبدأ را تشخیص داده و بدون نیاز به مدل شناسایی زبانی جداگانه، اقدام به ترجمه کند. این مدل توانایی تشخیص گفتار و متن نزدیک به 100 زبان را دارد و می‌تواند متن را به همین تعداد زبان و گفتار را به زبان های مختلف تولید کند. از جالب ترین ویژگی‌های SeamlessM4T این است که می‌تواند تشخیص دهد که زمانی که بیش از یک زبان در یک جمله ترکیب می‌شود و ترجمه‌هایی بر اساس زبان مقصد ارائه شده است، چگونه عمل کند. این در حالیست که روش‌های قبلی نیازمند رویکردهای مختلف برای هر کار بودند.

هوش مصنوعی SeamlessM4T

نتایج آزمایش با BLASER 2.0 یک ابزار برای ارزیابی واحدهای گفتار و متن، نشان می‌دهد که این مدل نسبت به مدل‌های پیشرفته فعلی برای ترجمه گفتار به نوشتار بهبود چشم‌گیری داشته است. به طور خاص، در مواجهه با نویز پس‌زمینه و تغییرات بلندگو، با میانگین پیشرفت‌های به ترتیب 37 و 48 درصدی، عملکرد بهتری را نشان داده است.

در یک پست وبلاگی، متا گفته است: SeamlessM4T نسبت به رقبای پیشرفته پیشین بهتر عمل می‌کند و به طور چشم‌گیری عملکرد آن در ترجمه زبان‌های با منابع کم و متوسط را بهبود داده است. به علاوه، این مدل توانایی قوی خود را در زبان‌های با منابع بالا مانند انگلیسی حفظ کرده است.

در صورت پیشرفت، این مدل می‌تواند به تولید سیستم‌های ترجمه جهانی در مقیاس بزرگ منجر شود و به افرادی که از زبان‌های مختلف استفاده می‌کنند، این امکان را می‌دهد تا به گونه‌ای  بهینه‌تر با یکدیگر ارتباط برقرار کنند.

لازم به ذکر است که گوگل نیز در این زمینه فعالیت دارد و مدل جهانی گفتار (USM) را معرفی کرده است. این مدل قادر  به تشخیص خودکار گفتار (ASR) است نه‌تنها برای زبان‌های رایج، بلکه برای زبان‌های غیرمعمول نیز پرداخته و عملکردهایی را ارائه دهد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

ما را در شبکه های اجتماعی دنبال کنید

از آخرین اخبار روز جدید ترین هوش مصنوعی ها گرفته تا آخرین بازی های منتشر شده و یا اخبار جدید نرم افزار ها و سیستم عامل و دیگرخبر های روزتکنولوژی دنیا؛ 

همه و همه در شبکه های اجتماعی هایپر بایت!