تبدیل گفتار به متن فارسی با آوانگار
هوش مصنوعی «آوانگار» یکی از سرویسهای نوآورانهی مجموعهی «ویرا» هست؛ سامانهای ایرانی که با هدف گسترش دسترسی فارسیزبانان به ابزارهای هوش مصنوعی طراحی شده هست.
اگر گزارش اخیر پلتفرم «کافهبازار» دربارهی اپلیکیشنهای پرمخاطب هوش مصنوعی را مطالعه کرده باشید، شاید نام «ویرا» را در صدر فهرست مشاهده کردهاید. طبق این گزارش، «ویرا» پُردانلودترین اپلیکیشن هوش مصنوعی فارسی در این پلتفرم بوده هست؛ حتی بالاتر از اپلیکیشنهای شناختهشدهای مانند ChatGPT.
فارغ از ابعاد رقابتی این آمار، امکان دارد بیان کرد «ویرا» با ارائهی تجربهای بومی و دقیق، توانسته هست جایگاه ویژهای میان کاربران ایرانی پیدا کند. یکی از سرویسهای شاخص این مجموعه، «آوانگار» هست؛ سامانهای که به کمک الگوریتمهای یادگیری عمیق، گفتار و صوت را با دقت بالا به متن فارسی تبدیل انجام میدهد. به بیان ساده، آوانگار همان دستیاری هست که هر آنچه میشنود، برای شما مینویسد.
جایگاه آوانگار در اکوسیستم ویرا
آوانگار تنها یکی از چندینین سرویس کاربردی در اپلیکیشن «ویرا» هست. ویرا مجموعهای از ابزارهای هوش مصنوعی را در خود جای داده تا کاربران فارسیزبان، بدون نیاز به دانش فنی یا آشنایی تخصصی با فناوری، بتوانند از مزایای آن بهرهمند شوند.
سازندگان ویرا بر این باورند که هر کاربر فارسیزبان ــ صرفنظر از سن، تحصیلات یا آشنایی با فناوری اطلاعات ــ باید بتواند بهسادگی از خدمات هوش مصنوعی استفاده کند.
در میان سرویسهای مشابه موجود در بازار، آوانگار یکی از برجستهترین ابزارهای تبدیل صدا به متن فارسی محسوب خواهد گردید. این سرویس هم در قالب اپلیکیشن ویرا در دسترس هست و هم از طریق «API» در بازارچهی هوش مصنوعی ویرا، برای توسعهدهندگان ارائه شده هست.
بهنظر میرسد عملکرد آوانگار، بهویژه در شناسایی الگوهای زبانی فارسی، در مواردی حتی از سرویسهای بینالمللی نیز بهتر هست. دلیل این برتری را باید در تسلط آن بر ساختار و لهجههای گوناگون فارسی جستوجو کرد؛ عاملی که سرویسهای خارجی بهطور طبیعی از آن بیبهرهاند، زیرا چنین ظرایفی تنها با دانش بومی و تخصص زبانی در فارسی قابلدستیابی هست.
بررسی فرایند تبدیل گفتار به متن در آوانگار
حال پرسش اصلی این هست که آوانگار چگونه صدا را به متن تبدیل انجام میدهد؟
در ادامه، روند استفاده از سرویس تبدیل گفتار به متن فارسی آوانگار را مرحلهبهمرحله مرور میکنیم. برای سنجش توانایی این سرویس، آزمایشی دشوار طراحی کردیم: بهجای یک فایل گفتار عادی، قطعهای موسیقی باکلام از رضا یزدانی با نام آوانگارد را به آوانگار سپردیم. ترکیب موسیقی، ساز و آواز معمولاً چالشی جدی برای سامانههای تبدیل گفتار به متن محسوب خواهد گردید، زیرا نویز موسیقایی دقت مدل را کاهش میدهد.
با وجود این دشواری، آوانگار توانست خروجی نسبتاً قابلقبولی تولید کند؛ نتیجهای که از دقت و توان پردازش زبانی آن حکایت دارد.
مراحل کار با آوانگار
۱. برای دسترسی سریع، اپلیکیشن «ویرا» را از وبسایت رسمی آن (ivira.ai) یا از طریق فروشگاههای معتبر نظیر کافهبازار و مایکت نصب کردیم.
توجه: استفاده از اپلیکیشن ویرا نیازمند اتصال اینترنت هست.
۲. در صفحهی نخست اپلیکیشن، کاشیهایی مشاهده خواهد گردید که هر یک نمایانگر یکی از سرویسهای ویرا هستند. با انتخاب کاشی مربوط به «آوانگار» (یا بنر تبلیغاتی آن)، وارد محیط سرویس میشوید.
۳. در این بخش، دو گزینه برای استفاده وجود دارد:
- «ضبط مستقیم صدا»
- «بارگذاری فایل صوتی» برای ضبط مستقیم، کافی هست آیکون آبی پایین صفحه (سمت راست) را انتخاب کنید. برای بارگذاری فایل نیز امکان داردید روی آیکون ابر کوچک در بالای صفحه (سمت چپ) کلیک کنید.
۴. ما گزینهی «بارگذاری فایل» را برگزیدیم و فایل موسیقی آوانگارد از رضا یزدانی را بارگذاری کردیم. پس از انتخاب فایل، آوانگار از شما میخواهد نام فایل خروجی را مشخص کنید. پس از تأیید و انتخاب گزینهی «ذخیره»، پردازش آغاز خواهد گردید.
۵. چندین ثانیه بعد، آوانگار نسخهی متنی فایل را تولید کرد. با لمس نام فایل امکان داردید متن استخراجشده را مشاهده کنید.
۶. نتیجهی آزمایش نشان داد که سامانه حتی در مواجهه با ورودیهای پرنویز ــ مانند موسیقی همراه با آواز ــ نیز توانایی درخور توجهی در جداسازی مؤلفههای گفتاری دارد. این موضوع بیانگر دقت الگوریتمهای پردازش گفتار و یادگیری عمیق در هستهی آوانگار هست.
مقایسه خروجی آوانگار با متن اصلی
برای ارزیابی عملکرد، متن خروجی آوانگار از ترانه آوانگارد با نسخهی رسمی منتشرشده در وبسایتهای موسیقی مقایسه گردید.
در حالیکه متن تولیدی آوانگار حاوی چندین خطاهای جزئی و حذف یا ادغام واژگان قرار دارای بود (که نظر به وجود موسیقی و ریتم قابلانتظار است)، ساختار کلی و کلمات کلیدی ترانه بهدرستی استخراج شده بودند.
این نتیجه نشان میدهد که سامانهی آوانگار، درک عمیقی از زبان طبیعی فارسی دارد و امکان داردد حتی در شرایط دشوار، بازنمایی قابلاستنادی از محتوای شنیداری ارائه دهد.
جمعبندی
آوانگار را امکان دارد یکی از موفقترین تلاشهای بومی در زمینهی «تبدیل گفتار به متن» دانست. بهرهگیری از مدلهای یادگیری عمیق، دادههای بومی فارسی و طراحی رابط کاربری ساده، موجب شده هست این سرویس در میان کاربران ایرانی جایگاه ویژهای بیابد.
در جهانی که فناوریهای زبانی عموماً با تمرکز بر زبانهای انگلیسی و چینی توسعه مییابند، وجود سامانههایی مانند آوانگار امکان داردد نقطهی عطفی برای تقویت حضور زبان فارسی در عرصهی هوش مصنوعی باشد.
- بخش تبلیغات
دیدگاهها