اعلام فراخوان جدید ذیل برنامه حمایت از پژوهش عمیق شرکت‌های دانش‌بنیان؛

فراخوان «توسعه سیستم‌های نوآورانه دریافت صدا از فواصل دور با استفاده از آرایه‌های میکروفون و الگوریتم‌های هوش مصنوعی»

بنیاد ملی علم ایران در راستای مأموریت‌گرا‌شدن پژوهش‌ها و حمایت از طرح‌های پژوهشی که به فناوری روز دنیا می‌پردازد و می‌تواند باری از دوش صنعتگران کشور بردارد، فراخوان‌هایی را با عنوان برنامه حمایت از پژوهش عمیق شرکت‌های دانش‌بنیان منتشر می‌کند. «توسعه سیستم‌های نوآورانه دریافت صدا از فواصل دور با استفاده از آرایه‌های میکروفون و الگوریتم‌های هوش مصنوعی» به‌عنوان یکی دیگر از فراخوان‌های این برنامه، منتشر می‌شود و کلیه افراد واجد شرایط تا پایان فروردین ۱۴۰۴ فرصت دارند که پروپوزال خود را از طریق سامانه کایپر برای بنیاد ملی علم ایران ارسال نمایند.
فراخوان «توسعه سیستم‌های نوآورانه دریافت صدا از فواصل دور با استفاده از آرایه‌های میکروفون و الگوریتم‌های هوش مصنوعی»

توضیحات فراخوان

هدف این پژوهش، طراحی و پیاده‌سازی سیستم‌های پیشرفته دریافت صدا از فواصل دور، با هدف توسعه نسل جدید دستیارهای صوتی هوشمند است. در این راستا، از آرایه‌های میکروفون، الگوریتم‌های پردازش سیگنال، پرتودیسی (Beamformingو مدل‌های پیشرفته یادگیری ماشین بهره گرفته می‌شود. این سیستم با هدف کاهش نویز، حذف اکو و بهبود برد و کیفیت دریافت صدا، قابلیت سازگاری با محیط‌های گوناگون و زبان‌ها و گویش‌های متنوع را خواهد داشت. این فراخوان پژوهشی به دنبال همکاری با تیم‌های متخصص در حوزه‌های پردازش سیگنال دیجیتال، طراحی سیستم‌های الکترونیکی و هوش مصنوعی است تا نمونه اولیه‌ای از این فناوری توسعه یابد. نتایج این پژوهش می‌تواند در کاربردهایی همچون اسپیکرهای هوشمند، تماس‌های کنفرانسی و هویت‌سنجی امنیتی مورد استفاده قرار گیرد.

پیشینه مسئله پژوهشی

در سال‌های اخیر، پیشرفت‌های چشمگیری در حوزه فناوری‌های صوتی و سیستم‌های دریافت صدا به وقوع پیوسته است. این پیشرفت‌ها، دستگاه‌هایی نظیر اسپیکرهای هوشمند، دستیارهای صوتی و سامانه‌های کنفرانس را به ابزارهای قابل اعتمادی برای تعامل انسان و ماشین تبدیل کرده است. با این حال، توسعه سیستم‌های دریافت صدا از فواصل دور همچنان با چالش‌های فنی متعددی همراه است که حل آن‌ها مستلزم به‌کارگیری فناوری‌های نوآورانه است.

یکی از چالش‌های اصلی در این حوزه، تأثیر نویزهای محیطی و انعکاس صدا (اکو) بر کیفیت سیگنال‌های صوتی دریافتی است. نویزهای پس‌زمینه، تغییرات موقعیت منبع صدا، و بازتاب‌های چندگانه از سطوح محیطی می‌توانند موجب کاهش کیفیت دریافت صدا شوند. در پاسخ به این چالش‌ها، روش‌های مختلفی توسعه یافته‌اند. از جمله این روش‌ها می‌توان به تکنیک‌های پردازش سیگنال برای کاهش نویز و حذف اکو، استفاده از الگوریتم‌های پرتودیسی (Beamforming) برای تمرکز بر منبع صوتی مشخص، و بهره‌گیری از مدل‌های یادگیری ماشین پیشرفته برای افزایش دقت تشخیص اشاره کرد.

فناوری آرایه‌های میکروفونی، به‌عنوان یکی از نوآورانه‌ترین ابزارهای موجود، امکان دریافت صدا از فواصل دور را با دقت بالا فراهم می‌کند. این فناوری با استفاده از الگوریتم‌های پرتودیسی، می‌تواند سیگنال‌های صوتی را از یک جهت خاص تقویت کرده و نویزهای محیطی را تقلیل دهد. در عین حال، مدل‌های یادگیری عمیق که در سال‌های اخیر پیشرفت زیادی داشته‌اند، نقش کلیدی در استخراج ویژگی‌های صوتی، پیش‌بینی گفتار در محیط‌های چالش‌برانگیز و افزایش قابلیت‌های سیستم‌های صوتی ایفا می‌کنند.

علی‌رغم این پیشرفت‌ها، ترکیب بهینه این فناوری‌ها به‌گونه‌ای که بتوانند عملکرد سیستم‌های دریافت صدا را در شرایط واقعی و صنعتی تضمین کند، همچنان یک حوزه پژوهشی فعال و چالش‌برانگیز است. همچنین طراحی سیستم‌هایی که از نظر محاسباتی و منابع مصرفی بهینه بوده و برای پیاده‌سازی در محصولات مصرفی مانند اسپیکرهای هوشمند مناسب باشند، نیازمند تحقیقات عمیق‌تر در زمینه بهینه‌سازی الگوریتم‌ها و طراحی سخت‌افزارهای تخصصی است.

هدف این طرح پژوهشی، طراحی و توسعه یک سیستم پیشرفته دریافت صدا از فواصل دور با استفاده از انتخاب و جایگذاری بهینه میکروفن‌ها و  ترکیب فناوری‌های  پردازش سیگنال، پرتودیسی و یادگیری ماشین است. این سیستم باید توانایی مقابله با نویز و اکو را داشته و در عین حال از لحاظ منابع پردازشی، زمان پاسخگویی و قیمت تمام‌شده، بهینه باشد. در این فراخوان از تیم‌های پژوهشی دعوت می‌شود تا با ارائه پیشنهادهای خود، در مسیر حل این مسئله مهم و توسعه سیستم‌های صوتی هوشمند آینده سهیم باشند.

مشروح مسئله پژوهشی

دریافت صدا از فواصل دور یکی از چالش‌های پیچیده در حوزه فناوری‌های صوتی است که مستلزم ترکیب پیشرفته‌ترین روش‌های پردازش سیگنال، یادگیری ماشین، و طراحی سخت‌افزار است. این طرح، پژوهشی برای توسعه سیستمی متمرکز است که قادر به دریافت دقیق صوت از فواصل تا سه متر، در محیط‌های واقعی روزمره باشد و در عین حال برای پیاده‌سازی در محصولات مصرفی مانند اسپیکرهای هوشمند بهینه‌سازی شود. از منظر فنی این طرح شامل بخش‌های زیر است:

الف) پردازش سیگنال صوتی: سیگنال‌های صوتی دریافت‌شده از محیط، معمولاً شامل نویز، انعکاس، و اعوجاج‌های متنوعی هستند. این پروژه بر توسعه الگوریتم‌های پیشرفته‌ای برای فیلتر کردن نویز، حذف اکو، و تقویت سیگنال گفتار متمرکز خواهد بود. الگوریتم‌های پیشنهادی باید کارآمد بوده و قابلیت پیاده‌سازی در سیستم‌های زمان واقعی را داشته باشند.

ب) طراحی آرایه‌های میکروفون: استفاده از آرایه‌های میکروفونی برای جمع‌آوری سیگنال‌های صوتی از جهت‌های مختلف ضروری است. این بخش شامل تعیین تعداد، نوع و مکان مناسب میکروفون‌ها است که باید بر‌اساس شبیه‌سازی‌ها و تست‌های تجربی طراحی شوند. همچنین الگوریتم‌های پرتودیسی باید به‌گونه‌ای طراحی شوند که دریافت صدا از منبع صوتی اصلی در جهت درست انجام شود و اصوات دریافتی از سایر منابع به میزان کافی تقلیل یابد.

ج) مدل‌های یادگیری ماشین: مدل‌های یادگیری عمیق و یادگیری انتقالی برای استخراج ویژگی‌های صوتی، تفکیک سیگنال‌های گفتاری از نویز، و دریافت صدا استفاده می‌شوند. این مدل‌ها باید با داده‌های متنوع آموزش داده شوند تا در محیط‌های عملی چالش‌برانگیز مورد استفاده اسپیکرهای هوشمند مانند محیط‌های نویزی خانگی و ساختمانی، عملکرد قابل قبولی داشته باشند.

د) بهینه‌سازی سخت‌افزار و نرم‌افزار: در طراحی سخت‌افزار باید پردازنده‌ای با توان پردازشی کافی و مصرف انرژی کم انتخاب شود. طراحی سخت‌افزار باید  در بستر برد پردازشی کنونی اسپیکر هوشمند و قابل یکپارچه‌سازی با محدودیت‌های کنونی از منظر فیزیکی و پردازشی صورت پذیرد. همچنین لازم است در توسعه نرم‌افزاری بردهای پردازشی موارد محدودیت‌های منابع و نیز زمان پاسخگویی منطبق بر نیازهای یک دستیار صوتی هوشمند برخط مورد توجه مجری طرح قرار گیرد. علاوه بر این، در انتخاب پردازنده و سایر اجزای سخت‌افزاری، باید بهینه‌سازی هزینه‌ها برای تولید انبوه مد نظر قرار گیرد تا محصول نهایی از نظر اقتصادی مقرون‌به‌صرفه باشد.

ه) تست‌‌های استاندارد: پس از توسعه راهکار نرم‌افزاری و سخت‌افزاری ارتقا دریافت صدا، لازم است راهکار پیاده شده، توسط آزمون‌های استاندارد سخت‌افزاری و نرم‌افزاری به‌طور کامل تست شود. به این منظور لازم است در ابتدای همکاری یک برنامه جامع آزمون پیش‌بینی و مدون شود. این برنامه شامل تعریف آزمون‌ها، ایجاد محیط آزمون مناسب، انجام اندازه‌گیری‌ها و ارزیابی نتایج بر اساس معیارهای قبولی یا رد، و ثبت نتایج به‌صورت داده‌های خام و در فرمت‌های استاندارد می‌باشد. اجرای این آزمون‌ها برای اطمینان از عملکرد صحیح و قابل اعتماد سیستم در شرایط مختلف ضروری است.

و) مستندسازی: با توجه به ذات پژوهشی این طرح، مستندسازی دقیق و جامع یکی از ارکان اساسی این پروژه پژوهشی محسوب می‌شود. تمامی مراحل طراحی، توسعه، آزمایش و بهینه‌سازی باید به‌صورت شفاف و ساختاریافته ثبت شوند تا امکان بازبینی، تکرارپذیری، و بهبودهای آتی فراهم شود. مستندات فنی باید شامل جزئیات مربوط به طراحی سخت‌افزار، مشخصات و تنظیمات برد پردازشی، الگوریتم‌های پردازش سیگنال، روش‌های یادگیری ماشین، نتایج تست‌های نرم‌افزاری و سخت‌افزاری و دستورالعمل‌های بهینه‌سازی باشند

چالش نیاز فناورانه

توسعه یک سیستم دریافت صدا از فواصل دور که بتواند در محیط‌های واقعی، پر‌نویز و متغیر عملکرد دقیقی داشته باشد، مستلزم حل چالش‌های متعدد در حوزه‌های مختلف پردازش سیگنال، طراحی سخت‌افزار، یادگیری ماشین و یکپارچه‌سازی سیستم است. در ادامه، چالش‌های کلیدی این پروژه تشریح شده‌اند.

الف) چالش‌های مربوط به پردازش سیگنال و حذف نویز

بهبود کیفیت سیگنال گفتار در محیط‌های واقعی مستلزم پردازش پیشرفته برای کاهش نویز، حذف بازتاب و تفکیک منبع صوتی هدف از سایر منابع صوتی است. نویزهای محیطی، انعکاس‌های صوتی و هم‌پوشانی گفتار چندین گوینده، از جمله عوامل مخربی هستند که می‌توانند دقت دریافت صدا را به‌شدت کاهش دهند. برای غلبه بر این چالش‌ها، نیاز به ترکیب روش‌های کلاسیک پردازش سیگنال با تکنیک‌های یادگیری ماشین و الگوریتم‌های پرتودیسی وجود دارد. در ادامه، سه چالش اساسی در این حوزه بررسی می‌شوند.

  • کاهش نویز محیطی: در محیط‌های واقعی، سیستم‌های دریافت صدا با انواع مختلفی از نویزهای پس‌زمینه مواجه هستند که شامل صدای وسایل الکترونیکی، نویز خیابان، گفت‌وگوی افراد دیگر و نویزهای ایستا (Stationary ) و غیرایستا (Non-stationary ) می‌شود. حذف این نویزها چالشی اساسی است، چرا که هر محیط دارای الگوی نویزی متفاوتی بوده و بسیاری از نویزها ماهیت غیرایستا دارند. یک سیستم کارآمد باید بتواند این نویزها را کاهش دهد، بدون اینکه کیفیت سیگنال گفتار افت کند یا موجب اعوجاج در صدای کاربر شود. روش‌های کلاسیک کاهش نویز مانند فیلترهای تطبیقی (Adaptive Filters ) در محیط‌های پیچیده و غیرایستا عملکرد مطلوبی ندارند، زیرا به مدل‌سازی ایستا از نویز وابسته هستند. ازاین‌رو، برای دستیابی به دقت بالا در شرایط متغیر، به‌کارگیری الگوریتم‌های یادگیری عمیق که توانایی تفکیک سیگنال گفتار از نویزهای متنوع را دارند، ضروری است.
  • حذف بازتاب و اکو: یکی از منابع کاهش کیفیت دریافت صدا، بازتاب‌های صوتی است که از سطوح مختلف مانند دیوارها و اشیای موجود در محیط منعکس شده و موجب تداخل در دریافت سیگنال گفتار و کاهش دقت تشخیص آن می‌شوند. این بازتاب‌ها باعث ایجاد هم‌پوشانی بین سیگنال مستقیم و سیگنال‌های منعکس‌شده می‌شوند که می‌تواند منجر به اعوجاج صوتی و کاهش کیفیت پردازش گفتار شود. علاوه بر این، اکو که به دلیل بازپخش صدای خروجی خود دستگاه به وجود می‌آید، یکی از چالش‌های جدی در طراحی سیستم‌های تعامل صوتی است. در صورت عدم حذف مناسب، اکو می‌تواند به شکل یک سیگنال مزاحم، دریافت صدا را مختل کرده و دقت کلی سیستم را به میزان قابل توجهی کاهش دهد. به همین دلیل، الگوریتم‌های حذف بازتاب و اکو باید به‌گونه‌ای طراحی شوند که این اثرات را کاهش دهند، بدون اینکه تأثیر منفی بر کیفیت و وضوح گفتار داشته باشند.
  • تفکیک منبع صوتی اصلی از سایر منابع: در محیط‌هایی که چندین فرد به‌طور هم‌زمان صحبت می‌کنند، سیستم دریافت صدا باید قادر باشد گفتار گوینده هدف را به‌درستی شناسایی کرده و سایر صداهای مزاحم را حذف کند. این فرآیند که تحت عنوان جداسازی منبع صوتی (Speech source separation ) شناخته می‌شود، یکی از چالش‌های اساسی در پردازش گفتار است، زیرا ویژگی‌های آکوستیکی منابع صوتی مختلف ممکن است در بعضی بازه‌های فرکانسی هم‌پوشانی داشته باشند. الگوریتم‌های پردازش سیگنال استاندارد، مانند روش‌های فیلترگذاری و تحلیل طیفی، در مواجهه با چنین شرایطی اغلب عملکرد مطلوبی ندارند، زیرا نمی‌توانند به‌طور دقیق صدای گوینده موردنظر را از سایر منابع صوتی تفکیک کنند. برای حل این مسئله، روش‌هایی مانند پرتودیسی، شبکه‌های عصبی عمیق، و مدل‌های جداسازی سیگنال مبتنی بر یادگیری ماشین می‌توانند به کار گرفته شوند تا گفتار هدف به‌طور دقیق استخراج شده و دقت دریافت صدا افزایش یابد.

ب) چالش‌های مربوط به آرایه‌های میکروفونی و پرتودیسی

آرایه‌های میکروفونی و الگوریتم‌های پرتودیسی پیشرفته نقش کلیدی در بهبود کیفیت دریافت صدا در محیط‌های پرنویز دارند. بهینه‌سازی چیدمان میکروفون‌ها و طراحی الگوریتم‌های تطبیقی برای تقویت گفتار و کاهش نویزهای مزاحم، چالش‌های فنی قابل توجهی را به همراه دارد. در ادامه، این چالش‌ها بررسی می‌شوند.

  • تعیین آرایش بهینه میکروفون‌ها: تعداد و نحوه جایگذاری میکروفون‌ها تأثیر مستقیمی بر دقت و عملکرد سیستم دارد و بهینه‌سازی آن نیازمند شبیه‌سازی‌های دقیق و آزمایش‌های متعدد است. چیدمان میکروفون‌ها باید به گونه‌ای طراحی شود که بیشترین بهره پرتودیسی را فراهم کرده و در عین حال از افزایش غیرضروری هزینه‌های سخت‌افزاری و اشغال فضای اضافی در دستگاه جلوگیری کند. انتخاب آرایش مناسب، به عواملی همچون ابعاد دستگاه، الگوی دریافت صدا، و الزامات پردازشی بستگی دارد و نیازمند ترکیب روش‌های تحلیلی و تجربی برای دستیابی به بهترین عملکرد است.

  • طراحی الگوریتم‌های پرتودیسی پیشرفته: الگوریتم‌های پرتودیسی باید به‌گونه‌ای طراحی شوند که گفتار گوینده را تقویت کرده و نویزهای خارج از جهت مشخص را به حداقل برسانند. این الگوریتم‌ها باید از قابلیت تطبیق‌پذیری برخوردار باشند تا بتوانند در شرایط متغیر محیطی، تغییرات موقعیت منبع صوتی را شناسایی کرده و عملکرد خود را متناسب با آن تنظیم کنند. دستیابی به حداقل ۱۰ دسیبل بهبود در بهره پرتودیسی، یک معیار کلیدی برای افزایش دقت دریافت صدا و کاهش تداخل‌های صوتی محیطی محسوب می‌شود.

ج) چالش‌های مربوط به طراحی سخت‌افزار و یکپارچه‌سازی سیستم

طراحی سخت‌افزار و یکپارچه‌سازی سیستم با سخت‌افزار موجود بخش‌ کلیدی در موفقیت پروژه هستند. این چالش‌ها شامل بهینه‌سازی مصرف انرژی، مدیریت تداخلات الکترومغناطیسی و انتخاب میکروفون‌های مناسب برای تضمین کیفیت عملکرد سیستم در شرایط مختلف است.

  • محدودیت‌های پردازنده و مصرف انرژی: سیستم پیشنهادی باید روی پردازنده‌های کم‌مصرف مانند ARM پیاده‌سازی شود تا مصرف انرژی و هزینه‌های تولید کاهش یابد. با توجه به محدودیت‌های پردازشی این نوع پردازنده‌ها، بهینه‌سازی الگوریتم‌های پردازش سیگنال برای اجرا روی سخت‌افزارهای محدود، نیازمند مهندسی دقیق و انجام تست‌های متعدد برای اطمینان از عملکرد صحیح در زمان واقعی است.
  • مدیریت تداخلات الکترومغناطیسی (EMI): میکروفون‌های آرایه‌ای به‌طور مستقیم در نزدیکی پردازنده و دیگر اجزای الکترونیکی قرار دارند که ممکن است موجب تولید نویز الکترومغناطیسی (EMI) شوند. طراحی مدارها باید به‌گونه‌ای باشد که این تداخلات به حداقل برسد و تأثیر منفی آن‌ها بر عملکرد سیستم کاهش یابد. استفاده از محافظ‌های الکترومغناطیسی و طراحی مناسب مسیرهای سیگنال می‌تواند این مشکل را رفع کند.
  • طراحی و انتخاب میکروفون‌های مناسب: انتخاب میکروفون‌ها برای سیستم‌های دریافت صدا باید با دقت بالا انجام شود. ویژگی‌هایی همچون حساسیت، بازه دینامیکی، نسبت سیگنال به نویز و نرخ نمونه‌برداری میکروفون باید به‌طور دقیق تنظیم شوند تا بهترین کیفیت صوتی و دقت در دریافت صدا حاصل شود. سیستم باید حداقل نرخ نمونه‌برداری ۴۴.۱ کیلوهرتز و عمق بیت ۲۴ بیت داشته باشد تا پاسخ فرکانسی مناسب برای دریافت صدا در محیط‌های مختلف فراهم شود.

د) چالش‌های مربوط به تست و ارزیابی سیستم

تست و ارزیابی سیستم دریافت صدا از فواصل دور یکی از بخش‌های مهم در عین حال چالشی این طرح پژوهشی است. از آنجا که استانداردهای داخلی مشخصی برای ارزیابی این سیستم‌ها در محیط‌های بومی وجود ندارد، سیستم باید با استانداردهای بین‌المللی مانند IEEE 1904.1-2018 و IEC 60601-1 مطابقت داشته باشد. همچنین، عملکرد سیستم باید در محیط‌های مختلف مانند اتاق‌های کوچک، سالن‌های بزرگ، فضاهای باز و خودرو آزمایش شود. ارزیابی دقیق عملکرد مدل باید شامل معیارهایی همچون نسبت سیگنال به نویز، نرخ خطا و دقت دریافت صدا باشد.

ه) چالش‌های مربوط به هزینه و تولید انبوه

در فرآیند توسعه و تولید سیستم دریافت صدا از فواصل دور، بهینه‌سازی هزینه‌ها از اهمیت بالایی برخوردار است. هزینه تولید محصولات با دقت بالا معمولاً زیاد است، بنابراین باید راهکارهایی برای کاهش هزینه‌های سخت‌افزاری و پردازشی ارائه شود. طبیعتا افزایش تیراژ تولید و بهینه‌سازی تأمین قطعات می‌تواند به کاهش هزینه نهایی کمک کند. علاوه بر این، سیستم باید قابلیت به‌روزرسانی نرم‌افزاری از راه دور را داشته باشد و حداقل یک سال پشتیبانی برای رفع باگ‌ها و ارائه آپدیت‌های الگوریتمی ضروری است تا عملکرد سیستم در طول زمان بهبود یابد.

گام‌های پژوهشی

فاز اول: تحلیل نیازمندی‌ها و طراحی سیستم

  • پژوهش بر روی بنچ‌مارک‌ها و روش‌های موجود؛
  • تعریف معیارهای عملکرد سیستم؛
  • شناسایی نیازمندی‌های سخت‌افزاری و نرم‌افزاری؛
  • طراحی اولیه سیستم شامل معماری سخت‌افزار و جریان پردازش سیگنال.

فاز دوم: طراحی آرایه میکروفون و توسعه الگوریتم‌های پردازش سیگنال

  • طراحی و بهینه‌سازی پیکربندی آرایه میکروفون (تعداد و جایگذاری میکروفون‌ها)؛
  • توسعه الگوریتم‌های کاهش نویز، حذف اکو و تخمین جهت منبع صدا؛
  • شبیه‌سازی عملکرد آرایه میکروفون و نتایج پردازش سیگنال.

فاز سوم: توسعه مدل‌های یادگیری ماشین

  • توسعه و آزمایش مدل‌های جداسازی سیگنال برای تفکیک گفتار هدف از نویز و منابع صوتی دیگر؛
  • بهینه‌سازی مدل‌ها برای پردازش بلادرنگ و پیاده‌سازی روی سخت‌افزارهای محدود.

فاز چهارم: نمونه‌سازی سخت‌افزاری و یکپارچه‌سازی سیستم

  • ساخت نمونه اولیه سخت‌افزاری با استفاده از میکروفون‌های انتخابی، پردازنده‌ها و اجزای مرتبط؛
  • یکپارچه‌سازی الگوریتم‌های پردازش سیگنال و مدل‌های یادگیری ماشین در سخت‌افزار؛
  • انجام آزمایش‌های اولیه برای بررسی عملکرد و صحت کارکرد سیستم یکپارچه.

فاز پنجم: تست و بهینه‌سازی سیستم

  • انجام آزمایش‌های مختلف در محیط‌های آکوستیکی متفاوت؛
  • ارزیابی عملکرد سیستم با استفاده از معیارهای تعیین شده؛
  • بهینه‌سازی عملکرد سیستم، با تمرکز بر پردازش بلادرنگ، کارایی محاسباتی و کاهش خطای تشخیص.

فاز ششم: ارزیابی نهایی و مستندسازی

  • انجام ارزیابی نهایی با استفاده از تمام معیارهای مرتبط برای اطمینان از آماده بودن سیستم برای پیاده‌سازی؛
  • نوشتن گزارش جامع شامل جزئیات تحقیق، نتایج، چالش‌ها و راه‌حل‌های پیاده‌سازی‌شده؛
  • پیشنهاد بهبودهای بیشتر یا جهت‌گیری‌های تحقیقاتی آتی بر اساس یافته‌ها.

خروجی پژوهش

خروجی‌های مورد انتظار شامل موارد زیر خواهد بود:

۱- مدل:

  • توسعه یک مدل جدید یا ارتقای مدل‌های موجود برای دریافت صدا از فواصل دور با استفاده از آرایه‌های میکروفون؛
  • قادر به مقابله با چالش‌های کلیدی مانند نویز، انعکاس صدا، و تغییر موقعیت منبع صدا؛
  • مدل کارآمد از نظر محاسباتی و مناسب برای پیاده‌سازی در بستر سخت‌افزار واقعی.

۲- بهینه‌سازی:

  • بهینه‌سازی مدل برای دستیابی به حداکثر دقت و کارایی؛
  • استفاده از تکنیک‌های مختلف بهینه‌سازی مانند تنظیم پارامتر، یادگیری عمیق، و انتقال یادگیری؛
  • ارزیابی دقیق عملکرد مدل در شرایط مختلف.

۳- نمونه اولیه:

  • ساخت نمونه اولیه از سیستم دریافت صدا از فواصل دور؛
  • شامل سخت‌افزار و نرم‌افزار آزمایش شده در محیط‌های مختلف؛ 
  • منطبق بر نیازمندی‌های سخت‌افزاری ارائه شده توسط درخواست‌دهنده.

۴- ارائه آنالیز: 

  • ارائه آنالیز جامع از عملکرد سیستم دریافت صدا از فواصل دور؛
  • بررسی معیارهای مختلف مانند دقت، نرخ خطا، و نسبت سیگنال به نویز باشد؛
  • بررسی نقاط قوت و ضعف سیستم و پیشنهاد برای بهبود آینده.

۵- مستندسازی فنی و تدوین گزارش:

  • مستندسازی دانش فنی مربوط به مدل، بهینه‌سازی و نمونه اولیه؛
  • مستندسازی دانش مربوط به انتخاب اجزا و توسعه سخت‌افزاری و نرم‌افزار؛
  • گزارش آزمون‌ها؛
  • پیشنهاد پتانسیل‌های آینده.

الزامات تحقیق

تعیین و پیاده‌سازی موارد زیر بر مبنای نیازمندی‌های محصول نهایی شرکت (اسپیکر هوشمند) و با تکیه بر دلایل، پژوهش و تست‌های کافی:

  1. تعیین تعداد میکروفون‌های بهینه مورد نیاز
  2. تعیین نوع میکروفون‌ها
  3. تعیین جایگذاری میکروفون‌ها در فضا (برای اسپیکر هوشمند)
  4. یافتن ویژگی‌های بهینه برای میکروفون انتخاب شده شامل: حساسیت (db FS)، پاسخ فرکانسی، نسبت سیگنال به نویز، بازه‌ی دینامیکی میکروفون
  5. تعیین الگوریتم بهینه برای پرتودیسی
  6. طراحی و پیاده‌سازی الگوی مناسب جهت‌گیری با شاخص حداقل ۱۰ دسیبل (db)
  7. تعیین الگوریتم بهینه برای کاهش نویز با میزان کاهش نویز دستکم ۲۰ دسیبل (db)
  8. تعیین الگوریتم بهینه برای حذف کردن اکو با میزان کاهش اکو دستکم ۳۰ دسیبل (db)
  9. پاسخ فرکانسی مناسب برای صوت انسان ۸۰ هرتز (Hz) تا ۱۶ کیلوهرتز (KHz)
  10. نرخ نمونه‌برداری ۴۴.۱ کیلوهرتز (KHz)
  11. عمق بیت ۲۴ بیت
  12. تعیین پردازنده لازم برای پردازش سیگنال‌های صوتی با لحاظ هزینه پایین، مصرف انرژی پایین و امکان جایگذاری در فضای محدود اسپیکر هوشمند
  13. سرعت پردازش بالا (تاخیر کمتر از ۱۰ میلی ثانیه)
  14. امکان به‌روز‌رسانی نرم‌افزاری از راه دور
  15. تست‌های عملیاتی کامل
  16. تست‌های سخت‌افزاری و الکترونیکی لازم
  17. تست استقامت در مقابل عوامل محیطی شامل گرما، رطوبت، حرکت و ضربه 
  18. ارائه مستندات فنی کامل و دقیق به‌طوری‌که پیاده‌سازی‌ها قابل تکرار باشد
  19. یک سال پشتیبانی شامل آپدیت‌های نرم‌افزاری و رفع نواقص و باگ‌ها
  20. استانداردهای لازم (مطابقت با استانداردهای بین‌المللی مربوط به تشخیص گفتار از فواصل دور، مانند IEEE 1904.1-2018، مطابقت با استانداردهای مربوط به ایمنی الکتریکی و EMC، مانندIEC 60601-1 و CISPR 11)

تسهیم مالکیت فکری

مالکیت معنوی: مجری در مالکیت معنوی ناشی از اجرای پژوهش سهیم خواهد بود و انتشار مقاله مشترک توسط مجری و متقاضی در ژورنالهای داخلی و خارجی، ارائه مقاله در کنفرانسها و سمینارها با موافقت و اشاره بهنام همه دستاندرکاران مجاز خواهد بود.

مالکیت منافع مادی: با توجه به مدل کسب‌و‌کار و اجرا و اثبات دستاوردهای حاصل از طرح توسط شرکت متقاضی، منافع مالی ناشی از توسعه این فناوری برای شرکت متقاضی خواهد شد اما مطابق تراضی بین شرکت متقاضی و مجری، قابل اشتراک بین آنها خواهد بود. 

نحوه پذیرش

پذیرش طرح‌ها رقابتی است و از بین پروپوزال‌های دریافتی، موردی که شرایط زیر را داشته باشد، در اولویت خواهد بود:

  1. ترکیب متخصصین تیم پیشنهادی مرتبط باشد.
  2. افراد پیشنهادشده، دارای سابقه پژوهشی و فنی در آن موضوع باشند.
  3. زمان‌بندی، هزینه و شرح خدمات، متناسب و مرتبط با پژوهش مورد تقاضا باشد. (در این بخش، مجری می‌تواند برآورد اولیه خود را اعلام کند اما بدیهی است جزئیات اجرایی در ابتدای امر مشخص نیست و مجری و کارفرما با علم به این موضوع وارد این توافق خواهند شد.)
  4. پروپوزال، طبق فرمت پیشنهادی بنیاد، تهیه و از طریق سامانه کایپر ارسال شده باشد.
  5. فونت حروف و اعداد فارسی B Nazanin و اندازه قلم ۱۳ و فونت حروف و اعداد انگلیسی، Times New Roman و اندازه قلم ۱۱ باشد.

هزینه‌های قابل قبول

  • حق‌التحقیق نیروی انسانی؛
  • تست آنالیز توسط متخصص؛
  • خدمات.

حوزه های اولویت‌دار

  • مهندسی برق
  • مهندسی کامپیوتر

واجدین شرایط

پژوهشگر اصلی تیم لازم است عضو هیئت‌علمی فعال یکی از دانشگاه‌ها و مؤسسات آموزش عالی کشور باشد. پس از دریافت پروپوزال از طریق سامانه، ارزیابی انجام گرفته و در صورت کسب امتیاز بالا، تیم برگزیده جهت مذاکره با بنیاد و شرکت متقاضی دعوت خواهد شد.

فایل‌‌های پیوست

تاریخ فراخوان

کلیه افراد واجد شرایط پایان فروردین اسفند فرصت دارند که پروپوزال خود را از طریق سامانه کایپر برای بنیاد ملی علم ایران ارسال نمایند.

توجه: تاریخ این فراخوان تمدید نخواهد شد و فقط پروپوزال‌های ارسالی در بازه زمانی اعلام شده در فراخوان، به مرحله داوری خواهند رفت.

مبلغ حمایت

پژوهش پیشنهاد شده تا سقف ۸۰ درصد، حداکثر ۲/۵ میلیارد تومان، توسط بنیاد ملی علم ایران حمایت خواهد شد. بدیهی است که مابقی هزینه‌ها باید توسط شرکت متقاضی ارائه دهنده پژوهش تأمین شود.

شیوه ثبت نام و ارسال درخواست

متقاضیان جهت ثبت‌نام می‌توانند به سامانه کایپر مراجعه و از طریق بخش متقاضیان/ پژوهشگران اقدام نمایند. درصورتی‌که در این سامانه پروفایل مشخصات فردی ندارید ابتدا ثبت‌نام نموده و سپس به‌وسیله نام کاربری (Email)  و رمز عبور اعطا شده وارد سامانه شوید. پس از ورود در بخش ارسال طرح جدید می‌توانید از کارتابل پژوهش عمیق شرکت‌های دانش‌بنیان اقدام به ارسال طرح نمایید. 

مسئول پاسخگویی

پژوهشگران پس از مطالعه توضیحات فراخوان و آیین نامه‌های مربوطه در پورتال بنیاد علم، در صورت داشتن هر‌گونه ابهام یا سؤال در خصوص فرایند ارسال طرح، شرایط و محتوای علمی فراخوان می‌توانند از پروفایل خود در سامانه کایپر با کارگروه دانش‌بنیان از طریق تیکت، یا با ایمیل hatamkhani.a@insf.org سؤالات خود را مطرح نمایند و یا با شماره تلفن ۰۲۱۸۲۱۶۱۳۵۰(آقای حتم‌خانی) تماس حاصل فرمایند.

 

 

علاقمندان می‌توانند اخبار و رویدادهای بنیاد ملی علم را در شبکه های اجتماعی زیر دنبال کنند:

 کانال بنیاد ملی علم ایران در بله: https://ble.ir/insf_pr

کانال بنیاد ملی علم ایران در ایتا: https://eitaa.com/insf_pr

کانال بنیاد ملی علم ایران در تلگرام: https://t.me/insf_pr
صفحه بنیاد ملی علم ایران در اینستاگرام instagram.com/insf_pr

 

کلیدواژه‌ها: دستیارهای صوتی هوشمند پرتودیسی بنیاد ملی علم ایران دریافت صدا از فواصل دور هوش مصنوعی