ماسک‌‌ها، عینک‌ها، کلاه‌ها و انواع دیگر محتوای مجازی که در اپلیکیشن‌های مختلف از اینستاگرام گرفته تا یوتیوب استوریز روی چهره‌های کاربران اضافه می‌شوند، جذابیت و زیبایی خاصی دارند. تابه‌حال از خود پرسیده‌اید این جلوه‌ها چگونه اجرا می‌شوند؟ بخش هوش مصنوعی گوگل به‌تازگی مقاله‌ای درباره‌ی همین جلوه‌ها منتشر کرده که جزئیات آن را به بهترین نحو برای علاقه‌مندان توضیح می‌دهد.

مهندسان شاغل در مانتین ویو در مقاله‌ای بلند، جزئیات فناوری هوش مصنوعی در هسته‌ی استوری اپلیکیشن‌های مختلف را فاش و نکاتی نیز درباره‌ی API مشهور آن ARCore ذکر کردند. طبق ادعای آن‌ها، API مذکور می‌تواند انواع حالات از بازتاب نور محیط تا حالت چهره و حتی بازتاب نور از هر چهره را شبیه‌سازی کند. همه‌ی آن موارد هم فقط به کمک دوربین و به‌‌طور زنده اتفاق می‌افتند.

بخش اختصاصی گوگل در حوزه‌ی واقعیت افزوده، از فناوری TensorFlow Lite استفاده می‌کند. آن فناوری نمونه‌ای سبک از فریم‌ورک یادگیری ماشین گوگل به‌نام TensorFlow محسوب می‌شود که برای کاربردهای خاص بهینه‌سازی شد. در موقعیت‌های مناسب، آن‌ها از پردازش بهینه‌سازی‌شده‌ی سخت‌افزارها بهره می‌برند که دو شبکه‌ی عصبی را باهم ترکیب می‌کند.

اولین شبکه‌ی عصبی در فناوری اشاره‌شده تشخیص‌دهنده است که روی داده‌های دوربین فعالیت و موقعیت‌های چهره را پردازش می‌کند. شبکه‌ی دوم مدل مِش سه‌بعدی نام دارد که از داده‌های دریافت‌شده‌ی موقعیتی، برای پیش‌بینی هندسه‌ی سطوح بهره می‌برد.

چرا از رویکردی با دو مدل استفاده می‌شود؟ متخصصان گوگل دو دلیل را برای آن توضیح می‌دهند. استفاده از آن رویکرد نیاز به تقویت دیتاسِت با داده‌های مصنوعی را کاهش می‌‌دهد و درنتیجه، سیستم هوش مصنوعی می‌تواند حداکثر ظرفیت خود را برای بهبود پیش‌بینی مختصات مِش به‌کار گیرد. هر دو بخش، برای جانمایی دقیق محتوای مجازی در جلوه‌ها حیاتی هستند.

مرحله‌ی بعدی، مستلزم اجرای شبکه‌ی مِش در یک فریم تصویر دوربین است. تکنیک خاصی باید برای آن مرحله استفاده شود تا تأخیر در تصویر و اختلال آن را کاهش دهد. مِش مدنظر از فریم‌های ویدئویی بریده‌شده تولید می‌شود و مختصات را در داده‌های واقعی پیش‌بینی می‌کند. درنتیجه، موقعیت‌های سه‌بعدی و نیز احتمالات صورت‌های موجود در تصویر در فریم‌هایی با جانمایی مقبول ارائه می‌شود.

نکته‌ی درخورتوجه آن است که مسیرهای جدید پردازش واقعیت افزوده، فقط به یک یا دو مدل بسنده نمی‌کنند؛ درعوض، از تعدادی معماری خاص استفاده می‌کنند که با هدف پشتیبانی از دستگاه‌های متنوع طراحی شده‌اند. به‌عنوان مثال، نمونه‌های سبک‌تر به حافظه و قدرت پردازش کمتری نیاز دارند و درنتیجه، رزولوشن موردنیاز برای ورودی آن‌ها نیز کمتر (۱۲۸ در ۱۲۸) خواهد بود. البته، مدل‌های پیچیده‌تر تا رزولوشن ۲۵۶ در ۲۵۶ را پردازش می‌کنند.

طبق تحقیقات نویسندگان مقاله، سریع‌ترین مدل مِش کامل در طرح آن‌ها، زمان پردازشی برابر با ۱۰ میلی‌ثانیه دارد که روی گوشی گوگل پیکسل 3 آزمایش شد. اجرای مدل سبک‌تر زمان را به ۳ میلی‌ثانیه کاهش داد. آزمایش نمونه‌ها روی آیفون X فقط کمی کُندتر بود: نمونه‌ی سبک‌تر با بهره‌گیری از GPU، پردازش را در ۴ میلی‌ثانیه برای هر فریم انجام داد و نمونه‌ی سنگین و پیچیده‌تر، مِش کامل را در ۱۴ ثانیه آماده کرد.