محققان در تلاشند تا «Apple GPT» را برای کار بر روی آیفون فعال کنند

مقاله دوم از Apple AI به روش‌هایی برای تولید آواتارهای سه بعدی متحرک از ویدیوی استاندارد، با یک برنامه کاربردی واضح برای Vision Pro می‌پردازد.

اما همه ما انبوهی از ویدئوهای “مسطح” (تک چشمی) داریم، و دومین مقاله هوش مصنوعی اپل روشی را برای تبدیل ویدئوی دو بعدی به آواتارهای سه بعدی متحرک شرح می دهد.

این پیشرفت به ویژه برای استقرار LLM های پیشرفته در محیط های محدود به منابع بسیار مهم است و در نتیجه کاربرد و دسترسی آنها را گسترش می دهد.

تولید آواتارهای سه بعدی متحرک از یک ویدیوی “مسطح”.

اینکه چه زمانی همه اینها منتشر خواهند شد، سوال دیگری است که کو در ماه آگوست گفت که هنوز “هیچ نشانه ای” وجود ندارد که این شرکت چت ربات هوش مصنوعی خود را در سال 2024 راه اندازی کند.

در ماه مه متوجه شدیم که اپل قبلاً از چت ربات هوش مصنوعی خود به صورت داخلی استفاده می کرده است که برخی آن را Apple GPT نامیده اند. به نظر می رسد یک مقاله تحقیقاتی جدید با هدف فعال کردن یک سیستم ChatGPT-مانند برای کار بر روی آیفون ها است.

بیزنس بیت روزنامه ها را دیدم.

“Apple GPT”

عکس: Max Langelott/Unsplash

LLM [have] محاسبات فشرده و نیازهای حافظه [that] چالش های موجود، به ویژه برای دستگاه هایی با ظرفیت DRAM محدود. این مقاله به چالش اجرای کارآمد LLM هایی که از ظرفیت DRAM موجود فراتر می روند، با ذخیره پارامترهای مدل بر روی فلش، اما انتقال آنها به DRAM در صورت تقاضا، می پردازد. روش ما شامل ساخت یک مدل هزینه استنتاج است که با رفتار حافظه فلش همسو می‌شود و ما را به بهینه‌سازی در دو حوزه مهم راهنمایی می‌کند: کاهش حجم داده‌های انتقال‌یافته از حافظه فلش و خواندن داده‌ها در تکه‌های بزرگتر و پیوسته‌تر.

این مقاله عمیقاً فنی است، حتی با خلاصه و نتیجه گیری پر از کلمات اختصاری، اما نتیجه نهایی این است که روش اپل برای دستیابی به نتیجه مشابه صد برابر سریعتر از روش های موجود است.

که از چت بات نامیده می شود LLM در یک فلش: استنتاج کارآمد مدل های زبان بزرگ با حافظه محدود.

اگر می‌خواهید ویدیوی فضایی برای مشاهده سه بعدی در Vision Pro بگیرید، نسخه بتا دوم iOS 17.2 به شما امکان می‌دهد این کار را در آیفون خود انجام دهید.

روش ما فقط یک ویدیوی تک چشمی با تعداد فریم کم (50-100) می گیرد و به طور خودکار می آموزد که صحنه ایستا و یک آواتار انسانی کاملاً متحرک را در عرض 30 دقیقه از هم جدا کند.

این مقاله بیان می‌کند که به طور کلی، اگر می‌خواهید یک آواتار سه‌بعدی واقع‌گرایانه ایجاد کنید، برای ثبت تصاویر از زوایای مختلف و ترکیب آن‌ها در یک مدل سه‌بعدی، نیاز به تنظیم چند دوربین دارد. چیزی که اپل در اینجا به آن دست یافته است روشی برای دستیابی به این هدف از طریق یک توالی ویدیویی استاندارد بسیار کوتاه است.

“فلش” در عنوان بازی با کلمات است، زیرا در مورد به حداقل رساندن مقدار داده ای است که باید از حافظه فلش به حافظه RAM منتقل شود. LLM اصطلاح عمومی برای سیستم‌های چت هوش مصنوعی است که بر روی مقادیر زیادی متن آموزش دیده‌اند.

این برنامه کاربردی واضحی برای Vision Pro دارد، اما می‌تواند مواردی مانند لباس مجازی نصب شده روی آیفون شما را نیز فعال کند، به شما این امکان را می‌دهد که یک آواتار سه‌بعدی از خود بسازید و سپس ببینید که در لباس‌های مختلف چگونه خواهید بود.

FTC: ما از لینک های وابسته به صورت خودکار و درآمدزا استفاده می کنیم. بیشتر.



Source link

بخش appl 9to5mac فارسی

این رویکرد به LLM ها اجازه می دهد تا 25 برابر سریعتر در دستگاه هایی با RAM محدود اجرا شوند. محققان نتیجه می گیرند: