محققان اپل از پیشرفت جدید هوش مصنوعی برای آموزش LLM در تصاویر و متن خبر دادند


در مقاله جدیدی که در این ماه منتشر شد، محققان اپل نشان دادند که روش‌های جدیدی را برای آموزش مدل‌های زبان بزرگ با استفاده از اطلاعات متنی و بصری توسعه داده‌اند. به گفته محققان اپل، این نشان دهنده راهی برای دستیابی به نتایج پیشرفته است.

همانطور که برای اولین بار توسط بیزنس بیتایده این تحقیق این است که نشان دهد “چگونه ترکیب دقیق انواع مختلف داده های آموزشی و معماری مدل می تواند منجر به عملکرد پیشرفته در طیف وسیعی از معیارهای هوش مصنوعی شود.”

این مقاله هفته گذشته منتشر شد و عنوان آن «MM1: روش‌ها، تحلیل‌ها و بینش‌هایی از پیش‌آموزش LLM چندوجهی» است. محققان اپل در خلاصه مقاله توضیح می دهند:

در این کار، ما در مورد ایجاد مدل‌های چندوجهی چندوجهی با کارایی بالا (MLLM) بحث می‌کنیم. به طور خاص، ما اهمیت اجزای مختلف معماری و انتخاب داده ها را مطالعه می کنیم. از طریق حذف دقیق و جامع رمزگذار تصویر، رابط زبان بینایی و انتخاب های مختلف داده های قبل از آموزش، چندین درس طراحی مهم را شناسایی کردیم.

به عنوان مثال، ما نشان می‌دهیم که برای پیش‌آموزش چندوجهی در مقیاس بزرگ، استفاده از ترکیبی دقیق از داده‌های عنوان تصویر، متن تصویر در هم‌پیچیده و داده‌های فقط متنی برای به دست آوردن وضعیت هنری (SOTA) بسیار مهم است. نتایج در چندین معیار، در مقایسه با سایر نتایج منتشر شده قبل از آموزش.

MM1 به‌عنوان «خانواده‌ای از مدل‌های چندوجهی» توصیف می‌شود که پیشرفته هستند و «ویژگی‌های جذابی مانند یادگیری درون متنی پیشرفته و استدلال چند تصویری دارند، که فقط در چند مرحله امکان ایجاد زنجیره‌ای از فکر را فراهم می‌کند. . »

قابلیت های یادگیری درون متنی مدل MM1 به ویژه چشمگیر است:

MM1 می‌تواند با پیش‌آموزش چند وجهی در مقیاس بزرگ، پیش‌بینی‌های درون زمینه‌ای انجام دهد. این به MM1 اجازه می‌دهد (الف) اشیا را بشمارد و قالب‌بندی سفارشی را دنبال کند، (ب) بخش‌های مرجع تصاویر و انجام OCR، (ج) دانش عقل و کلمه را در مورد اشیاء روزمره نشان دهد، و (د) عملکردهای ریاضی پایه را انجام دهد. تصاویر از مجموعه اعتبارسنجی COCO 2014 هستند.

محققان به این نتیجه رسیدند که این خانواده از مدل‌ها «عملکرد رقابتی را در طیف وسیعی از معیارها تولید می‌کنند، در حالی که امکان استدلال چند فریمی و درخواست‌های چند عکس را فراهم می‌کنند».

بیشتر بدانید:

FTC: ما از لینک های وابسته به صورت خودکار و درآمدزا استفاده می کنیم. بیشتر.



Source link

بخش appl 9to5mac فارسی