در مقاله جدیدی که در این ماه منتشر شد، محققان اپل نشان دادند که روشهای جدیدی را برای آموزش مدلهای زبان بزرگ با استفاده از اطلاعات متنی و بصری توسعه دادهاند. به گفته محققان اپل، این نشان دهنده راهی برای دستیابی به نتایج پیشرفته است.
همانطور که برای اولین بار توسط بیزنس بیتایده این تحقیق این است که نشان دهد “چگونه ترکیب دقیق انواع مختلف داده های آموزشی و معماری مدل می تواند منجر به عملکرد پیشرفته در طیف وسیعی از معیارهای هوش مصنوعی شود.”
این مقاله هفته گذشته منتشر شد و عنوان آن «MM1: روشها، تحلیلها و بینشهایی از پیشآموزش LLM چندوجهی» است. محققان اپل در خلاصه مقاله توضیح می دهند:
در این کار، ما در مورد ایجاد مدلهای چندوجهی چندوجهی با کارایی بالا (MLLM) بحث میکنیم. به طور خاص، ما اهمیت اجزای مختلف معماری و انتخاب داده ها را مطالعه می کنیم. از طریق حذف دقیق و جامع رمزگذار تصویر، رابط زبان بینایی و انتخاب های مختلف داده های قبل از آموزش، چندین درس طراحی مهم را شناسایی کردیم.
به عنوان مثال، ما نشان میدهیم که برای پیشآموزش چندوجهی در مقیاس بزرگ، استفاده از ترکیبی دقیق از دادههای عنوان تصویر، متن تصویر در همپیچیده و دادههای فقط متنی برای به دست آوردن وضعیت هنری (SOTA) بسیار مهم است. نتایج در چندین معیار، در مقایسه با سایر نتایج منتشر شده قبل از آموزش.
MM1 بهعنوان «خانوادهای از مدلهای چندوجهی» توصیف میشود که پیشرفته هستند و «ویژگیهای جذابی مانند یادگیری درون متنی پیشرفته و استدلال چند تصویری دارند، که فقط در چند مرحله امکان ایجاد زنجیرهای از فکر را فراهم میکند. . »
قابلیت های یادگیری درون متنی مدل MM1 به ویژه چشمگیر است:
MM1 میتواند با پیشآموزش چند وجهی در مقیاس بزرگ، پیشبینیهای درون زمینهای انجام دهد. این به MM1 اجازه میدهد (الف) اشیا را بشمارد و قالببندی سفارشی را دنبال کند، (ب) بخشهای مرجع تصاویر و انجام OCR، (ج) دانش عقل و کلمه را در مورد اشیاء روزمره نشان دهد، و (د) عملکردهای ریاضی پایه را انجام دهد. تصاویر از مجموعه اعتبارسنجی COCO 2014 هستند.
محققان به این نتیجه رسیدند که این خانواده از مدلها «عملکرد رقابتی را در طیف وسیعی از معیارها تولید میکنند، در حالی که امکان استدلال چند فریمی و درخواستهای چند عکس را فراهم میکنند».
بیشتر بدانید:
FTC: ما از لینک های وابسته به صورت خودکار و درآمدزا استفاده می کنیم. بیشتر.