به گزارش
مردم فردا،متا در پستی در وبلاگ خود مقالهای را منتشر کرده است که میگوید مدل LLaMA مثل سایر مدلهای زبانی بزرگ، دنبالهای از کلمات را بهعنوان ورودی دریافت و کلمه بعدی را پیشبینی میکند. این غول فناوری میگوید این مدل روی 20 زبان جهانی و با کمک دادههای عمومی وبسایتهایی مثل ویکیپدیا، arXiv ،Stack Exchange ،C4 و CCNet آموزش داده شده است.
متا در مقاله خود مدعی شده که نسخهای از این مدل هوش مصنوعی به نام LLaMA-13B در اکثر بنچمارکها قویتر از GPT-3 ظاهر شده و نسخه بزرگتری از همین مدل به نام LLaMA-65B قادر به رقابت با بهترین مدلها ازجمله Chinchilla70B از دیپمایند و PaLM 540B از گوگل است.
مدل هوش مصنوعی متا توان پردازشی کمتری لازم دارد
متا میگوید LLaMA-13B مدلی کوچکتر است که توان و منابع پردازشی کمتری لازم دارد. این مدل درواقع از مجموعهای از مدلهای زبانی تشکیل شده است و در اندازههای مختلف در دسترس خواهد بود. این شرکت درباره عرضه مدل خود میگوید: «دسترسی به این مدل بهصورت موردی برای محققان آکادمیک، سازمانهای دولتی، گروههای مدنی و آزمایشگاههای تحقیقاتی در سراسر دنیا فراهم میشود.»
مدل LLaMA-13B پس از آموزش میتواند روی دیتاسنتری با GPU انویدیا تسلا V100 اجرا شود. این مسئله از آن جهت اهمیت دارد که به سازمانهای کوچکتر اجازه میدهد تا آزمایشهای خود را روی سیستمهای ارزانتر انجام دهند.
مدل LLaMA تاکنون در هیچکدام از محصولات و پلتفرمهای متا پیادهسازی نشده است و بهنظر نمیرسد که این شرکت برنامهای برای عرضه هوش مصنوعی خود برای کاربران عادی داشته باشد.
«مارک زاکربرگ»، مدیرعامل متا، درباره عرضه LLaMA میگوید: «مدلهای زبانی بزرگ پتانسیلهای زیادی را در زمینه تولید متن، گفتوگو، خلاصهسازی متون و انجام کارهای پیچیدهتر مثل حل مسائل ریاضی یا پیشبینی ساختارهای پروتئینی از خود نشان دادهاند. متا به این مدل تحقیقات باز متعهد است و ما مدل جدید خود را در دسترس جامعه محققان هوش مصنوعی قرار میدهیم.»