متا از هوش مصنوعی LLaMA رونمایی کرد

به گزارش مردم فردا،متا در پستی در وبلاگ خود مقاله‌ای را منتشر کرده است که می‌گوید مدل LLaMA مثل سایر مدل‌های زبانی بزرگ، دنباله‌ای از کلمات را به‌عنوان ورودی دریافت و کلمه بعدی را پیش‌بینی می‌کند. این غول فناوری می‌گوید این مدل روی 20 زبان جهانی و با کمک داده‌های عمومی وب‌سایت‌هایی مثل ویکی‌پدیا، arXiv ،Stack Exchange ،C4 و CCNet آموزش داده شده است.

متا در مقاله خود مدعی شده که نسخه‌ای از این مدل هوش مصنوعی به نام LLaMA-13B در اکثر بنچمارک‌ها قوی‌تر از GPT-3 ظاهر شده و نسخه بزرگ‌تری از همین مدل به نام LLaMA-65B قادر به رقابت با بهترین مدل‌ها ازجمله Chinchilla70B از دیپ‌مایند و PaLM 540B از گوگل است.

مدل هوش مصنوعی متا توان پردازشی کمتری لازم دارد
متا می‌گوید LLaMA-13B مدلی کوچک‌تر است که توان و منابع پردازشی کمتری لازم دارد. این مدل درواقع از مجموعه‌ای از مدل‌های زبانی تشکیل شده است و در اندازه‌های مختلف در دسترس خواهد بود. این شرکت درباره عرضه مدل خود می‌گوید: «دسترسی به این مدل به‌صورت موردی برای محققان آکادمیک، سازمان‌های دولتی، گروه‌های مدنی و آزمایشگاه‌های تحقیقاتی در سراسر دنیا فراهم می‌شود.»

مدل LLaMA-13B پس از آموزش می‌تواند روی دیتاسنتری با GPU انویدیا تسلا V100 اجرا شود. این مسئله از آن جهت اهمیت دارد که به سازمان‌های کوچک‌تر اجازه می‌دهد تا آزمایش‌های خود را روی سیستم‌های ارزان‌تر انجام دهند.

مدل LLaMA تاکنون در هیچ‌کدام از محصولات و پلتفرم‌های متا پیاده‌سازی نشده است و به‌نظر نمی‌رسد که این شرکت برنامه‌ای برای عرضه هوش مصنوعی خود برای کاربران عادی داشته باشد.

«مارک زاکربرگ»، مدیرعامل متا، درباره عرضه LLaMA می‌گوید: «مدل‌های زبانی بزرگ پتانسیل‌های زیادی را در زمینه تولید متن، گفت‌وگو، خلاصه‌سازی متون و انجام کارهای پیچیده‌تر مثل حل مسائل ریاضی یا پیش‌بینی ساختارهای پروتئینی از خود نشان داده‌اند. متا به این مدل تحقیقات باز متعهد است و ما مدل جدید خود را در دسترس جامعه محققان هوش مصنوعی قرار می‌دهیم.»