مایکروسافت یک بازار مصنوعی برای تست هوشمندان هوش مصنوعی ساخت — آن‌ها به روش‌های شگفت‌انگیزی شکست خوردند

محققان مایکروسافت روز چهارشنبه یک محیط شبیه‌سازی جدید برای آزمایش عامل‌های هوش مصنوعی منتشر کردند و تحقیقات جدیدی ارائه دادند که نشان می‌دهد مدل‌های عاملی فعلی ممکن است در برابر دستکاری آسیب‌پذیر باشند. این تحقیق که با همکاری دانشگاه ایالتی آریزونا انجام شده، سؤالات جدیدی را درباره عملکرد عامل‌های هوش مصنوعی هنگام کار بدون نظارت و اینکه شرکت‌های هوش مصنوعی چقدر سریع می‌توانند وعده‌های آینده عاملی را محقق کنند، مطرح می‌کند.

محیط شبیه‌سازی که توسط مایکروسافت "بازار مگنتیک" نامیده شده، به عنوان یک پلتفرم مصنوعی برای آزمایش رفتار عامل‌های هوش مصنوعی ساخته شده است. یک آزمایش معمولی ممکن است شامل یک عامل مشتری باشد که سعی می‌کند طبق دستورالعمل‌های کاربر شام سفارش دهد، در حالی که عامل‌های نمایندگی رستوران‌های مختلف برای برنده شدن سفارش رقابت می‌کنند.

نکته کلیدی:
«آزمایش‌های اولیه تیم شامل ۱۰۰ عامل از سمت مشتری بود که با ۳۰۰ عامل از سمت کسب‌وکار تعامل داشتند. از آنجایی که کد منبع این بازار متن‌باز است، باید برای گروه‌های دیگر ساده باشد که کد را برای اجرای آزمایش‌های جدید یا تکرار یافته‌ها اتخاذ کنند.»

اِس کمار، مدیر کل آزمایشگاه مرزهای هوش مصنوعی مایکروسافت ریسرچ، می‌گوید این نوع تحقیقات برای درک قابلیت‌های عامل‌های هوش مصنوعی حیاتی خواهد بود. او گفت: "واقعاً این سؤال وجود دارد که جهان با وجود این عامل‌ها که با یکدیگر همکاری و صحبت و مذاکره می‌کنند، چگونه تغییر خواهد کرد. ما می‌خواهیم این موارد را به عمق درک کنیم."

تحقیقات اولیه ترکیبی از مدل‌های پیشرو از جمله GPT-4o، GPT-5 و Gemini-2.5-Flash را بررسی کرد و برخی نقاط ضعف شگفت‌انگیز را کشف کرد. به طور خاص، محققان چندین تکنیک را یافتند که کسب‌وکارها می‌توانند برای دستکاری عامل‌های مشتری جهت خرید محصولاتشان استفاده کنند. محققان کاهش خاصی در کارایی را زمانی که به یک عامل مشتری گزینه‌های بیشتری برای انتخاب داده می‌شد، متوجه شدند که فضای توجه عامل را تحت‌الشعاع قرار می‌داد.

تحلیل:
«کمار می‌گوید: "ما می‌خواهیم این عامل‌ها به ما در پردازش گزینه‌های زیاد کمک کنند. و می‌بینیم که مدل‌های فعلی واقعاً با داشتن گزینه‌های زیاد دچار سردرگمی می‌شوند." عامل‌ها همچنین هنگامی که از آن‌ها خواسته شد برای رسیدن به یک هدف مشترک همکاری کنند، با مشکل مواجه شدند و ظاهراً مطمئن نبودند که کدام عامل باید چه نقشی در همکاری ایفا کند. عملکرد زمانی بهبود یافت که به مدل‌ها دستورالعمل‌های صریح‌تری درباره نحوه همکاری داده شد، اما محققان همچنان قابلیت‌های ذاتی مدل‌ها را نیازمند بهبود می‌دانستند.»

کمار گفت: "ما می‌توانیم به مدل‌ها دستور دهیم - مثلاً می‌توانیم گام به گام به آن‌ها بگوییم. اما اگر ذاتاً قابلیت‌های همکاری آن‌ها را آزمایش می‌کنیم، انتظار دارم این مدل‌ها به طور پیش‌فرض این قابلیت‌ها را داشته باشند."

دسترسی سریع و ایمن به ابزارهای قدرتمند فناوری!