مدل‌های هوش مصنوعی هنگام شکست در بازی‌ دست به تقلب می‌زنند!

محققان در پژوهش جدیدی پتانسیل تقلب در هوش مصنوعی را بررسی کردند. آنها دریافتند وقتی مدل‌های قدرتمند می‌بینند دارند در بازی شکست می‌خورند، تصمیم می‌گیرند با تقلب پیروز شوند. این مدل‌ها می‌توانند به‌تنهایی نقاط ضعف امنیت سایبری سیستم را پیدا و از آنها استفاده کنند.

به گزارش خبرآنلاین، در پژوهش اخیر Palisade Research، گروهی تحقیقاتی که ایمنی و اخلاق هوش مصنوعی را بررسی می‌کنند، موضوع نگران‌کننده‌ای را آشکار کردند. آنها 7 مدل از برترین مدل‌های زبانی بزرگ (LLM) را در برابر Stockfish، سیستم شطرنج‌باز بسیار قدرتمندی که از سال 2014 استادان بزرگ شطرنج را به چالش کشیده است، قرار دادند. 2 مدل استدلالگر o1 از OpenAI و R1 دیپ‌سیک وقتی در موقعیت شکست قرار می‌گرفتند؛ چون مصمم به پیروزی بودند، فایل‌های سیستم را دستکاری می‌کردند تا موقعیت مهره‌های خود را روی تخته تغییر دهند.

تقلب مدل‌های هوش مصنوعی قدرتمند

به نقل از دیجیاتو، محققان به مدل‌های مختلف هوش مصنوعی وظیفه‌ای تقریباً غیرممکن دادند: پیروزی در برابر Stockfish که یکی از قوی‌ترین موتورهای شطرنج جهان است و از بسیاری انسان‌ها یا مدل‌های هوش مصنوعی بهتر شطرنج بازی می‌کند. محققان همچنین به مدل‌ها Scratchpad دادند، باکسی متنی که هوش مصنوعی می‌توانست از آن برای «فکرکردن» قبل از انجام حرکت بعدی خود استفاده کند و محققان هم می‌دیدند هوش مصنوعی چگونه با خودش استدلال می‌کند.

دیدگاهی بنویسید

دیدگاهی بنویسید لغو پاسخ