محققان در پژوهش جدیدی پتانسیل تقلب در هوش مصنوعی را بررسی کردند. آنها دریافتند وقتی مدلهای قدرتمند میبینند دارند در بازی شکست میخورند، تصمیم میگیرند با تقلب پیروز شوند. این مدلها میتوانند بهتنهایی نقاط ضعف امنیت سایبری سیستم را پیدا و از آنها استفاده کنند.
به گزارش خبرآنلاین، در پژوهش اخیر Palisade Research، گروهی تحقیقاتی که ایمنی و اخلاق هوش مصنوعی را بررسی میکنند، موضوع نگرانکنندهای را آشکار کردند. آنها 7 مدل از برترین مدلهای زبانی بزرگ (LLM) را در برابر Stockfish، سیستم شطرنجباز بسیار قدرتمندی که از سال 2014 استادان بزرگ شطرنج را به چالش کشیده است، قرار دادند. 2 مدل استدلالگر o1 از OpenAI و R1 دیپسیک وقتی در موقعیت شکست قرار میگرفتند؛ چون مصمم به پیروزی بودند، فایلهای سیستم را دستکاری میکردند تا موقعیت مهرههای خود را روی تخته تغییر دهند.
تقلب مدلهای هوش مصنوعی قدرتمند
به نقل از دیجیاتو، محققان به مدلهای مختلف هوش مصنوعی وظیفهای تقریباً غیرممکن دادند: پیروزی در برابر Stockfish که یکی از قویترین موتورهای شطرنج جهان است و از بسیاری انسانها یا مدلهای هوش مصنوعی بهتر شطرنج بازی میکند. محققان همچنین به مدلها Scratchpad دادند، باکسی متنی که هوش مصنوعی میتوانست از آن برای «فکرکردن» قبل از انجام حرکت بعدی خود استفاده کند و محققان هم میدیدند هوش مصنوعی چگونه با خودش استدلال میکند.