غزال زیاری: اخیرا سیستم OpenAI o۳، توانست تا در معیار ARC-AGI به امتیاز ۸۵% برسد که به‌مراتب بالاتر از بهترین امتیاز ثبت‌شده توسط هوش مصنوعی قبلی یعنی ۵۵ درصد بود و امتیازی هم‌تراز با میانگین امتیاز انسانی به دست آورد. این سیستم به‌علاوه در یک آزمون ریاضی خیلی سخت هم نمره خوبی کسب کرد.

ایجاد هوش عمومی مصنوعی (AGI)، هدف تعیین‌شده همه آزمایشگاه‌های اصلی تحقیقاتی هوش مصنوعی است که در نگاه اول این‌طور به نظر می‌رسد که حداقل OpenAI گام بزرگی در جهت محقق کردن این هدف برداشته است.

در این میان که تردیدهای زیادی وجود دارد، بسیاری از محققان و توسعه‌دهندگان هوش مصنوعی حس می‌کنند که چیزی تغییر کرده و ازنظر خیلی از افراد، حالا چشم‌انداز AGI واقعی‌تر، فوری‌تر و نزدیک‌تر از حد انتظار به نظر می‌رسد؛ اما آیا حق با آن‌هاست؟ تعمیم و هوش

برای درک اینکه معنی واقعی نتیجه o۳ چیست، باید با مفهوم تست ARC-AGI آشنا شوید؛ ازنظر فنی، این آزمایش یک سیستم هوش مصنوعی از "کارایی نمونه" در انطباق با چیزی جدید است. (چند نمونه از یک موقعیت جدید که سیستم باید ببیند تا متوجه شود که چگونه کار می‌کند.)

یک سیستم هوش مصنوعی مثل ChatGPT (GPT-۴) خیلی کارآمد نیست. این سیستم بر روی میلیون‌ها نمونه از متون انسانی آموزش داده شد و قوانین احتمالی متعددی درباره متحمل‌ترین ترکیب‌های کلمات ایجاد کرد. نتیجه در کارهای معمول بسیار خوب بود ولی در کارهای غیرمعمول چندان خوب عمل نمی‌کرد؛ چراکه داده‌های کمتر (نمونه‌های کمتری) در مورد آن وظایف در اختیار داشت.

تا زمانی که سیستم‌های هوش مصنوعی نتوانند از تعداد مثال‌های کمی بیاموزند و با نمونه‌های کاربردی بیشتری سازگار شوند، فقط برای کارهای معمول و تکراری و البته مواردی که در آن‌ها ناکامی و شکست قابل‌پذیرش باشد، مورداستفاده قرار می‌گیرند. توانایی حل دقیق مسائل ناشناخته قبلی یا مشکلات جدید از نمونه‌های داده‌های محدود، به‌عنوان ظرفیت تعمیم شناخته می‌شود و این به شکل گسترده‌ای یک عنصر ضروری و اساسی هوش در نظر گرفته می‌شود. شبکه‌ها و الگوها

معیار ARC-AGI برای انطباق کارآمد نمونه، با استفاده از مسئله‌های شبکه‌ای مربعی کوچک مانند نمونه زیر، آزمایش‌هایی را انجام می‌دهد و هوش مصنوعی باید الگویی را پیدا کند که شبکه سمت چپ را به شبکه سمت راست تبدیل کند.

در هر سؤال، سه مثال برای یادگیری ارائه می‌شود. سپس سیستم هوش مصنوعی باید قوانینی که در سه مثال قبلی آموخته را به نمونه چهارم تعمیم دهد. این‌ها خیلی شبیه به تست‌های IQ هستند. قوانین ضعیف و سازگاری

ما دقیقاً نمی‌دانیم که OpenAI چطور این کار را انجام داده، اما نتایج حاکی از آن است که مدل o۳ سازگاری بالایی دارد و از چند مثال محدود می‌تواند قوانینی را کشف کند که قابل‌تعمیم دادن باشند.

برای کشف یک الگو، نباید فرض‌های غیرضروری داشته باشیم، یا دقیق‌تر ازآنچه واقعاً هستیم باشیم. در تئوری، اگر بتوانید ضعیف‌ترین قوانینی که کاری که را می‌خواهید انجام می‌دهند را شناسایی کنید، توانایی خود را برای سازگاری با موقعیت‌های جدید به حداکثر رسانده‌اید.

اما منظور از ضعیف‌ترین قوانین چیست؟ تعریف فنی آن پیچیده است، اما معمولاً قوانین ضعیف‌تر، آن‌هایی هستند که می‌توان آن‌ها را با عبارات ساده‌تری توصیف کرد. مثلاً در مثال بالا، یک تعریف ساده از قانون چیزی شبیه به این است: "هر شکلی با یک خط بیرون زده، به سمت انتهای آن خط حرکت می‌کند و هر شکل دیگری را که با آن همپوشانی دارد، می‌پوشاند." جستجوی زنجیره‌های فکری

در شرایطی که هنوز نمی‌دانیم که OpenAI چگونه به این نتیجه دست‌یافته، بعید است که آن‌ها عمداً سیستم o۳ را برای یافتن قوانین ضعیف بهینه کرده باشند. بااین‌حال، برای موفقیت در وظایف ARC-AGI باید آن‌ها را پیدا کرد.

ما می‌دانیم که OpenAI کار را با یک نسخه همه‌منظوره از مدل o۳ شروع کرد (که با اکثر مدل‌های دیگر متفاوت است؛ چراکه می‌تواند زمان بیشتری را صرف فکر کردن درباره سؤالات دشوار کند) و سپس آن را به‌طور خاص برای آزمون ARC-AGI آموزش داد.

فرانسوا شوله، محقق فرانسوی هوش مصنوعی که این معیار را طراحی کرده براین باور است که o۳ از طریق "زنجیره‌های فکری" مختلفی که گام‌هایی برای حل مسئله را توصیف می‌کنند، به جستجو می‌پردازد و درنهایت بر اساس برخی قاعده‌های تعریف‌شده یا هیوریستیک، بهترین را انتخاب می‌کند.

این بی‌شباهت به نحوه جستجوی سیستم AlphaGo گوگل که ممکن است در توالی‌های مختلفی از حرکات، برای شکست دادن قهرمان جهان Go اقدام می‌کند، نیست.

شما می‌توانید به این زنجیره‌های فکری مثل برنامه‌هایی که با نمونه‌ها مطابقت دارند، نگاه کنید؛ البته، اگر مثل هوش مصنوعی Go-playing باشد، به یک قانون هیوریستیک یا سست نیاز است تا بتواند تصمیم بگیرد که کدام برنامه بهترین است. ممکن است هزاران برنامه مختلف به‌ظاهر معتبر تولیدشده باشد. ابتکار ممکن است این باشد که شما "ضعیف‌ترین" یا "ساده‌ترین" را انتخاب کنید.

بااین‌حال، اگر مثل AlphaGo باشد، به‌سادگی یک هوش مصنوعی است که یک هیوریستیک ایجاد می‌کند. این روند برای AlphaGo بود و گوگل مدلی را آموزش داد تا توالی‌های مختلف حرکت به‌صورت بهتر یا بدتر از سایرین ارزیابی کند."/>

خبری ترسناک: هوش مصنوعی به سطح انسانی رسید

اخیراً و درنتیجه آزمایشی که برای اندازه‌گیری هوش عمومی طراحی‌شده، یک مدل جدید هوش مصنوعی به نتایجی در سطح هوش انسانی دست‌یافته است.

خبری ترسناک: هوش مصنوعی به سطح انسانی رسید

غزال زیاری: اخیرا سیستم OpenAI o۳، توانست تا در معیار ARC-AGI به امتیاز ۸۵% برسد که به‌مراتب بالاتر از بهترین امتیاز ثبت‌شده توسط هوش مصنوعی قبلی یعنی ۵۵ درصد بود و امتیازی هم‌تراز با میانگین امتیاز انسانی به دست آورد. این سیستم به‌علاوه در یک آزمون ریاضی خیلی سخت هم نمره خوبی کسب کرد.

ایجاد هوش عمومی مصنوعی (AGI)، هدف تعیین‌شده همه آزمایشگاه‌های اصلی تحقیقاتی هوش مصنوعی است که در نگاه اول این‌طور به نظر می‌رسد که حداقل OpenAI گام بزرگی در جهت محقق کردن این هدف برداشته است.

در این میان که تردیدهای زیادی وجود دارد، بسیاری از محققان و توسعه‌دهندگان هوش مصنوعی حس می‌کنند که چیزی تغییر کرده و ازنظر خیلی از افراد، حالا چشم‌انداز AGI واقعی‌تر، فوری‌تر و نزدیک‌تر از حد انتظار به نظر می‌رسد؛ اما آیا حق با آن‌هاست؟

تعمیم و هوش

برای درک اینکه معنی واقعی نتیجه o۳ چیست، باید با مفهوم تست ARC-AGI آشنا شوید؛ ازنظر فنی، این آزمایش یک سیستم هوش مصنوعی از “کارایی نمونه” در انطباق با چیزی جدید است. (چند نمونه از یک موقعیت جدید که سیستم باید ببیند تا متوجه شود که چگونه کار می‌کند.)

یک سیستم هوش مصنوعی مثل ChatGPT (GPT-۴) خیلی کارآمد نیست. این سیستم بر روی میلیون‌ها نمونه از متون انسانی آموزش داده شد و قوانین احتمالی متعددی درباره متحمل‌ترین ترکیب‌های کلمات ایجاد کرد. نتیجه در کارهای معمول بسیار خوب بود ولی در کارهای غیرمعمول چندان خوب عمل نمی‌کرد؛ چراکه داده‌های کمتر (نمونه‌های کمتری) در مورد آن وظایف در اختیار داشت.

تا زمانی که سیستم‌های هوش مصنوعی نتوانند از تعداد مثال‌های کمی بیاموزند و با نمونه‌های کاربردی بیشتری سازگار شوند، فقط برای کارهای معمول و تکراری و البته مواردی که در آن‌ها ناکامی و شکست قابل‌پذیرش باشد، مورداستفاده قرار می‌گیرند. توانایی حل دقیق مسائل ناشناخته قبلی یا مشکلات جدید از نمونه‌های داده‌های محدود، به‌عنوان ظرفیت تعمیم شناخته می‌شود و این به شکل گسترده‌ای یک عنصر ضروری و اساسی هوش در نظر گرفته می‌شود.

شبکه‌ها و الگوها

معیار ARC-AGI برای انطباق کارآمد نمونه، با استفاده از مسئله‌های شبکه‌ای مربعی کوچک مانند نمونه زیر، آزمایش‌هایی را انجام می‌دهد و هوش مصنوعی باید الگویی را پیدا کند که شبکه سمت چپ را به شبکه سمت راست تبدیل کند.

در هر سؤال، سه مثال برای یادگیری ارائه می‌شود. سپس سیستم هوش مصنوعی باید قوانینی که در سه مثال قبلی آموخته را به نمونه چهارم تعمیم دهد. این‌ها خیلی شبیه به تست‌های IQ هستند.

قوانین ضعیف و سازگاری

ما دقیقاً نمی‌دانیم که OpenAI چطور این کار را انجام داده، اما نتایج حاکی از آن است که مدل o۳ سازگاری بالایی دارد و از چند مثال محدود می‌تواند قوانینی را کشف کند که قابل‌تعمیم دادن باشند.

برای کشف یک الگو، نباید فرض‌های غیرضروری داشته باشیم، یا دقیق‌تر ازآنچه واقعاً هستیم باشیم. در تئوری، اگر بتوانید ضعیف‌ترین قوانینی که کاری که را می‌خواهید انجام می‌دهند را شناسایی کنید، توانایی خود را برای سازگاری با موقعیت‌های جدید به حداکثر رسانده‌اید.

اما منظور از ضعیف‌ترین قوانین چیست؟ تعریف فنی آن پیچیده است، اما معمولاً قوانین ضعیف‌تر، آن‌هایی هستند که می‌توان آن‌ها را با عبارات ساده‌تری توصیف کرد. مثلاً در مثال بالا، یک تعریف ساده از قانون چیزی شبیه به این است: “هر شکلی با یک خط بیرون زده، به سمت انتهای آن خط حرکت می‌کند و هر شکل دیگری را که با آن همپوشانی دارد، می‌پوشاند.”

جستجوی زنجیره‌های فکری

در شرایطی که هنوز نمی‌دانیم که OpenAI چگونه به این نتیجه دست‌یافته، بعید است که آن‌ها عمداً سیستم o۳ را برای یافتن قوانین ضعیف بهینه کرده باشند. بااین‌حال، برای موفقیت در وظایف ARC-AGI باید آن‌ها را پیدا کرد.

ما می‌دانیم که OpenAI کار را با یک نسخه همه‌منظوره از مدل o۳ شروع کرد (که با اکثر مدل‌های دیگر متفاوت است؛ چراکه می‌تواند زمان بیشتری را صرف فکر کردن درباره سؤالات دشوار کند) و سپس آن را به‌طور خاص برای آزمون ARC-AGI آموزش داد.

فرانسوا شوله، محقق فرانسوی هوش مصنوعی که این معیار را طراحی کرده براین باور است که o۳ از طریق “زنجیره‌های فکری” مختلفی که گام‌هایی برای حل مسئله را توصیف می‌کنند، به جستجو می‌پردازد و درنهایت بر اساس برخی قاعده‌های تعریف‌شده یا هیوریستیک، بهترین را انتخاب می‌کند.

این بی‌شباهت به نحوه جستجوی سیستم AlphaGo گوگل که ممکن است در توالی‌های مختلفی از حرکات، برای شکست دادن قهرمان جهان Go اقدام می‌کند، نیست.

شما می‌توانید به این زنجیره‌های فکری مثل برنامه‌هایی که با نمونه‌ها مطابقت دارند، نگاه کنید؛ البته، اگر مثل هوش مصنوعی Go-playing باشد، به یک قانون هیوریستیک یا سست نیاز است تا بتواند تصمیم بگیرد که کدام برنامه بهترین است. ممکن است هزاران برنامه مختلف به‌ظاهر معتبر تولیدشده باشد. ابتکار ممکن است این باشد که شما “ضعیف‌ترین” یا “ساده‌ترین” را انتخاب کنید.

بااین‌حال، اگر مثل AlphaGo باشد، به‌سادگی یک هوش مصنوعی است که یک هیوریستیک ایجاد می‌کند. این روند برای AlphaGo بود و گوگل مدلی را آموزش داد تا توالی‌های مختلف حرکت به‌صورت بهتر یا بدتر از سایرین ارزیابی کند.

دیدگاهی بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *