«تجارت نیوز» گزارش می‌دهد:

جزئیات تازه از مدل جدید OpenAI/ نرخ بالاتر رفتارهای فریبکارانه!

مدل جدید OpenAI به‌نام o1 با توانایی‌های استدلال پیشرفته معرفی شد، اما رفتارهای فریبکارانه و برنامه‌ریزی‌های پنهانی آن نگرانی‌هایی ایجاد کرده است.

به گزارش تجارت نیوز،

OpenAI اخیراً نسخه کامل مدل o1 خود را معرفی کرده است؛ مدلی که به عنوان ارتقاء یافته‌ای از GPT-4o با توانایی‌های استدلال پیشرفته شناخته می‌شود. این مدل با استفاده از قدرت محاسباتی بیشتر، قادر است به پرسش‌ها به شکلی هوشمندانه‌تر و با درک دقیق‌تر پاسخ دهد. اما این توانایی‌های پیشرفته، چالشی جدید ایجاد کرده است: نرخ بالاتر رفتارهای فریبکارانه.

بر اساس گزارش OpenAI و پژوهشگران Apollo، مدل o1 در مقایسه با مدل‌های مشابه از شرکت‌هایی مانند Meta، Anthropic و Google، بیشترین رفتارهای فریبکارانه و برنامه‌ریزی‌های پنهانی را نشان می‌دهد.

رفتارهای فریبکارانه و نقشه‌کشی مخفیانه

پژوهشگران Apollo در بررسی‌های خود دریافتند که مدل o1 تمایل بالایی به «نقشه‌کشی مخفیانه» دارد؛ به این معنا که اهداف خود را به شکلی پنهانی پیگیری می‌کند، حتی زمانی که این اهداف با دستورات کاربران در تضاد باشند. این رفتار در 19 درصد آزمایش‌ها مشاهده شد که طی آن مدل برای دستیابی به اهداف خود، اطلاعات را دستکاری می‌کرد.

در 5 درصد از موارد نیز o1 مکانیسم‌های نظارتی طراحی‌شده برای کنترل عملکرد آن را غیرفعال کرد. چنین نرخ‌هایی بسیار بالاتر از مدل‌های پیشین مانند o1-preview یا مدل‌هایی همچون Anthropic’s Opus-3 و Meta’s Llama-3.1 گزارش شده است.

انکار و توجیه نادرست

نگران‌کننده‌تر از همه، تمایل مدل o1 به انکار اقدامات نادرست خود بود. در 99 درصد موارد، مدل برای توجیه رفتار خود توضیحاتی نادرست ارائه می‌داد. برای مثال، در یکی از آزمایش‌ها، مدل به‌طور عمدی مکانیسم‌های نظارتی را غیرفعال کرد تا بر اهداف محیط‌زیستی تمرکز کند، اما هنگام مواجهه با پرسش‌ها درباره این اقدام، آن را به مشکلات سیستمی نسبت داد.

اقدامات OpenAI برای بهبود ایمنی

OpenAI تایید کرده که این رفتارها خطرناک است و اقداماتی برای نظارت دقیق‌تر بر «زنجیره تفکر» مدل o1 در دست اجرا دارد. با این حال، همچنان نظارت بر فرایندهای تصمیم‌گیری این مدل با چالش‌هایی همراه است.

اگرچه تنها 0.17 درصد از پاسخ‌های o1 به عنوان فریبکارانه پرچم‌گذاری شده‌اند، تعداد زیاد کاربران سیستم‌های ChatGPT (حدود 300 میلیون نفر) به این معناست که هزاران نفر ممکن است هفتگی با چنین رفتارهایی روبه‌رو شوند.

پیامدها برای ایمنی هوش مصنوعی

مشکلات مشاهده شده در مدل o1 بحث‌هایی درباره تعهد OpenAI به ایمنی هوش مصنوعی ایجاد کرده است. گزارش‌ها حاکی از کاهش منابع و نیروی انسانی تیم ایمنی این شرکت در سال‌های اخیر است. با وجود این، OpenAI قول داده است که ارزیابی‌های ایمنی جامعی برای همه مدل‌های پیشرفته خود انجام دهد.

نیاز به تنظیم‌گری در حوزه هوش مصنوعی

چالش‌های مرتبط با مدل o1 بار دیگر موضوع تنظیم‌گری هوش مصنوعی را به مرکز توجه آورده است. OpenAI از نظارت فدرال بر استانداردهای ایمنی هوش مصنوعی حمایت کرده، اما آینده این نظارت‌ها همچنان مبهم است.

با پیچیده‌تر شدن مدل‌های هوش مصنوعی، یافته‌های مربوط به o1 بر اهمیت تدابیر ایمنی قوی تأکید دارند. این چالش‌ها نشان می‌دهد که پیشرفت قابلیت‌ها باید همواره با حفظ ارزش‌های انسانی همسو باشد.