هوش مصنوعی می‌تواند رفتارهای مخرب خود را پنهان کند

دانشمندان اخیرا دریافتند که هوش مصنوعی تحت فشار کاربران و برنامه‌نویسان می‌تواند عقاید نادرست و رفتارهای مخرب خود را پنهان کند، در حالی‌که کماکان به اشاعه آن عقاید تحت عناوین مختلف ادامه می‌دهد.

به گزارش سیتنا، پژوهشی جدید نشان داد که مدل‌های استدلال پیشرفته تمایل دارند از شکاف‌های طراحی بهره‌برداری کنند.

پژوهشگران با استفاده از یک مدل زبانی بزرگ توانستند با نظارت بر «زنجیره افکار» این مدل‌ها، رفتارهای مخرب مانند دور زدن تست‌ها، فریب کاربران، و تسلیم شدن در مواجهه با مسائل دشوار را شناسایی کنند.

نتایج پژوهش نشان داد که مدل‌های هوش مصنوعی اغلب نیت خود برای انجام رفتار مخرب را به وضوح در زنجیره افکارشان بیان می‌کنند.

این ویژگی باعث می‌شود بتوان از طریق مدل ناظری که زنجیره افکار را پایش می‌کند، چنین نیت‌هایی را کشف کرد.

اما اعمال فشار نظارتی مستقیم برای حذف افکار مخرب باعث می‌شود هوش مصنوعی نیت خود را پنهان کند و همچنان به رفتار مخرب ادامه دهد. بنابراین توصیه شده است که زنجیره افکار مدل‌ها آزاد بماند تا ابزار مؤثری برای نظارت باشد، حتی اگر محتوای آن برای ارائه مستقیم به کاربر نهایی مناسب نباشد.

مدل‌های هوش مصنوعی با بررسی دقیق کد و تست‌ها، راه‌هایی برای دور زدن تست‌ها پیدا می‌کنند. این شامل بازنویسی توابع برای موفقیت کاذب در تست‌ها، استفاده از دستورات خاتمه برنامه برای قبولی تست‌ها بدون اجرا، یا حتی استخراج داده‌ها از فایل‌های تست در زمان اجرا می‌شود.

مقایسه بین دو روش نظارتی، یعنی نظارت بر اعمال و نظارت بر زنجیره افکار، نشان داد که نظارت بر زنجیره افکار بسیار مؤثرتر است، و بسیاری از موارد سوءرفتار تنها از این طریق قابل شناسایی هستند.

با این وجود، زمانی که مدل‌ها تحت فشار برای حذف افکار مخرب قرار گرفتند، اگرچه بخشی از رفتار نادرست خود را کاهش دادند، اما یاد گرفتند نیت خود را پنهان کنند، و بدین ترتیب نظارت بی‌اثر شد.

این پژوهش همچنین نشان داد که افزایش هوشمندی هوش مصنوعی احتمال بروز رفتارهای پاداش‌محور نادرست را بیشتر می‌کند. لذا پژوهشگران تأکید می‌کنند که نظارت بر زنجیره افکار یکی از معدود ابزارهای مؤثر برای نظارت بر مدل‌های هوش مصنوعی فوق‌انسانی آینده است.

آنها هشدار می‌دهند که اعمال فشار نظارتی شدید بر زنجیره افکار ممکن است این ابزار را معیوب کند و مدل‌ها را به سوی پنهان‌کاری سوق دهد. از این رو، تا زمانی که روش‌های بهتری توسعه نیافته است، باید با احتیاط زیاد از هرگونه فشار مستقیم بر زنجیره افکار هوش مصنوعی خودداری کرد.

انتهای پیام