هوش مصنوعی میتواند رفتارهای مخرب خود را پنهان کند
دانشمندان اخیرا دریافتند که هوش مصنوعی تحت فشار کاربران و برنامهنویسان میتواند عقاید نادرست و رفتارهای مخرب خود را پنهان کند، در حالیکه کماکان به اشاعه آن عقاید تحت عناوین مختلف ادامه میدهد.
به گزارش سیتنا، پژوهشی جدید نشان داد که مدلهای استدلال پیشرفته تمایل دارند از شکافهای طراحی بهرهبرداری کنند.
پژوهشگران با استفاده از یک مدل زبانی بزرگ توانستند با نظارت بر «زنجیره افکار» این مدلها، رفتارهای مخرب مانند دور زدن تستها، فریب کاربران، و تسلیم شدن در مواجهه با مسائل دشوار را شناسایی کنند.
نتایج پژوهش نشان داد که مدلهای هوش مصنوعی اغلب نیت خود برای انجام رفتار مخرب را به وضوح در زنجیره افکارشان بیان میکنند.
این ویژگی باعث میشود بتوان از طریق مدل ناظری که زنجیره افکار را پایش میکند، چنین نیتهایی را کشف کرد.
اما اعمال فشار نظارتی مستقیم برای حذف افکار مخرب باعث میشود هوش مصنوعی نیت خود را پنهان کند و همچنان به رفتار مخرب ادامه دهد. بنابراین توصیه شده است که زنجیره افکار مدلها آزاد بماند تا ابزار مؤثری برای نظارت باشد، حتی اگر محتوای آن برای ارائه مستقیم به کاربر نهایی مناسب نباشد.
مدلهای هوش مصنوعی با بررسی دقیق کد و تستها، راههایی برای دور زدن تستها پیدا میکنند. این شامل بازنویسی توابع برای موفقیت کاذب در تستها، استفاده از دستورات خاتمه برنامه برای قبولی تستها بدون اجرا، یا حتی استخراج دادهها از فایلهای تست در زمان اجرا میشود.
مقایسه بین دو روش نظارتی، یعنی نظارت بر اعمال و نظارت بر زنجیره افکار، نشان داد که نظارت بر زنجیره افکار بسیار مؤثرتر است، و بسیاری از موارد سوءرفتار تنها از این طریق قابل شناسایی هستند.
با این وجود، زمانی که مدلها تحت فشار برای حذف افکار مخرب قرار گرفتند، اگرچه بخشی از رفتار نادرست خود را کاهش دادند، اما یاد گرفتند نیت خود را پنهان کنند، و بدین ترتیب نظارت بیاثر شد.
این پژوهش همچنین نشان داد که افزایش هوشمندی هوش مصنوعی احتمال بروز رفتارهای پاداشمحور نادرست را بیشتر میکند. لذا پژوهشگران تأکید میکنند که نظارت بر زنجیره افکار یکی از معدود ابزارهای مؤثر برای نظارت بر مدلهای هوش مصنوعی فوقانسانی آینده است.
آنها هشدار میدهند که اعمال فشار نظارتی شدید بر زنجیره افکار ممکن است این ابزار را معیوب کند و مدلها را به سوی پنهانکاری سوق دهد. از این رو، تا زمانی که روشهای بهتری توسعه نیافته است، باید با احتیاط زیاد از هرگونه فشار مستقیم بر زنجیره افکار هوش مصنوعی خودداری کرد.
انتهای پیام
افزودن دیدگاه جدید