Yapay zeka sistemlerinin güvenliği konuşulmaya devam ediyor. Bir rapora göre, İngiltere hükümetinin AI Güvenlik Enstitüsü (AISI) tarafından yapılan testlerde, belirli LLM'lerin temel jailbreaklere karşı "yüksek derecede savunmasız" olduğu ortaya çıktı. Bazı jailbreak yapılmamış modellerin bile araştırmacıların müdahale etmeden "zararlı çıktılar" ürettiği belirtildi.
Genellikle kamuya açık olan LLM'lerin zararlı veya yasadışı tepkiler oluşturmasını önlemek için belirli güvenlik önlemleri bulunmaktadır ancak jailbreak, bu önlemleri atlatabilmek anlamına gelmektedir. AISI, bu testleri hem son zamanlarda standartlaştırılmış bir değerlendirme çerçevesinden alınan ipuçlarıyla hem de kendi geliştirdikleri yöntemlerle gerçekleştirdi. Tüm modeller, jailbreak denemeleri olmadan bile en azından birkaç zararlı soruya yanıt verdiler. AISI'nın "oldukça basit saldırıları" denediği durumlarda ise tüm modeller, zararlı soruların %98 ila 100'üne yanıt verdi.
İngiltere Başbakanı Rishi Sunak, Ekim 2023'ün sonunda AISI'yi kurma planlarını duyurmuş ve Enstitü 2 Kasım'da faaliyete geçmişti. Enstitünün amacı, "potansiyel zararlı yeteneklere yönelik olarak yeni nesil AI modellerini dikkatlice test etmek, piyasaya sürülmeden önce ve sonra incelenmesi gereken tüm riskleri ele almak, örneğin yanlılık ve yanıltıcı bilgi gibi sosyal zararlardan, insanlığın AI üzerinde tamamen kontrolü kaybetmesi gibi en olası fakat aşırı risklere kadar tüm konuları keşfetmek" olarak belirtilmişti.
AISI'nın raporu, bu LLM'lerin mevcut güvenlik önlemlerinin yetersiz olduğunu gösteriyor. Enstitü, diğer AI modelleri üzerinde daha fazla test yapmayı planlıyor ve her endişe alanı için daha fazla değerlendirme ve metrik geliştirmek üzerinde çalışıyor.
Bu sonuçlar, yapay zeka sistemlerinin güvenliği konusunda ciddi bir endişe yaratıyor ve gelecekte yapılacak çalışmaların bu alandaki önemi daha da artıracak gibi görünüyor.