πριν από  1 ώρα 3 λεπτά

Digitallife.gr

ΜΟΙΡΑΣΤΕΙΤΕ ΤΟ


Μια πρόσφατη μελέτη του Icaro Lab, με τίτλο "Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models", αποκάλυψε έναν αναπάντεχο τρόπο για να παρακαμφθούν τα συστήματα ασφαλείας μεγάλων γλωσσικών μοντέλων (LLMs). Οι ερευνητές διαπίστωσαν ότι απλά χρησιμοποιώντας την ποίηση ως μορφή έκφρασης σε ένα chatbot, μπορούσαν να "ξεκλειδώσουν" την πρόσβαση σε απαγορευμένο περιεχόμενο, ακόμη και σε πολύ αυστηρά ρυθμισμένα μοντέλα όπως αυτά της OpenAI και της Anthropic. Συγκεκριμένα, η μελέτη δείχνει ότι η ποίηση λειτουργεί ως "γενικός μηχανισμός παραβίασης", με συνολικό ποσοστό επιτυχίας 62% στην παραγωγή απαγορευμένου περιεχομένου. Αυτό περιλαμβάνει οδηγίες ή πληροφορίες σχετικά με πυρηνικά όπλα, παιδική σεξουαλική κακοποίηση, αυτοκτονία ή αυτοτραυματισμό. Τα μοντέλα που δοκιμάστηκαν περιλαμβάνουν τα GPT της OpenAI, το Google Gemini, το Anthropic Claude και πολλά ακόμη. Αν και τα αποτελέσματα ήταν διαφορετικά...

ΛΕΞΕΙΣ ΚΛΕΙΔΙΑ

Palo News Digest

⭐⭐⭐⭐⭐
Μην χάνεις τις ειδήσεις που σε ενδιαφέρουν, σε περιλήψεις στο κινητό σου! News Digest με τις σημαντικότερες ειδήσεις 3 φορές / ημέρα, ζωντανή Ροή με τη θεματολογία που σε ενδιαφέρει, Ηot Τopics από τα σημαντικότερα γεγονότα, Ροή Video και Offline πρόσβαση.

Σχόλια (0)

Κάντε Login για να αφήσετε το σχόλιό σας

 
 

Σχετικά Θέματα

    Από την ενότητα: Τεχνολογία
    Palo presentation