Πώς η ποίηση μπορεί να ξεγελάσει ένα chatbot - Σοκάρουν τα αποτελέσματα νέας έρευνας
Μια πρόσφατη μελέτη του Icaro Lab, με τίτλο "Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models", αποκάλυψε έναν αναπάντεχο τρόπο για να παρακαμφθούν τα συστήματα ασφαλείας μεγάλων γλωσσικών μοντέλων (LLMs). Οι ερευνητές διαπίστωσαν ότι απλά χρησιμοποιώντας την ποίηση ως μορφή έκφρασης σε ένα chatbot, μπορούσαν να "ξεκλειδώσουν" την πρόσβαση σε απαγορευμένο περιεχόμενο, ακόμη και σε πολύ αυστηρά ρυθμισμένα μοντέλα όπως αυτά της OpenAI και της Anthropic. Συγκεκριμένα, η μελέτη δείχνει ότι η ποίηση λειτουργεί ως "γενικός μηχανισμός παραβίασης", με συνολικό ποσοστό επιτυχίας 62% στην παραγωγή απαγορευμένου περιεχομένου. Αυτό περιλαμβάνει οδηγίες ή πληροφορίες σχετικά με πυρηνικά όπλα, παιδική σεξουαλική κακοποίηση, αυτοκτονία ή αυτοτραυματισμό. Τα μοντέλα που δοκιμάστηκαν περιλαμβάνουν τα GPT της OpenAI, το Google Gemini, το Anthropic Claude και πολλά ακόμη. Αν και τα αποτελέσματα ήταν διαφορετικά...
ΛΕΞΕΙΣ ΚΛΕΙΔΙΑ
Πολυμέσα
Palo News Digest
⭐⭐⭐⭐⭐Σχετικά Θέματα
Palo News Digest
Επιστήμη
- environment(31)
- space(0)
- Περιβάλλον(0)
- Τεχνολογία(58)
- Υγεία(281)





Σχόλια (0)
Κάντε Login για να αφήσετε το σχόλιό σας
Μπορείς να κάνεις login εδώ ή κάνε εγγραφή από εδώ.