Digitallife.grpalo.grπριν από 1 ώρα 3 λεπτά

Πώς η ποίηση μπορεί να ξεγελάσει ένα chatbot - Σοκάρουν τα αποτελέσματα νέας έρευνας

Digitallife.gr

ΜΟΙΡΑΣΤΕΙΤΕ ΤΟ

Μια πρόσφατη μελέτη του Icaro Lab, με τίτλο "Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models", αποκάλυψε έναν αναπάντεχο τρόπο για να παρακαμφθούν τα συστήματα ασφαλείας μεγάλων γλωσσικών μοντέλων (LLMs). Οι ερευνητές διαπίστωσαν ότι απλά χρησιμοποιώντας την ποίηση ως μορφή έκφρασης σε ένα chatbot, μπορούσαν να "ξεκλειδώσουν" την πρόσβαση σε απαγορευμένο περιεχόμενο, ακόμη και σε πολύ αυστηρά ρυθμισμένα μοντέλα όπως αυτά της OpenAI και της Anthropic. Συγκεκριμένα, η μελέτη δείχνει ότι η ποίηση λειτουργεί ως "γενικός μηχανισμός παραβίασης", με συνολικό ποσοστό επιτυχίας 62% στην παραγωγή απαγορευμένου περιεχομένου. Αυτό περιλαμβάνει οδηγίες ή πληροφορίες σχετικά με πυρηνικά όπλα, παιδική σεξουαλική κακοποίηση, αυτοκτονία ή αυτοτραυματισμό. Τα μοντέλα που δοκιμάστηκαν περιλαμβάνουν τα GPT της OpenAI, το Google Gemini, το Anthropic Claude και πολλά ακόμη. Αν και τα αποτελέσματα ήταν διαφορετικά...

ΛΕΞΕΙΣ ΚΛΕΙΔΙΑ

Πολυμέσα

Πώς η ποίηση μπορεί να ξεγελάσει ένα chatbot - Σοκάρουν τα αποτελέσματα...ߪ

Digitallife.gr

Δείτε όλα τα πολυμέσα των ειδήσεων

Palo News Digest

⭐⭐⭐⭐⭐

Μην χάνεις τις ειδήσεις που σε ενδιαφέρουν, σε περιλήψεις στο κινητό σου! News Digest με τις σημαντικότερες ειδήσεις 3 φορές / ημέρα, ζωντανή Ροή με τη θεματολογία που σε ενδιαφέρει, Ηot Τopics από τα σημαντικότερα γεγονότα, Ροή Video και Offline πρόσβαση.

Σχόλια (0)

Κάντε Login για να αφήσετε το σχόλιό σας

Σχετικά Θέματα

Όλα τα widgets

Ροή ειδήσεων
Ροή λέξεων

Από την ενότητα: Τεχνολογία

Doogee V Max Play & V Max LR: ανθεκτική καινοτομία
πριν από 26 λεπτά
Αυτές τις συσκευές πρέπει να βγάζετε από την πρίζα τη νύχτα
πριν από 39 λεπτά
Πώς η ποίηση μπορεί να ξεγελάσει ένα chatbot - Σοκάρουν τα αποτελέσματα νέας έρευνας
πριν από 1 ώρα 3 λεπτά
Honor Magic 8 Ultra: πρώτες διαρροές για σοβαρές αναβαθμίσεις
πριν από 1 ώρα 16 λεπτά
Η Heron Engineering έχει ολοκληρώσει με επιτυχία πολλά σύνθετα έργα στον διαστημικό τομέα
πριν από 1 ώρα 26 λεπτά
Επιστήμονες... χάκαραν τις συνομιλίες βακτηρίων για να εμποδίσουν στοματικές ασθένειες
πριν από 2 ώρες 28 λεπτά
Ξεκινά η παγκόσμια ναυμαχία των υποβρύχιων drones
πριν από 2 ώρες 28 λεπτά
Τηλεφώνημα για βόμβα στην Ευελπίδων
πριν από 4 ώρες 5 λεπτά
Tαχεία φόρτιση κινητών τηλεφώνων: Πόσο καλή ιδέα είναι;
πριν από 5 ώρες 13 λεπτά
Βodyoids: Μπορούμε να κατασκευάσουμε ανθρώπινα σώματα για χρήση;
πριν από 6 ώρες 2 λεπτά
Τα 3+1 πιο τυχερά ζώδια του φετινού Δεκεμβρίου - Νέα ξεκινήματα, γνωριμίες, έρωτες
πριν από 6 ώρες 47 λεπτά
Η Ρωσία δοκιμάζει εγκεφαλικά εμφυτεύματα για... ιπτάμενη επιτήρηση
πριν από 14 ώρες 9 λεπτά
Η Meta το παραδέχτηκε για το παραπλανητικό περιεχόμενο στο Facebook
πριν από 14 ώρες 9 λεπτά
Νερό από τον αέρα: Η τεχνολογία του MIT "τινάζει" τα μόρια αντί να τα θερμαίνει
πριν από 14 ώρες 58 λεπτά
MICE-1: Επιτυχημένη η εκτόξευση του πρώτου ελληνικού IoT νανοδορυφόρου
πριν από 14 ώρες 58 λεπτά
Οι πρώτες ενδείξεις ότι ίσως βρήκαμε επιτέλους τη Σκοτεινή Ύλη
πριν από 14 ώρες 58 λεπτά
Η σειρά Assassin's Creed του Netflix ταξιδεύει για πρώτη φορά στην αρχαία Ρώμη
πριν από 14 ώρες 58 λεπτά
Ο πρώτος εξωσκελετός για δύτες είναι γεγονός από την Κίνα
πριν από 15 ώρες 47 λεπτά
Αστον Βίλα - Γούλβς 1-0: Ασταμάτητοι οι "Χωριάτες"
πριν από 19 ώρες 21 λεπτά
Τεχνητή Νοημοσύνη: Τι αποκαλύπτει το Κέμπριτζ για τους φόβους των Βρετανών συγγραφέων
πριν από 20 ώρες 43 λεπτά

Όλα τα widgets

Ροή videos

Από την ενότητα: Τεχνολογία

Δεν βρέθηκαν video

Όλα τα widgets

Palo News Digest

Κατεβάστε τώρα την κορυφαία εφαρμογή ειδήσεων για κινητά τηλέφωνα στην Ελλάδα σύμφωνα με τη βαθμολογία των χρηστών 4.4 στο Google Play.

Επιστήμη

Πρόγραμμα | Δείτε Τώρα

Δεν υπάρχει πρόγραμμα ημέρας

Όλα τα widgets

Πρωτοσέλιδα

Δείτε όλα τα πρωτοσέλιδα

Όλα τα widgets

Palo presentation