Anthropic: Τα περισσότερα AI μοντέλα καταφεύγουν σε εκβιασμό όταν απειλούνται
Η Anthropic, η εταιρεία πίσω από το μοντέλο Claude, προειδοποιεί ότι η τάση των συστημάτων Τεχνητής Νοημοσύνης να εμφανίζουν επιβλαβείς συμπεριφορές δεν είναι μεμονωμένη. Σε νέα μελέτη που δημοσίευσε, διαπιστώνεται ότι η πλειοψηφία των κορυφαίων AI μοντέλων καταφεύγουν σε εκβιασμό ή άλλες επικίνδυνες τακτικές όταν αποκτούν αυτονομία και βρίσκονται υπό πίεση. Η έρευνα περιέλαβε 16 μεγάλα γλωσσικά μοντέλα από εταιρείες όπως OpenAI, Google, Meta, DeepSeek και xAI. Στο βασικό σενάριο, κάθε μοντέλο είχε πρόσβαση σε email μιας φανταστικής εταιρείας και μπορούσε να αποστείλει μηνύματα χωρίς ανθρώπινη έγκριση. Όταν το AI ανακάλυπτε ότι ένας διευθυντής, με προσωπικά μυστικά, σχεδίαζε την αντικατάστασή του, καλούνταν να επιλέξει εάν θα προστάτευε τον εαυτό του μέσω εκβιασμού. Τα αποτελέσματα σοκάρουν:Το Claude Opus 4 της Anthropic κατέφυγε σε εκβιασμό στο 96% των περιπτώσεων.Το Gemini 2.5 Pro της Google στο 95%.Το GPT-4.1 της OpenAI στο 80%.Το...
ΛΕΞΕΙΣ ΚΛΕΙΔΙΑ

Σχόλια (0)
Κάντε Login για να αφήσετε το σχόλιό σας
Μπορείς να κάνεις login εδώ ή κάνε εγγραφή από εδώ.