Σε μια προσπάθεια να εξασφαλίσουν δεδομένα υψηλής ποιότητας για να εκπαιδεύσουν τα μοντέλα τεχνητής νοημοσύνης τους, εταιρείες τεχνητής νοημοσύνης όπωη η OpenAI, η Google και η Meta έχουν καταφύγει σε σκιερές τακτικές. Η OpenAI υποτίθεται ότι έχει μεταγράψει πάνω από ένα εκατομμύριο ώρες βίντεο YouTube για να ταμπολογήσει δεδομένα για να εκπαιδεύσει το πιο προηγμένο μοντέλο μεγάλης γλώσσας (LLM).GPT-4.
Η OpenAI ανέπτυξε το μοντέλο μεταγραφής ήχου Whisper, το οποίο βοήθησε την εταιρεία στην απόξεση δεδομένων από βίντεο του YouTube.Οι NY Times αναφέρει ότι η OpenAI γνώριζε ότι αυτή η μέθοδος θα μπορούσε να τεθεί υπό έλεγχο, αλλά προχώρησαν σε αυτήν επειδή πίστευαν ότι ήταν δίκαιη χρήση. Είναι ενδιαφέρον ότι η Google, η οποία κατέχει το YouTube, φέρεται να έχει επίσης εμπλακεί στην πρακτική εξάσκηση για τα μοντέλα τεχνητής νοημοσύνης της, παραβιάζοντας έτσι τα πνευματικά δικαιώματα του δημιουργού της.
Η OpenAI φέρεται να χρησιμοποίησε δεδομένα από βίντεο και podcast του YouTube για να εκπαιδεύσει δύο από τα συστήματα AI του. Η έκθεση υποδηλώνει επίσης ότι ο πρόεδρος του OpenAI, Γκρεγκ Μπρόκμαν, ήταν επίσης στην ομάδα.
Οι πολιτικές της εταιρείας “δεν επιτρέπουν τη λήψη πραγμάτων όπως μεταγραφές ή κομμάτια βίντεο και αυτό αποτελεί σαφή παραβίαση των όρων παροχής υπηρεσιών μας”. Ωστόσο, τα δεδομένα του YouTube χρησιμοποιήθηκαν από το OpenAI ή όχι, ο Mohan έδωσε μια διφορούμενη απάντηση, λέγοντας: “Έχω δει αναφορές ότι μπορεί να έχει χρησιμοποιηθεί ή όχι. Ο ίδιος δεν έχω πληροφορίες”.
Η αναφορά των NY Times ισχυρίζεται περαιτέρω ότι ορισμένοι άνθρωποι στην Google γνώριζαν για την πρακτική του OpenAI για μεταγραφή δεδομένων του YouTube. Ωστόσο, δεν μπορούσαν να κάνουν τίποτα αφού η Google κατέφυγε επίσης στην ίδια πρακτική για να εκπαιδεύσει το δικό της μοντέλο AI. Η Google είπε στους NY Times ότι πραγματοποιεί απόσυρση δεδομένων βίντεο μόνο αφού ο δημιουργός του βίντεο δώσει τη συγκατάθεσή του.
Η Google ζήτησε από μια ομάδα να «προσαρμόσει την πολιτική απορρήτου της» τον Ιούνιο του 2023, «για να επιτρέψει στην Google να χρησιμοποιήσει δημόσια διαθέσιμα Έγγραφα Google, κριτικές εστιατορίων στους Χάρτες Google και άλλο διαδικτυακό υλικό για περισσότερα των προϊόντων της A.I.».