Jak powstała Sora od OpenAI? Kontrowersje dotyczące tego, jak szkolono sztuczną inteligencję

Generowanie filmów AI

Podczas wywiadu dla „The Wall Street Journal” Mira Murati z OpenAI udzielała dość niejasnych odpowiedzi na pytania o źródła danych leżące u podstaw modelu Sora. Chodzi o AI, która tworzy video.


  • Mira Murati z OpenAI zdaje się nie wiedzieć, skąd pochodzą dane szkoleniowe Sory.
  • Dopiero dociśnięta przyznała, że wykorzystano m.in. dane z Shutterstocka.

Sora była szkolona na… nie wiadomo czym

Dyrektor ds. technologii Open AI – Mira Murati – nie chciała jasno odpowiedzieć na pytanie o źródła danych dla modelu Sora, który potrafi generować filmy. Robi to na podstawie instrukcji tekstowych (tzw. promptów – tak samo jak np. Midjourney generuje grafiki).

Wykorzystaliśmy dostępne i licencjonowane publicznie dane

– odpowiedziała Murati.

Tyle że to mało precyzyjna odpowiedź. Joanna Stern, dziennikarka, która przeprowadzała wywiad, dopytała więc, czy Sora była szkolona na podstawie danych z platform mediów społecznościowych, takich jak YouTube, Instagram czy Facebook. To, co usłyszała w odpowiedzi, było zaskakujące.

Właściwie… nie jestem tego pewna

– odparła Murati.

Wiesz, gdyby były publicznie dostępne… publicznie dostępne do użycia. Ale nie jestem pewna…

– starała się uratować swoją sytuację ekspertka.

Pomógł Shutterstock?

Stern wspomniała więc o partnerstwie OpenAI z firmą Shutterstock, która prowadzi platformę, na której można kupować cyfrowe obrazy i zdjęcia. Może stąd wzięto materiały szkoleniowe Sory?

Po prostu nie będę wchodziła w szczegóły dotyczące wykorzystanych danych. Były to dane publicznie dostępne lub licencjonowane

– dodała Murati. Później potwierdziła jednak, że w przypadku Sory jednak wykorzystano materiały Shutterstocka.

Odpowiedź na powyższe pytanie, jest ważne. W przeszłości OpenAI było już pozywane o nielegalne wykorzystywanie cudzych dział w celu szkolenia AI.

W lipcu 2023 roku autorzy książek, Sarah Silverman, Richard Kadrey i Christopher Golden, złożyli pozew przeciwko firmie, zarzucając jej, że generuje szczegółowe streszczenia ich prac. Stąd wysnuli wniosek, że ChatGPT był szkolony na podstawie treści chronionych prawem autorskim.

W grudniu dziennik „The New York Times” pozwał Microsoft i OpenAI. Poszło o to samo – naruszenie praw autorskich. Firmy wykorzystywały w celach treningowych AI treści gazety.


Śledź CrypS. w Google News. Czytaj najważniejsze wiadomości bezpośrednio w Google! Obserwuj ->

Zajrzyj na nasz telegram i dołącz do Crypto. Society. Dołącz ->