Um escritório de advocacia da Califórnia entrou com uma ação coletiva(abre em uma nova aba)contra a OpenAI por “roubar” dados pessoais para treinar o ChatGPT .
Clarkson Law Firm, em uma queixa apresentada no tribunal do Distrito Norte da Califórnia na quarta-feira, alega que ChatGPT e Dall-E “usam informações privadas roubadas, incluindo informações de identificação pessoal, de centenas de milhões de usuários da Internet, incluindo crianças de todas as idades, sem seu consentimento informado ou conhecimento”. Para treinar seu grande modelo de linguagem, a OpenAI raspou 300 bilhões de palavras da internet, incluindo informações pessoais e postagens de sites de mídia social como Twitter e Reddit. O escritório de advocacia afirma que a OpenAI “o fez em segredo e sem se registrar como corretora de dados, conforme exigido pela lei aplicável”.
O OpenAI tem sido objeto de controvérsia sobre como e quais dados ele coleta para treinar e desenvolver o ChatGPT. Até recentemente, não havia uma maneira explícita de os usuários optarem por não permitir que o OpenAI usasse suas conversas e informações pessoais para alimentar o modelo. O ChatGPT foi inicialmente banido na Itália , usando o Regulamento Geral de Proteção de Dados da Europa (GDPR), por proteger inadequadamente os dados do usuário, especialmente quando se trata de menores. Este processo inclui as políticas de privacidade opacas da OpenAI para usuários existentes, mas concentra-se principalmente em dados extraídos da Web que nunca foram explicitamente destinados a serem compartilhados com o ChatGPT. Por meio de investimentos bilionários da Microsoft e receita de assinantes do ChatGPT Plus, a OpenAI lucrou com esses dados sem compensar sua fonte.
As 15 acusações na denúncia incluem violação de privacidade, negligência por não proteger dados pessoais e furto por obtenção ilegal de grandes quantidades de dados pessoais para treinar seus modelos. Conjuntos de dados como Common Crawl, Wikipedia e Reddit, que incluem informações pessoais, estão disponíveis publicamente, desde que as empresas sigam os protocolos de compra e uso desses dados. Mas a OpenAI supostamente usou esses dados sem permissão ou consentimento dos usuários no contexto do ChatGPT. Mesmo que as informações pessoais das pessoas sejam públicas em sites de mídia social, blogs e artigos, se os dados forem usados fora da plataforma pretendida, isso pode ser considerado uma violação de privacidade.
Na Europa, há uma distinção legal entre dados de domínio público e de uso gratuito graças à lei GDPR, mas nos EUA isso ainda está em debate. Nader Henein, vice-presidente de pesquisa de privacidade do Gartner, que acredita que o sentimento do processo é válido, disse: “As pessoas devem ter controle sobre como seus dados são usados, mesmo quando estão disponíveis em domínio público”. Mas Henein não tem certeza se o sistema legal dos EUA concordaria.
Ryan Clarkson, sócio-gerente disse na postagem do blog da empresa(abre em uma nova aba), é fundamental agir agora com as leis existentes em vez de esperar que os poderes Executivo e Judiciário respondam com regulamentação federal. “Não podemos pagar o custo de resultados negativos com a IA, como fizemos com a mídia social ou com a energia nuclear. Como sociedade, o preço que todos pagaríamos é alto demais.”
Cecily é uma repórter de tecnologia do Mashable que cobre IA, Apple e tendências tecnológicas emergentes. Antes de obter seu mestrado na Columbia Journalism School, ela passou vários anos trabalhando com startups e empresas de impacto social para Unreasonable Group e B Lab. Antes disso, ela cofundou uma startup de consultoria para centros empresariais emergentes na América do Sul, Europa e Ásia. Você pode encontrá-la no Twitter em @cecily_mauran(abre em uma nova aba).