Ferramentas de IA como o ChatGPT falharão sem a integridade dos dados

Reprodução

O ChatGPT gerou enorme interesse nos últimos meses porque pode alterar a forma como as pessoas encontram informações.

Novas ferramentas generativas de inteligência artificial (IA), como o ChatGPT, geraram enorme interesse nos últimos meses porque podem alterar a forma como as pessoas encontram informações, criam novos produtos, desenvolvem novos conteúdos e respondem em tempo real a eventos emergentes. Eles também chamaram a atenção dos formuladores de políticas porque as ferramentas já disseminaram desinformação, alimentaram fraudes e trapacearam na lição de casa.

Quem pode esquecer quando o senador Richard Blumenthal, de Connecticut, abriu uma audiência no Senado em maio sobre a tecnologia emergente com um deepfake de IA de sua própria voz? As reservas sobre a IA generativa estão se espalhando tão rapidamente que já existem apelos bipartidários por uma regulamentação mais rígida e maior divulgação do uso da IA.

Falei recentemente com Anjan Kundavaram, diretor de produtos da Precisely , um fornecedor de soluções de integridade de dados, sobre como o ChatGPT funciona, os dados nos quais se baseia e como toma decisões. Anjan e eu também discutimos as limitações das versões atuais da ferramenta e por que dados precisos, consistentes e contextuais são essenciais para garantir o sucesso na IA.

Drenik: Como o ChatGPT é treinado? Como eles processam e analisam os dados que estão coletando?

Kundavaram: Essa é uma ótima pergunta porque, apesar do burburinho na indústria, o ChatGPT ainda é um mistério para muitos. De acordo com uma pesquisa recente da Prosper Insights & Analytics , mais da metade dos adultos americanos (57,6%) nunca ouviu falar da ferramenta e outros 22,4% conhecem o ChatGPT, mas não entendem o que é.

Aqui está uma pequena cartilha sobre como a tecnologia funciona. Modelos de linguagem, ou LLMs, são relativamente novos no cenário da IA. Seu chamado cérebro é um sistema conhecido como rede neural, que é uma teia complexa de nós interconectados que processam e armazenam informações. O ChatGPT usa um novo tipo de rede neural chamado modelo transformador.

O modelo transformador é treinado para produzir texto aprendendo os padrões estatísticos e as relações entre palavras e frases de bilhões de linhas de texto que armazenou. O modelo prevê a próxima palavra em uma frase, dado o contexto das palavras anteriores. O modelo aprende a gerar respostas coerentes e contextualmente apropriadas ao fazer repetidamente essas previsões.

Para potencializar seus insights, o ChatGPT coleta uma grande quantidade de dados de diversas fontes, incluindo livros, artigos, sites, postagens em blogs e outros textos da internet. A OpenAI, empresa que desenvolveu o modelo, não divulgou o tamanho exato do conjunto de dados, mas provavelmente centenas de gigabytes. Grandes quantidades de dados altamente diversos são, sem dúvida, úteis para alimentar uma ferramenta de IA dessa natureza, mas, como veremos, não é suficiente ter o volume de dados disponível se faltar integridade.

Drenik: Quais são as limitações ou áreas em que o ChatGPT pode ter dificuldades para fornecer respostas precisas ou confiáveis?

Kundavaram: Vamos começar com o fato de que o ChatGPT é treinado apenas em dados até setembro de 2021, portanto, não tem conhecimento dos últimos eventos ou desenvolvimentos. Embora os dados históricos desempenhem um papel na obtenção desses insights, eles se tornam mais valiosos com um fluxo constante de dados precisos e atualizados que ajudam as empresas a reagir às mudanças. O formulário atual do ChatGPT não pode inserir dados novos ou em tempo real, o que cria uma barreira para as empresas que dependem dos dados mais recentes para uma tomada de decisão segura.

Além de informações desatualizadas, a ferramenta é treinada em conversas humanas baseadas em texto, e alguns desses dados podem ser imprecisos, falsos e, às vezes, enganosos. Apesar dos esforços para reduzir os vieses durante o treinamento, respostas tendenciosas ou subjetivas podem surgir em tópicos delicados ou quando o modelo encontra consultas ambíguas. A OpenAI está ciente dessas limitações e acaba de lançar um novo plug-in beta que permite ao ChatGPT navegar na internet e responder a perguntas sobre tópicos e eventos mais recentes. Atualmente, está disponível apenas para assinantes pagos da ferramenta, mas será interessante ver como isso evolui.

Drenik: Como a integridade dos dados atua no treinamento e no uso eficaz de ferramentas de IA?

Kundavaram: A integridade dos dados que alimentam um modelo de IA afeta diretamente seu desempenho e confiabilidade. É, portanto, essencial garantir que os dados usados para treinamento sejam precisos, consistentes e contextuais. Uma estratégia de integridade de dados ajuda as empresas a conectar fontes de dados diferentes, garante que tenham os mais altos níveis de qualidade e governança e os monitora continuamente para que os problemas possam ser resolvidos de forma proativa. A tecnologia de IA também se beneficia muito da riqueza contextual, que permite descobrir padrões mais significativos nos dados. A inteligência de localização e o enriquecimento de dados são elementos críticos de uma estratégia de integridade de dados bem-sucedida, ajudando a revelar insights adicionais que, de outra forma, poderiam ser perdidos.

*Gary Drenik é CEO da Prosper Business Development e aborda insights e análises centradas no consumidor que fornecem aos executivos as soluções necessárias para conduzir a estratégia.

(traduzido por Andressa Barbosa)

O post Ferramentas de IA como o ChatGPT falharão sem a integridade dos dados apareceu primeiro em Forbes Brasil.

Talvez você goste também

Petrobras aciona Justiça por suposta fraude em programa de pagamento a fornecedores

Taxas de títulos do Tesouro Direto disparam e assustam investidores

Guerra na Ucrânia: como dependência da Europa de gás russo financia invasão

Deixe um comentário Cancelar resposta