Scroll Top

A inovação nos LLMs

Podemos pensar num LLM como uma grande tabela, onde estão anotados milhões de regras, obtidas através de análise estatística de milhões de textos escritos por humanos.
O

O nosso artigo sobre o GhatGPT, publicado na newsletter anterior, foi tão bem recebido que decidimos fazer uma continuação. Afinal, há cada vez mais notícias a serem publicadas e algumas delas aproximam-se de algo que pode ser útil para as empresas.

Para entender como podemos utilizar esta ferramenta nos nossos negócios, é mais fácil compreender o que é o ChatGPT e as suas vantagens e limitações.

O core do ChatGPT é um LLM (Large Language Model), treinado com uma quantidade enorme de informações da Web, com o objetivo principal de prever (ou gerar) as palavras seguintes, dado um certo contexto (ou seja, palavras que já viu). Podemos pensar num LLM como uma grande tabela, onde estão anotados milhões de regras, obtidas através de análise estatística de milhões de textos escritos por humanos. São estas regras que ajudam o modelo a prever qual a palavra seguinte que melhor completa uma frase.

É fácil criar modelos de linguagem simples, mais pequenos, analisando um conjunto de textos e calcular a probabilidade de uma palavra específica aparecer depois de outras palavras, sem usar tecnologia de Deep Learning. No entanto, estes modelos têm limitações de escalabilidade e não generalizam bem para as sequências que não estão na tabela. Além disso, ocupam muito espaço e exigem um tempo de treino longo para muitos textos.

O ChatGPT e outros modelos de linguagem modernos usam uma técnica diferente para armazenar estas regras: redes neurais multicamadas. As redes neurais armazenam muitas regras probabilísticas em relativamente pouco espaço, e foram desenvolvidos algoritmos para criar estas tabelas de forma mais eficiente em termos de tempo de processamento. Isto permite treinar o modelo com mais dados e usar um contexto maior para prever a próxima palavra.

U

Um dos avanços mais significativos nesta área foi a criação de uma arquitetura altamente escalável chamada “Transformer”, que inclui um mecanismo de “attention” (atenção) para selecionar o contexto adequado para cada regra.

Antes dos “Transformers” (que surgiram em 2019), era impossível treinar os modelos como o GPT-3 em termos de tempo de processamento e capacidade de reter as regras relevantes. Para além da adoção desta arquitetura, a fiabilidade do modelo pode ser melhorada com uma série de “truques”, que fazem parte dos segredos bem guardados pelos investigadores.

Porém, as redes neurais só podem armazenar regras numéricas, o que significa que precisamos de uma forma de representar palavras usando números. Os “embeddings”, que precederam os Transformers em vários anos, foram uma revolução na área, permitindo representar palavras com conjuntos de números onde palavras “semelhantes” recebem números “semelhantes”.

A semelhança entre palavras nos embeddings não se limita à fonética ou ao léxico. Está também relacionada com a probabilidade de uma palavra X aparecer no mesmo contexto que a palavra Y, ou seja, cercada por palavras “semelhantes”.

Esta representação ajuda a reduzir o número de regras que precisamos de armazenar na rede, pois podemos ter regras para classes de palavras em vez de palavras individuais. Por outro lado, o preço a pagar é que as regras são menos exatas, e por isso podem gerar resultados não esperados (“erros”).

Com estas tecnologias de base (Transformers + Truques + Embbedings), foi finalmente possível “comprimir” um número gigantesco de regras, criadas sobre um número colossal de embbedings, com um contexto enorme, e utilizando um número de textos que é difícil de imaginar (de facto, quase toda a Web, até 2021, no caso do GPT-3).

N

O Chat GPT (assim como outros modelos de linguagem semelhantes) é o resultado de uma abordagem de força bruta, que só é viável para empresas com recursos financeiros consideráveis.

No entanto, como mencionamos anteriormente, essa “compressão” tem suas limitações. O GPT-3 não consegue reproduzir com precisão os textos em que foi treinado (aquilo que analisou para criar a tal tabela de regras), ou seja, não pode fornecer informações factuais confiáveis, o que o torna inadequado para aplicações que dependem dessas informações. Não é uma boa ideia perguntar ao Chat-GPT qual o medicamento que devemos tomar para um certo conjunto de sintomas, sem validar o resultado com um médico…

Contudo, essa fraqueza também é uma força quando se trata de tarefas em que a criatividade é valorizada pelos humanos.

De facto, a criatividade é a capacidade de fazer algo inesperado, de gerar coisas que ainda não tinham sido vistas, de criar coisas novas, sempre a partir do que já sabemos. Desse ponto de vista, o ChatGPT é bastante “humano”, e é por isso que tem sido o sucesso que é.

Não estamos acostumados a ver um computador gerar coisas novas que façam sentido para nós, humanos. Por causa disso, atribuímos ao ChatGPT características humanas, como vontade ou sentimentos, que ainda não tem…

A criatividade é a capacidade de fazer algo inesperado, de gerar coisas que ainda não tinham sido vistas, de criar coisas novas, sempre a partir do que já sabemos. Desse ponto de vista, o ChatGPT é bastante “humano”, e é por isso que tem sido o sucesso que é.

Posts relacionados

Preferências de Privacidade
Ao visitar o nosso website, este poderá armazenar informações através do seu navegador através de serviços específicos, usualmente sob a forma de cookies. Aqui pode alterar as suas preferências de privacidade. Note que bloqueando alguns tipos de cookies poderá ter impacto na sua experiência no nosso website e nos serviços que oferecemos.