Português

Sun, Nov 17, 2024

Alessandro de Oliveira Faria posted at 16:46

cabelo

OmniGen: Revolucionando a Geração de Imagens.

OmniGen é um modelo integrado de geração de imagens capaz de criar uma ampla variedade de imagens a partir de instruções multimodais. Seu design prioriza a simplicidade, flexibilidade e facilidade de uso. Oferecemos o código de inferência para que todos possam explorar as diversas funcionalidades do OmniGen.

Exemplo: do projeto OmniGen em funcionamento.

Modelos tradicionais de geração de imagens geralmente exigem a carga de múltiplos módulos adicionais de rede (como ControlNet, IP-Adapter, Reference-Net, entre outros) e a realização de etapas extras de pré-processamento (por exemplo, detecção de rosto, estimativa de pose, recorte, etc.) para gerar imagens satisfatórias. No entanto, acredita-se que o paradigma futuro da geração de imagens deve ser mais simples e flexível, ou seja, capaz de gerar diversas imagens diretamente por meio de instruções multimodais arbitrárias, sem a necessidade de plugins adicionais e operações, de maneira semelhante ao funcionamento do GPT na geração de linguagem.

Devido a recursos limitados, ainda há espaço para aprimorar o OmniGen. O projeto continua sendo otimizado e espera-se que ele inspire modelos de geração de imagens mais universais. Além disso, você pode afinar facilmente o OmniGen sem se preocupar com o design de redes para tarefas específicas; basta preparar os dados correspondentes e executar o script. A imaginação deixa de ter limites; todos podem construir qualquer tarefa de geração de imagens, e talvez seja possível alcançar resultados muito interessantes, maravilhosos e criativos.

OmniGen é um modelo de geração de imagens que permite realizar diversas tarefas, incluindo, mas não se limitando a, geração de imagem a partir de texto, geração direcionada por assunto, geração que preserva identidade, edição de imagem e geração condicionada por imagem. O OmniGen não necessita de plugins adicionais ou operações específicas, pois pode identificar automaticamente as características (como objeto requerido, pose humana, mapeamento de profundidade) nas imagens de entrada de acordo com o prompt de texto. Mostramos alguns exemplos no arquivo inference.ipynb e, no arquivo inference_demo.ipynb, apresentamos um pipeline interessante para gerar e modificar uma imagem.

Abaixo as instruções de instalação:

git clone https://github.com/VectorSpaceLab/OmniGen.git
cd OmniGen
pip install torch==2.3.1+cu118 torchvision --extra-index-url https://download.pytorch.org/whl/cu118
pip install -e .

Fonte: https://github.com/VectorSpaceLab/OmniGen

Thu, Oct 24, 2024

Alessandro de Oliveira Faria posted at 05:47

cabelo

Recebemos papinha de IAs grátis, porque nós somos o produto.

Recentemente, testemunhamos uma revolução tecnológica onde assistentes de inteligência artificial (IA) são disponibilizados gratuitamente em nossos CELULARES. À primeira vista, essa parece ser uma grande vantagem, recebendo constantemente novos recursos sem custo aparente. Contudo, é fundamental lembrar o famoso ditado: “não existe almoço grátis.” Neste cenário, nós, os usuários, somos o verdadeiro produto. As empresas de tecnologia não estão simplesmente sendo generosas; elas têm um interesse econômico claro, utilizando nossos dados como moeda de troca.

As IAs que povoam nossos dispositivos aprendem incessantemente com nossas interações. Cada pergunta que fazemos, cada preferência que expressamos, e cada desaprovação que indicamos a uma imagem ou frase, são dados valiosos que alimentam esses sistemas. Os modelos de IA, especialmente os generativos probabilísticos, são desenhados para absorver e processar essa informação, refinando suas capacidades e, consequentemente, seu valor para as empresas que os controlam. Essa troca contínua de informações é o que permite que essas ferramentas se tornem cada vez mais integradas e indispensáveis em nossa vida cotidiana.

No entanto, a facilidade de uso desses assistentes vem com um preço oculto: a perda de controle sobre nossos próprios dados. Tudo o que submetemos a essas IAs online é enviado para a nuvem, e raramente temos qualquer poder sobre o destino final dessas informações. Desde preferências pessoais até comportamentos sutis, tudo pode ser coletado e analisado. Por exemplo, a aplicação de um simples algoritmo de biometria cognitiva pode revelar uma quantidade surpreendente de informações sobre os usuários. Imagine, então, o que grandes corporações de tecnologia, com seus recursos avançados, são capazes de inferir e acumular.

O problema se acentua com a dependência crescente dessas tecnologias. Ao integrar IAs em cada aspecto de nossas vidas, abrimos mão de uma parcela significativa de nossa privacidade. Esses dados, uma vez coletados e analisados, podem ser usados para influenciar desde nossas decisões de compra até nossas opiniões políticas, sem que tenhamos clara consciência de tal manipulação.

Para aqueles preocupados com a privacidade e o controle sobre seus próprios dados, uma solução seria optar por modelos de IA que funcionam offline e não requerem conexão constante com a internet. Esses modelos podem oferecer muitos dos benefícios das IAs conectadas, mas com uma maior garantia de que os dados pessoais não serão transmitidos para servidores remotos, mantendo-se, assim, sob o controle direto do usuário. Escolher usar tecnologias que respeitem nossa privacidade é um passo crucial para reivindicar nossa autonomia na era digital.

Wed, Oct 09, 2024

Alessandro de Oliveira Faria posted at 02:59

cabelo

Molmo: O futuro das IAs que enxergam.

O Allen Institute for Artificial Intelligence (Ai2) está lançando uma nova família de modelos de linguagem multimodais de código aberto, chamada Molmo, que rivaliza com modelos da OpenAI, Google e Anthropic. O maior modelo Molmo possui 72 bilhões de parâmetros e supera o GPT-4 da OpenAI em testes de compreensão de imagens e documentos, enquanto um modelo menor de 7 bilhões de parâmetros se aproxima do desempenho do modelo mais avançado da OpenAI, graças a métodos eficientes de treinamento de dados.

Segundo Ali Farhadi, CEO do Ai2, o desenvolvimento de IA de código aberto está agora em par com modelos proprietários, oferecendo a vantagem de ser acessível para outros desenvolvedores construírem aplicações. Uma demonstração do Molmo estará disponível em breve no site Hugging Face, embora alguns elementos do modelo maior ainda sejam restritos ao público.

Contrastando com outros modelos treinados em conjuntos de dados massivos e indiscriminados, o Molmo utiliza um conjunto menor e mais selecionado de 600.000 imagens, resultando em melhor desempenho com menos recursos. Anotadores humanos detalharam imagens em texto, convertidas depois em dados através de técnicas de IA, otimizando o treinamento e reduzindo a necessidade de potência computacional. Essa abordagem focada em qualidade, segundo Percy Liang, do Stanford Center for Research on Foundation Models, pode diminuir os custos computacionais e, segundo Yacine Jernite da Hugging Face, pode ajudar a controlar melhor os dados utilizados em IA.

Além disso, o modelo Molmo demonstrou capacidade de “apontar” elementos específicos em imagens, uma função útil para interações mais sofisticadas com interfaces de usuário, o que Ali Farhadi enfatiza como uma vantagem sobre modelos que apenas descrevem imagens. Com a promessa de maior eficiência e potencial para aplicações futuras, o Ai2 espera que o Molmo influencie o campo da IA de código aberto e seja uma base para inovações futuras.

https://arxiv.org/pdf/2409.17146

Tue, Oct 01, 2024

Alessandro de Oliveira Faria posted at 03:18

cabelo

OpenVINO 2024.4.0

A baixo as principais novidades da versão 2024.4.0 da tecnologia openVINO.
Mais cobertura para Gen AI e integrações de frameworks para minimizar alterações de código

Suporte para os modelos GLM-4-9B Chat, MiniCPM-1B, Llama 3 e 3.1, Phi-3-Mini, Phi-3-Medium e YOLOX-s.
Notebooks de destaque adicionados: Florence-2, Extração de Estrutura NuExtract-tiny, Geração de Imagens Flux.1, PixArt-α: Síntese de Texto para Imagem Fotorrealista, e Phi-3-Vision Assistente Visual de Linguagem.

Maior suporte para modelos LLM e mais técnicas de compressão de modelos

OpenVINO Runtime otimizado para as matrizes sistólicas Intel® Xe Matrix Extensions (Intel® XMX) em GPUs integradas, proporcionando uma multiplicação de matrizes eficiente, resultando em um aumento significativo de desempenho em LLM com melhorias na latência do 1º e 2º tokens, além de uma menor utilização de memória nos processadores Intel® Core Ultra (Série 2).
Compartilhamento de memória habilitado para NPUs em processadores Intel® Core Ultra (Série 2) para integração de pipelines eficiente, sem sobrecarga de cópia de memória.
Adição do recurso PagedAttention para GPUs discretas, permitindo um aumento significativo no throughput para inferência paralela ao servir LLMs nas placas gráficas Intel® Arc ou Intel® Data Center GPU Flex Series.

Mais portabilidade e desempenho para executar IA na borda, na nuvem ou localmente

Suporte para processadores Intel® Core Ultra Série 2 no Windows.
O OpenVINO Model Server agora vem com suporte em nível de produção para API compatível com OpenAI, o que possibilita uma taxa de transferência significativamente maior para inferência paralela em processadores Intel® Xeon® ao servir LLMs para muitos usuários simultâneos.
Desempenho e consumo de memória aprimorados com cache de prefixo, compressão de cache KV e outras otimizações para servir LLMs usando o OpenVINO Model Server.
Suporte para Python 3.12.
Suporte para Red Hat* Enterprise Linux* (RHEL) versões 9.3 – 9.4.

Baixar a versão 2024.4
Baixe agora a última versão.

Thu, Sep 26, 2024

Alessandro de Oliveira Faria posted at 03:35

cabelo

Llama 3.2 : compacta e local para dispositivos móveis com visão computacional avançada.

A Meta anunciou, durante o evento Meta Connect 2024, o lançamento do Llama 3.2, uma atualização dos seus modelos de inteligência artificial (IA) focada em dispositivos móveis e edge computing. Com uma abordagem aberta, essa nova versão oferece modelos compactos que podem ser executados diretamente em hardwares como Qualcomm, MediaTek e processadores Arm, proporcionando maior privacidade e eficiência para desenvolvedores.

O Llama 3.2 é composto por dois tipos principais de modelos: os de visão (11B e 90B) e os modelos de texto compactos (1B e 3B). Os modelos de visão foram criados para analisar imagens, gráficos e mapas, oferecendo uma interpretação visual dos dados e fornecendo respostas contextuais. Eles apresentam uma alternativa aberta a soluções proprietárias, como o Claude 3 Haiku, sendo ideais para tarefas como reconhecimento de imagens e geração automática de legendas.

Os modelos de texto, por sua vez, são otimizados para rodar localmente em dispositivos móveis. Com suporte para até 128 mil tokens, eles são indicados para funções como sumarização de mensagens, reescrita de textos e execução de comandos por instrução, tudo sem necessidade de conexão à nuvem, garantindo assim maior privacidade, já que os dados permanecem no próprio dispositivo.

Integração com plataformas parceiras

Além do lançamento do Llama 3.2, a Meta introduziu a primeira distribuição oficial do Llama Stack, um conjunto de ferramentas que simplifica o uso e a personalização dos modelos Llama em diferentes ambientes, sejam eles na nuvem, locais ou em dispositivos móveis. Em parceria com empresas como AWS, Databricks, Dell Technologies e Infosys, a Meta busca ampliar as aplicações comerciais e empresariais do Llama 3.2.

O Llama 3.2 também possui suporte imediato para plataformas como Microsoft Azure, Google Cloud, NVIDIA, Oracle Cloud e Intel, além de empresas de tecnologia de ponta que integram a solução diretamente em seus produtos.

Desempenho dos modelos

Os modelos de visão do Llama 3.2 competem fortemente com outros grandes modelos, como Claude 3 Haiku e GPT4o-mini, em tarefas de reconhecimento e compreensão visual de imagens.
O modelo de texto 3B superou concorrentes como o Gemma 2 (2.6B) e o Phi 3.5-mini em tarefas como seguir instruções, sumarização e reescrita de prompts, além de execução de comandos.
O modelo de texto 1B mostrou-se competitivo com o Gemma em diversos benchmarks.

Esses resultados foram obtidos através de mais de 150 conjuntos de dados de benchmarks em várias línguas, com foco nas capacidades de compreensão visual e raciocínio dos modelos de visão LLMs.

Os modelos do Llama 3.2 já estão disponíveis para download no site oficial da Meta e no Hugging Face, com integração pronta para as plataformas dos parceiros. A Meta reforça que sua abordagem aberta é essencial para estimular a inovação, dando a desenvolvedores ao redor do mundo acesso a ferramentas poderosas e acessíveis para criar novas soluções com IA.

Fri, Sep 20, 2024

Alessandro de Oliveira Faria posted at 05:24

cabelo

IA consome 1,4 litro de água e aumenta a conta dos vizinhos.

Usar o GPT-4 para gerar 100 palavras pode consumir até três garrafas de água de 500 ml — o que tem levantado preocupações sobre o impacto ambiental dos data centers de inteligência artificial (IA). Esses centros, responsáveis por processar grandes volumes de dados, exigem uma quantidade significativa de água para resfriar os servidores, além de aumentar consideravelmente o consumo de energia. Isso resulta em contas mais altas de água e energia para os moradores das áreas próximas a essas instalações.

Pesquisas da Universidade da Califórnia, Riverside, revelaram que a quantidade de água utilizada por IA como o GPT-4 varia dependendo da localização do data center. No Texas, por exemplo, são necessários cerca de 235 ml de água para gerar um e-mail de 100 palavras, enquanto no estado de Washington esse número chega a 1.408 ml, equivalente a três garrafas de 500 ml. Esse consumo, embora pareça pequeno em uma escala individual, se multiplica rapidamente com o uso frequente.

Além do consumo de água, o impacto energético também é alarmante. Estimativas indicam que, se 10% dos trabalhadores dos Estados Unidos usarem o GPT-4 uma vez por semana durante um ano, a demanda de energia seria equivalente à consumida por todas as residências de Washington D.C. por 20 dias. Isso mostra que, mesmo com um uso considerado moderado, a IA pode ter um efeito significativo nas redes elétricas.

Representantes de empresas como OpenAI, Meta, Google e Microsoft afirmaram estar comprometidos com a redução desse impacto ambiental. No entanto, até o momento, as medidas propostas, como o uso de sistemas de resfriamento que eliminem o consumo de água, ainda são vagas e sem um cronograma claro de implementação. A pressão por lucros tem, muitas vezes, superado as promessas de sustentabilidade dessas gigantes tecnológicas.

Fonte: https://www.tomshardware.com/tech-industry/artificial-intelligence/using-gpt-4-to-generate-100-words-consumes-up-to-3-bottles-of-water-ai-data-centers-also-raise-power-and-water-bills-for-nearby-residents

Fri, Sep 13, 2024

Alessandro de Oliveira Faria posted at 02:12

cabelo

Feliz dia do Desenvolvedor !

O Dia do Programador é o 256º dia do ano, celebrada por programadores de computador em boa parte do mundo. Este número foi escolhido porque é o maior número que pode ser representado por um byte (oito bits). Além disso, esse número é a maior potência de dois , como também inferior ao número 365 (o número de dias do ano). Também pode ser representado, em hexadecimal como 0x100 e em octal como 0400.

Dia do Programador é dia 13 de setembro, exceto em anos bissextos, nos quais ele é comemorado no dia 12 de setembro, pois esse é o 256º dia do ano bissexto.

Wed, Sep 11, 2024

Alessandro de Oliveira Faria posted at 13:58

cabelo

Mistral lança Pixtral, seu primeiro modelo multimodal

A startup francesa de inteligência artificial Mistral lançou seu primeiro modelo capaz de processar imagens e texto.

Denominado Pixtral 12B, o modelo de 12 bilhões de parâmetros tem aproximadamente 24GB de tamanho. Os parâmetros correspondem, aproximadamente, às habilidades de resolução de problemas de um modelo, e modelos com mais parâmetros geralmente apresentam melhor desempenho que aqueles com menos parâmetros.

Construído a partir de um dos modelos de texto da Mistral, o Nemo 12B, o novo modelo pode responder perguntas sobre um número arbitrário de imagens de tamanho arbitrário fornecidas por URLs ou imagens codificadas usando base64, o esquema de codificação de binário para texto. Similar a outros modelos multimodais, como a família Claude da Anthropic e o GPT-4o da OpenAI, o Pixtral 12B deveria — ao menos em teoria — ser capaz de realizar tarefas como legendagem de imagens e contagem do número de objetos em uma foto.

Disponível por meio de um link torrent no GitHub e na plataforma de desenvolvimento de IA e machine learning Hugging Face, o Pixtral 12B pode ser baixado, ajustado e usado presumivelmente sob a licença de desenvolvimento padrão da Mistral, que exige uma licença paga para aplicações comerciais, mas não para usos acadêmicos e de pesquisa.

A Mistral não esclareceu exatamente qual licença se aplica ao Pixtral 12B. A startup oferece alguns modelos sob uma licença Apache 2.0 sem restrições. Entramos em contato com a Mistral para mais informações e atualizaremos esta postagem caso tenhamos retorno.

Infelizmente, este escritor não conseguiu testar o Pixtral 12B — não havia demos web funcionando no momento da publicação. Em uma postagem no X, Sophia Yang, chefe de relações com desenvolvedores da Mistral, disse que o Pixtral 12B estará disponível para testes nas plataformas de chatbot e de serviço de API da Mistral, Le Chat e Le Platforme, em breve.

Não está claro quais dados de imagem a Mistral pode ter usado para desenvolver o Pixtral 12B.

A maioria dos modelos de IA generativa, incluindo outros modelos da Mistral, é treinada com vastas quantidades de dados públicos da web, que muitas vezes são protegidos por direitos autorais. Alguns fornecedores de modelos argumentam que os direitos de “uso justo” os autorizam a raspar qualquer dado público, mas muitos detentores de direitos autorais discordam e entraram com processos contra fornecedores maiores como OpenAI e Midjourney para interromper a prática.

O Pixtral 12B chega após a Mistral fechar uma rodada de financiamento de $645 milhões liderada pela General Catalyst, que avaliou a empresa em $6 bilhões. Com pouco mais de um ano, a Mistral — com participação minoritária da Microsoft — é vista por muitos na comunidade de IA como a resposta da Europa à OpenAI. A estratégia da empresa mais jovem até agora envolveu o lançamento de modelos “abertos” gratuitos, cobrança por versões gerenciadas desses modelos e fornecimento de serviços de consultoria para clientes corporativos.

Thu, Sep 05, 2024

Alessandro de Oliveira Faria posted at 17:20

cabelo

Descoberta a solução para eliminar erros da IA

Texto originalmente traduzido do https://medium.com.
Fonte:https://blog.cubed.run/100-accurate-ai-claimed-by-acurai-openai-and-anthropic-confirm-acurais-discoveries-98fce1ddeb5b

As notícias impressionantes da Acurai de ter descoberto como os LLMs (Modelos de Linguagem de Grande Escala) operam agora são confirmadas por estudos conduzidos pela OpenAI e Anthropic.

Em março de 2024, esta autora publicou “Elimine as Alucinações dos Chatbots — ISTO MESMO!, Elimine-as”. Este artigo fez a audaciosa afirmação de que os LLMs se auto-organizam em torno de Frases Nominais; e que o comportamento dos LLMs pode ser controlado através da manipulação de Frases Nominais. Estudos recentes da Anthropic e da OpenAI agora confirmam empiricamente essas verdades. Esta é uma notícia FANTÁSTICA! Afinal, essas verdades são a base para eliminar as alucinações — sim, eliminá-las.

Modelo de Dominância de Frases Nominais

Em março de 2024, foi apresentado a seguinte a descoberta revolucionária do “Modelo de Dominância de Frases Nominais”: https://www.michaelcalvinwood.net/docs/Relevant-and-Accurate-AI–Public.pdf

This present inventor’s Noun-Phrase Collision Model led to the development of the higher-level Noun-Phrase Dominance Model — the model that is the key to using LLM token prediction to consistently generate factually accurate output. The Noun-Phrase Dominance Model is perhaps best understood from the perspective of another type of neural network — CNNs (Convolutional Neural Networks).

CNNs are often used for image identification. For example, CNNs can be trained to distinguish images of people, pets, boats, etc. CNNs consist of multiple layers of neurons. Remarkable, during training, these layers self-organize themselves. For example, the early layers self-organize around detecting simple patterns such as edges and textures. The latter layers selforganize by combining the information from earlier layers into more complex patterns like shapes — shapes including the recognition of eyes, ears, legs, steering wheels, etc.

No one tells the CNN to do this. Even though CNNs are merely a collection of neurons with probabilistic weights and biases, CNNs automatically self-organize in this manner in order to fulfill the training objective. While much is discussed in the literature regarding the selforganizing nature of CNN neural networks, little if anything is discussed regarding the selforganizing nature of Transformer Neural Networks — the type of neural network used to construct the most popular Large Language Models such as ChatGPT.

This present inventor’s Noun-Phrase Dominance Model states that neural networks self organize around noun phrases during the training of Large Language Models.
emphasiS

O artigo discute então o controle do comportamento do LLM (por exemplo, garantindo respostas 100% precisas) por meio da manipulação de frases nominais enviadas na consulta e passagens em chatbots baseados em RAG.

Estudos da Anthropic e da OpenAI agora confirmam o modelo de dominância de sintagma nominal. LLMs são construídos a partir de múltiplas camadas. Em outras palavras, a entrada (prompt) passa por muitas camadas para gerar a saída.

Cada camada contém muitos neurônios. Cada neurônio tem vários valores que aprendeu durante o treinamento (como pesos e vieses). O modelo de dominância de sintagma nominal diz que os neurônios não operam por conta própria, mas se auto-organizam em torno de sintagmas nominais. Tanto a OpenAI quanto a Anthropic descobriram recentemente que essa é a verdade empírica — a maneira real como os LLMs operam sob o capô.

Conforme relatado pela Axios AI+ em 23 de agosto de 2024:

One way AI researchers are trying to understand how models work is by looking at the combinations of artificial neurons that are activated in an AI model’s neural network when a user enters an input.

These combinations, referred to as “features,” relate to different places, people, objects and concepts.

Researchers at Anthropic used this method to map a layer of the neural network inside its Claude Sonnet model and identified different features for people (Albert Einstein, for example) or concepts such as “inner conflict.”

They found that some features are located near related terms: For example, the “inner conflict” feature is near features related to relationship breakups, conflicting allegiances and the notion of a catch-22.

When the researchers manipulated features, the model’s responses changed, opening up the possibility of using features to steer a model’s behavior.

OpenAI similarly looked at a layer near the end of its GPT-4 network and found 16 million features, which are “akin to the small set of concepts a person might have in mind when reasoning about a situation,” the company said in a post about the work.
Bolded

Primeiro, observe que a Anthropic e a OpenAI agora confirmam nos testes que os neurônios de fato se auto-organizam, exatamente como o Modelo de Dominância Substantiva-Frase declarou.
Segundo, observe que a auto-organização não é em torno de verbos, adjetivos, advérbios, etc. Em contraste gritante, os neurônios se auto-organizam em torno de “lugares, pessoas, objetos e conceitos”. Em outras palavras, os neurônios se auto-organizam em torno de frases nominais — assim como o Modelo de Dominância Frase-Nome declarou.
Terceiro, os agrupamentos de sintagmas nominais (ou seja, características) agrupam “termos quase relacionados”, afirmando a existência de Rotas de Frases Nominais — assim como o Modelo de Dominância de Frases Nominais declarou.
Quarto, observe que a Anthropic e a OpenAI descobriram que a manipulação de frases nominais pode ser usada para “orientar o comportamento de um modelo” — assim como o Modelo de Dominância de Frases Nominais declarou.

Elimine alucinações — sim, IA SEM ERRO!

Esta é uma notícia INCRÍVEL! Afinal, o Modelo de Dominância de Frases Nominais é a chave para eliminar alucinações.

No entanto, a comunidade de pesquisa de alguma forma ignorou este modelo — ao mesmo tempo em que continua a proclamar que as alucinações são um problema intratável.

Desde o artigo de março de 2024, FOI DEMONSTRADO no mundo real como documentar o Modelo de Dominância de Frases Nominais e explica como esta é a chave para construir chatbots 100% precisos e livres de alucinações

. O Modelo de Dominância de Frases Nominais é real. E também a solução para finalmente eliminar as alucinações de uma vez por todas. Você pode construir chatbots 100% precisos… hoje mesmo.

Sun, Aug 25, 2024

Alessandro de Oliveira Faria posted at 15:49

cabelo

Modelos TTT: A nova era da IA

https://arxiv.org/pdf/2407.04620

Não consigo sincronizar minhas pesquisas com os posts no blog (seria impossível), mas em 15 de Agosto fiquei surpreso, pois pesquisadores de instituições renomadas, incluindo Stanford, UC San Diego, UC Berkeley e Meta, estão avançando no desenvolvimento de uma nova arquitetura de inteligência artificial, conhecida como modelos TTT (test-time training). Essa inovação promete superar os desafios enfrentados pelos transformers tradicionais, oferecendo um processamento de dados mais eficiente e econômico para aplicações em IA generativa.

Os modelos transformers são essenciais em organizações como a OpenAI, formando a espinha dorsal de sistemas avançados como o Sora, um gerador de vídeo de última geração. Apesar de sua eficácia em processar linguagem natural e gerar texto, esses modelos consomem uma quantidade significativa de energia e exigem alta capacidade computacional. Um dos principais limitadores dos transformers é o estado oculto, que, embora armazene informações valiosas, requer revisão completa dos dados para responder a perguntas específicas, como sobre o conteúdo de um livro.

Para superar essas limitações, foi desenvolvido o modelo TTT, que elimina a necessidade de um estado oculto extensivo, substituindo-o por um mecanismo de aprendizado de máquina mais eficiente. Segundo Yu Sun, pós-doutorando em Stanford e colaborador na pesquisa, os modelos TTT são capazes de processar extensos volumes de dados — incluindo texto, imagens, áudio e vídeo — sem aumentar seu tamanho conforme mais dados são processados, algo que os diferencia dos transformers tradicionais.

As principais inovações das camadas TTT incluem:

Estados Ocultos Expressivos: Cada estado oculto nas camadas TTT é um modelo, como um modelo linear ou um MLP de duas camadas (Perceptron Multi-Camadas), que pode ser continuamente treinado para capturar melhor o contexto.
Regra de Atualização Auto-Supervisionada: O mecanismo de atualização para o estado oculto é baseado em aprendizado auto-supervisionado, permitindo que o modelo atualize seus parâmetros com base nos dados de entrada mesmo durante o tempo de teste.

Em termos de avanços práticos, a abordagem TTT aborda questões de escalabilidade e eficiência comumente enfrentadas por RNNs tradicionais e modelos de autoatenção por:

Manter uma complexidade linear em relação ao comprimento da sequência de entrada.
Potencialmente superando RNNs tradicionais como Mamba e modelos de autoatenção como Transformers no manejo de contextos de sequências longas.
Implementar otimizações de sistema que permitem que as camadas TTT funcionem eficientemente em hardware, beneficiando-se particularmente das arquiteturas modernas de GPU.

“Nossa abordagem permite que o sistema analise informações sobre um livro com menos complexidade computacional, evitando a necessidade de revisitar o texto múltiplas vezes”, explicou Sun ao TechCrunch. Essa tecnologia tem o potencial de transformar o processamento de vídeos longos, simulando a experiência visual humana sem as limitações dos grandes modelos baseados em transformers.

Outras empresas, como Mistral e AI21 Labs, também estão explorando tecnologias alternativas, como os modelos de espaço de estado (SSMs), que prometem eficiência comparável ou até superior aos transformers.