Wed, Feb 12, 2025


Bytedance cria Goku, uma avançada IA de Vídeo.
A Bytedance, empresa por trás do TikTok, está mais uma vez quebrando barreiras tecnológicas com a apresentação do Goku, um modelo avançado de inteligência artificial (IA) projetado para a criação de vídeos de alta qualidade. Usando a poderosa combinação de síntese de texto para vídeo e imagem para vídeo, o Goku está transformando a maneira como o conteúdo orientado por IA é produzido, expandindo os limites da criatividade digital.
Como o Goku Funciona
O Goku opera como um modelo de geração de vídeo baseado em fluxo, alimentado pelo inovador Rectified Flow Transformer (RFT). Essa abordagem visa melhorar a qualidade e a eficiência da produção de vídeos, refinando imagens e quadros de vídeo de forma progressiva. O principal objetivo do modelo é garantir transições de movimento suaves e uma fidelidade visual impressionante.
O processo começa com a entrada de dados, que podem ser texto ou imagens. O Goku converte essas entradas em representações estruturadas, utilizando um mecanismo de fluxo retificado para otimizar a interpolação de quadros. O resultado é a redução de ruídos visuais e a garantia de continuidade nas transições de cena. Por fim, o modelo sintetiza sequências de vídeo coerentes com transições perfeitas, criando um produto final de alta qualidade.
As Tecnologias por Trás do Goku
O Goku é impulsionado por um conjunto de tecnologias de IA de última geração, com destaque para o Rectified Flow Transformer (RFT). Esse componente crucial minimiza a sobrecarga computacional, permitindo que o modelo opere de forma eficiente sem sacrificar a qualidade da imagem. A renderização neural é outro aspecto importante, garantindo que os movimentos nos vídeos sejam realistas e as transições entre quadros sejam fluídas.
Além disso, o Goku conta com uma arquitetura baseada em transformers, um tipo de rede neural altamente eficaz no processamento de dados sequenciais. Isso permite ao Goku modelar dependências temporais dentro das sequências de vídeo, capturando nuances de movimento e criando vídeos coerentes. O modelo também se destaca por suas capacidades multimodais, permitindo a síntese perfeita de texto para vídeo e imagem para vídeo, oferecendo uma flexibilidade sem precedentes na criação de conteúdo.
Executando o Goku em Máquinas GPU
Para garantir o desempenho ideal, o Goku exige GPUs de alto desempenho. A execução do modelo em instâncias de GPU da Akamai oferece o poder computacional necessário para lidar com grandes volumes de dados e cargas de trabalho de aprendizado profundo com eficiência. Essa infraestrutura escalável permite que o Goku seja dimensionado para atender às demandas de geração de vídeo em larga escala, otimizando a inferência, reduzindo a latência e melhorando o rendimento.
A implementação do Goku em instâncias de GPU envolve o provisionamento de máquinas habilitadas para CUDA, a instalação das dependências do PyTorch e CUDA, e a execução das tarefas de inferência. Para melhorar ainda mais o desempenho, a utilização de treinamento de precisão mista pode acelerar os processos de geração de vídeo sem comprometer a qualidade.
Mais informações: https://saiyan-world.github.io/goku/
Mon, Jan 27, 2025


Janus Pro AI da DeepSeek supera rivais.

A DeepSeek, uma startup chinesa, anunciou que seu novo modelo de IA de código aberto, o Janus-Pro-7B, superou o DALL-E 3 da OpenAI e o Stable Diffusion da Stability AI em benchmarks de geração de imagens a partir de texto, conforme detalhado em um relatório técnico divulgado na segunda-feira. Este modelo é uma evolução do Janus, lançado no ano passado, e chega após o sucesso do novo assistente baseado no DeepSeek-V3, que rapidamente se tornou o aplicativo gratuito mais popular na App Store dos Estados Unidos.
Segundo a empresa, o Janus-Pro-7B aprimora o modelo anterior ao melhorar os processos de treinamento, a qualidade dos dados e o tamanho do modelo, o que resulta em maior estabilidade e riqueza de detalhes nas imagens. Além disso, ao incorporar 72 milhões de novas imagens sintéticas de alta qualidade e equilibrá-las com dados reais, o modelo conseguiu produzir resultados visuais mais atraentes e estáveis.
O relatório também destacou que a nova versão do modelo, com até 7 bilhões de parâmetros, oferece melhorias na velocidade de treinamento e na precisão da conversão de texto em imagem e compreensão de tarefas.
Fontes: https://huggingface.co/deepseek-ai/Janus-Pro-7B


Tue, Jan 14, 2025


IA Generativa no openSUSE

Como criadoror da iniciativa openSUSE Innovator e membro do programa Intel Innovator, tenho orgulho de disponibilizar nativamente os recursos de IA Generativa para CPUs e NPUs na distribuição openSUSE Linux. Ddesempenho um papel ativo para garantir que o repositório OpenVINO permaneça sempre atualizado, compatível com futuros hardwares e, ao mesmo tempo, mantenha a retrocompatibilidade com hardwares mais antigos, beneficiando toda a comunidade da distribuição openSUSE Linux.
O OpenVINO (Open Visual Inference and Neural Network Optimization) é uma das ferramentas mais importantes no ecossistema de Inteligência Artificial, especialmente para aplicações que exigem desempenho otimizado para inferência de modelos de aprendizado profundo. A versão 2024.6.0 traz avanços significativos em termos de compatibilidade, otimizações e suporte a modelos complexos, incluindo os de Inteligência Artificial Generativa, como os Modelos de Linguagem Extensa (LLMs).
Importância do OpenVINO no openSUSE Linux
- Integração com Hardware e Software: O OpenVINO oferece aceleração nativa em arquiteturas de CPU e GPU compatíveis com Intel, mas também tem flexibilidade para suportar outras plataformas. No openSUSE Linux, a combinação do kernel otimizado e a compatibilidade com bibliotecas avançadas faz com que o OpenVINO atinja seu potencial máximo.
- IA Generativa no Open Source: Em tempos de expansão da Inteligência Artificial Generativa, ferramentas como o OpenVINO democratizam o acesso a tecnologias de ponta, permitindo que desenvolvedores de todos os níveis criem soluções avançadas diretamente no openSUSE, sem a necessidade de hardware proprietário caro.
- Desempenho e Eficiência: O OpenVINO ajuda a reduzir significativamente o tempo de inferência e o uso de recursos, um ponto crítico para aplicações de LLMs que processam grandes volumes de dados em tempo real.
- Simplicidade para Desenvolvedores: Uma das maiores vantagens do OpenVINO é sua acessibilidade. Ele permite que até mesmo desenvolvedores iniciantes escrevam aplicações robustas com pouquíssimo código, enquanto ainda oferecem flexibilidade e personalização para projetos avançados.
Aplicação com LLM em 3 linhas de código
Com o OpenVINO, criar uma aplicação com um modelo de linguagem generativo pode ser tão simples quanto:
import openvino_genai as ov_genai
pipe = ov_genai.LLMPipeline("TinyLlama-1.1B-Chat-v1.0/", "CPU")
print(pipe.generate("Openvino é", max_new_tokens=100, do_sample=False))
Isso mostra como é fácil integrar tecnologias de IA Generativa diretamente no openSUSE Linux, aproveitando o OpenVINO para otimização e desempenho.
Conclusão
A presença do OpenVINO no openSUSE Linux reforça o papel do open source na liderança tecnológica da era da IA. Ele permite que empresas, desenvolvedores independentes e entusiastas criem aplicações eficientes, escaláveis e de alto impacto. Com ferramentas como essa, o openSUSE se consolida como uma plataforma poderosa para inovação em Inteligência Artificial Generativa.
Thu, Jan 09, 2025


CAG: Nova Fronteira na Geração de Conteúdo por IA

Nos últimos anos, a Inteligência Artificial (IA) tem evoluído a passos largos, oferecendo soluções inovadoras em diversas áreas. Uma das mais fascinantes é a geração de texto, um campo dominado por sistemas como GPT e outras arquiteturas de modelos de linguagem. No entanto, à medida que o uso da IA em aplicações do mundo real cresce, também surgem desafios relacionados à eficiência e à precisão. Nesse contexto, o Cache-Augmented Generation (CAG) desponta como uma abordagem promissora que pode competir diretamente com o Retrieval-Augmented Generation (RAG).
O Que é Cache-Augmented Generation?
O CAG é uma abordagem que utiliza um cache local para armazenar informações relevantes e frequentemente acessadas. Quando um modelo de IA precisa gerar uma resposta, ele primeiro consulta o cache antes de recorrer ao processamento completo de uma consulta. Isso contrasta com o RAG, que depende de bases de dados externas e mecanismos de busca para recuperar informações.
A ideia central do CAG é que muitas consultas têm padrões repetitivos ou são altamente correlacionadas a interações anteriores. Aproveitando esses padrões, o cache pode melhorar significativamente a eficiência do sistema e reduzir a dependência de infraestrutura externa.
Benefícios do CAG
- Eficiência Computacional: Ao evitar consultas repetidas a bases externas, o CAG reduz a carga computacional e o tempo de resposta.
- Privacidade e Segurança: Como os dados são armazenados localmente, há menos risco de violações de privacidade associadas ao envio de consultas para servidores externos.
- Redução de Custos: A menor dependência de servidores externos também implica redução de custos com infraestrutura e transferência de dados.
- Melhoria Contínua: Com um sistema de cache bem projetado, é possível ajustar dinamicamente quais informações são armazenadas, garantindo que o sistema evolua com o uso.
Como o CAG se Compara ao RAG?
O RAG é uma técnica poderosa, especialmente em cenários onde há necessidade de buscar informações atualizadas de grandes volumes de dados. No entanto, ele enfrenta desafios relacionados ao custo computacional e à latência. O CAG, por outro lado, oferece uma solução eficiente para casos em que há redundância nas consultas ou um conjunto relativamente estático de informações relevantes.
Uma abordagem não exclui a outra; na verdade, há cenários em que uma combinação de CAG e RAG pode ser a solução ideal, maximizando tanto eficiência quanto abrangência.
Desafios e Limitações do CAG
Apesar de suas vantagens, o CAG também enfrenta desafios. Por exemplo, a manutenção e atualização do cache requerem um planejamento cuidadoso. Além disso, a abordagem pode não ser ideal para situações em que o contexto ou as informações relevantes mudam rapidamente.
O Futuro do CAG
O desenvolvimento do CAG está apenas começando, mas seu potencial é inegável. Com a crescente demanda por soluções eficientes e seguras em IA, é provável que vejamos avanços significativos nessa área nos próximos anos. Além disso, à medida que as organizações buscam reduzir custos e melhorar a experiência do usuário, o CAG pode se tornar uma peça-chave em aplicações de geração de texto e além.
Conclusão
O Cache-Augmented Generation representa um passo significativo rumo à eficiência e à sustentabilidade em sistemas de IA. Embora ainda seja cedo para determinar seu impacto completo, é claro que o CAG tem o potencial de transformar como concebemos e implementamos soluções baseadas em IA. Fique de olho nessa tecnologia — ela pode estar moldando o futuro da interação humano-computador.
A imagem deste post é sensacionalista. Não acredito que o CAG vá eliminar o RAG. Pelo contrário, dados dinâmicos tornam o RAG uma opção mais eficiente, enquanto o CAG é mais indicado para dados estáticos e pode oferecer uma performance até 40 vezes superior ao RAG em cenários específicos.


Phi 4 eleva o nível das IAs.

A Microsoft surpreendeu o mercado de inteligência artificial com o lançamento do modelo Phi 4, que rapidamente se destacou por seu desempenho impressionante. Com uma arquitetura otimizada e avanços em treinamento e aplicação, o Phi 4 mostra que modelos menores podem competir diretamente, e até superar, gigantes de 70 bilhões de parâmetros. Vamos explorar os diferenciais desse modelo e como ele se compara a outras soluções disponíveis.
Diferenciais do Phi 4
-
Eficiência de Parâmetros
- Ao contrário dos modelos tradicionais que priorizam o aumento de parâmetros para melhorar o desempenho, o Phi 4 utiliza uma abordagem mais estratégica. Com um número significativamente menor de parâmetros, ele mantém a eficiência e a precisão. Isso é possível graças a otimizações profundas no design do modelo, que permitem alcançar resultados comparáveis ou superiores a modelos maiores.
-
Foco em Dados de Alta Qualidade
- Os desenvolvedores do Phi 4 enfatizaram a importância dos dados orgânicos de alta qualidade durante o treinamento. Eles argumentam que dados sintéticos, frequentemente usados para reduzir custos, não são substitutos adequados para a riqueza e diversidade de dados reais. Essa abordagem garante que o modelo tenha um entendimento mais refinado e confiável em aplicações do mundo real.
-
Desempenho Matemático Superior
- O Phi 4 foi projetado com foco em tarefas matemáticas complexas, demonstrando capacidade superior em benchmarks como álgebra linear e problemas de otimização. Segundo análises, ele superou consistentemente modelos maiores, incluindo opções de 70 bilhões de parâmetros, em cenários que exigem precisão numérica e raciocínio lógico.
-
Menor Custo Computacional
- Com um design mais compacto, o Phi 4 requer menos recursos computacionais para treinamento e inferência. Isso reduz não apenas os custos, mas também a pegada ambiental associada ao uso intensivo de energia em modelos maiores.
Comparação com Modelos de 70 Bilhões de Parâmetros
Os modelos maiores, como os de 70 bilhões de parâmetros, têm dominado o mercado, mas apresentam desafios consideráveis. Aqui está como o Phi 4 se compara:
Característica | Phi 4 | Modelos de 70 Bilhões |
---|---|---|
Tamanho | Menor | Significativamente maior |
Custo Computacional | Baixo | Alto |
Precisão em Matemática | Superior | Variável |
Dependência de Dados | Dados orgânicos de alta qualidade | Maior uso de dados sintéticos |
Escalabilidade | Fácil | Complexa |
O diferencial mais evidente do Phi 4 é sua capacidade de resolver problemas matemáticos com uma precisão que supera os modelos maiores, demonstrando que qualidade e eficiência podem compensar a falta de volume de parâmetros.
Implicações do Phi 4 no Mercado de IA
A chegada do Phi 4 inaugura uma nova era na inteligência artificial, onde o foco não é apenas no tamanho do modelo, mas na eficiência e qualidade dos dados utilizados. Essa abordagem redefine o paradigma atual, provando que é possível equilibrar custo, desempenho e impacto ambiental.
Com o avanço de modelos como o Phi 4, é provável que o mercado de IA evolua para priorizar soluções otimizadas e específicas para domínios, em vez de confiar exclusivamente em modelos gigantes e generalistas.
Conclusão
O Phi 4 é um exemplo claro de que inovação não depende apenas de expansão, mas também de refinamento. Ao redefinir o que é possível com um número menor de parâmetros e um foco em dados de alta qualidade, ele estabelece um novo padrão para o desenvolvimento de modelos de IA. Conforme a comunidade de IA busca soluções mais acessíveis, eficientes e sustentáveis, o Phi 4 pode se tornar um marco transformador na história da inteligência artificial.
Sat, Jan 04, 2025


Gaze-LLE: Estimativa de alvo.

A estimativa do alvo do olhar, ou prever para onde uma pessoa está olhando em uma cena, é um desafio importante na pesquisa de inteligência artificial. Essa tarefa exige a integração de informações como a orientação da cabeça e o contexto visual. No entanto, métodos tradicionais enfrentam limitações, como altos custos computacionais e a necessidade de grandes volumes de dados rotulados, tornando difícil a implementação em tempo real e a escalabilidade dessas soluções.
Para superar essas barreiras, pesquisadores do Georgia Institute of Technology e da University of Illinois Urbana-Champaign desenvolveram o Gaze-LLE, uma arquitetura eficiente e simplificada para estimativa de olhar. Baseado em um codificador visual DINOv2 estático e um decodificador minimalista, o Gaze-LLE reduz em 95% os cálculos necessários, eliminando arquiteturas complexas de múltiplas ramificações. Essa abordagem compacta é altamente eficiente sem sacrificar a precisão.

O Gaze-LLE utiliza dois componentes principais: um codificador visual congelado que extrai recursos robustos e um decodificador leve que combina informações da cena com a posição da cabeça. Esse sistema produz mapas de calor que identificam possíveis alvos de olhar e realiza classificações rápidas, utilizando uma perda simples de entropia cruzada pixel a pixel para treinamento direto. Testado em conjuntos de dados como GazeFollow e ChildPlay, o modelo apresentou resultados notáveis em eficiência e precisão, superando métodos anteriores.
Os benchmarks do Gaze-LLE confirmam sua superioridade, com métricas como AUC de 0,958 e erro L2 de 0,099 no GazeFollow, além de tempos de treinamento significativamente reduzidos, alcançando convergência em menos de 1,5 horas de GPU. A arquitetura também se destaca pela forte generalização em diferentes conjuntos de dados sem necessidade de ajuste fino. Esses avanços reforçam o potencial de modelos otimizados para aplicações de estimativa de olhar precisas e flexíveis no campo da IA.

Thu, Jan 02, 2025


Fri, Dec 27, 2024


OpenVINO 2024.6.0 lançado!

Novidades
- A versão OpenVINO 2024.6 inclui atualizações para maior estabilidade e melhoria no desempenho de LLMs.
- Suporte introduzido para gráficos Intel® Arc
Série B (anteriormente conhecidos como Battlemage).
- Implementadas otimizações para melhorar o tempo de inferência e o desempenho de LLMs em NPUs.
- Melhorias no desempenho de LLMs com otimizações da API GenAI e correções de bugs.
OpenVINO
Runtime
Plugin de Dispositivo para CPU
- O cache KV agora utiliza inteiros não assinados de 8 bits assimétricos (U8) como precisão padrão, reduzindo o estresse de memória para LLMs e aumentando seu desempenho. Essa opção pode ser controlada pelos metadados do modelo.
- Qualidade e precisão foram aprimoradas para modelos selecionados com diversas correções de bugs.
Plugin de Dispositivo para GPU
- Foram introduzidas otimizações na cópia de memória do dispositivo para inferência com gráficos Intel® Arc
Série B (anteriormente conhecidos como Battlemage). Como não utilizam cache L2 para copiar memória entre o dispositivo e o host, uma operação de cópia dedicada é usada, caso as entradas ou resultados não sejam esperados na memória do dispositivo.
- Inferência com ChatGLM4 em GPUs foi otimizada.
Plugin de Dispositivo para NPU
- O desempenho de LLMs e o tempo de inferência foram aprimorados com otimizações de memória.
OpenVINO.GenAI
- O exemplo
encrypted_model_causal_lm
agora está disponível, demonstrando como descriptografar um modelo.
Outras Alterações e Problemas Conhecidos
Jupyter Notebooks
- Assistente visual-linguístico com GLM-Edge-V e OpenVINO.
- IA Local e OpenVINO.
- Compreensão e geração multimodal com Janus e OpenVINO.
Mais detalhes : https://docs.openvino.ai/2024/about-openvino/release-notes-openvino.html


Modelos brasileiros de IA em CPU.
A inteligência artificial com DNA brasileiro está conquistando o mundo! Modelos desenvolvidos no Brasil estão ganhando destaque global graças a iniciativas que ampliam a acessibilidade dessas tecnologias. Descubra como essas inovações estão levando a criatividade e o talento nacional para novos horizontes no cenário internacional.

Dois modelos de Inteligência Artificial (IA) com forte participação brasileira ganharam destaque internacional ao serem disponibilizados publicamente por meio da plataforma Intel OpenVINO. O MED-LLM-BR, desenvolvido pelo HAILab da PUC-PR, gera dados sintéticos de saúde para treinar modelos de IA sem comprometer a privacidade dos pacientes. Originalmente dependente de GPUs, o modelo foi adaptado por Alessandro “Cabelo” Faria para operar em computadores com processadores Intel a partir da 6ª geração, ampliando sua acessibilidade no setor de saúde.
Outro exemplo é o Tucano, um modelo de IA treinado com o maior banco de dados da Alemanha, mas adaptado para compreender nuances culturais brasileiras. Essa adaptação corrige limitações de modelos estrangeiros que não captam expressões e contextos locais. Com o suporte do Intel OpenVINO, o Tucano também pode ser executado eficientemente em CPUs Intel de 6ª geração ou superiores, democratizando o uso de IA no Brasil.
Leia mais no artigo da Intel.
Wed, Dec 18, 2024


A semana mais insana de 2024, um cinema de papers.

Esta semana compramos muita pipoca na MultiCortex, pois foi um absoluto cinema de papers no setor de IA. Acreditamos que foi a semana mais insana de 2024 marcada por avanços significativos no campo da inteligência artificial, com a publicação de diversos artigos que abordam desde melhorias em arquiteturas de modelos até questões de segurança e eficiência. A seguir, a lista desses trabalhos:
- Byte Latent Transformer
- Training Large Language Models to Reason in a Continuous Latent Space
- Language Modeling in a Sentence Representation Space
- Phi-4 Technical Report – Best-of-N Jailbreaking
- Forking Paths in Neural Text Generation
- Refusal Tokens – [MASK] is All You Need
- Explore Theory-of-Mind
- Obfuscated Activations Bypass LLM Latent-Space Defenses
- The Pitfalls of Memorization
- How to Merge Your Multimodal Models Over Time?
- Machine Unlearning Doesn’t Do What You Think
- Understanding Gradient Descent through the Training Jacobian
- An Evolved Universal Transformer Memory
- Transformers Struggle to Learn to Search
- Transformers Can Navigate Mazes With Multi-Step Prediction
- Frontier Models are Capable of In-context Scheming
- Mixture of Monosemantic Experts for Transformers
- Learning to Merge LoRAs via Hypernetworks for Subject-Style Conditioned Image Generation
- Scalable Text and Image Conditioned Video Generation
- Hidden in the Noise: Two-Stage Robust Watermarking for Images
- Learned Compression for Compressed Learning
- Learning Flow Fields in Attention for Controllable Person Image Generation
- ProcessBench: Identifying Process Errors in Mathematical Reasoning
- Unraveling the Complexity of Memory in RL Agents
- Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
- APOLLO: SGD-like Memory, AdamW-level Performance
- Neural LightRig