Welcome to English Planet openSUSE

This is a feed aggregator that collects what the contributors to the openSUSE Project are writing on their respective blogs
To have your blog added to this aggregator, please read the instructions

Tue, Jan 14, 2025

IA Generativa no openSUSE

Como criadoror da iniciativa openSUSE Innovator e membro do programa Intel Innovator, tenho orgulho de disponibilizar nativamente os recursos de IA Generativa para CPUs e NPUs na distribuição openSUSE Linux. Ddesempenho um papel ativo para garantir que o repositório OpenVINO permaneça sempre atualizado, compatível com futuros hardwares e, ao mesmo tempo, mantenha a retrocompatibilidade com hardwares mais antigos, beneficiando toda a comunidade da distribuição openSUSE Linux.

O OpenVINO (Open Visual Inference and Neural Network Optimization) é uma das ferramentas mais importantes no ecossistema de Inteligência Artificial, especialmente para aplicações que exigem desempenho otimizado para inferência de modelos de aprendizado profundo. A versão 2024.6.0 traz avanços significativos em termos de compatibilidade, otimizações e suporte a modelos complexos, incluindo os de Inteligência Artificial Generativa, como os Modelos de Linguagem Extensa (LLMs).

Importância do OpenVINO no openSUSE Linux

  1. Integração com Hardware e Software: O OpenVINO oferece aceleração nativa em arquiteturas de CPU e GPU compatíveis com Intel, mas também tem flexibilidade para suportar outras plataformas. No openSUSE Linux, a combinação do kernel otimizado e a compatibilidade com bibliotecas avançadas faz com que o OpenVINO atinja seu potencial máximo.
  2. IA Generativa no Open Source: Em tempos de expansão da Inteligência Artificial Generativa, ferramentas como o OpenVINO democratizam o acesso a tecnologias de ponta, permitindo que desenvolvedores de todos os níveis criem soluções avançadas diretamente no openSUSE, sem a necessidade de hardware proprietário caro.
  3. Desempenho e Eficiência: O OpenVINO ajuda a reduzir significativamente o tempo de inferência e o uso de recursos, um ponto crítico para aplicações de LLMs que processam grandes volumes de dados em tempo real.
  4. Simplicidade para Desenvolvedores: Uma das maiores vantagens do OpenVINO é sua acessibilidade. Ele permite que até mesmo desenvolvedores iniciantes escrevam aplicações robustas com pouquíssimo código, enquanto ainda oferecem flexibilidade e personalização para projetos avançados.

Aplicação com LLM em 3 linhas de código

Com o OpenVINO, criar uma aplicação com um modelo de linguagem generativo pode ser tão simples quanto:

import openvino_genai as ov_genai
pipe = ov_genai.LLMPipeline("TinyLlama-1.1B-Chat-v1.0/", "CPU")
print(pipe.generate("Openvino é", max_new_tokens=100, do_sample=False))

Isso mostra como é fácil integrar tecnologias de IA Generativa diretamente no openSUSE Linux, aproveitando o OpenVINO para otimização e desempenho.

Conclusão

A presença do OpenVINO no openSUSE Linux reforça o papel do open source na liderança tecnológica da era da IA. Ele permite que empresas, desenvolvedores independentes e entusiastas criem aplicações eficientes, escaláveis e de alto impacto. Com ferramentas como essa, o openSUSE se consolida como uma plataforma poderosa para inovação em Inteligência Artificial Generativa.

Thu, Jan 09, 2025

CAG: Nova Fronteira na Geração de Conteúdo por IA

Nos últimos anos, a Inteligência Artificial (IA) tem evoluído a passos largos, oferecendo soluções inovadoras em diversas áreas. Uma das mais fascinantes é a geração de texto, um campo dominado por sistemas como GPT e outras arquiteturas de modelos de linguagem. No entanto, à medida que o uso da IA em aplicações do mundo real cresce, também surgem desafios relacionados à eficiência e à precisão. Nesse contexto, o Cache-Augmented Generation (CAG) desponta como uma abordagem promissora que pode competir diretamente com o Retrieval-Augmented Generation (RAG).

O Que é Cache-Augmented Generation?

O CAG é uma abordagem que utiliza um cache local para armazenar informações relevantes e frequentemente acessadas. Quando um modelo de IA precisa gerar uma resposta, ele primeiro consulta o cache antes de recorrer ao processamento completo de uma consulta. Isso contrasta com o RAG, que depende de bases de dados externas e mecanismos de busca para recuperar informações.

A ideia central do CAG é que muitas consultas têm padrões repetitivos ou são altamente correlacionadas a interações anteriores. Aproveitando esses padrões, o cache pode melhorar significativamente a eficiência do sistema e reduzir a dependência de infraestrutura externa.

Benefícios do CAG

  1. Eficiência Computacional: Ao evitar consultas repetidas a bases externas, o CAG reduz a carga computacional e o tempo de resposta.
  2. Privacidade e Segurança: Como os dados são armazenados localmente, há menos risco de violações de privacidade associadas ao envio de consultas para servidores externos.
  3. Redução de Custos: A menor dependência de servidores externos também implica redução de custos com infraestrutura e transferência de dados.
  4. Melhoria Contínua: Com um sistema de cache bem projetado, é possível ajustar dinamicamente quais informações são armazenadas, garantindo que o sistema evolua com o uso.

Como o CAG se Compara ao RAG?

O RAG é uma técnica poderosa, especialmente em cenários onde há necessidade de buscar informações atualizadas de grandes volumes de dados. No entanto, ele enfrenta desafios relacionados ao custo computacional e à latência. O CAG, por outro lado, oferece uma solução eficiente para casos em que há redundância nas consultas ou um conjunto relativamente estático de informações relevantes.

Uma abordagem não exclui a outra; na verdade, há cenários em que uma combinação de CAG e RAG pode ser a solução ideal, maximizando tanto eficiência quanto abrangência.

Desafios e Limitações do CAG

Apesar de suas vantagens, o CAG também enfrenta desafios. Por exemplo, a manutenção e atualização do cache requerem um planejamento cuidadoso. Além disso, a abordagem pode não ser ideal para situações em que o contexto ou as informações relevantes mudam rapidamente.

O Futuro do CAG

O desenvolvimento do CAG está apenas começando, mas seu potencial é inegável. Com a crescente demanda por soluções eficientes e seguras em IA, é provável que vejamos avanços significativos nessa área nos próximos anos. Além disso, à medida que as organizações buscam reduzir custos e melhorar a experiência do usuário, o CAG pode se tornar uma peça-chave em aplicações de geração de texto e além.

Conclusão

O Cache-Augmented Generation representa um passo significativo rumo à eficiência e à sustentabilidade em sistemas de IA. Embora ainda seja cedo para determinar seu impacto completo, é claro que o CAG tem o potencial de transformar como concebemos e implementamos soluções baseadas em IA. Fique de olho nessa tecnologia — ela pode estar moldando o futuro da interação humano-computador.

A imagem deste post é sensacionalista. Não acredito que o CAG vá eliminar o RAG. Pelo contrário, dados dinâmicos tornam o RAG uma opção mais eficiente, enquanto o CAG é mais indicado para dados estáticos e pode oferecer uma performance até 40 vezes superior ao RAG em cenários específicos.

Phi 4 eleva o nível das IAs.

A Microsoft surpreendeu o mercado de inteligência artificial com o lançamento do modelo Phi 4, que rapidamente se destacou por seu desempenho impressionante. Com uma arquitetura otimizada e avanços em treinamento e aplicação, o Phi 4 mostra que modelos menores podem competir diretamente, e até superar, gigantes de 70 bilhões de parâmetros. Vamos explorar os diferenciais desse modelo e como ele se compara a outras soluções disponíveis.

Diferenciais do Phi 4

  1. Eficiência de Parâmetros
    • Ao contrário dos modelos tradicionais que priorizam o aumento de parâmetros para melhorar o desempenho, o Phi 4 utiliza uma abordagem mais estratégica. Com um número significativamente menor de parâmetros, ele mantém a eficiência e a precisão. Isso é possível graças a otimizações profundas no design do modelo, que permitem alcançar resultados comparáveis ou superiores a modelos maiores.
  2. Foco em Dados de Alta Qualidade
    • Os desenvolvedores do Phi 4 enfatizaram a importância dos dados orgânicos de alta qualidade durante o treinamento. Eles argumentam que dados sintéticos, frequentemente usados para reduzir custos, não são substitutos adequados para a riqueza e diversidade de dados reais. Essa abordagem garante que o modelo tenha um entendimento mais refinado e confiável em aplicações do mundo real.
  3. Desempenho Matemático Superior
    • O Phi 4 foi projetado com foco em tarefas matemáticas complexas, demonstrando capacidade superior em benchmarks como álgebra linear e problemas de otimização. Segundo análises, ele superou consistentemente modelos maiores, incluindo opções de 70 bilhões de parâmetros, em cenários que exigem precisão numérica e raciocínio lógico.
  4. Menor Custo Computacional
    • Com um design mais compacto, o Phi 4 requer menos recursos computacionais para treinamento e inferência. Isso reduz não apenas os custos, mas também a pegada ambiental associada ao uso intensivo de energia em modelos maiores.

Comparação com Modelos de 70 Bilhões de Parâmetros

Os modelos maiores, como os de 70 bilhões de parâmetros, têm dominado o mercado, mas apresentam desafios consideráveis. Aqui está como o Phi 4 se compara:

Característica Phi 4 Modelos de 70 Bilhões
Tamanho Menor Significativamente maior
Custo Computacional Baixo Alto
Precisão em Matemática Superior Variável
Dependência de Dados Dados orgânicos de alta qualidade Maior uso de dados sintéticos
Escalabilidade Fácil Complexa

O diferencial mais evidente do Phi 4 é sua capacidade de resolver problemas matemáticos com uma precisão que supera os modelos maiores, demonstrando que qualidade e eficiência podem compensar a falta de volume de parâmetros.

Implicações do Phi 4 no Mercado de IA

A chegada do Phi 4 inaugura uma nova era na inteligência artificial, onde o foco não é apenas no tamanho do modelo, mas na eficiência e qualidade dos dados utilizados. Essa abordagem redefine o paradigma atual, provando que é possível equilibrar custo, desempenho e impacto ambiental.

Com o avanço de modelos como o Phi 4, é provável que o mercado de IA evolua para priorizar soluções otimizadas e específicas para domínios, em vez de confiar exclusivamente em modelos gigantes e generalistas.

Conclusão

O Phi 4 é um exemplo claro de que inovação não depende apenas de expansão, mas também de refinamento. Ao redefinir o que é possível com um número menor de parâmetros e um foco em dados de alta qualidade, ele estabelece um novo padrão para o desenvolvimento de modelos de IA. Conforme a comunidade de IA busca soluções mais acessíveis, eficientes e sustentáveis, o Phi 4 pode se tornar um marco transformador na história da inteligência artificial.

Sat, Jan 04, 2025

Gaze-LLE: Estimativa de alvo.

A estimativa do alvo do olhar, ou prever para onde uma pessoa está olhando em uma cena, é um desafio importante na pesquisa de inteligência artificial. Essa tarefa exige a integração de informações como a orientação da cabeça e o contexto visual. No entanto, métodos tradicionais enfrentam limitações, como altos custos computacionais e a necessidade de grandes volumes de dados rotulados, tornando difícil a implementação em tempo real e a escalabilidade dessas soluções.

Para superar essas barreiras, pesquisadores do Georgia Institute of Technology e da University of Illinois Urbana-Champaign desenvolveram o Gaze-LLE, uma arquitetura eficiente e simplificada para estimativa de olhar. Baseado em um codificador visual DINOv2 estático e um decodificador minimalista, o Gaze-LLE reduz em 95% os cálculos necessários, eliminando arquiteturas complexas de múltiplas ramificações. Essa abordagem compacta é altamente eficiente sem sacrificar a precisão.

O Gaze-LLE utiliza dois componentes principais: um codificador visual congelado que extrai recursos robustos e um decodificador leve que combina informações da cena com a posição da cabeça. Esse sistema produz mapas de calor que identificam possíveis alvos de olhar e realiza classificações rápidas, utilizando uma perda simples de entropia cruzada pixel a pixel para treinamento direto. Testado em conjuntos de dados como GazeFollow e ChildPlay, o modelo apresentou resultados notáveis em eficiência e precisão, superando métodos anteriores.

Os benchmarks do Gaze-LLE confirmam sua superioridade, com métricas como AUC de 0,958 e erro L2 de 0,099 no GazeFollow, além de tempos de treinamento significativamente reduzidos, alcançando convergência em menos de 1,5 horas de GPU. A arquitetura também se destaca pela forte generalização em diferentes conjuntos de dados sem necessidade de ajuste fino. Esses avanços reforçam o potencial de modelos otimizados para aplicações de estimativa de olhar precisas e flexíveis no campo da IA.

Fonte: https://github.com/fkryan/gazelle

Thu, Jan 02, 2025

Fri, Dec 27, 2024

OpenVINO 2024.6.0 lançado!

Novidades

  • A versão OpenVINO 2024.6 inclui atualizações para maior estabilidade e melhoria no desempenho de LLMs.
  • Suporte introduzido para gráficos Intel® Arc™ Série B (anteriormente conhecidos como Battlemage).
  • Implementadas otimizações para melhorar o tempo de inferência e o desempenho de LLMs em NPUs.
  • Melhorias no desempenho de LLMs com otimizações da API GenAI e correções de bugs.

OpenVINO™ Runtime

Plugin de Dispositivo para CPU

  • O cache KV agora utiliza inteiros não assinados de 8 bits assimétricos (U8) como precisão padrão, reduzindo o estresse de memória para LLMs e aumentando seu desempenho. Essa opção pode ser controlada pelos metadados do modelo.
  • Qualidade e precisão foram aprimoradas para modelos selecionados com diversas correções de bugs.

Plugin de Dispositivo para GPU

  • Foram introduzidas otimizações na cópia de memória do dispositivo para inferência com gráficos Intel® Arc™ Série B (anteriormente conhecidos como Battlemage). Como não utilizam cache L2 para copiar memória entre o dispositivo e o host, uma operação de cópia dedicada é usada, caso as entradas ou resultados não sejam esperados na memória do dispositivo.
  • Inferência com ChatGLM4 em GPUs foi otimizada.

Plugin de Dispositivo para NPU

  • O desempenho de LLMs e o tempo de inferência foram aprimorados com otimizações de memória.

OpenVINO.GenAI

  • O exemplo encrypted_model_causal_lm agora está disponível, demonstrando como descriptografar um modelo.

Outras Alterações e Problemas Conhecidos

Jupyter Notebooks

  • Assistente visual-linguístico com GLM-Edge-V e OpenVINO.
  • IA Local e OpenVINO.
  • Compreensão e geração multimodal com Janus e OpenVINO.

Mais detalhes : https://docs.openvino.ai/2024/about-openvino/release-notes-openvino.html

Modelos brasileiros de IA em CPU.

A inteligência artificial com DNA brasileiro está conquistando o mundo! Modelos desenvolvidos no Brasil estão ganhando destaque global graças a iniciativas que ampliam a acessibilidade dessas tecnologias. Descubra como essas inovações estão levando a criatividade e o talento nacional para novos horizontes no cenário internacional.

Dois modelos de Inteligência Artificial (IA) com forte participação brasileira ganharam destaque internacional ao serem disponibilizados publicamente por meio da plataforma Intel OpenVINO. O MED-LLM-BR, desenvolvido pelo HAILab da PUC-PR, gera dados sintéticos de saúde para treinar modelos de IA sem comprometer a privacidade dos pacientes. Originalmente dependente de GPUs, o modelo foi adaptado por Alessandro “Cabelo” Faria para operar em computadores com processadores Intel a partir da 6ª geração, ampliando sua acessibilidade no setor de saúde.

Outro exemplo é o Tucano, um modelo de IA treinado com o maior banco de dados da Alemanha, mas adaptado para compreender nuances culturais brasileiras. Essa adaptação corrige limitações de modelos estrangeiros que não captam expressões e contextos locais. Com o suporte do Intel OpenVINO, o Tucano também pode ser executado eficientemente em CPUs Intel de 6ª geração ou superiores, democratizando o uso de IA no Brasil.

Leia mais no artigo da Intel.

Wed, Dec 18, 2024

A semana mais insana de 2024, um cinema de papers.

Esta semana compramos muita pipoca na MultiCortex, pois foi um absoluto cinema de papers no setor de IA. Acreditamos que foi a semana mais insana de 2024 marcada por avanços significativos no campo da inteligência artificial, com a publicação de diversos artigos que abordam desde melhorias em arquiteturas de modelos até questões de segurança e eficiência. A seguir, a lista desses trabalhos:

  • Byte Latent Transformer
  • Training Large Language Models to Reason in a Continuous Latent Space
  • Language Modeling in a Sentence Representation Space
  • Phi-4 Technical Report – Best-of-N Jailbreaking
  • Forking Paths in Neural Text Generation
  • Refusal Tokens – [MASK] is All You Need
  • Explore Theory-of-Mind
  • Obfuscated Activations Bypass LLM Latent-Space Defenses
  • The Pitfalls of Memorization
  • How to Merge Your Multimodal Models Over Time?
  • Machine Unlearning Doesn’t Do What You Think
  • Understanding Gradient Descent through the Training Jacobian
  • An Evolved Universal Transformer Memory
  • Transformers Struggle to Learn to Search
  • Transformers Can Navigate Mazes With Multi-Step Prediction
  • Frontier Models are Capable of In-context Scheming
  • Mixture of Monosemantic Experts for Transformers
  • Learning to Merge LoRAs via Hypernetworks for Subject-Style Conditioned Image Generation
  • Scalable Text and Image Conditioned Video Generation
  • Hidden in the Noise: Two-Stage Robust Watermarking for Images
  • Learned Compression for Compressed Learning
  • Learning Flow Fields in Attention for Controllable Person Image Generation
  • ProcessBench: Identifying Process Errors in Mathematical Reasoning
  • Unraveling the Complexity of Memory in RL Agents
  • Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  • APOLLO: SGD-like Memory, AdamW-level Performance
  • Neural LightRig

Mon, Dec 16, 2024

Apollo LMM suporta até 1h de video.

O laboratório da MultiCortex começa testar os modelos Apollo da Meta que estão disponíveis em três tamanhos (1,5B, 3B e 7B) e processam até uma hora de vídeo. Eles se destacam na compreensão avançada de vídeos, respondendo a perguntas complexas, interpretando a linha temporal e sustentando diálogos sobre o conteúdo exibido. O Apollo-3B rivaliza ou supera modelos de 7B, enquanto o Apollo-7B supera até modelos de 30B+ em benchmarks de vídeo, demonstrando eficiência superior e excelente relação custo-benefício.

O Apollo LLM é uma nova geração de modelos de linguagem multimodal (LMMs) que redefine a forma como as máquinas entendem vídeos. Fruto de uma colaboração entre a Meta GenAI e a Universidade de Stanford, o Apollo se destaca por sua eficiência e inovação no campo da inteligência artificial.

Principais Diferenciais

  1. Consistência de Escalonamento (“Scaling Consistency”)
    O conceito de “Scaling Consistency” permite que decisões de design feitas em modelos menores sejam aplicadas de forma confiável a modelos maiores. Isso reduz drasticamente o custo computacional e o tempo de desenvolvimento.
  2. Otimização de Estratégias de Treinamento
    O Apollo explora cronogramas de treinamento e combinações de dados. A descoberta de que a amostragem “fps” (frames por segundo) é mais eficiente que a amostragem uniforme impacta diretamente o desempenho do modelo.
  3. Tokenização Eficiente
    O modelo encontrou o equilíbrio ideal de 8 a 32 tokens por frame, além de usar técnicas de “token integration” para integrar tokens de diferentes quadros de maneira eficaz.
  4. Benchmark Personalizado (ApolloBench)
    Para medir a eficácia dos LMMs de vídeo, o Apollo introduziu o ApolloBench, um benchmark personalizado que facilita a avaliação de diferentes modelos.
  5. Uso de Encoders de Alto Desempenho
    O SigLIP-SO400M foi identificado como o melhor encoder único, mas a combinação deste com o InternVideo2 proporcionou um desempenho geral ainda mais robusto.
  6. Aprimoramento Contínuo
    O modelo melhora a performance de seus encoders em dados de vídeo e ajusta a mistura de dados de texto e vídeo, garantindo desempenho superior em tarefas de raciocínio e percepção.

Aplicações Práticas

O Apollo LLM se destaca em tarefas que exigem entendimento multimodal, incluindo:

  • Assistentes de IA mais inteligentes
  • Análise de vídeos para segurança e vigilância
  • Interpretação de vídeos para ensino e aprendizado

Desempenho Comparado

O Apollo superou diversos concorrentes em benchmarks de raciocínio espacial, percepção e compreensão de conteúdo de vídeo. Seu desempenho foi validado em testes no TempCompass, MLVU e VideoMME.

O Apollo LLM é uma solução de ponta que promete transformar a interação homem-máquina em ambientes multimodais. Para mais detalhes, acesse o site oficial do Apollo.

https://arxiv.org/pdf/2412.10360

Fri, Dec 06, 2024

Llama 3.3 70b oferece desempenho similar ao 405b!

Inacreditável, o novo modelo Llama 3.3 de 70B da Meta, que oferece desempenho semelhante ao modelo Llama 3.1 de 405B! Modelos já disponível na MultiCortex!

O Meta Llama 3.3 é um modelo de linguagem grande multilíngue (LLM) pré-treinado e ajustado para instruções, com capacidade de 70B (texto para texto). O modelo Llama 3.3, ajustado apenas para texto e instruções, é otimizado para casos de uso de diálogo multilíngue e supera muitos dos modelos de chat abertos e fechados disponíveis nos benchmarks comuns da indústria.

Benchmark do Llama 3.3

Idiomas suportados: inglês, alemão, francês, italiano, português, hindi, espanhol e tailandês. Novas capacidades

Esta versão introduz novas capacidades, incluindo uma janela de contexto mais longa, entradas e saídas multilíngues e possíveis integrações por desenvolvedores com ferramentas de terceiros. Construir com essas novas capacidades requer considerações específicas, além das melhores práticas que geralmente se aplicam a todos os casos de uso de IA Gerativa.

Uso de ferramentas: Assim como no desenvolvimento de software padrão, os desenvolvedores são responsáveis pela integração do LLM com as ferramentas e serviços de sua escolha. Eles devem definir uma política clara para seu caso de uso e avaliar a integridade dos serviços de terceiros utilizados para estar cientes das limitações de segurança e proteção ao usar esta capacidade. Consulte o Guia de Uso Responsável para melhores práticas sobre a implantação segura das salvaguardas de terceiros.

Multilinguismo: Llama 3.3 suporta 7 idiomas além do inglês: francês, alemão, hindi, italiano, português, espanhol e tailandês. O Llama pode ser capaz de produzir texto em outros idiomas que não aqueles que atendem aos limiares de desempenho para segurança e utilidade. Desencorajamos fortemente os desenvolvedores a usar este modelo para conversar em idiomas não suportados sem implementar o ajuste fino e controles de sistema alinhados com suas políticas e as melhores práticas compartilhadas no Guia de Uso Responsável.