Wed, May 28, 2025


10 anos de computação heterogênea com C++ SYCL

O Khronos® Group comemora um marco importante: o décimo aniversário do SYCL. Publicado pela primeira vez em maio de 2015, o SYCL evoluiu de uma proposta ambiciosa para se tornar um componente essencial na programação heterogênea, permitindo que desenvolvedores escrevam código C++ de forma unificada e portátil para uma ampla gama de aceleradores — de CPUs e GPUs a FPGAs e hardware especializado em IA, de forma agnóstica ao fornecedor.
Recentemente, a comunidade de desenvolvedores e os membros do SYCL Working Group do Khronos se reuniram no International Workshop on OpenCL and SYCL (IWOCL 2025) para apresentar os avanços mais recentes no ecossistema SYCL e celebrar esta conquista.
De conceito a referência em computação de alto desempenho
A jornada do SYCL começou com uma especificação provisória apresentada em março de 2014, com sua primeira demonstração ocorrendo durante a SuperComputing 2014. Já em 2015, a versão inicial foi oficialmente ratificada. Desde então, o padrão amadureceu consideravelmente, acompanhando as crescentes demandas da computação moderna.
Inicialmente concebido como um modelo de programação C++ para OpenCL, o SYCL tornou-se um padrão robusto e independente de fornecedores, alimentando aplicações críticas em áreas como HPC, inteligência artificial, pesquisa científica e até software de produção gráfica — como o uso do backend SYCL no Blender Cycles, discutido na IWOCL.
“Na última década, o SYCL passou de uma ideia promissora para uma ferramenta indispensável na programação heterogênea”, afirma Tom Deakin, presidente do SYCL Working Group, professor na Universidade de Bristol e líder do grupo de pesquisa em computação de alto desempenho. “Sua proposta de um modelo de programação único e portável para múltiplas arquiteturas foi chave para sua ampla adoção.”
SYCL na prática: experiência com aceleração de vídeo
No ano de 2019 iniciei as pesquisas da especificação oneAPI Level Zero. Em 2020, desenvolvi uma solução de processamento de vídeo em SYS/C++ utilizando aceleração via codecs AVC, HEVC e AV1, disponibilizados pela biblioteca oneVPL — uma aplicação real do potencial do SYCL em ambientes de alto desempenho.
Use a força. Leia os fontes. Viva o SYCL C++.
Leia mais aqui: https://www.khronos.org/blog/a-decade-of-heterogeneous-c-compute-acceleration-with-sycl
Sun, May 25, 2025


Feliz dia da toalha e do Orgulho NERD!

O Dia do Orgulho Nerd, ou Dia do Orgulho Geek é uma iniciativa que advoga o direito de toda pessoa ser um nerd ou um geek. Teve origem na Espanha (“dia del orgullo friki”, em espanhol).[1]
O dia do orgulho nerd é celebrado em 25 de maio desde 2006, comemorando a première do primeiro filme da série Star Wars, em 1977. O dia 25 de maio também é o Dia da Toalha, em homenagem ao escritor Douglas Adams.
Origens
Em 2006, este dia foi celebrado pela primeira vez em toda a Espanha e na internet, graças à publicidade dada por alguns meios, como:
- Salas, Javier. “Comecocos y mangas toman la calle: la revancha de los frikis“, Telecinco, 2006-5-26. Página visitada em 2006-05-26.
- Perez, Javier. “Orgullo friki“, El Mundo, 2006-5-26. Página visitada em 2005-05-26.
- Ramos, David. “25 de mayo: Día del Orgullo Friki“, 20minutos, 2006-5-25. Página visitada em 2005-05-25.
A maior concentração aconteceu em Madri, onde 300 Nerds demonstraram seu orgulho com um pacman humano.
Comemorações de 2007
Em 2007 a celebração contou com mais ajuda de instituições oficiais (como o Circo Price, de Madri) e teve comemoração mais ampla por toda a Espanha. Atividades oficiais foram anunciadas no Pilar de la Horadada, Cádiz, Huesca, Calaf, Huelva, e Valência. Houve uma campanha Doação de Sangue Nerd. Entre outros atos, foi exibido o filme Gritos no corredor.
2008: O dia do Orgulho Nerd chega à América
Em 2008, o Dia do Orgulho Nerd atravessou o Atlântico e foi comemorado oficialmente na América, onde foi divulgado por numerosos bloggers, unidos pelo lançamento do site GeekPrideDay. O matemático e autor John Derbyshire, vencedor do Prêmio Livro de Euler e blogger geek, anunciou[2] que apareceria na parada da Quinta Avenida, vestido de número 57, na ala dos números primos – o que fez alguns bloggers dizerem que iriam procurá-lo.
Direitos e deveres dos nerds
Foi criado um manifesto para celebrar o primeiro Dia do Orgulho Nerd, que incluía a seguinte lista de direitos e deveres dos nerds:[3]Direitos
- O direito de ser nerd.[3]
- O direito de não ter que sair de casa.[3]
- O direito a não ter um par e ser virgem.[3]
- O direito de não gostar de futebol ou de qualquer outro esporte.[3]
- O direito de se associar com outros nerds.[3]
- O direito de ter poucos (ou nenhum) amigo.[3]
- O direito de ter o tanto de amigos nerds que quiser.[3]
- O direito de não ter que estar “na moda”.[3]
- O direito ao sobrepeso (ou subpeso) e de ter problemas de visão.[3]
- O direito de expressar sua nerdice.[3]
- O direito de dominar o mundo.[3]
Deveres
- Ser nerd, não importa o quê.[3]
- Tentar ser mais nerd do que qualquer um.[3]
- Se há uma discussão sobre um assunto nerd, poder dar sua opinião.[3]
- Guardar todo e qualquer objeto nerd que tiver.[3]
- Fazer todo o possível para exibir seus objetos nerds como se fosse um “museu da nerdice”.[3]
- Não ser um nerd generalizado. Você deve se especializar em algo.[3]
- Assistir a qualquer filme nerd na noite de estréia e comprar qualquer livro nerd antes de todo mundo.[3]
- Esperar na fila em toda noite de estreia. Se puder ir fantasiado, ou pelo menos com uma camisa relacionada ao tema, melhor ainda.[3]
- Não perder seu tempo em nada que não seja relacionado à nerdice.[3]
- Tentar dominar o mundo.[3]



Sun, May 04, 2025
Wed, Apr 30, 2025


Qwen3: a nova versão de modelos abertos da Alibaba
Já disponível na Multicortex, o Qwen3 é uma das suítes mais completas de modelos de linguagem de código aberto já lançadas. Desenvolvido pela equipe Qwen da Alibaba, ele traz desde modelos gigantes com desempenho de ponta até versões compactas que rodam localmente em hardwares mais modestos.

Neste artigo, faço um panorama geral da linha Qwen3, explico como os modelos foram treinados, analiso os principais benchmarks e mostro como começar a usá-los. Também vamos disponibilizar tutoriais sobre como rodar o Qwen3 localmente e ajustar os modelos — e este post será atualizado com os links assim que eles estiverem prontos.
Para ficar por dentro das novidades em IA, inscreva-se no nosso boletim gratuito The Median, enviado toda sexta-feira com os destaques da semana.
O que é o Qwen3?
O Qwen3 é a nova família de modelos de linguagem da Alibaba, com código aberto sob licença Apache 2.0. Um dos recursos mais inovadores é o “orçamento de raciocínio”: usuários podem ajustar diretamente o nível de raciocínio dos modelos, controlando a precisão e profundidade das respostas.

Aumentar o orçamento melhora o desempenho, especialmente em tarefas complexas como matemática, programação e ciências.
Principais modelos da linha Qwen3
Modelo | Tipo | Comprimento do contexto | Melhor para |
Qwen3-235B-A22B | MdE | 128K | Tarefas de pesquisa, fluxos de trabalho de agentes, cadeias de raciocínio longas |
Qwen3-30B-A3B | MdE | 128K | Raciocínio equilibrado com menor custo de inferência |
Qwen3-32B | Dense | 128K | Implantações de uso geral de alto nível |
Qwen3-14B | Dense | 128K | Aplicativos de médio porte que precisam de raciocínio sólido |
Qwen3-8B | Dense | 128K | Tarefas de raciocínio leves |
Qwen3-4B | Dense | 32K | Aplicativos menores, inferência mais rápida |
Qwen3-1.7B | Dense | 32K | Casos de uso móveis e incorporados |
Qwen3-0.6B | Dense | 32K | Configurações muito leves ou restritas |
MoE = Mixture of Experts: só parte dos parâmetros é usada a cada geração, economizando recursos.
Como os modelos foram treinados
Pré-treinamento em 3 fases, com 36 trilhões de tokens:
- Habilidades básicas com 30T tokens.
- Ênfase em matemática, STEM e código (5T tokens).
- Expansão para janelas de 32K com dados de contexto longo.
Pós-treinamento em 4 etapas:
- Aprendizado passo a passo (Cold Start)
- Aprimoramento via Reforço (RL)
- Equilíbrio entre raciocínio lento e respostas rápidas
- Ajuste geral com dados de instruções e tarefas de agentes
Modelos menores são destilados dos maiores, mantendo qualidade com menos recursos.
Resultados de Benchmark
Qwen3-235B-A22B lidera ou disputa o topo em quase todos os testes:
- ArenaHard (raciocínio): 95,6 (atrás apenas do Gemini 2.5 Pro)
- AIME’24: 85,7 em matemática avançada
- CodeForces Elo: 2056 — melhor que Gemini e DeepSeek
- LiveBench: 77.1, excelente para tarefas do mundo real
Qwen3-30B-A3B também impressiona:
- ArenaHard: 91,0 — supera QwQ-32B e GPT-4o
- CodeForces Elo: 1974 — desempenho competitivo com modelos maiores
Qwen3-4B se destaca para seu tamanho:
- AIME’24: 73,8 — melhor que muitos modelos maiores
- MultiIF: 66,3 — ótimo desempenho multilíngue para um 4B
Qual modelo usar?
- Tarefas exigentes? Vá de Qwen3-235B-A22B
- Bom desempenho com custo menor? Use Qwen3-30B-A3B
- Uso geral com latência previsível? Os modelos densos (32B, 14B…) são ideais
- Aplicações leves ou embarcadas? Opte por Qwen3-1.7B ou 0.6B
Conclusão
A linha Qwen3 oferece opções de alto desempenho para uma variedade de cenários — de agentes inteligentes a aplicações embarcadas. Com código aberto, janela de 128K tokens e arquitetura moderna, eles elevam o padrão dos modelos disponíveis publicamente.


Dream : Uma Nova Era na Geração de Texto com Modelos de Difusão

A Universidade de Hong Kong, em colaboração com o Huawei Noah’s Ark Lab, apresenta o Dream 7B, um modelo de linguagem baseado em difusão que marca um avanço significativo na geração de texto. Lançado como software de código aberto, o Dream 7B permite ajustar o número de etapas de difusão, oferecendo um equilíbrio dinâmico entre velocidade e qualidade — uma inovação promissora frente às arquiteturas autorregressivas tradicionais. Vejam o funcionamento no vídeo abaixo:
Arquitetura Inovadora: Difusão em Linguagem Natural
Com 7 bilhões de parâmetros, o Dream 7B adota uma abordagem de difusão discreta para a geração textual. Ao contrário dos modelos convencionais como GPT ou LLaMA, que produzem texto token a token da esquerda para a direita, o Dream 7B refina sequências inteiras simultaneamente, partindo de um estado completamente ruidoso.
Essa arquitetura permite ao modelo explorar o contexto de forma bidirecional, resultando em maior coerência e capacidade de raciocínio. Inicializado com os pesos do Qwen2.5 7B e treinado com cerca de 580 bilhões de tokens (provenientes de conjuntos como Dolma v1.7, OpenCoder e DCLM-Baseline), o Dream 7B combina fundamentos sólidos com inovação técnica.
Vantagens sobre Modelos Autorregressivos
O Dream 7B apresenta diversos diferenciais que o destacam:
- Contexto bidirecional: Ao processar a sequência inteira de uma vez, o modelo compreende melhor relações e restrições globais no texto.
- Raciocínio e planejamento aprimorados: Supera modelos equivalentes em tarefas complexas que exigem múltiplas etapas de raciocínio, como Sudoku e Countdown.
- Geração controlada e flexível: A geração não precisa seguir uma ordem fixa, permitindo preenchimentos arbitrários e produções condicionadas.
- Qualidade vs. desempenho ajustável: O número de passos de difusão pode ser personalizado para priorizar qualidade ou eficiência computacional conforme a demanda.
Desempenho em Benchmarks
Em benchmarks de linguagem, matemática e geração de código, o Dream 7B iguala ou supera modelos líderes de sua categoria, como LLaMA3 8B e Qwen2.5 7B. Em tarefas que envolvem raciocínio sob restrição, chega a competir com modelos significativamente maiores, como o DeepSeek V3 671B — evidência clara de sua eficiência estrutural.



Inovações de Treinamento
Entre as principais inovações utilizadas no treinamento do Dream 7B estão:
- Inicialização com pesos de modelos autorregressivos: Aproveita o conhecimento pré-existente do Qwen2.5 7B, otimizando tempo e recursos de treinamento.
- Reprogramação de ruído adaptativa ao contexto: Em vez de aplicar ruído uniforme, o modelo ajusta dinamicamente o nível de ruído por token, melhorando a eficácia do aprendizado de difusão.
Aplicações Práticas
O Dream 7B é ideal para aplicações onde modelos tradicionais enfrentam limitações:
- Conclusão e preenchimento de texto com restrições: Gera conteúdo em ordem arbitrária, ideal para completar trechos específicos ou condicionar a geração a frases-alvo.
- Decodificação customizável: Geração pode seguir diversas ordens, adaptando-se a diferentes tipos de tarefa.
- Ajuste de desempenho: Possibilita controle fino sobre a relação entre tempo de inferência e qualidade do texto.
Aprimoramento Supervisionado e Versão Instruct
Para melhorar a aderência a instruções, foi realizado um ajuste supervisionado com 1,8 milhão de pares de dados do Tulu 3 e SmolLM2. Após três épocas de refinamento, o modelo demonstrou desempenho equivalente a soluções autorregressivas em tarefas orientadas por comandos do usuário.
As versões resultantes — Dream-v0-Base-7B e Dream-v0-Instruct-7B — estão publicamente disponíveis, promovendo a experimentação aberta e o avanço da pesquisa.
Conclusão: O Futuro da Geração de Texto com Difusão
O Dream 7B desafia a hegemonia dos modelos autorregressivos e comprova que a modelagem por difusão é uma alternativa viável e promissora para tarefas de linguagem natural. Sua arquitetura flexível, aliada a resultados expressivos, abre caminho para uma nova geração de sistemas de IA mais versáteis e eficazes.
Com o lançamento em código aberto, a equipe da Universidade de Hong Kong impulsiona a inovação na área, permitindo que pesquisadores e desenvolvedores explorem novas fronteiras na geração de linguagem natural.
Fonte https://hkunlp.github.io/blog/2025/dream/#why-diffusion-for-text-generation
Mon, Apr 21, 2025


Desligando auto indenting no VIM/VI
Ao editar arquivos no Vim, o editor pode aplicar automaticamente regras de indentação que, embora úteis em muitas situações, podem ser indesejadas em outros contextos (como ao editar arquivos de configuração, logs ou trechos de código com formatação específica). Para desativar essas funcionalidades, você pode usar os seguintes comandos:
:setlocal noautoindent :setlocal nocindent :setlocal nosmartindent :setlocal indentexpr=
ou
:setl noai nocin nosi inde=
Abaixo, explico o que cada uma dessas opções faz:
-
:setl
(ou:setlocal
) — Aplica as configurações apenas ao buffer atual, sem afetar outros arquivos abertos. -
noai
(noautoindent
) — Desativa a cópia automática da indentação da linha anterior ao iniciar uma nova linha. -
nocin
(nocindent
) — Desativa a indentação baseada em sintaxe e estrutura do código, comum em linguagens como C. -
nosi
(nosmartindent
) — Impede que o Vim tente “adivinhar” a indentação com base na estrutura do código (como abrir chaves{
). -
inde=
— Limpa a expressão de indentação usada peloindentexpr
, garantindo que nenhuma lógica personalizada de indentação seja aplicada.
Com esse conjunto de comandos, você garante que o Vim não altere a indentação automaticamente, permitindo um controle total e manual sobre a formatação do seu texto.
A partir desse momento, o Vim deixará de aplicar indentação automática no buffer atual.
Tornando a configuração permanente
Se você quer que o Vim sempre abra com a indentação automática desativada, edite o arquivo ~/.vimrc
:
vim ~/.vimrc
Adicione estas linhas:
" Desativa indentação automática globalmente
set noautoindent
set nocindent
set nosmartindent
set indentexpr=
Aplicando apenas para arquivos específicos
Não quer desativar a indentação para tudo? Você pode aplicar a regra apenas para certos tipos de arquivos usando autocmd
:
" Desativa indentação automática apenas para arquivos .txt e .yaml
autocmd FileType txt,yaml setlocal noautoindent nocindent nosmartindent indentexpr=
Essa é uma forma elegante de manter a indentação automática em linguagens como Python ou C, e desabilitá-la onde ela atrapalha.
Conclusão
Saber como o Vim lida com indentação pode poupar muita dor de cabeça. Com comandos simples, você assume o controle do editor e molda o comportamento conforme seu fluxo de trabalho. Teste as opções acima e ajuste conforme sua necessidade.


openSUSE Leap 15.6 cool packages disponível!

Instalou o openSUSE Leap 15.5? E agora o que instalar? E os codecs proprietários ? E os codecs multimídia? Demorou mas foi concluído! O Cool Package é um processo que instala alguns software necessários para a dia a dia de um SUSEIRO e resolver todas as questões de dependências. O Cool Package disponibiliza:
- Thunderbird
- Codecs
- VLC
- KDEnlive
- DVDAuthor
- MPV
- ffmpeg
- Lame
- E outros…
A seguir o botão 1-click Install. que resolver estes questionamentos, pois este botão instala os primeiros softwares principais para a tarefa do dia a dia como: o cliente de email Thunderbird, VLC, MPV, Codecs proprietários e editores de vídeos. Qualquer dúvida, críticas e sugestões em cabelo@opensuse.org

Mon, Apr 14, 2025


GLM 4 outra super IA entre nós.

*** Imagem ilustrativa
Faz 4 horas que a nova geração da família GLM acaba de ser lançada, e o modelo GLM-4-32B-0414 está dando o que falar! Com incríveis 32 bilhões de parâmetros, essa IA open-source se posiciona no mesmo nível de gigantes como GPT-4o e DeepSeek-V3, superando-os em vários benchmarks – tudo isso com código aberto e licença MIT!
Destaques do GLM-4-32B:
- Treinado com 15 trilhões de tokens de dados de alta qualidade, incluindo dados sintéticos focados em raciocínio.
- Otimizado com rejection sampling e reforço por RL para tarefas de agentes, código, chamadas de função e busca com Q&A.
- Supera modelos como GPT-4o, Qwen2.5-Max e DeepSeek em testes como IFEval (87.6), TAU-Bench e SimpleQA.
- Equivalência com GPT-4o em chamadas de função (BFCL-v3).
- Suporte nativo ao Hugging Face Transformers desde o primeiro dia.
GLM-Z1-32B-0414 – Raciocínio profundo e preciso
Versão turbinada para lógica, matemática e programação. Desenvolvido com técnicas avançadas de RL e feedback por ranking pareado, esse modelo é ideal para tarefas complexas.
GLM-Z1-Rumination-32B-0414 – Pensamento prolongado, estilo pesquisa
Perfeito para problemas abertos e análises profundas (como comparar estratégias de IA entre cidades). Integra ferramentas de busca e múltiplas recompensas para gerar respostas mais inteligentes e fundamentadas.
GLM-Z1-9B-0414 – Pequeno notável
Mesmo com apenas 9B de parâmetros, essa versão mantém performance de ponta em raciocínio matemático e geral, sendo excelente para cenários com recursos limitados.
Todos os modelos estão disponíveis no Hugging Face Hub com integração total aos Transformers — prontos para uso local, sem complicações.
Se você curte IA open-source, raciocínio complexo e desempenho comparável aos maiores modelos do mercado, GLM-4 é sua próxima parada. Bora testar esse titã dos algoritmos?
#GLM4 #IAOpenSource #MachineLearning #DeepReasoning #Transformers #AGI #GLMZ1 #AIForAll


Feliz dia quântico!

O Dia Mundial do Quântico é celebrado anualmente no dia 14 de abril. A escolha desta data não é aleatória: ela faz referência à notação 4,14, que representa os dígitos iniciais, de forma arredondada, da constante de Planck — um dos pilares fundamentais da física quântica.
Essa constante, cujo valor exato é 4,1356677 × 10⁻¹⁵ elétron-volt segundo (eV·s), estabelece a relação entre a energia de uma partícula e a frequência da sua onda associada.
Em termos simples, trata-se de um valor extremamente pequeno, equivalente a 0,000 000 000 000 004 1356677 eV·s, e é essencial para descrever o comportamento das partículas subatômicas. Assim, o dia 14/4 simboliza a grandiosidade do infinitamente pequeno, homenageando a revolução científica trazida pela mecânica quântica.


OpenVINO 2025.1.0 Lançado
Como mantenedor do OpenVINO na distribuição OpenSUSE for INNOVATORS base de tecnologia MultiCortex, disponibilizo as principais novidades desta versão.

Maior cobertura em Gen AI e integração com frameworks para minimizar alterações no código:
- Novos modelos suportados: Phi-4 Mini, Jina CLIP v1 e Bce Embedding Base v1.
- O OpenVINO
Model Server agora suporta modelos VLM, incluindo Qwen2-VL, Phi-3.5-Vision e InternVL2.
- OpenVINO GenAI agora inclui recursos de image-to-image e inpainting para pipelines baseados em transformers como Flux.1 e Stable Diffusion 3.
- Prévia: O AI Playground agora utiliza o backend do OpenVINO GenAI para inferência altamente otimizada em PCs com IA.
Suporte ampliado para LLMs e novas técnicas de compressão:
- Redução no tamanho do binário via otimização do plugin CPU e remoção do kernel GEMM.
- Novos kernels otimizados para GPU melhoram o desempenho de modelos LSTM usados em reconhecimento de fala, modelagem de linguagem e previsão de séries temporais.
- Prévia: Implementação de Token Eviction no GenAI reduz o uso de memória do KV Cache ao descartar tokens irrelevantes, útil para chatbots e geração de código.
- Aceleração por NPU agora habilitada no OpenVINO Runtime e Model Server para modelos VLM em PCs com IA de baixa concorrência.
Mais portabilidade e desempenho para executar IA na borda, na nuvem ou localmente:
- Suporte para os mais recentes processadores Intel® Core
(série 2, codinome Bartlett Lake), Core
3 Processor N-series e Processor N-series (Twin Lake) no Windows.
- Otimizações de LLM em processadores Intel® Core
Ultra 200H com melhor latência do segundo token.
- Paged Attention e Continuous Batching ativados por padrão no plugin GPU.
- Prévia: Backend OpenVINO para Executorch trará inferência acelerada em CPUs, GPUs e NPUs Intel.
OpenVINO
Runtime
Geral
- Compressão de pesos agora pode ser feita com atraso para economizar memória.
- Registro de extensões por frontend (nova API).
- Tensors com mmap permitem leitura direta do disco com menos uso de memória (ex.: ao usar LoRa em GenAI).
Plugin de dispositivo CPU
- Quantização dinâmica de camadas Fully Connected com pesos assimétricos ativada em AVX2.
- Desempenho de LLMs com pesos comprimidos otimizado, especialmente na latência do primeiro token.
- Suporte a fusão de projeção QKV e MLP em BF16 no Windows em plataformas AMX.
- Kernel GEMM removido da biblioteca CPU.
- Suporte a modelos FP8 (f8e4m3 e f8e5m2) aprimorado.
Plugin de dispositivo GPU
- Latência do segundo token melhorada com otimizações no TLB e Group Query Attention.
- Latência do primeiro token reduzida com Paged Attention.
- Cache KV comprimido em Int8 ativado por padrão.
- Desempenho de modelos VLM melhorado com extensões XMX.
Plugin de dispositivo NPU
- Suporte a cache sem pesos e criptografia de blobs de LLMs.
- Novas APIs para carregar modelos do cache com menor uso de memória.
- Suporte a entrada/saída NF4 (4-bit NormalFloat).
- Correções de bugs: modelos com estado e erros com
zeContextDestroy
.
API Python
- Agora é possível criar
Tensor
diretamente a partir de uma imagem Pillow. - Redução no uso de memória em
export_model
,read_model
,compile_model
.
API Node.js
- Bindings GenAI agora disponíveis no pacote
genai-node
no npm.
Suporte a Frameworks
PyTorch
- Suporte ao PyTorch 2.6.
- Tradutores comuns para operações em PyTorch, TensorFlow, ONNX e JAX.
- Conversão de modelos FP8 e TTS com STFT/ISTFT ativada.
JAX
- Suporte validado para JAX 0.5.2 e Flax 0.10.4.
Keras 3
- Compatível com Keras 3.9.0.
- Testes mais granulares por operação.
TensorFlow Lite
- Suporte para modelos com tensores quantizados entre camadas em tempo de execução.
OpenVINO Model Server
Novos recursos principais:
- Suporte a modelos VLM com batching contínuo e envio de imagens no contexto do chat.
- Suporte a aceleração por NPU para geração de texto com endpoints de completions.
Melhorias gerais:
- Modelos e grafos
mediapipe
agora iniciáveis via linha de comando. - Demonstração de escalabilidade com múltiplas instâncias.
- Aumento do número de stop words permitido por requisição (4 → 16).
- Integração com a extensão VS Code Continue.
- Melhorias de desempenho para cargas de alta concorrência.
Mudanças críticas:
- Servidor gRPC agora é opcional. É obrigatório passar
--port
ou--rest_port
. - Correções em contexto de LLM (excede comprimento, erro se prompt muito longo, etc.).
- Melhorias de segurança, estabilidade e suporte ao cancelamento sem streaming.
Limitações conhecidas:
- Chat/completions só aceita imagens em base64, não em URL.
Neural Network Compression Framework (NNCF)
- Suporte preview para Treinamento Ciente de Quantização (QAT) com LoRA em PyTorch (método FQ_LORA).
- Novos métodos de compressão 4-bit para pesos em PyTorch.
- Redução no tempo e uso de memória em compressão GPTQ e mista.
- Novo tracing baseado em
TorchFunctionMode
. - Várias melhorias no backend TorchFX e adoção de quantizadores personalizados.
- Suporte preview para backend OpenVINO no ExecuTorch.
- Suporte a PyTorch 2.6.
OpenVINO Tokenizers
- Suporte ao modelo de tokenização Unigram.
- Compilação com ICU opcional para reduzir binário.
- Ajuste dinâmico de
max_length
epadding
com classe Tokenizer. - Dependência de
fast_tokenizer
removida.
OpenVINO GenAI
- Métodos demorados liberam o GIL.
- Suporte preview a Token Eviction.
- Bindings C e JavaScript para
LLMPipeline
. - suporte aos modelos
Phi-3-vision-128k-instruct
ePhi-3.5-vision-instruct
. - Novos pipelines de Image2image e Inpainting com FLUX e Stable Diffusion 3.
-
LLMPipeline
agora usa Paged Attention por padrão. - Streaming ocorre em thread separada.
- Template de chat aplicado mesmo com modo desativado (configurável).