Sat, Jan 04, 2025


Gaze-LLE: Estimativa de alvo.

A estimativa do alvo do olhar, ou prever para onde uma pessoa está olhando em uma cena, é um desafio importante na pesquisa de inteligência artificial. Essa tarefa exige a integração de informações como a orientação da cabeça e o contexto visual. No entanto, métodos tradicionais enfrentam limitações, como altos custos computacionais e a necessidade de grandes volumes de dados rotulados, tornando difícil a implementação em tempo real e a escalabilidade dessas soluções.
Para superar essas barreiras, pesquisadores do Georgia Institute of Technology e da University of Illinois Urbana-Champaign desenvolveram o Gaze-LLE, uma arquitetura eficiente e simplificada para estimativa de olhar. Baseado em um codificador visual DINOv2 estático e um decodificador minimalista, o Gaze-LLE reduz em 95% os cálculos necessários, eliminando arquiteturas complexas de múltiplas ramificações. Essa abordagem compacta é altamente eficiente sem sacrificar a precisão.

O Gaze-LLE utiliza dois componentes principais: um codificador visual congelado que extrai recursos robustos e um decodificador leve que combina informações da cena com a posição da cabeça. Esse sistema produz mapas de calor que identificam possíveis alvos de olhar e realiza classificações rápidas, utilizando uma perda simples de entropia cruzada pixel a pixel para treinamento direto. Testado em conjuntos de dados como GazeFollow e ChildPlay, o modelo apresentou resultados notáveis em eficiência e precisão, superando métodos anteriores.
Os benchmarks do Gaze-LLE confirmam sua superioridade, com métricas como AUC de 0,958 e erro L2 de 0,099 no GazeFollow, além de tempos de treinamento significativamente reduzidos, alcançando convergência em menos de 1,5 horas de GPU. A arquitetura também se destaca pela forte generalização em diferentes conjuntos de dados sem necessidade de ajuste fino. Esses avanços reforçam o potencial de modelos otimizados para aplicações de estimativa de olhar precisas e flexíveis no campo da IA.

Thu, Jan 02, 2025


Fri, Dec 27, 2024


OpenVINO 2024.6.0 lançado!

Novidades
- A versão OpenVINO 2024.6 inclui atualizações para maior estabilidade e melhoria no desempenho de LLMs.
- Suporte introduzido para gráficos Intel® Arc
Série B (anteriormente conhecidos como Battlemage).
- Implementadas otimizações para melhorar o tempo de inferência e o desempenho de LLMs em NPUs.
- Melhorias no desempenho de LLMs com otimizações da API GenAI e correções de bugs.
OpenVINO
Runtime
Plugin de Dispositivo para CPU
- O cache KV agora utiliza inteiros não assinados de 8 bits assimétricos (U8) como precisão padrão, reduzindo o estresse de memória para LLMs e aumentando seu desempenho. Essa opção pode ser controlada pelos metadados do modelo.
- Qualidade e precisão foram aprimoradas para modelos selecionados com diversas correções de bugs.
Plugin de Dispositivo para GPU
- Foram introduzidas otimizações na cópia de memória do dispositivo para inferência com gráficos Intel® Arc
Série B (anteriormente conhecidos como Battlemage). Como não utilizam cache L2 para copiar memória entre o dispositivo e o host, uma operação de cópia dedicada é usada, caso as entradas ou resultados não sejam esperados na memória do dispositivo.
- Inferência com ChatGLM4 em GPUs foi otimizada.
Plugin de Dispositivo para NPU
- O desempenho de LLMs e o tempo de inferência foram aprimorados com otimizações de memória.
OpenVINO.GenAI
- O exemplo
encrypted_model_causal_lm
agora está disponível, demonstrando como descriptografar um modelo.
Outras Alterações e Problemas Conhecidos
Jupyter Notebooks
- Assistente visual-linguístico com GLM-Edge-V e OpenVINO.
- IA Local e OpenVINO.
- Compreensão e geração multimodal com Janus e OpenVINO.
Mais detalhes : https://docs.openvino.ai/2024/about-openvino/release-notes-openvino.html


Modelos brasileiros de IA em CPU.
A inteligência artificial com DNA brasileiro está conquistando o mundo! Modelos desenvolvidos no Brasil estão ganhando destaque global graças a iniciativas que ampliam a acessibilidade dessas tecnologias. Descubra como essas inovações estão levando a criatividade e o talento nacional para novos horizontes no cenário internacional.

Dois modelos de Inteligência Artificial (IA) com forte participação brasileira ganharam destaque internacional ao serem disponibilizados publicamente por meio da plataforma Intel OpenVINO. O MED-LLM-BR, desenvolvido pelo HAILab da PUC-PR, gera dados sintéticos de saúde para treinar modelos de IA sem comprometer a privacidade dos pacientes. Originalmente dependente de GPUs, o modelo foi adaptado por Alessandro “Cabelo” Faria para operar em computadores com processadores Intel a partir da 6ª geração, ampliando sua acessibilidade no setor de saúde.
Outro exemplo é o Tucano, um modelo de IA treinado com o maior banco de dados da Alemanha, mas adaptado para compreender nuances culturais brasileiras. Essa adaptação corrige limitações de modelos estrangeiros que não captam expressões e contextos locais. Com o suporte do Intel OpenVINO, o Tucano também pode ser executado eficientemente em CPUs Intel de 6ª geração ou superiores, democratizando o uso de IA no Brasil.
Leia mais no artigo da Intel.
Wed, Dec 18, 2024


A semana mais insana de 2024, um cinema de papers.

Esta semana compramos muita pipoca na MultiCortex, pois foi um absoluto cinema de papers no setor de IA. Acreditamos que foi a semana mais insana de 2024 marcada por avanços significativos no campo da inteligência artificial, com a publicação de diversos artigos que abordam desde melhorias em arquiteturas de modelos até questões de segurança e eficiência. A seguir, a lista desses trabalhos:
- Byte Latent Transformer
- Training Large Language Models to Reason in a Continuous Latent Space
- Language Modeling in a Sentence Representation Space
- Phi-4 Technical Report – Best-of-N Jailbreaking
- Forking Paths in Neural Text Generation
- Refusal Tokens – [MASK] is All You Need
- Explore Theory-of-Mind
- Obfuscated Activations Bypass LLM Latent-Space Defenses
- The Pitfalls of Memorization
- How to Merge Your Multimodal Models Over Time?
- Machine Unlearning Doesn’t Do What You Think
- Understanding Gradient Descent through the Training Jacobian
- An Evolved Universal Transformer Memory
- Transformers Struggle to Learn to Search
- Transformers Can Navigate Mazes With Multi-Step Prediction
- Frontier Models are Capable of In-context Scheming
- Mixture of Monosemantic Experts for Transformers
- Learning to Merge LoRAs via Hypernetworks for Subject-Style Conditioned Image Generation
- Scalable Text and Image Conditioned Video Generation
- Hidden in the Noise: Two-Stage Robust Watermarking for Images
- Learned Compression for Compressed Learning
- Learning Flow Fields in Attention for Controllable Person Image Generation
- ProcessBench: Identifying Process Errors in Mathematical Reasoning
- Unraveling the Complexity of Memory in RL Agents
- Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
- APOLLO: SGD-like Memory, AdamW-level Performance
- Neural LightRig
Mon, Dec 16, 2024


Apollo LMM suporta até 1h de video.

O laboratório da MultiCortex começa testar os modelos Apollo da Meta que estão disponíveis em três tamanhos (1,5B, 3B e 7B) e processam até uma hora de vídeo. Eles se destacam na compreensão avançada de vídeos, respondendo a perguntas complexas, interpretando a linha temporal e sustentando diálogos sobre o conteúdo exibido. O Apollo-3B rivaliza ou supera modelos de 7B, enquanto o Apollo-7B supera até modelos de 30B+ em benchmarks de vídeo, demonstrando eficiência superior e excelente relação custo-benefício.
O Apollo LLM é uma nova geração de modelos de linguagem multimodal (LMMs) que redefine a forma como as máquinas entendem vídeos. Fruto de uma colaboração entre a Meta GenAI e a Universidade de Stanford, o Apollo se destaca por sua eficiência e inovação no campo da inteligência artificial.
Principais Diferenciais
-
Consistência de Escalonamento (“Scaling Consistency”)
O conceito de “Scaling Consistency” permite que decisões de design feitas em modelos menores sejam aplicadas de forma confiável a modelos maiores. Isso reduz drasticamente o custo computacional e o tempo de desenvolvimento. -
Otimização de Estratégias de Treinamento
O Apollo explora cronogramas de treinamento e combinações de dados. A descoberta de que a amostragem “fps” (frames por segundo) é mais eficiente que a amostragem uniforme impacta diretamente o desempenho do modelo. -
Tokenização Eficiente
O modelo encontrou o equilíbrio ideal de 8 a 32 tokens por frame, além de usar técnicas de “token integration” para integrar tokens de diferentes quadros de maneira eficaz. -
Benchmark Personalizado (ApolloBench)
Para medir a eficácia dos LMMs de vídeo, o Apollo introduziu o ApolloBench, um benchmark personalizado que facilita a avaliação de diferentes modelos. -
Uso de Encoders de Alto Desempenho
O SigLIP-SO400M foi identificado como o melhor encoder único, mas a combinação deste com o InternVideo2 proporcionou um desempenho geral ainda mais robusto. -
Aprimoramento Contínuo
O modelo melhora a performance de seus encoders em dados de vídeo e ajusta a mistura de dados de texto e vídeo, garantindo desempenho superior em tarefas de raciocínio e percepção.
Aplicações Práticas
O Apollo LLM se destaca em tarefas que exigem entendimento multimodal, incluindo:
- Assistentes de IA mais inteligentes
- Análise de vídeos para segurança e vigilância
- Interpretação de vídeos para ensino e aprendizado
Desempenho Comparado
O Apollo superou diversos concorrentes em benchmarks de raciocínio espacial, percepção e compreensão de conteúdo de vídeo. Seu desempenho foi validado em testes no TempCompass, MLVU e VideoMME.
O Apollo LLM é uma solução de ponta que promete transformar a interação homem-máquina em ambientes multimodais. Para mais detalhes, acesse o site oficial do Apollo.
https://arxiv.org/pdf/2412.10360

Fri, Dec 06, 2024


Llama 3.3 70b oferece desempenho similar ao 405b!

Inacreditável, o novo modelo Llama 3.3 de 70B da Meta, que oferece desempenho semelhante ao modelo Llama 3.1 de 405B! Modelos já disponível na MultiCortex!
O Meta Llama 3.3 é um modelo de linguagem grande multilíngue (LLM) pré-treinado e ajustado para instruções, com capacidade de 70B (texto para texto). O modelo Llama 3.3, ajustado apenas para texto e instruções, é otimizado para casos de uso de diálogo multilíngue e supera muitos dos modelos de chat abertos e fechados disponíveis nos benchmarks comuns da indústria.
Benchmark do Llama 3.3

Idiomas suportados: inglês, alemão, francês, italiano, português, hindi, espanhol e tailandês. Novas capacidades
Esta versão introduz novas capacidades, incluindo uma janela de contexto mais longa, entradas e saídas multilíngues e possíveis integrações por desenvolvedores com ferramentas de terceiros. Construir com essas novas capacidades requer considerações específicas, além das melhores práticas que geralmente se aplicam a todos os casos de uso de IA Gerativa.
Uso de ferramentas: Assim como no desenvolvimento de software padrão, os desenvolvedores são responsáveis pela integração do LLM com as ferramentas e serviços de sua escolha. Eles devem definir uma política clara para seu caso de uso e avaliar a integridade dos serviços de terceiros utilizados para estar cientes das limitações de segurança e proteção ao usar esta capacidade. Consulte o Guia de Uso Responsável para melhores práticas sobre a implantação segura das salvaguardas de terceiros.
Multilinguismo: Llama 3.3 suporta 7 idiomas além do inglês: francês, alemão, hindi, italiano, português, espanhol e tailandês. O Llama pode ser capaz de produzir texto em outros idiomas que não aqueles que atendem aos limiares de desempenho para segurança e utilidade. Desencorajamos fortemente os desenvolvedores a usar este modelo para conversar em idiomas não suportados sem implementar o ajuste fino e controles de sistema alinhados com suas políticas e as melhores práticas compartilhadas no Guia de Uso Responsável.


IA para o setor de Saúde.
O paper “Developing Resource-Efficient Clinical LLMs for Brazilian Portuguese” referente aos dois Modelos de Linguagem Médica em Português conquista o prêmio de 3º melhor artigo científico no BRACIS – Brazilian Conference on Intelligent Systems, o maior evento científico de IA no Brasil!
O 𝗠𝗘𝗗-𝗟𝗟𝗠-𝗕𝗥 foi criado para geração de dados sintéticos no setor de saúde, assim contribuindo para um melhor treinamento de modelos neste setor. Neste contexto uma colaboração inovadora entre Comsentimento e HAILab-PUCPR – Health Artificial Intelligence Lab da Pontifícia Universidade Católica do Paraná, surgiu a iniciativa do projeto 𝗠𝗘𝗗-𝗟𝗟𝗠-𝗕𝗥 que visa criar recursos e expandir as fronteiras do processamento de linguagem natural na área médica em português.
Baseado no Brazil Journal , o setor da saúde é um dos que mais deverão capturar os ganhos da inteligência artificial. Porém, apesar do potencial, o Brasil ainda patina na organização e até mesmo na coleta desses dados.
“Antes de falarmos de unificação de dados, de um sistema como o Open Banking para a saúde e para a IA ser mais eficaz, vamos precisar ter os dados,” disse Sidney Klajner, presidente do Einstein no evento Saúde não tem preço. Mas tem custo, realizado pelo Brazil Journal no último dia 26 de outubro.
Este modelo humildemente disponibilizo em openVINO para fazer inferência sem o uso de GPU utilizando apenas CPU e/ou NPU Intel, além de permitir o processamento em processadores antigos.
Mais informação aqui: https://github.com/cabelo/MED-LLM-BR-openvino
Wed, Dec 04, 2024


Tucano em openVINO
Acabo de disponibilizar oficialmente o modelo Tucano na tecnologia de inferência openVINO. O modelo de linguagem Tucano agora esta disponível com a tecnologia openVINO, assim permitindo que o modelo seja executado eficientemente em CPUs sem necessidade de GPUs. Esta compatibilidade torna o modelo acessível para utilização em computadores lançados em 2016 ou mais recentes, democratizando o acesso a tecnologias de processamento de linguagem natural avançadas e expandindo sua aplicabilidade a uma variedade maior de hardware.
O modelo “Tucano” é um modelo de linguagem desenvolvido especificamente para entender e processar texto em português. Baseado na arquitetura de transformadores, ele é treinado com uma vasta quantidade de textos em português para captar nuances linguísticas e contextuais, tornando-se uma ferramenta poderosa para tarefas de processamento de linguagem natural, como resumo de textos e geração de conteúdo em português.
Utilizando técnicas avançadas como o “Supervised Fine-Tuning” (SFT) e “Direct Preference Optimization” (DPO), os modelos da série Tucano buscam otimizar a performance em cenários instrucionais. Isso permite que o modelo não apenas entenda e gere texto, mas também execute tarefas com instruções específicas, tornando-o ideal para aplicações de inteligência artificial que requerem interações precisas e contextuais em português.
Pesquisadores da Universidade de Bonn na Alemanha desenvolveram o “Gigaverbo”, o maior banco de dados público em português destinado ao treinamento de modelos de inteligência artificial (IA) como os LLMs. Este banco de dados inclui 145 milhões de documentos, totalizando 200 bilhões de tokens. Este recurso foi criado para ajudar a democratizar o acesso à tecnologia de IA em português, oferecendo uma ferramenta aberta que também serve para preservar a cultura linguística e brasileira.
Exemplo: https://github.com/cabelo/Tucano-2b4-Instruct-openvino
Modelo: https://huggingface.co/cabelo/Tucano-2b4-Instruct-fp16-ov
Sat, Nov 23, 2024


Exame de sangue com celular.

A inovação chega ao mundo dos microscópios com o lançamento de um modelo portátil que promete revolucionar a maneira como profissionais e entusiastas da ciência transportam e utilizam esse tipo de equipamento. Diferenciando-se por sua portabilidade sem comprometer a eficácia, este microscópio incorpora uma lente inovadora equipada com milhares de nano ventosas. Essas ventosas permitem que a lente se fixe de maneira segura e instantânea em qualquer lente de smartphone, tornando o dispositivo altamente compatível tanto com aparelhos Android quanto com iPhones. Essa característica assegura que o usuário possa realizar observações científicas precisas em qualquer lugar, sem a necessidade de equipamentos pesados ou estacionários.
O destaque deste microscópio é a lente iMicro Q3p, que proporciona uma capacidade de ampliação impressionante de até 1.200 vezes. Com tal grau de aproximação, é possível observar detalhes em um nível submicrônico, abrindo um vasto campo de possibilidades para a exploração científica. Usuários podem, por exemplo, examinar com clareza desde um simples fio de cabelo até componentes mais complexos como células sanguíneas. Essa funcionalidade torna o microscópio uma ferramenta extremamente valiosa para estudos e pesquisas em diversas áreas, desde a biologia até a engenharia de materiais.
Em paralelo ao desenvolvimento deste microscópio, estou trabalhando em um software inovador destinado a automatizar e facilitar o processo de contagem de hemácias, leucócitos e plaquetas em imagens microscópicas. Este software é construído utilizando técnicas avançadas de Inteligencia Artificial, Visão computacional, incluindo Transformada de Hough, morfologia matemática, erosão e dilatação, bem como técnicas especializadas para detecção de bolhas. O objetivo é proporcionar um método mais eficiente e acessível para o diagnóstico de condições médicas como anemia e leucopenia, essencial para ambientes clínicos que buscam precisão e agilidade em seus diagnósticos.

A implementação deste software tem o potencial de transformar significativamente a prática médica, especialmente em locais com recursos limitados. Ao automatizar a contagem de células sanguíneas, o software não só acelera o processo de diagnóstico, mas também reduz a dependência de patologistas para a realização desses testes. Isso resulta em um diagnóstico mais rápido e econômico de anemia e leucopenia, facilitando o acesso a tratamentos médicos eficazes e melhorando a qualidade de vida dos pacientes. Esta inovação representa um passo significativo para tornar a saúde mais acessível e eficiente através da tecnologia.