Português

Thu, Jan 02, 2025

Alessandro de Oliveira Faria posted at 02:16

cabelo

Feliz 2025!

Fri, Dec 27, 2024

Alessandro de Oliveira Faria posted at 04:57

cabelo

Novidades

A versão OpenVINO 2024.6 inclui atualizações para maior estabilidade e melhoria no desempenho de LLMs.
Suporte introduzido para gráficos Intel® Arc Série B (anteriormente conhecidos como Battlemage).
Implementadas otimizações para melhorar o tempo de inferência e o desempenho de LLMs em NPUs.
Melhorias no desempenho de LLMs com otimizações da API GenAI e correções de bugs.

OpenVINO Runtime

Plugin de Dispositivo para CPU

O cache KV agora utiliza inteiros não assinados de 8 bits assimétricos (U8) como precisão padrão, reduzindo o estresse de memória para LLMs e aumentando seu desempenho. Essa opção pode ser controlada pelos metadados do modelo.
Qualidade e precisão foram aprimoradas para modelos selecionados com diversas correções de bugs.

Plugin de Dispositivo para GPU

Foram introduzidas otimizações na cópia de memória do dispositivo para inferência com gráficos Intel® Arc Série B (anteriormente conhecidos como Battlemage). Como não utilizam cache L2 para copiar memória entre o dispositivo e o host, uma operação de cópia dedicada é usada, caso as entradas ou resultados não sejam esperados na memória do dispositivo.
Inferência com ChatGLM4 em GPUs foi otimizada.

Plugin de Dispositivo para NPU

O desempenho de LLMs e o tempo de inferência foram aprimorados com otimizações de memória.

OpenVINO.GenAI

O exemplo encrypted_model_causal_lm agora está disponível, demonstrando como descriptografar um modelo.

Outras Alterações e Problemas Conhecidos

Jupyter Notebooks

Assistente visual-linguístico com GLM-Edge-V e OpenVINO.
IA Local e OpenVINO.
Compreensão e geração multimodal com Janus e OpenVINO.

Mais detalhes : https://docs.openvino.ai/2024/about-openvino/release-notes-openvino.html

Alessandro de Oliveira Faria posted at 00:21

cabelo

Modelos brasileiros de IA em CPU.

A inteligência artificial com DNA brasileiro está conquistando o mundo! Modelos desenvolvidos no Brasil estão ganhando destaque global graças a iniciativas que ampliam a acessibilidade dessas tecnologias. Descubra como essas inovações estão levando a criatividade e o talento nacional para novos horizontes no cenário internacional.

Dois modelos de Inteligência Artificial (IA) com forte participação brasileira ganharam destaque internacional ao serem disponibilizados publicamente por meio da plataforma Intel OpenVINO. O MED-LLM-BR, desenvolvido pelo HAILab da PUC-PR, gera dados sintéticos de saúde para treinar modelos de IA sem comprometer a privacidade dos pacientes. Originalmente dependente de GPUs, o modelo foi adaptado por Alessandro “Cabelo” Faria para operar em computadores com processadores Intel a partir da 6ª geração, ampliando sua acessibilidade no setor de saúde.

Outro exemplo é o Tucano, um modelo de IA treinado com o maior banco de dados da Alemanha, mas adaptado para compreender nuances culturais brasileiras. Essa adaptação corrige limitações de modelos estrangeiros que não captam expressões e contextos locais. Com o suporte do Intel OpenVINO, o Tucano também pode ser executado eficientemente em CPUs Intel de 6ª geração ou superiores, democratizando o uso de IA no Brasil.

Wed, Dec 18, 2024

Alessandro de Oliveira Faria posted at 03:47

cabelo

A semana mais insana de 2024, um cinema de papers.

Esta semana compramos muita pipoca na MultiCortex, pois foi um absoluto cinema de papers no setor de IA. Acreditamos que foi a semana mais insana de 2024 marcada por avanços significativos no campo da inteligência artificial, com a publicação de diversos artigos que abordam desde melhorias em arquiteturas de modelos até questões de segurança e eficiência. A seguir, a lista desses trabalhos:

Byte Latent Transformer
Training Large Language Models to Reason in a Continuous Latent Space
Language Modeling in a Sentence Representation Space
Phi-4 Technical Report – Best-of-N Jailbreaking
Forking Paths in Neural Text Generation
Refusal Tokens – [MASK] is All You Need
Explore Theory-of-Mind
Obfuscated Activations Bypass LLM Latent-Space Defenses
The Pitfalls of Memorization
How to Merge Your Multimodal Models Over Time?
Machine Unlearning Doesn’t Do What You Think
Understanding Gradient Descent through the Training Jacobian
An Evolved Universal Transformer Memory
Transformers Struggle to Learn to Search
Transformers Can Navigate Mazes With Multi-Step Prediction
Frontier Models are Capable of In-context Scheming
Mixture of Monosemantic Experts for Transformers
Learning to Merge LoRAs via Hypernetworks for Subject-Style Conditioned Image Generation
Scalable Text and Image Conditioned Video Generation
Hidden in the Noise: Two-Stage Robust Watermarking for Images
Learned Compression for Compressed Learning
Learning Flow Fields in Attention for Controllable Person Image Generation
ProcessBench: Identifying Process Errors in Mathematical Reasoning
Unraveling the Complexity of Memory in RL Agents
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
APOLLO: SGD-like Memory, AdamW-level Performance
Neural LightRig

Mon, Dec 16, 2024

Alessandro de Oliveira Faria posted at 22:15

cabelo

Apollo LMM suporta até 1h de video.

O laboratório da MultiCortex começa testar os modelos Apollo da Meta que estão disponíveis em três tamanhos (1,5B, 3B e 7B) e processam até uma hora de vídeo. Eles se destacam na compreensão avançada de vídeos, respondendo a perguntas complexas, interpretando a linha temporal e sustentando diálogos sobre o conteúdo exibido. O Apollo-3B rivaliza ou supera modelos de 7B, enquanto o Apollo-7B supera até modelos de 30B+ em benchmarks de vídeo, demonstrando eficiência superior e excelente relação custo-benefício.

O Apollo LLM é uma nova geração de modelos de linguagem multimodal (LMMs) que redefine a forma como as máquinas entendem vídeos. Fruto de uma colaboração entre a Meta GenAI e a Universidade de Stanford, o Apollo se destaca por sua eficiência e inovação no campo da inteligência artificial.

Principais Diferenciais

Consistência de Escalonamento (“Scaling Consistency”)
O conceito de “Scaling Consistency” permite que decisões de design feitas em modelos menores sejam aplicadas de forma confiável a modelos maiores. Isso reduz drasticamente o custo computacional e o tempo de desenvolvimento.
Otimização de Estratégias de Treinamento
O Apollo explora cronogramas de treinamento e combinações de dados. A descoberta de que a amostragem “fps” (frames por segundo) é mais eficiente que a amostragem uniforme impacta diretamente o desempenho do modelo.
Tokenização Eficiente
O modelo encontrou o equilíbrio ideal de 8 a 32 tokens por frame, além de usar técnicas de “token integration” para integrar tokens de diferentes quadros de maneira eficaz.
Benchmark Personalizado (ApolloBench)
Para medir a eficácia dos LMMs de vídeo, o Apollo introduziu o ApolloBench, um benchmark personalizado que facilita a avaliação de diferentes modelos.
Uso de Encoders de Alto Desempenho
O SigLIP-SO400M foi identificado como o melhor encoder único, mas a combinação deste com o InternVideo2 proporcionou um desempenho geral ainda mais robusto.
Aprimoramento Contínuo
O modelo melhora a performance de seus encoders em dados de vídeo e ajusta a mistura de dados de texto e vídeo, garantindo desempenho superior em tarefas de raciocínio e percepção.

Aplicações Práticas

O Apollo LLM se destaca em tarefas que exigem entendimento multimodal, incluindo:

Assistentes de IA mais inteligentes
Análise de vídeos para segurança e vigilância
Interpretação de vídeos para ensino e aprendizado

Desempenho Comparado

O Apollo superou diversos concorrentes em benchmarks de raciocínio espacial, percepção e compreensão de conteúdo de vídeo. Seu desempenho foi validado em testes no TempCompass, MLVU e VideoMME.

O Apollo LLM é uma solução de ponta que promete transformar a interação homem-máquina em ambientes multimodais. Para mais detalhes, acesse o site oficial do Apollo.

https://arxiv.org/pdf/2412.10360

Fri, Dec 06, 2024

Alessandro de Oliveira Faria posted at 20:57

cabelo

Llama 3.3 70b oferece desempenho similar ao 405b!

Inacreditável, o novo modelo Llama 3.3 de 70B da Meta, que oferece desempenho semelhante ao modelo Llama 3.1 de 405B! Modelos já disponível na MultiCortex!

O Meta Llama 3.3 é um modelo de linguagem grande multilíngue (LLM) pré-treinado e ajustado para instruções, com capacidade de 70B (texto para texto). O modelo Llama 3.3, ajustado apenas para texto e instruções, é otimizado para casos de uso de diálogo multilíngue e supera muitos dos modelos de chat abertos e fechados disponíveis nos benchmarks comuns da indústria.

Benchmark do Llama 3.3

Idiomas suportados: inglês, alemão, francês, italiano, português, hindi, espanhol e tailandês. Novas capacidades

Esta versão introduz novas capacidades, incluindo uma janela de contexto mais longa, entradas e saídas multilíngues e possíveis integrações por desenvolvedores com ferramentas de terceiros. Construir com essas novas capacidades requer considerações específicas, além das melhores práticas que geralmente se aplicam a todos os casos de uso de IA Gerativa.

Uso de ferramentas: Assim como no desenvolvimento de software padrão, os desenvolvedores são responsáveis pela integração do LLM com as ferramentas e serviços de sua escolha. Eles devem definir uma política clara para seu caso de uso e avaliar a integridade dos serviços de terceiros utilizados para estar cientes das limitações de segurança e proteção ao usar esta capacidade. Consulte o Guia de Uso Responsável para melhores práticas sobre a implantação segura das salvaguardas de terceiros.

Multilinguismo: Llama 3.3 suporta 7 idiomas além do inglês: francês, alemão, hindi, italiano, português, espanhol e tailandês. O Llama pode ser capaz de produzir texto em outros idiomas que não aqueles que atendem aos limiares de desempenho para segurança e utilidade. Desencorajamos fortemente os desenvolvedores a usar este modelo para conversar em idiomas não suportados sem implementar o ajuste fino e controles de sistema alinhados com suas políticas e as melhores práticas compartilhadas no Guia de Uso Responsável.

Alessandro de Oliveira Faria posted at 04:50

cabelo

IA para o setor de Saúde.

O paper “Developing Resource-Efficient Clinical LLMs for Brazilian Portuguese” referente aos dois Modelos de Linguagem Médica em Português conquista o prêmio de 3º melhor artigo científico no BRACIS – Brazilian Conference on Intelligent Systems, o maior evento científico de IA no Brasil!

O 𝗠𝗘𝗗-𝗟𝗟𝗠-𝗕𝗥 foi criado para geração de dados sintéticos no setor de saúde, assim contribuindo para um melhor treinamento de modelos neste setor. Neste contexto uma colaboração inovadora entre Comsentimento e HAILab-PUCPR – Health Artificial Intelligence Lab da Pontifícia Universidade Católica do Paraná, surgiu a iniciativa do projeto 𝗠𝗘𝗗-𝗟𝗟𝗠-𝗕𝗥 que visa criar recursos e expandir as fronteiras do processamento de linguagem natural na área médica em português.

Baseado no Brazil Journal , o setor da saúde é um dos que mais deverão capturar os ganhos da inteligência artificial. Porém, apesar do potencial, o Brasil ainda patina na organização e até mesmo na coleta desses dados.

“Antes de falarmos de unificação de dados, de um sistema como o Open Banking para a saúde e para a IA ser mais eficaz, vamos precisar ter os dados,” disse Sidney Klajner, presidente do Einstein no evento Saúde não tem preço. Mas tem custo, realizado pelo Brazil Journal no último dia 26 de outubro.

Este modelo humildemente disponibilizo em openVINO para fazer inferência sem o uso de GPU utilizando apenas CPU e/ou NPU Intel, além de permitir o processamento em processadores antigos.

Mais informação aqui: https://github.com/cabelo/MED-LLM-BR-openvino

Wed, Dec 04, 2024

Alessandro de Oliveira Faria posted at 06:45

cabelo

Tucano em openVINO

Acabo de disponibilizar oficialmente o modelo Tucano na tecnologia de inferência openVINO. O modelo de linguagem Tucano agora esta disponível com a tecnologia openVINO, assim permitindo que o modelo seja executado eficientemente em CPUs sem necessidade de GPUs. Esta compatibilidade torna o modelo acessível para utilização em computadores lançados em 2016 ou mais recentes, democratizando o acesso a tecnologias de processamento de linguagem natural avançadas e expandindo sua aplicabilidade a uma variedade maior de hardware.

O modelo “Tucano” é um modelo de linguagem desenvolvido especificamente para entender e processar texto em português. Baseado na arquitetura de transformadores, ele é treinado com uma vasta quantidade de textos em português para captar nuances linguísticas e contextuais, tornando-se uma ferramenta poderosa para tarefas de processamento de linguagem natural, como resumo de textos e geração de conteúdo em português.

Utilizando técnicas avançadas como o “Supervised Fine-Tuning” (SFT) e “Direct Preference Optimization” (DPO), os modelos da série Tucano buscam otimizar a performance em cenários instrucionais. Isso permite que o modelo não apenas entenda e gere texto, mas também execute tarefas com instruções específicas, tornando-o ideal para aplicações de inteligência artificial que requerem interações precisas e contextuais em português.

Pesquisadores da Universidade de Bonn na Alemanha desenvolveram o “Gigaverbo”, o maior banco de dados público em português destinado ao treinamento de modelos de inteligência artificial (IA) como os LLMs. Este banco de dados inclui 145 milhões de documentos, totalizando 200 bilhões de tokens. Este recurso foi criado para ajudar a democratizar o acesso à tecnologia de IA em português, oferecendo uma ferramenta aberta que também serve para preservar a cultura linguística e brasileira.

Exemplo: https://github.com/cabelo/Tucano-2b4-Instruct-openvino
Modelo: https://huggingface.co/cabelo/Tucano-2b4-Instruct-fp16-ov

Sat, Nov 23, 2024

Alessandro de Oliveira Faria posted at 18:19

cabelo

Exame de sangue com celular.

A inovação chega ao mundo dos microscópios com o lançamento de um modelo portátil que promete revolucionar a maneira como profissionais e entusiastas da ciência transportam e utilizam esse tipo de equipamento. Diferenciando-se por sua portabilidade sem comprometer a eficácia, este microscópio incorpora uma lente inovadora equipada com milhares de nano ventosas. Essas ventosas permitem que a lente se fixe de maneira segura e instantânea em qualquer lente de smartphone, tornando o dispositivo altamente compatível tanto com aparelhos Android quanto com iPhones. Essa característica assegura que o usuário possa realizar observações científicas precisas em qualquer lugar, sem a necessidade de equipamentos pesados ou estacionários.

O destaque deste microscópio é a lente iMicro Q3p, que proporciona uma capacidade de ampliação impressionante de até 1.200 vezes. Com tal grau de aproximação, é possível observar detalhes em um nível submicrônico, abrindo um vasto campo de possibilidades para a exploração científica. Usuários podem, por exemplo, examinar com clareza desde um simples fio de cabelo até componentes mais complexos como células sanguíneas. Essa funcionalidade torna o microscópio uma ferramenta extremamente valiosa para estudos e pesquisas em diversas áreas, desde a biologia até a engenharia de materiais.

Em paralelo ao desenvolvimento deste microscópio, estou trabalhando em um software inovador destinado a automatizar e facilitar o processo de contagem de hemácias, leucócitos e plaquetas em imagens microscópicas. Este software é construído utilizando técnicas avançadas de Inteligencia Artificial, Visão computacional, incluindo Transformada de Hough, morfologia matemática, erosão e dilatação, bem como técnicas especializadas para detecção de bolhas. O objetivo é proporcionar um método mais eficiente e acessível para o diagnóstico de condições médicas como anemia e leucopenia, essencial para ambientes clínicos que buscam precisão e agilidade em seus diagnósticos.

A implementação deste software tem o potencial de transformar significativamente a prática médica, especialmente em locais com recursos limitados. Ao automatizar a contagem de células sanguíneas, o software não só acelera o processo de diagnóstico, mas também reduz a dependência de patologistas para a realização desses testes. Isso resulta em um diagnóstico mais rápido e econômico de anemia e leucopenia, facilitando o acesso a tratamentos médicos eficazes e melhorando a qualidade de vida dos pacientes. Esta inovação representa um passo significativo para tornar a saúde mais acessível e eficiente através da tecnologia.

Fri, Nov 22, 2024

Alessandro de Oliveira Faria posted at 04:08

cabelo

Música Unidos pelo Sul, um fracasso…

Em maio em virtude da tragédia das enchentes no Sul, lancei uma música intitulada “Unidos pelo Sul” no Spotify, com o objetivo de angariar fundos para as vítimas das enchentes que assolaram a região Sul do Brasil. A ideia era transformar a arte em uma ferramenta de ajuda humanitária, direcionando toda a renda arrecadada para as pessoas afetadas por essa catástrofe. No entanto, apesar da boa intenção, a campanha não alcançou o sucesso esperado.

A música foi ouvida por 6.250 pessoas, o que resultou na arrecadação de apenas 7 dólares. Este resultado foi surpreendentemente baixo, especialmente quando comparado com outra iniciativa que promovi, o “Carnaval da Selfie”, realizado em fevereiro. Este evento atraiu mais de 60 mil ouvintes e arrecadou 10 vezes mais, demonstrando uma grande disparidade entre os dois projetos. Esta diferença nos resultados levanta questões importantes sobre o engajamento do público em causas humanitárias, comparado a eventos mais leves e festivos.

É intrigante observar que, mesmo sem custos adicionais para os ouvintes, a adesão a uma campanha com um propósito claramente benéfico foi significativamente menor. Este fenômeno sugere uma reflexão sobre o comportamento humano e o tipo de incentivos que motivam a participação em diferentes tipos de campanhas.

Quero esclarecer que toda a renda gerada, de fato, não foi destinada às vítimas das enchentes, conforme o planejado. Pois o saque mínimo é $14,30 e a campanha não alcançou este valor. A transparência neste processo é fundamental para mim, pois entendo a importância de manter a confiança de todos que apoiaram a iniciativa, mesmo que o resultado financeiro tenha sido menor do que o esperado.

Apesar do resultado desanimador desta campanha, não desisto. Continuarei buscando formas de usar minha música para fazer a diferença no mundo. Este episódio serviu como uma lição valiosa sobre os desafios de mobilizar apoio para causas urgentes e me motivou a pensar em novas estratégias para engajar mais pessoas em futuras iniciativas. Agradeço a todos que ouviram a música e aos que continuam a apoiar esforços para ajudar quem mais precisa.