Tue, Jun 04, 2024

OpenCV 4.10.0 Lançada!

A biblioteca OpenCV lançou sua versão 4.10.0. Esta ferramenta, globalmente reconhecida e aplicada em diversos setores, foi originalmente apresentada ao mundo pela Intel no ano 2000. Hoje, conta com uma comunidade de mais de 47 mil contribuidores. E fiquei muito feliz de encontrar meu nome na lista de contribuidores deste release.

Abaixo alguns itens que merecem destaques:

  • Added more DNN layers with OpenVINO
  • Added CuDNN 9+ support
  • Added OpenVINO 2024 support
  • CUDA 12.4+ support
  • OneAPI 2024 support (IPP, TBB)

Mais informações: https://opencv.org/blog/opencv-4-10-0/

Sat, Jun 01, 2024

Aprovado na AWS: openSUSE Leap 15.5 Mini!

Levando o Linux a sério desde 1998, adquiri experiência em sistema operacional GNU/Linux que permitiu construir, contribuir e disponibilizar a plataforma openSUSE Leap 15.4 Micro na nuvem AWS para todos gratuitamente em âmbito mundial (todas as regiões do mundo).

Utilizando trabalho de engenharia de software voltado para otimização de sistema GNU/Linux, disponibilizo a versão minimalista do openSUSE Leap 15.5 na AWS. Além de multi-uso, completa, estável e fácil de usar, destina-se a usuários, desenvolvedores, administradores, e qualquer profissional que deseja os recursos openSUSE no servidor. É ótimo para iniciantes, usuários experientes e ultra geeks, em resumo, é perfeito para todos!

O sistema operacional openSUSE Leap 15.5 Mini proporciona menos consumo de recursos computacionais. Com menos consumo de disco e memória e disco, este sistema operacional permite o uso de modestas maquinas virtuais como t3.micro sem comprometer o desempenho.

Sugestões em cabelo@opensuse.org
Informações aqui: https://aws.amazon.com/marketplace/pp/prodview-7gz3zn5r2uziy

A seguir as principais vantagens:

Recursos openSUSE Leap 15.5 openSUSE Leap 15.5 Mini
Espaço em disco 1,8G 911M
Memória utilizada 246M 161M
Pacotes 583 263
Desvantagem: Não possui YAST!

Fri, May 31, 2024

Codestral 3x menor supera LLAMA 3 70B

Mistral AI, a startup apoiada pela Microsoft, anuncia Codestral, seu novo modelo de programação. Codestral, com 22 bilhões de parâmetros e um comprimento de contexto de 32 mil, atua em mais de 80 linguagens de programação e supera o Code Llama 70B da Meta em diversos testes de comparação.

  • Mistral AI apresenta Codestral, um modelo de código com 22 bilhões de parâmetros e 32 mil de comprimento de contexto.
  • Codestral demonstra desempenho superior ao Code Llama 70B da Meta em várias avaliações.
  • Está disponível em código aberto via HuggingFace ou no Le Chat da Mistra, estilo ChatGPT.

Nos últimos meses, Mistral AI emergiu como uma das startups de IA mais empolgantes. Recentemente, lançou seu primeiro modelo de código, o Codestral, fluentemente programado em mais de 80 linguagens.

Comparado às ofertas atuais do mercado, como o Code Llama 70B da Meta, lançado em agosto do ano passado e disponibilizado em código aberto este ano, Codestral se destaca de forma notável. Uma comparação lado a lado com outros modelos de IA para codificação revela essa superioridade.

Disponível em código aberto através do HuggingFace ou pelo Le Chat ao estilo ChatGPT da Mistra, Codestral apresenta melhores resultados no HumanEval, um benchmark que mede a funcionalidade dos códigos gerados. Ele supera o CodeLlama 70B, o DeepSeek Coder 33B e o Llama 3 70B em linguagens como Python, C++, Bash, Java e PHP.

Outros benchmarks, como CruxEval-O e RepoBench, também indicam que Codestral pode ser o melhor modelo de IA para codificação disponível atualmente, avaliando o raciocínio, entendimento e avaliação de códigos, bem como seus sistemas de auto-completação.

Entretanto, isso pode mudar com o lançamento do Code Interpreter da OpenAI, que está em testes beta há algum tempo.

“Codestral é treinado com um conjunto de dados diversificado, abrangendo mais de 80 linguagens de programação, incluindo as mais populares como Python, Java, C, C++, JavaScript e Bash, e até mesmo linguagens mais específicas como Swift e Fortran”, declara a empresa francesa.

Fonte: https://mistral.ai/news/codestral/

Mon, May 27, 2024

Brasileiro ajuda de maneira inédita democratizar a IA.

Como Intel Innovator brasileiro, liderei o avanço pioneiro em IA com OpenVINO em openSUSE Linux. Como pesquisador e Intel Innovator, introduzi o toolkit de IA OpenVINO da Intel no sistema openSUSE, marcando a primeira vez que esta tecnologia é nativamente disponibilizada em um ambiente Linux. Este avanço proporciona aos usuários acesso direto às inovadoras soluções de inteligência artificial da Intel. O processo, gerenciado por mim, envolveu extensas adaptações e colaborações para compatibilizar as políticas técnicas de ambos sistemas.

A iniciativa destaca-se por integrar comunidades de código aberto no desenvolvimento de tecnologias emergentes, visando democratizar o acesso à IA e reduzir a exclusão digital. “Adaptamos OpenVINO para operar com o openSUSE, criando um marco de inovação colaborativa que impulsiona a transformação digital e serve de inspiração para explorar novas tecnologias”, diz Faria.

Desde 2018, OpenVINO tem facilitado avanços significativos em IA, desde aplicações em edge computing até soluções empresariais, aprimorando a eficiência do uso de hardware e fomentando o desenvolvimento em áreas como visão computacional e IA generativa.

Fontes:

https://www.intel.com.br/content/www/br/pt/newsroom/news/intel-innovator-brasileiro-cria-iniciativa-pioneira-com-ia.html
https://news.opensuse.org/2024/05/14/openvino-arrives-in-os-distributions/

Fri, May 24, 2024

WebNN: IA no navegador.

A API Neural Web (WebNN) traz capacidades de aceleração do aprendizado de máquina diretamente para aplicações web. Com o WebNN, os desenvolvedores podem aproveitar o poder das redes neurais dentro do ambiente do navegador, possibilitando uma ampla gama de casos de uso impulsionados por IA sem depender de servidores externos ou plugins. O que é WebNN?

WebNN é uma API JavaScript que fornece uma interface de alto nível para executar tarefas de inferência de rede neural de forma eficiente em vários aceleradores de hardware, como CPUs, GPUs e chips de IA dedicados (às vezes chamados de NPUs ou TPUs). Ao utilizar aceleração de hardware, o WebNN permite uma execução mais rápida e eficiente em termos de energia de modelos de aprendizado de máquina, tornando-o ideal para aplicativos em tempo real e cenários onde a latência é crítica. Modelo de Programação

O WebNN segue um modelo de programação simples, permitindo que os desenvolvedores realizem tarefas de inferência com mínima complexidade. A API é focada em definir as operações e a infraestrutura necessária para executar modelos de aprendizado de máquina, em vez de lidar com funcionalidades de nível mais alto, como carregamento, análise ou gerenciamento de modelos. O WebNN é projetado para ser agnóstico em relação aos formatos de modelo e deixa a responsabilidade de carregar e analisar os modelos para outras bibliotecas (como ONNX.js ou Tensorflow.js) ou para a própria aplicação web.

Em alto nível, o WebNN basicamente tem 2 etapas para executar um modelo:

Construção do Modelo: No WebNN, o primeiro passo é construir o modelo usando a API MLGraphBuilder. Uma vez que o modelo tenha sido construído, ele pode ser transformado em um grafo executável.

Execução do Modelo: Uma vez que o grafo executável tenha sido construído, os dados são inseridos e o grafo executa tarefas de inferência para obter previsões ou classificações. O WebNN fornece métodos para selecionar back-ends (seja explicitamente ou por características) que então processam os dados de entrada e retornam resultados de saída do modelo.

O WebNN aproveita os aceleradores de hardware para acelerar a execução de modelos. Como o WebNN é agnóstico em relação ao hardware e modelo, ele pode usar qualquer um dos recursos de hardware disponíveis (seja CPU, GPU, NPU, TPU, etc.), maximizando o desempenho e minimizando a latência, possibilitando experiências de usuário suaves e responsivas.

Mais informações aqui: https://webmachinelearning.github.io/webnn-intro/

Mon, May 13, 2024

Unidos pelo Sul disponível nas principais lojas de música.

A música “Unidos pelo Sul” já está disponível em todas as principais plataformas de streaming de música. Com apenas um simples clique, você não apenas terá a oportunidade ouvir a canção criada 100% por Inteligência Artificial, mas também contribuirá para uma causa nobre, ajudando as vítimas afetadas pelas recentes enchentes. É uma excelente maneira de fazer a diferença na vida de quem precisa.


Spotify:
https://tinyurl.com/rs-spotify-music


YouTube Music:
https://tinyurl.com/rs-youtube-music


Amazon Music:
https://tinyurl.com/rs-amazon-music


Apple Music:
https://tinyurl.com/rs-apple-music


iTunes:
https://tinyurl.com/rs-apple-music


Deezer:
https://tinyurl.com/rs-deezer


TikTok Music:
https://tinyurl.com/rs-tiktok

Desmobilização com Inteligência Artificial

Neste post apresento a proposta do paper arXiv:2405.03682 , que propõe um fluxo de trabalho que utiliza a Stable Diffusion para aprimorar os resultados de inpainting no contexto de “defurnishing” — a remoção de móveis em imagens panorâmicas internas.

Especificamente, mostra como o aumento do contexto, o ajuste fino do modelo específico para o domínio e a melhoria na mesclagem de imagens podem produzir inpaints de alta fidelidade que são geometricamente plausíveis sem a necessidade de estimar o layout do ambiente. É demonstrado melhorias qualitativas e quantitativas em comparação com outras técnicas de remoção de móveis.

O fluxo de trabalho consiste nos seguintes componentes:

  • Pré-processamento: Estimativa de máscaras de móveis por meio de segmentação semântica, rolagem e preenchimento da imagem para garantir um contexto ótimo e redução de resolução para adequação ao pipeline da Stable Diffusion.
  • Inpainting: Nosso inpainting personalizado, ajustado para panoramas equiretangulares e resistente a máscaras inexatas e sombras remanescentes, reduzindo assim a tendência da Stable Diffusion em inpainting para criar objetos ilusórios.
  • Pós-processamento: Super-resolução e mesclagem das imagens original e inpainted, de modo que os detalhes de alta frequência sejam preservados.

Resultado:

Informações detalhadas do paper: https://arxiv.org/abs/2405.03682

Fri, May 10, 2024

IA da IBM supera o llama3

A IBM introduziu ao mercado a Granite, uma nova série de modelos de inteligência artificial (IA) de código aberto, destinados a facilitar o processo de codificação para desenvolvedores em diversos setores. Os modelos, disponíveis em plataformas como Hugging Face, GitHub, watsonx.ai, e RHEL AI, são liberados sob a licença Apache 2.0. Eles foram projetados para auxiliar desenvolvedores na escrita, teste, depuração e distribuição de software confiável.

Granite apresenta quatro variantes, que variam de acordo com o tamanho do banco de dados, de 3 a 34 bilhões de parâmetros, de acordo com o Analytics India Magazine. Os modelos foram submetidos a testes rigorosos em diversos benchmarks e se mostraram superiores a outros modelos de código aberto semelhantes, como Code Llama e Llama 3, em várias tarefas de programação. Essa superioridade é atribuída ao seu treinamento em um vasto conjunto de dados composto por 500 milhões de linhas de código abrangendo mais de 50 linguagens de programação, permitindo-lhes identificar padrões e solucionar bugs complexos em linguagens como Python, JavaScript, Java, entre outras.

Além de suas aplicações em geração de código e testes, os modelos Granite são também adequados para automatizar tarefas rotineiras, tais como a criação de testes unitários e a elaboração de documentação técnica. “Acreditamos no poder da inovação aberta e queremos alcançar o maior número possível de desenvolvedores”, disse Ruchir Puri, cientista-chefe da IBM Research, expressando entusiasmo quanto ao potencial de desenvolvimento de novas ferramentas e software com o uso de Granite.

Informações: https://github.com/ibm-granite/granite-code-models

Wed, May 08, 2024

Música Unidos pelo Sul: Ouça e Ajude as Vítimas das Enchentes.


Desenvolvi uma música totalmente composta por inteligência artificial como parte de uma iniciativa para auxiliar as vítimas das recentes enchentes no Sul do Brasil. A faixa está disponível no Spotify e em outras plataformas musicais, com a totalidade dos rendimentos destinada aos afetados no Rio Grande do Sul. Este projeto não busca autopromoção nem atenção da mídia; seu propósito é puramente humanitário, empregando a tecnologia para oferecer suporte às pessoas impactadas pela tragédia.

Segundo o site da Remessa Online, o Spotify paga aproximadamente U$ 0,00397 por reprodução. Levando em conta os 44,1 milhões de usuários na América Latina, citados pela Bloomberg Linea, a reprodução da música cinco vezes por cada usuário em um dia poderia gerar mais de 4 milhões de reais. Estou comprometido com a transparência e com a garantia de que 100% do valor arrecadado será efetivamente destinado às vítimas das enchentes.

Se cada usuário ouvir a música
cinco vezes ao dia, a arrecadação
diária seria de aproximadamente
R$ 4,3 milhões.

Para ajudar as vítimas, basta ouvir a musica nas lojas a seguir:

https://distrokid.com/hyperfollow/jaxsuaia/unidos-pelo-sul

OU CLIQUE AQUI PARA OUVIR DIRETO NO SPOTIFY

Mon, May 06, 2024

PAG: Orientação de atenção perturbada

Estudos recentes comprovam que modelos de difusão podem gerar amostras de alta qualidade, mas a qualidade dessas amostras muitas vezes depende fortemente de técnicas de orientação durante a amostragem, como a orientação por classificador (CG) e orientação sem classificador (CFG), que não são aplicáveis na geração incondicional ou em diversas tarefas subsequentes, como restauração de imagens. Neste artigo, propomos uma nova técnica de orientação para amostragem em difusão, chamada Orientação por Atenção Perturbada (PAG), que melhora a qualidade das amostras tanto em configurações incondicionais quanto condicionais, sem a necessidade de treinamento adicional ou integração de módulos externos. O PAG é projetado para aprimorar progressivamente a estrutura das amostras sintetizadas durante o processo de desruído, aproveitando a capacidade dos mecanismos de autoatenção de capturar informações estruturais. Ele envolve a geração de amostras intermediárias com estrutura degradada, substituindo mapas de autoatenção selecionados na difusão U-Net por uma matriz identidade e orientando o processo de desruído para se afastar dessas amostras degradadas.

A Orientação por Atenção Perturbada melhora significativamente a qualidade das amostras em modelos de difusão sem necessitar de condições externas, como rótulos de classes ou prompts de texto, nem de treinamento adicional. Isso é particularmente valioso em configurações de geração incondicional, onde a orientação sem classificador (CFG) não é aplicável. Nossa orientação pode ser utilizada para aumentar o desempenho em várias tarefas subsequentes que utilizam modelos de difusão incondicionais, incluindo ControlNet com um prompt vazio e tarefas de restauração de imagem como super-resolução e inpainting.

Comparativos qualitativos entre amostras de difusão guiadas e não guiadas (linha de base). Sem quaisquer condições externas, como rótulos de classes ou prompts de texto, ou treinamento adicional, nosso PAG eleva dramaticamente a qualidade das amostras de difusão mesmo em geração incondicional, onde a orientação sem classificador (CFG) não é aplicável. Nossa orientação também pode melhorar o desempenho base em várias tarefas subsequentes, como ControlNet com prompt vazio e restauração de imagem, incluindo inpainting e desfocagem.

Mais informações:
https://github.com/v0xie/sd-webui-incantations
https://github.com/KU-CVLAB/Perturbed-Attention-Guidance