Wed, May 08, 2024

Música Unidos pelo Sul: Ouça e Ajude as Vítimas das Enchentes.


Desenvolvi uma música totalmente composta por inteligência artificial como parte de uma iniciativa para auxiliar as vítimas das recentes enchentes no Sul do Brasil. A faixa está disponível no Spotify e em outras plataformas musicais, com a totalidade dos rendimentos destinada aos afetados no Rio Grande do Sul. Este projeto não busca autopromoção nem atenção da mídia; seu propósito é puramente humanitário, empregando a tecnologia para oferecer suporte às pessoas impactadas pela tragédia.

Segundo o site da Remessa Online, o Spotify paga aproximadamente U$ 0,00397 por reprodução. Levando em conta os 44,1 milhões de usuários na América Latina, citados pela Bloomberg Linea, a reprodução da música cinco vezes por cada usuário em um dia poderia gerar mais de 4 milhões de reais. Estou comprometido com a transparência e com a garantia de que 100% do valor arrecadado será efetivamente destinado às vítimas das enchentes.

Se cada usuário ouvir a música
cinco vezes ao dia, a arrecadação
diária seria de aproximadamente
R$ 4,3 milhões.

Para ajudar as vítimas, basta ouvir a musica nas lojas a seguir:

https://distrokid.com/hyperfollow/jaxsuaia/unidos-pelo-sul

OU CLIQUE AQUI PARA OUVIR DIRETO NO SPOTIFY

Mon, May 06, 2024

PAG: Orientação de atenção perturbada

Estudos recentes comprovam que modelos de difusão podem gerar amostras de alta qualidade, mas a qualidade dessas amostras muitas vezes depende fortemente de técnicas de orientação durante a amostragem, como a orientação por classificador (CG) e orientação sem classificador (CFG), que não são aplicáveis na geração incondicional ou em diversas tarefas subsequentes, como restauração de imagens. Neste artigo, propomos uma nova técnica de orientação para amostragem em difusão, chamada Orientação por Atenção Perturbada (PAG), que melhora a qualidade das amostras tanto em configurações incondicionais quanto condicionais, sem a necessidade de treinamento adicional ou integração de módulos externos. O PAG é projetado para aprimorar progressivamente a estrutura das amostras sintetizadas durante o processo de desruído, aproveitando a capacidade dos mecanismos de autoatenção de capturar informações estruturais. Ele envolve a geração de amostras intermediárias com estrutura degradada, substituindo mapas de autoatenção selecionados na difusão U-Net por uma matriz identidade e orientando o processo de desruído para se afastar dessas amostras degradadas.

A Orientação por Atenção Perturbada melhora significativamente a qualidade das amostras em modelos de difusão sem necessitar de condições externas, como rótulos de classes ou prompts de texto, nem de treinamento adicional. Isso é particularmente valioso em configurações de geração incondicional, onde a orientação sem classificador (CFG) não é aplicável. Nossa orientação pode ser utilizada para aumentar o desempenho em várias tarefas subsequentes que utilizam modelos de difusão incondicionais, incluindo ControlNet com um prompt vazio e tarefas de restauração de imagem como super-resolução e inpainting.

Comparativos qualitativos entre amostras de difusão guiadas e não guiadas (linha de base). Sem quaisquer condições externas, como rótulos de classes ou prompts de texto, ou treinamento adicional, nosso PAG eleva dramaticamente a qualidade das amostras de difusão mesmo em geração incondicional, onde a orientação sem classificador (CFG) não é aplicável. Nossa orientação também pode melhorar o desempenho base em várias tarefas subsequentes, como ControlNet com prompt vazio e restauração de imagem, incluindo inpainting e desfocagem.

Mais informações:
https://github.com/v0xie/sd-webui-incantations
https://github.com/KU-CVLAB/Perturbed-Attention-Guidance

Sat, May 04, 2024

Experimentar roupas antes de comprar na Internet.

Em breve, graças à Inteligência Artificial, será possível experimentar de maneira virtual as roupas vendidas na internet antes de comprar. Para comprovar a teoria, busquei um projeto no github, e o coloquei em funcionamento na minha maquina. Após, entrei no site Véi Nerd ( https://www.veinerd.com/produto/camiseta-linux ). Escolhi uma camiseta que gostei e salvei na minha maquina. Ao submeter as duas imagens de referencia ao sistema, o resultado foi muito animador e tudo aconteceu de maneira automática.

No teste foi possível gerar imagens com um alto grau de consistência de vestuário em cenários reais. Mesmo com fundos complexos ou poses diversas das pessoas, é possível gerar imagens de alta qualidade.

O projeto IDM-VTON é a experimentação virtual baseada em imagens, que produz uma imagem de uma pessoa usando uma peça de vestuário selecionada, a partir de um par de imagens que retratam, respectivamente, a pessoa e a vestimenta. Tecnologia anteriores adaptaram modelos de difusão baseados em exemplos existentes para a experimentação virtual, a fim de melhorar a naturalidade das imagens geradas em comparação com outros métodos (como os baseados em GAN), mas não conseguiram preservar a identidade das vestimentas.

Para superar este obstáculo, o projeto IDM-VTON propões um modelo de difusão inovador que melhora a fidelidade da vestimenta e gera imagens autênticas de experimentação virtual. Pois utiliza dois módulos diferentes para codificar a semântica da imagem da vestimenta; com base no UNet do modelo de difusão,

1) a semântica de alto nível extraída de um codificador visual é fundida à camada de atenção cruzada, e então 2) os recursos de baixo nível extraídos do UNet paralelo são fundidos à camada de autoatenção. Além disso, é fornecido prompts textuais detalhados para as imagens tanto da vestimenta quanto da pessoa, a fim de realçar a autenticidade das visuais geradas. Então é constatado um método de personalização usando um par de imagens de pessoa-vestimenta, que melhora significativamente a fidelidade e autenticidade

Os meus testes experimentais demonstram que o método supera as abordagens anteriores (tanto baseadas em difusão quanto em GAN) na preservação dos detalhes da vestimenta e na geração de imagens autênticas de experimentação virtual, tanto qualitativa quanto quantitativamente. Além disso, o método de personalização proposto demonstra sua eficácia em um cenário real. Mais visualizações estão disponíveis na página do projeto: https://github.com/yisol/IDM-VTON

Fri, May 03, 2024

Com usar a Nuvem da Intel.

Wed, May 01, 2024

Transferência de material com IA.

Esta é a implementação oficial do ZeST: Zero-Shot Material Transfe a partir de uma Única Imagem. Com ZeST, é possível transferir o material de uma imagem exemplar para outra imagem de entrada. Por exemplo, a partir de uma foto de uma maçã e uma imagem de um exemplar de uma tigela dourada, o ZeST consegue aplicar o material de ouro da tigela na maçã. Esse processo é feito mantendo as pistas de iluminação precisas e assegurando que todos os outros aspectos permaneçam consistentes.

A tecnologia permite que características específicas de um material sejam replicadas em diferentes objetos em novas imagens de forma convincente. Isto é feito sem a necessidade de múltiplas imagens do mesmo material, utilizando apenas uma imagem exemplar. O resultado é uma integração visualmente harmoniosa do novo material, como ouro, em objetos tão comuns como uma maçã, respeitando as nuances de iluminação e textura originais do objeto.

Fonte: https://github.com/ttchengab/zest_code

Sun, Apr 28, 2024

Lançado openVINO 2024.1

OpenVINO é um kit de ferramentas de código aberto para otimizar e implantar modelos de aprendizagem profunda da nuvem até a borda. Ele acelera a inferência de aprendizado profundo em vários casos de uso, como IA generativa, vídeo, áudio e linguagem com modelos de estruturas populares como PyTorch, TensorFlow, ONNX e muito mais. Converta e otimize modelos e implante em uma combinação de hardware e ambientes Intel®, no local e no dispositivo, no navegador ou na nuvem.

  • Maior cobertura de IA generativa e integrações de frameworks para minimizar mudanças no código.
    • Modelos Mixtral e URLNet otimizados para melhorias de desempenho em processadores Intel® Xeon®.
    • Modelos Stable Diffusion 1.5, ChatGLM3-6B e Qwen-7B otimizados para velocidade de inferência aprimorada em processadores Intel® Core™ Ultra com GPU integrada.
    • Suporte para Falcon-7B-Instruct, um modelo de chat/instrução de Large Language Model (LLM) da GenAI pronto para uso com métricas de desempenho superiores.
    • Novos Jupyter Notebook adicionados: YOLO V9, Detecção de Caixas Delimitadoras Orientadas YOLO V8 (OOB), Stable Diffusion em Keras, MobileCLIP, RMBG-v1.4 Remoção de Fundo, Magika, TripoSR, AnimateAnyone, LLaVA-Next, e sistema RAG com OpenVINO e LangChain.
  • Suporte mais amplo para Large Language Model (LLM) e mais técnicas de compressão de modelos.
    • Tempo de compilação do LLM reduzido através de otimizações adicionais com incorporação comprimida. Desempenho aprimorado do primeiro token dos LLMs nas 4ª e 5ª gerações de processadores Intel® Xeon® com Extensões Avançadas de Matriz Intel® (Intel® AMX).
    • Melhor compressão do LLM e desempenho aprimorado com suporte oneDNN, INT4 e INT8 para GPUs Intel® Arc™.
    • Redução significativa de memória para modelos GenAI menores selecionados em processadores Intel® Core™ Ultra com GPU integrada.
  • Mais portabilidade e desempenho para executar IA na borda, na nuvem ou localmente.
    • O plugin NPU de prévia para processadores Intel® Core™ Ultra agora está disponível no repositório GitHub de código aberto OpenVINO, além do pacote principal OpenVINO no PyPI.
    • A API JavaScript agora está mais acessível através do repositório npm, permitindo aos desenvolvedores de JavaScript acesso sem interrupções à API OpenVINO.
    • Inferência FP16 em processadores ARM agora habilitada por padrão para a Rede Neural Convolucional (CNN).

VIDU o INCRÍVEL Rival do Sora! Gera 16s de vídeo HDTV com prompt de texto.

Estou surpreso com a rapidez com que a tecnologia de texto para vídeo está avançando. A China acabou de anunciar seu concorrente ao Sora da OpenAI: “Vidu” pode gerar um vídeo de 16 segundos em 1080p com apenas um clique.

Desenvolvido pela empresa de IA chinesa Shengshu Technology e pela Universidade de Tsinghua, a capacidade do Vidu reside em sua arquitetura de Transformer Universal de Visão (U-ViT). O U-ViT combina as forças dos modelos de texto para vídeo baseados em difusão e transformadores.

Isso permite que o Vidu produza cenas altamente realistas e criativas a partir de simples comandos de texto.

Minha conclusão: Ainda temos um caminho a percorrer para alcançar a qualidade de Hollywood, mas estou extremamente impressionado com o quanto a tecnologia de texto para vídeo avançou no último ano.

INFORMAÇOES EM: https://www.shengshu-ai.com/home

Fri, Apr 26, 2024

Snowflake Arctic: Um IA para o setor empresarial

Dia 24/04 a Snowflake, empresa fornecedora de nuvem de dados, lançou recentemente o Arctic, um novo modelo de linguagem grande e de código aberto, projetado para permitir que usuários desenvolvam aplicações e modelos de inteligência artificial (IA) de nível empresarial. Esse lançamento ocorre pouco depois que a concorrente Databricks apresentou o DBRX, outro modelo de linguagem grande e de código aberto, visando facilitar o uso de IA para decisões empresariais.

A introdução do Arctic também segue a recente mudança na liderança da Snowflake, com a saída do CEO Frank Slootman e a nomeação de Sridhar Ramaswamy, ex-executivo da Neeva, uma empresa de motores de busca impulsionada por IA gerativa, adquirida pela Snowflake. A chegada de Ramaswamy sinaliza um foco renovado da empresa em IA, incluindo a IA gerativa.

O Arctic foi desenvolvido para ser particularmente eficaz em aplicações empresariais, como a geração de código SQL e a execução de instruções, respondendo às necessidades específicas das empresas e não do público geral. Isso se contrasta com modelos como o ChatGPT da OpenAI e o Google Gemini, que, embora treinados com dados públicos e capazes de responder perguntas complexas sobre eventos históricos, não têm conhecimento específico sobre os dados empresariais sem treinamento adicional.

O Arctic oferece vantagens significativas, como a integração segura dentro do mesmo ambiente em que os dados são armazenados, reduzindo os riscos de violações de dados ao evitar a necessidade de transferir dados para entidades externas. Essa integração e segurança aprimoradas são cruciais, conforme destacado por analistas de mercado.

Além disso, o modelo promete eficiência em termos de custos de treinamento, devido à sua arquitetura que ativa um número reduzido de parâmetros, tornando o treinamento de modelos personalizados mais acessível. Embora a Snowflake ainda não forneça uma documentação independente dos testes de benchmark do Arctic, a empresa afirma que seu desempenho é comparável a outros modelos de código aberto em tarefas como geração de código, seguindo instruções e aplicando conhecimentos gerais.

O lançamento do Arctic também destaca a corrida competitiva no desenvolvimento de IA gerativa entre as plataformas de dados. Empresas como AWS, Google Cloud, IBM, Microsoft e Oracle também estão investindo em capacidades de IA acopladas às suas plataformas de dados, com a expectativa de que essas capacidades se tornem um ponto crucial de controle dentro de suas contas de clientes.

Em resumo, o Arctic não apenas adiciona uma nova opção de LLM ao mercado, mas também exemplifica a estratégia da Snowflake de fornecer ferramentas que ajudam os usuários a tomar decisões empresariais informadas e desenvolver aplicações de IA de maneira segura e eficiente, alinhando-se com a direção estratégica sob a liderança de Ramaswamy.

Código Fonte: https://github.com/Snowflake-Labs/snowflake-arctic

E modelo: https://huggingface.co/Snowflake/snowflake-arctic-instruct

OpenVoice: Clonagem de voz

O OpenVoice é uma abordagem versátil de clonagem instantânea de voz que requer apenas um breve trecho de áudio do locutor de referência para replicar sua voz e gerar fala em múltiplos idiomas. O OpenVoice permite um controle granular sobre estilos de voz, incluindo emoção, sotaque, ritmo, pausas e entonação, além de replicar a cor tonal do locutor de referência. O projeto também realiza clonagem de voz interlingual em modo zero-shot para idiomas que não estão incluídos no conjunto de treinamento com grande quantidade de falantes. Além disso, o sistema é computacionalmente eficiente, custando dezenas de vezes menos do que as APIs comerciais disponíveis que oferecem desempenho até inferior. O relatório técnico e o código-fonte podem ser encontrados em https://research.myshell.ai/open-voice

Thu, Apr 25, 2024

Apple lança novo modelo de IA opensource.

A Apple recentemente introduziu no mercado o OpenELM, uma inovadora linha de modelos de linguagem de código aberto. Esta novidade marca um passo significativo na direção da reprodutibilidade e transparência no campo da inteligência artificial, ao mesmo tempo que assegura a confiabilidade dos resultados gerados e possibilita análises mais profundas dos modelos. O OpenELM é descrito em um estudo divulgado pela empresa, o qual ressalta sua abordagem de escalonamento em camadas para uma alocação eficiente de parâmetros nos diversos níveis de um modelo transformer, contribuindo para uma precisão superior se comparado a outros modelos conhecidos.

Em testes realizados, o OpenELM demonstrou ser mais preciso que o modelo OLMo, registrando um aumento de 2,36% em precisão com aproximadamente 1 bilhão de parâmetros. Este resultado foi alcançado mesmo com o uso de metade dos tokens de pré-treinamento usualmente necessários, evidenciando assim a eficiência notável deste novo modelo.

Os modelos OpenELM foram desenvolvidos usando extensos conjuntos de dados públicos, entre eles RedefineWeb, PILE, RedPajama e Dolma. Estes conjuntos incluem textos de diversas origens, como livros, artigos e websites, proporcionando uma base rica e variada para o treinamento. O artigo detalha também a quantidade de tokens utilizada, reforçando o compromisso da Apple com a transparência na apresentação de seus dados e métodos.

Um dos grandes diferenciais do OpenELM é seu caráter de código aberto. A Apple não apenas disponibilizou os modelos, mas também os códigos e os dados utilizados para o pré-treinamento, permitindo que outros pesquisadores e desenvolvedores possam não só utilizar esses recursos, mas também contribuir para seu aprimoramento. Esta abertura é parte do esforço da empresa para fomentar uma colaboração mais ampla e efetiva na comunidade de desenvolvimento de inteligência artificial.

Além dos modelos, a Apple lançou a CoreNet, uma biblioteca de redes neurais profundas destinada especificamente ao treinamento do OpenELM. Esta biblioteca já está disponível no GitHub, oferecendo aos usuários acesso ao código fonte e instruções detalhadas para implementação e uso dos modelos. Adicionalmente, informações complementares, incluindo os modelos pré-treinados e os guias de instrução, podem ser encontradas na plataforma Hugging Face, destacando a disposição da Apple em facilitar o acesso e a utilização de seus recursos.

Mais informções aqui: https://huggingface.co/apple/OpenELM