Fri, Jul 28, 2023

Visão Computacional ajudando a IA Generativa!

O After Detailer (adetailer) é uma extensão que automatiza o recurso inpainting e muito mais. Isso economiza seu tempo, como também é ótimo para corrigir rapidamente problemas comuns, como rostos distorcidos.

Na imagem gerada, como o rosto é pequeno e a resolução é baixa, não há muitos pixels cobrindo o rosto. O VAE não tem pixels suficientes para gerar uma boa face. Portanto, o rosto é truncado e deformações são geradas.

O After Detailer automatiza esse processo usando um modelo de inferência para o reconhecimento facial, assim detectando o rosto e criando a máscara de pintura automaticamente. A extensão então executa o inpainting apenas com a área mascarada.

https://github.com/Bing-su/adetailer

Fri, Jul 21, 2023

TokenFlow: IA para geração de vídeos.

A inteligência artificial (IA) que cria conteúdo novo, como imagens ou texto, tem se expandido para vídeos. Mas, até agora, os modelos de vídeo ainda não estão no mesmo nível que os de imagem em relação à qualidade visual e à capacidade do usuário de controlar o que é gerado. Neste estudo, foi desenvolvido um sistema que utiliza um tipo especial de IA que converte texto em imagem para editar vídeos baseados em texto.

Basicamente, o sistema pega um vídeo original e um texto guia e cria um vídeo de alta qualidade que segue as instruções do texto. Ao mesmo tempo, ele mantém o arranjo espacial e a dinâmica do vídeo original. A ideia por trás do nosso método é garantir que as características de cada quadro do vídeo sejam consistentes ao longo de toda a edição. Fazemos isso propagando essas características, disponíveis em nosso modelo, de quadro para quadro.

O melhor de tudo é que o sistema não precisa de treinamento ou ajustes específicos. Ele pode ser usado com qualquer método padrão de edição de texto para imagem. Os resultados da edição com nosso sistema em uma série de vídeos reais são impressionantes.

Abaixo o link do paper:

https://arxiv.org/abs/2307.10373

Thu, Jul 06, 2023

O poder da IA Generativa com openPOSE.

O ControlNet, que vem com a proposta de auxiliar o Stable Diffusion na criação de imagens perfeitas e realistas. ControlNet utiliza esboços, contornos, mapas de profundidade ou normais para orientar os neurônios com base no Stable Diffusion 1.5. Isso implica na possibilidade de se obter imagens quase perfeitas em qualquer modelo personalizado 1.5, desde que se siga a orientação adequada. O ControlNet surge como uma ferramenta revolucionária, proporcionando aos usuários controle total sobre seus projetos.

Para conseguir imagens perfeitas, utilize a extensão A1111 em conjunto com o ControlNet, mais especificamente o módulo Depth. Faça primeiramente alguns closes em selfies e faça upload destas na aba txt2img da interface de usuário do ControlNet. Depois, estabeleça um prompt simples de modelador de sonhos, como “arte de fantasia, homem viking exibindo as mãos em close” e explore o poder do ControlNet. Ao experimentar com o módulo Depth, a extensão A1111 e a aba txt2img da interface de usuário do ControlNet, você obterá mãos visualmente atraentes e realistas.

O ControlNet tem a capacidade de transformar a imagem fornecida em um mapa de profundidade, normais ou esboço, que pode ser usado posteriormente como um modelo. No entanto, também permite que você carregue diretamente seu próprio mapa de profundidade ou esboços. Isso proporciona máxima flexibilidade na criação de uma cena 3D, permitindo que você direcione seu foco para o estilo e a qualidade da imagem final.

A Stable Diffusion é compatível com todos os modelos ControlNet e proporciona um controle significativamente maior sobre a IA generativa. A equipe disponibiliza exemplos de diversas variações de pessoas em posturas estáticas (openPOSE), além de uma variedade de fotos de interiores baseadas no arranjo espacial do modelo e variações de imagens de aves.

Resumindo o futuro chegou!

O pode da IA Generativa com openPOSE.

O ControlNet, que vem com a proposta de auxiliar o Stable Diffusion na criação de imagens perfeitas e realistas. ControlNet utiliza esboços, contornos, mapas de profundidade ou normais para orientar os neurônios com base no Stable Diffusion 1.5. Isso implica na possibilidade de se obter imagens quase perfeitas em qualquer modelo personalizado 1.5, desde que se siga a orientação adequada. O ControlNet surge como uma ferramenta revolucionária, proporcionando aos usuários controle total sobre seus projetos.

Para conseguir imagens perfeitas, utilize a extensão A1111 em conjunto com o ControlNet, mais especificamente o módulo Depth. Faça primeiramente alguns closes em selfies e faça upload destas na aba txt2img da interface de usuário do ControlNet. Depois, estabeleça um prompt simples de modelador de sonhos, como “arte de fantasia, homem viking exibindo as mãos em close” e explore o poder do ControlNet. Ao experimentar com o módulo Depth, a extensão A1111 e a aba txt2img da interface de usuário do ControlNet, você obterá mãos visualmente atraentes e realistas.

O ControlNet tem a capacidade de transformar a imagem fornecida em um mapa de profundidade, normais ou esboço, que pode ser usado posteriormente como um modelo. No entanto, também permite que você carregue diretamente seu próprio mapa de profundidade ou esboços. Isso proporciona máxima flexibilidade na criação de uma cena 3D, permitindo que você direcione seu foco para o estilo e a qualidade da imagem final.

A Stable Diffusion é compatível com todos os modelos ControlNet e proporciona um controle significativamente maior sobre a IA generativa. A equipe disponibiliza exemplos de diversas variações de pessoas em posturas estáticas (openPOSE), além de uma variedade de fotos de interiores baseadas no arranjo espacial do modelo e variações de imagens de aves.

Resumindo o futuro chegou!

Wed, Jul 05, 2023

Frequência Cardíaca com Webcam

Existe uma uma técnica interessante que permite medir a frequência cardíaca (assim obtendo o número de vezes que seu coração bate por minuto) usando apenas uma câmera de computador. A ideia básica é capturar pequenas mudanças na cor do seu rosto que ocorrem quando o sangue flui através dos vasos sanguíneos a cada batimento do coração.

Quando a luz atinge a pele, parte dela é refletida de volta, e essa luz refletida carrega informações sobre o que encontrou pelo caminho, incluindo o sangue que flui sob a pele. Como diferentes substâncias refletem a luz de maneiras distintas (ou seja, têm diferentes “perfis de reflectância”), podemos usar essas diferenças para identificar e medir coisas específicas, neste caso, os batimentos cardíacos.

Então, essencialmente, esta técnica permite com uma webcam utiliza a reflectância espectral para ‘ver’ o pulso de uma pessoa de uma maneira não invasiva. Ao analisar as mudanças sutis na cor da pele capturadas pela câmera, pode-se calcular a frequência cardíaca. É uma técnica incrível que mostra o quão avançada a ciência e a tecnologia se tornaram!

Abaixo os primeiros resultados das pesquisas iniciada em 2022:

Tue, Jul 04, 2023

Intel® e Instituto Credicitrus: Nova parceria no ONOVOLAB DE RIBEIRÃO PRETO/SP.

O Instituto Credicitrus e o Credicitrus Innovation Hub acabam de firmar parceria com a renomada empresa de tecnologia INTEL®. A colaboração estratégica resultante desse acordo ocorrerá no Onovolab Powered by Instituto Credicitrus em Ribeirão Preto, SP, e abrirá novos horizontes para a comunidade de empreendedores e desenvolvedores, proporcionando-lhes acesso privilegiado a tecnologias de ponta, como DevCloud, OpenVino e oneAPI. Essas iniciativas serão conduzidas por meio do Intel Innovator, que tem sido certificado com o selo oneAPI desde 2020, e do Intel Insider Council.

Com isto em breve estarei proporcionando para Ribeirão Preto e toda Região do interior de SP, palestras, materiais e informações sobre tecnologias emergentes que envolve Visão Computacional, Inteligencia Artificial e otimização com processadores Intel como programação multi nuclear e primitivas de performance integradas dos processadores.

Mais informações AQUI!

INTEL® E INSTITUTO CREDICITRUS FIRMAM PARCERIA NO ONOVOLAB EM RIBEIRÃO PRETO/SP

Mon, Jul 03, 2023

OpenCV 4.8.0 Lançada!

A biblioteca OpenCV lançou sua versão 4.8.0. Esta ferramenta, globalmente reconhecida e aplicada em diversos setores, foi originalmente apresentada ao mundo pela Intel no ano 2000. Hoje, conta com uma comunidade de mais de 47 mil contribuidores. E fiquei muito feliz de encontrar meu nome na lista de contribuidores deste release.

Destaques da versão

Melhorias no módulo dnn:
– Suporte introduzido para modelos TFLite
– Permitido construção sem dependência de protobuf
– Backend Vulcan refatorado para melhor desempenho e robustez
-Suporte moderno ao OpenVINO (também no módulo gapi)


Detecção de objetos:
– FaceDetectorYN atualizado para v2 com melhor desempenho e suporte a landmarks
– Novo algoritmo de detecção de QR code baseado no ArUco
– Módulo de código de barras foi movido de opencv_contrib para o módulo objdetect
– Suporte ao tabuleiro Charuco adicionado ao script do gerador de padrões

Codecs de imagem e vídeo:
– Suporte AVIF adicionado através do libavif
– Câmeras Orbbec Femto Mega suportadas
– Corrigida a captura da câmera virtual OBS

Nova função cv::hasNonZero e novo modo REDUCE_SUM2 para cv::reduce
Suporte RISC-V RVV atualizado para compatibilidade com LLVM 16 e GCC 13
Arquivo stub de digitação Python gerado permite que ferramentas e IDEs obtenham assinaturas de funções e tipos, habilitando auto-completar e verificação de tipo estática

Mais detalhes podem ser encontrados no Changelog.

Mon, Jun 26, 2023

Stability AI SDXL 0.9: Uma nova fronteira na geração de imagens por IA

A empresa Stability AI apresentou o SDXL 0.9, o seu mais recente progresso no conjunto de modelos Stable Diffusion para geração de imagens a partir de texto. Após a bem-sucedida estreia do Stable Diffusion XL beta em abril, o novo SDXL 0.9 oferece uma substancial melhoria na qualidade das imagens e na riqueza de detalhes se comparado ao seu predecessor.

O acesso ao modelo pode ser feito por meio do ClipDrop atualmente, com a API sendo disponibilizada em breve. Os pesos para pesquisa serão lançados abertamente em meados de julho, à medida que avançamos para a versão 1.0.

Embora seja possível rodar o SDXL 0.9 numa GPU convencional, este modelo representa um avanço significativo no uso criativo das imagens geradas por IA. A possibilidade de criar representações hiper-realistas para cinema, TV, música e vídeos didáticos, além de ser aplicável a design e uso industrial, posiciona o SDXL na vanguarda das aplicações de imagens de IA.

Exemplos:

Alguns exemplos dos prompts testados no SDXL beta (esquerda) e 0.9 mostram o quão longe esse modelo chegou em apenas dois meses.

Prompt: ✨aesthetic✨ aliens walk among us in Las Vegas, scratchy found film photograph

(Left – SDXL Beta, Right – SDXL 0.9)

Prompt: *~aesthetic~*~ manicured hand holding up a take-out coffee, pastel chilly dawn beach instagram film photography
Negative prompt: 3d render, smooth, plastic, blurry, grainy, low-resolution, anime

(Left – SDXL Beta, Right – SDXL 0.9)

A série SDXL não só atende a pedidos de texto básico, mas também dispõe de uma gama de funcionalidades adicionais. Isso inclui a requisição de imagem para imagem (onde uma imagem é inserida para gerar variações dela), pintura interna (reconstrução de partes faltantes numa imagem) e pintura externa (expansão perfeita de uma imagem existente).

Como funciona de baixo do capô?

A principal força motriz por trás do avanço do SDXL 0.9 é o aumento significativo na contagem de parâmetros (soma de todos os pesos e vieses na rede neural usada para treinar o modelo) em relação à versão beta.

O SDXL 0.9 é um dos modelos de geração de imagens com a maior contagem de parâmetros abertos, apresentando 3,5B parâmetros no modelo base e 6,6B no pipeline de conjunto de modelos (a saída final é criada executando-se dois modelos e agregando os resultados). O modelo do segundo estágio é usado para adicionar detalhes mais refinados à saída do primeiro estágio.

Comparativamente, a versão beta rodava com 3,1B parâmetros e usava apenas um único modelo.

O SDXL 0.9 roda em dois modelos CLIP, incluindo um dos maiores modelos OpenCLIP treinados até hoje (OpenCLIP ViT-G/14). Isso reforça a capacidade do 0.9 de criar imagens realistas com maior profundidade e resolução de 1024×1024.

Um artigo de pesquisa detalhando as especificações e testes deste modelo será divulgado pela equipe SDXL em breve.

Requisitos do Sistema

Apesar de sua capacidade de processamento e arquitetura de modelo avançada, o SDXL 0.9 pode ser rodado em uma GPU moderna de consumo, exigindo apenas um sistema operacional Windows 10 ou 11 ou Linux, com 16GB de RAM, e um Nvidia GeForce RTX 20 (ou equivalente) com no mínimo 8GB de VRAM. Usuários de Linux também podem usar uma placa compatível da AMD com 16GB de VRAM.

Próximos passos

O lançamento geral aberto do SDXL 1.0 está previsto para meados de julho (data a confirmar), seguindo o SDXL 0.9.

Contato: Para mais informações ou para dar feedback sobre o SDXL 0.9, por favor entre em contato conosco em research@stability.ai.

Anunciado StableStudio: código aberto para IA generativa

A revolucionária startup Stability AI, famosa por seu modelo de geração de imagens Stable Diffusion, chama a atenção com a divulgação de seu mais recente projeto, StableStudio. Trata-se de uma edição de código aberto do seu software de design comercial baseado em IA, o DreamStudio. Esse passo estratégico se alinha com a meta da empresa de promover o desenvolvimento colaborativo e se manter na vanguarda do dinâmico setor de IA generativa e arte, um ritmo que muitas vezes supera as iniciativas de empresas individuais e seus softwares proprietários. Esta ação também é vista como uma estratégia para capitalizar os investimentos recentes de gigantes tecnológicos como Google, Microsoft e Amazon.

A empresa acredita que um desenvolvimento de código aberto, colaborativo e voltado para a comunidade poderá facilitar a expansão da IA generativa. Eles compartilharam sua visão de trabalhar com a comunidade em geral para desenvolver a interface de usuário mais eficaz, concedendo aos usuários controle total sobre o potencial criativo da IA generativa.

Inicialmente projetado como um estúdio de animação para o modelo de arte AI generativa de código aberto Disco Diffusion, o DreamStudio gradualmente se reinventou e passou a focar na geração de imagens com a introdução do Stable Diffusion. Esta mudança de foco colocou o DreamStudio em uma disputa acirrada com outras plataformas de geração de imagens concorrentes, como Midjourny e NightCafe.

Embora StableStudio e DreamStudio tenham várias semelhanças, também apresentam diferenças significativas. StableStudio não compartilha marcas ou recursos específicos de conta do DreamStudio, como cobrança e gerenciamento de API. Além disso, as chamadas de API de back-end foram substituídas por um sistema de plug-in.

Apesar de StableStudio compartilhar uma visão de desenvolvimento colaborativo, alguns críticos enxergam o lançamento do StableStudio como uma tentativa da Stability AI de externalizar o desenvolvimento do DreamStudio para a comunidade de código aberto. Embora este ponto de vista não seja totalmente sem fundamento, é verdade que a Stability AI está sob grande pressão para monetizar suas diversas iniciativas, que abrangem arte, animação, biomedicina e áudio generativo.

Emad Mostaque, CEO da Stability AI, sugeriu a possibilidade de uma oferta pública inicial (IPO) para a Stability AI. Curiosamente, apesar de ter arrecadado mais de US$ 100 milhões em capital de risco em outubro do ano anterior, com uma avaliação superior a US$ 1 bilhão, conforme postagens recentes no Stability Ai indicam que a empresa precisa acelerar a geração de receitas, já que seus recursos financeiros estão sendo rapidamente consumidos.

Essa nova estratégia representa um desafio para a Stability AI. Diferente do Stable Diffusion, que não foi desenvolvido internamente pela empresa, mas em parceria com organizações de pesquisa, a Stability AI se concentrou principalmente em fornecer acesso à nuvem para o poder computacional necessário para treinar modelos de IA, em vez de desenvolver seus próprios modelos.

Essa abordagem está mudando constantemente. Há algumas semanas, a Stability AI anunciou o lançamento de um conjunto de modelos de IA para geração de texto, com o objetivo de competir com sistemas como o GPT-4 e o ChatGPT da OpenAI. Além disso, a Stability AI lançou o Stable Diffusion XL (SDXL), uma versão avançada do modelo original com melhorias significativas, como a geração de mãos.

A decisão ousada da Stability AI de tornar seu projeto de código aberto está estrategicamente alinhada com os esforços contínuos da empresa para garantir mais financiamento. Com o passar do tempo, observaremos como essa mudança irá afetá-los.

Código Fonte: https://github.com/Stability-AI/StableStudio

Thu, Jun 08, 2023

openSUSE Leap 15.5 cool packages disponível!

Instalou o openSUSE Leap 15.5? E agora o que instalar? E os codecs proprietários ? E os codecs multimídia? Demorou mas foi concluído! O Cool Package é um processo que instala alguns software necessários para a dia a dia de um SUSEIRO e resolver todas as questões de dependências. O Cool Package disponibiliza:

  • Thunderbird
  • Codecs
  • VLC
  • KDEnlive
  • DVDAuthor
  • MPV
  • ffmpeg
  • Lame
  • E outros…

A seguir o botão 1-click Install. que resolver estes questionamentos, pois este botão instala os primeiros softwares principais para a tarefa do dia a dia como: o cliente de email Thunderbird, VLC, MPV, Codecs proprietários e editores de vídeos. Qualquer dúvida, críticas e sugestões em cabelo@opensuse.org