Mon, Jun 26, 2023

Stability AI SDXL 0.9: Uma nova fronteira na geração de imagens por IA

A empresa Stability AI apresentou o SDXL 0.9, o seu mais recente progresso no conjunto de modelos Stable Diffusion para geração de imagens a partir de texto. Após a bem-sucedida estreia do Stable Diffusion XL beta em abril, o novo SDXL 0.9 oferece uma substancial melhoria na qualidade das imagens e na riqueza de detalhes se comparado ao seu predecessor.

O acesso ao modelo pode ser feito por meio do ClipDrop atualmente, com a API sendo disponibilizada em breve. Os pesos para pesquisa serão lançados abertamente em meados de julho, à medida que avançamos para a versão 1.0.

Embora seja possível rodar o SDXL 0.9 numa GPU convencional, este modelo representa um avanço significativo no uso criativo das imagens geradas por IA. A possibilidade de criar representações hiper-realistas para cinema, TV, música e vídeos didáticos, além de ser aplicável a design e uso industrial, posiciona o SDXL na vanguarda das aplicações de imagens de IA.

Exemplos:

Alguns exemplos dos prompts testados no SDXL beta (esquerda) e 0.9 mostram o quão longe esse modelo chegou em apenas dois meses.

Prompt: ✨aesthetic✨ aliens walk among us in Las Vegas, scratchy found film photograph

(Left – SDXL Beta, Right – SDXL 0.9)

Prompt: *~aesthetic~*~ manicured hand holding up a take-out coffee, pastel chilly dawn beach instagram film photography
Negative prompt: 3d render, smooth, plastic, blurry, grainy, low-resolution, anime

(Left – SDXL Beta, Right – SDXL 0.9)

A série SDXL não só atende a pedidos de texto básico, mas também dispõe de uma gama de funcionalidades adicionais. Isso inclui a requisição de imagem para imagem (onde uma imagem é inserida para gerar variações dela), pintura interna (reconstrução de partes faltantes numa imagem) e pintura externa (expansão perfeita de uma imagem existente).

Como funciona de baixo do capô?

A principal força motriz por trás do avanço do SDXL 0.9 é o aumento significativo na contagem de parâmetros (soma de todos os pesos e vieses na rede neural usada para treinar o modelo) em relação à versão beta.

O SDXL 0.9 é um dos modelos de geração de imagens com a maior contagem de parâmetros abertos, apresentando 3,5B parâmetros no modelo base e 6,6B no pipeline de conjunto de modelos (a saída final é criada executando-se dois modelos e agregando os resultados). O modelo do segundo estágio é usado para adicionar detalhes mais refinados à saída do primeiro estágio.

Comparativamente, a versão beta rodava com 3,1B parâmetros e usava apenas um único modelo.

O SDXL 0.9 roda em dois modelos CLIP, incluindo um dos maiores modelos OpenCLIP treinados até hoje (OpenCLIP ViT-G/14). Isso reforça a capacidade do 0.9 de criar imagens realistas com maior profundidade e resolução de 1024×1024.

Um artigo de pesquisa detalhando as especificações e testes deste modelo será divulgado pela equipe SDXL em breve.

Requisitos do Sistema

Apesar de sua capacidade de processamento e arquitetura de modelo avançada, o SDXL 0.9 pode ser rodado em uma GPU moderna de consumo, exigindo apenas um sistema operacional Windows 10 ou 11 ou Linux, com 16GB de RAM, e um Nvidia GeForce RTX 20 (ou equivalente) com no mínimo 8GB de VRAM. Usuários de Linux também podem usar uma placa compatível da AMD com 16GB de VRAM.

Próximos passos

O lançamento geral aberto do SDXL 1.0 está previsto para meados de julho (data a confirmar), seguindo o SDXL 0.9.

Contato: Para mais informações ou para dar feedback sobre o SDXL 0.9, por favor entre em contato conosco em research@stability.ai.

Anunciado StableStudio: código aberto para IA generativa

A revolucionária startup Stability AI, famosa por seu modelo de geração de imagens Stable Diffusion, chama a atenção com a divulgação de seu mais recente projeto, StableStudio. Trata-se de uma edição de código aberto do seu software de design comercial baseado em IA, o DreamStudio. Esse passo estratégico se alinha com a meta da empresa de promover o desenvolvimento colaborativo e se manter na vanguarda do dinâmico setor de IA generativa e arte, um ritmo que muitas vezes supera as iniciativas de empresas individuais e seus softwares proprietários. Esta ação também é vista como uma estratégia para capitalizar os investimentos recentes de gigantes tecnológicos como Google, Microsoft e Amazon.

A empresa acredita que um desenvolvimento de código aberto, colaborativo e voltado para a comunidade poderá facilitar a expansão da IA generativa. Eles compartilharam sua visão de trabalhar com a comunidade em geral para desenvolver a interface de usuário mais eficaz, concedendo aos usuários controle total sobre o potencial criativo da IA generativa.

Inicialmente projetado como um estúdio de animação para o modelo de arte AI generativa de código aberto Disco Diffusion, o DreamStudio gradualmente se reinventou e passou a focar na geração de imagens com a introdução do Stable Diffusion. Esta mudança de foco colocou o DreamStudio em uma disputa acirrada com outras plataformas de geração de imagens concorrentes, como Midjourny e NightCafe.

Embora StableStudio e DreamStudio tenham várias semelhanças, também apresentam diferenças significativas. StableStudio não compartilha marcas ou recursos específicos de conta do DreamStudio, como cobrança e gerenciamento de API. Além disso, as chamadas de API de back-end foram substituídas por um sistema de plug-in.

Apesar de StableStudio compartilhar uma visão de desenvolvimento colaborativo, alguns críticos enxergam o lançamento do StableStudio como uma tentativa da Stability AI de externalizar o desenvolvimento do DreamStudio para a comunidade de código aberto. Embora este ponto de vista não seja totalmente sem fundamento, é verdade que a Stability AI está sob grande pressão para monetizar suas diversas iniciativas, que abrangem arte, animação, biomedicina e áudio generativo.

Emad Mostaque, CEO da Stability AI, sugeriu a possibilidade de uma oferta pública inicial (IPO) para a Stability AI. Curiosamente, apesar de ter arrecadado mais de US$ 100 milhões em capital de risco em outubro do ano anterior, com uma avaliação superior a US$ 1 bilhão, conforme postagens recentes no Stability Ai indicam que a empresa precisa acelerar a geração de receitas, já que seus recursos financeiros estão sendo rapidamente consumidos.

Essa nova estratégia representa um desafio para a Stability AI. Diferente do Stable Diffusion, que não foi desenvolvido internamente pela empresa, mas em parceria com organizações de pesquisa, a Stability AI se concentrou principalmente em fornecer acesso à nuvem para o poder computacional necessário para treinar modelos de IA, em vez de desenvolver seus próprios modelos.

Essa abordagem está mudando constantemente. Há algumas semanas, a Stability AI anunciou o lançamento de um conjunto de modelos de IA para geração de texto, com o objetivo de competir com sistemas como o GPT-4 e o ChatGPT da OpenAI. Além disso, a Stability AI lançou o Stable Diffusion XL (SDXL), uma versão avançada do modelo original com melhorias significativas, como a geração de mãos.

A decisão ousada da Stability AI de tornar seu projeto de código aberto está estrategicamente alinhada com os esforços contínuos da empresa para garantir mais financiamento. Com o passar do tempo, observaremos como essa mudança irá afetá-los.

Código Fonte: https://github.com/Stability-AI/StableStudio

Thu, Jun 08, 2023

openSUSE Leap 15.5 cool packages disponível!

Instalou o openSUSE Leap 15.5? E agora o que instalar? E os codecs proprietários ? E os codecs multimídia? Demorou mas foi concluído! O Cool Package é um processo que instala alguns software necessários para a dia a dia de um SUSEIRO e resolver todas as questões de dependências. O Cool Package disponibiliza:

  • Thunderbird
  • Codecs
  • VLC
  • KDEnlive
  • DVDAuthor
  • MPV
  • ffmpeg
  • Lame
  • E outros…

A seguir o botão 1-click Install. que resolver estes questionamentos, pois este botão instala os primeiros softwares principais para a tarefa do dia a dia como: o cliente de email Thunderbird, VLC, MPV, Codecs proprietários e editores de vídeos. Qualquer dúvida, críticas e sugestões em cabelo@opensuse.org

Lançado openSUSE 15.5!

Em 07 de junho de 2023, a versão estável do openSUSE Leap 15.5 foi lançada ao público. Originada a partir do código fonte do SUSE Linux Enterprise 15 Service Pack 5, o Leap 15.5 se beneficiará de atualizações de manutenção e segurança durante um período estimado de 18 meses, o que se estenderá até dezembro de 2024.

Embora esta atualização não introduza características inéditas, o openSUSE Leap 15.5 proporciona versões mais avançadas de softwares e pacotes, incluindo a prestigiosa biblioteca de gráficos 3D Mesa 22.3.5, que agora suporta novos protocolos Vulkan e hardware mais atualizado, como o Intel DG2 e RDNA 3. Analogamente ao Leap 15.4, o Linux Kernel 5.14.21 ainda persiste no Leap 15.5, mas agora com a adição de cerca de 19.000 correções focadas primordialmente no suporte a drivers de GPUs, de redes, bluetooth e de dispositivos de armazenamento. Outro aprimoramento digno de nota reside no repositório do codec OpenH264, que se encontra habilitado por padrão em todas as instalações recentes.

Download AQUI!

Wed, Jun 07, 2023

SAHI: HyperInferência em Visão Computacional

A detecção de objetos pequenos é uma tarefa de identificar e localizar objetos de tamanho relativamente pequeno em imagens digitais. Esses objetos geralmente têm extensão espacial limitada e baixa cobertura de pixel e podem ser difíceis de detectar devido à sua aparência pequena e baixa relação sinal ruído.

Existem vários algoritmos de detecção de objetos, como Faster RCNN, YOLO, SSD, RetinaNet, EfficientDet. Atualmente em grande maioria dos casos, esses modelos são treinados no conjunto de dados COCO (Common Objects in Context). É um conjunto de dados de grande escala contendo uma ampla variedade de categorias e anotações de objetos, tornando-o popular para detectores de objetos de treinamento. No entanto, verifica-se que esses modelos não conseguem detectar objetos pequenos.

O campo receptivo refere-se à extensão espacial da imagem de entrada que influencia a saída de um determinado neurônio ou filtro em uma rede neural convolucional (CNN). Em detectores de objetos normais, o campo receptivo pode ser limitado, o que significa que a rede pode não ter uma compreensão suficiente das informações contextuais que envolvem objetos menores.

Hiperinferência auxiliada por fatiamento do projeto SAHI, um pipeline de ponta projetado especificamente para detecção de objetos pequenos. O SAHI aproveita o poder da inferência auxiliada por corte e das técnicas de ajuste fino, revolucionando a forma como os objetos são detectados. O que diferencia a detecção de objetos SAHI é sua integração perfeita com qualquer detector de objetos, eliminando a necessidade de ajustes tediosos. Essa inovação permite uma adoção rápida e sem esforço, sem comprometer o desempenho. Abaixo o paper sobre SAHI.

https://arxiv.org/abs/2202.06934

https://github.com/obss/sahi

Alguns Exemplos:

Mon, May 29, 2023

Minecraft com GPT-4 incrível!

Apresentamos o Voyager, um inovador agente de aprendizado contínuo incorporado (LLM) no universo virtual de Minecraft. Ele é o primeiro de sua categoria, capaz de explorar o mundo continuamente, adquirir uma ampla gama de habilidades e fazer descobertas inéditas, tudo isso sem qualquer intervenção humana. Este post mostrará as características únicas do Voyager, sua estrutura, funcionalidades e sua capacidade de aprendizado, além de destacar seu desempenho superior em relação a outros projeto.



Em maneira empirica, o Voyager demonstra forte capacidade de aprendizado contínuo no contexto e exibe excepcional proficiência em jogar Minecraft. Voyager é capaz de utilizar a biblioteca de habilidades aprendida em um novo mundo do Minecraft para resolver tarefas inéditas do zero, enquanto outras técnicas lutam para generalizar.

O Voyager é formado por três componentes principais, essenciais para a sua operação e performance.

  • O Voyager emprega um currículo automático cuja principal função é maximizar a exploração. Este currículo determina as diretrizes básicas para as atividades de aprendizado do agente, buscando garantir que ele explore o ambiente de maneira eficiente e eficaz. Ele é projetado para incentivar o agente a buscar ativamente novas experiências, ampliando assim a variedade de habilidades que pode adquirir.
  • Proporciona uma biblioteca de habilidades em constante expansão, que armazena códigos executáveis capazes de representar e recuperar comportamentos complexos. Este recurso é vital para a habilidade do Voyager de adquirir, manter e aplicar uma ampla gama de habilidades. As habilidades que o Voyager aprende não são apenas armazenadas para uso futuro, mas são também organizadas de tal maneira que podem ser recuperadas e aplicadas de forma eficiente conforme a necessidade.
  • Finalmente, o Voyager emprega um novo mecanismo de prompt iterativo que incorpora feedback do ambiente, erros de execução e auto-verificação para aprimorar o desempenho do programa. Esse mecanismo é essencial para ajudar o Voyager a aprender com suas ações, avaliar o sucesso de suas tarefas e corrigir erros, contribuindo para o seu crescimento e desenvolvimento contínuos.

Interação com GPT-4

Um aspecto interessante do Voyager é a forma como ele interage com o GPT-4, uma arquitetura de modelo de linguagem poderosa da OpenAI. O Voyager consulta o GPT-4 usando consultas de caixa preta, uma abordagem que evita a necessidade de ajuste fino dos parâmetros do modelo. Isso facilita a interação entre o Voyager e o GPT-4, permitindo que o agente aprenda e opere de forma mais eficiente.

As Habilidades do Voyager

As habilidades que o Voyager adquire e desenvolve são extensas, interpretáveis e composicionais. Elas são extensas no sentido de que o agente é capaz de aplicá-las em uma série de contextos ao longo do tempo. Elas são interpretáveis, o que significa que podem ser entendidas e analisadas tanto pelo Voyager quanto por observadores humanos. E são composicionais, de forma que o agente pode combinar diferentes habilidades para formar comportamentos mais complexos. Esta combinação de características permite ao Voyager aumentar rapidamente suas habilidades e mitigar o problema do esquecimento catastrófico, um desafio comum em sistemas de aprendizado de máquina.

Mais detalhes sobre o projeto aqui: https://github.com/MineDojo/Voyager

Thu, May 25, 2023

Feliz dia da toalha e do Orgulho NERD!

O Dia do Orgulho Nerd, ou Dia do Orgulho Geek é uma iniciativa que advoga o direito de toda pessoa ser um nerd ou um geek. Teve origem na Espanha (“dia del orgullo friki”, em espanhol).[1]

O dia do orgulho nerd é celebrado em 25 de maio desde 2006, comemorando a première do primeiro filme da série Star Wars, em 1977. O dia 25 de maio também é o Dia da Toalha, em homenagem ao escritor Douglas Adams.

Origens

Em 2006, este dia foi celebrado pela primeira vez em toda a Espanha e na internet, graças à publicidade dada por alguns meios, como:

A maior concentração aconteceu em Madri, onde 300 Nerds demonstraram seu orgulho com um pacman humano.

Comemorações de 2007

Em 2007 a celebração contou com mais ajuda de instituições oficiais (como o Circo Price, de Madri) e teve comemoração mais ampla por toda a Espanha. Atividades oficiais foram anunciadas no Pilar de la Horadada, Cádiz, Huesca, Calaf, Huelva, e Valência. Houve uma campanha Doação de Sangue Nerd. Entre outros atos, foi exibido o filme Gritos no corredor.

2008: O dia do Orgulho Nerd chega à América

Em 2008, o Dia do Orgulho Nerd atravessou o Atlântico e foi comemorado oficialmente na América, onde foi divulgado por numerosos bloggers, unidos pelo lançamento do site GeekPrideDay. O matemático e autor John Derbyshire, vencedor do Prêmio Livro de Euler e blogger geek, anunciou[2] que apareceria na parada da Quinta Avenida, vestido de número 57, na ala dos números primos – o que fez alguns bloggers dizerem que iriam procurá-lo.

Direitos e deveres dos nerds

Foi criado um manifesto para celebrar o primeiro Dia do Orgulho Nerd, que incluía a seguinte lista de direitos e deveres dos nerds:[3]Direitos

  1. O direito de ser nerd.[3]
  2. O direito de não ter que sair de casa.[3]
  3. O direito a não ter um par e ser virgem.[3]
  4. O direito de não gostar de futebol ou de qualquer outro esporte.[3]
  5. O direito de se associar com outros nerds.[3]
  6. O direito de ter poucos (ou nenhum) amigo.[3]
  7. O direito de ter o tanto de amigos nerds que quiser.[3]
  8. O direito de não ter que estar “na moda”.[3]
  9. O direito ao sobrepeso (ou subpeso) e de ter problemas de visão.[3]
  10. O direito de expressar sua nerdice.[3]
  11. O direito de dominar o mundo.[3]

Deveres

  1. Ser nerd, não importa o quê.[3]
  2. Tentar ser mais nerd do que qualquer um.[3]
  3. Se há uma discussão sobre um assunto nerd, poder dar sua opinião.[3]
  4. Guardar todo e qualquer objeto nerd que tiver.[3]
  5. Fazer todo o possível para exibir seus objetos nerds como se fosse um “museu da nerdice”.[3]
  6. Não ser um nerd generalizado. Você deve se especializar em algo.[3]
  7. Assistir a qualquer filme nerd na noite de estréia e comprar qualquer livro nerd antes de todo mundo.[3]
  8. Esperar na fila em toda noite de estreia. Se puder ir fantasiado, ou pelo menos com uma camisa relacionada ao tema, melhor ainda.[3]
  9. Não perder seu tempo em nada que não seja relacionado à nerdice.[3]
  10. Tentar dominar o mundo.[3]

Wed, May 24, 2023

IA treinada na dark web chamada DarkBERT

https://arxiv.org/abs/2305.08596

Desenvolvido por uma equipe sul-coreana, este modelo de inteligência artificial é treinado com dados extraídos da Dark Web. É incontestável que entramos a era das inteligências artificiais, especialmente após o surgimento de modelos equipados com LLM, ou “Large Language Model”, como o ChatGPT, desenvolvido pela OpenAI.

Isso é possível porque essas IA’s têm acesso a vastos repositórios de dados interconectados por redes neurais artificiais e são treinadas para se comunicarem da forma mais eficiente possível. Contudo, o progresso das inteligências artificiais tem gerado apreensões por parte de empresários e autoridades globais, que temem que as habilidades desses robôs possam ser exploradas para fins maliciosos.

Nesse contexto, foi recentemente lançado o DarkBERT, um chatbot similar ao ChatGPT, mas treinado com dados obtidos das partes mais profundas da internet, a dark web. Segundo seus criadores sul-coreanos, o DarkBERT é fundamentado em uma estrutura de dados conhecida como RoBERTa, que realiza um trabalho bastante similar às suas contrapartes mais famosas.

Para conceber o novo chatbot, os pesquisadores acessaram as redes de dados da dark web para coletar informações que poderiam ser ensinadas ao DarkBERT. Assim, agora o DarkBERT possui seu próprio acervo de dados sobre informações circuladas na Dark Web.

É importante ressaltar que a dark web é um ambiente frequentado por criminosos para, predominantemente, comercializarem itens ilegais, como relíquias furtadas, mercadorias de contrabando e até órgãos humanos. Além disso, na dark web também é possível monitorar a atividade de grupos extremistas e a propagação de discursos de ódio e ideias prejudiciais à manutenção da sociedade como a conhecemos.

Como foi desenvolvido? Os pesquisadores treinaram o modelo RoBERTa ao vasculhar a Dark Web através da rede conhecida como Tor. A partir daí, aplicaram técnicas de filtragem de dados, como pré-processamento de dados, e construíram um banco de dados com informações da Dark Web.

Em outras palavras, o DarkBERT nasceu da utilização do Large Language Model (LLM) RoBERTa, alimentado com as informações obtidas por esse banco de dados. Desta forma, o software é capaz de analisar dados de sites e conteúdos da internet profunda, mesmo escritos em linguagens específicas, para depois utilizá-los de maneira útil.

Como pode ser utilizado? O modelo criado pode ser empregado por forças policiais de cibersegurança, pois pode penetrar nas camadas profundas da web, onde transações ilegais ocorrem em grande escala. O DarkBERT pode continuar se aperfeiçoando e sendo aplicado em áreas ainda inexploradas.

Conforme seus desenvolvedores, o DarkBERT ainda pode ser aprimorado e atualizado, assim como outros chatbots altamente inteligentes. Para isso, a equipe continuará atualizando o seu banco de dados.

Thu, May 11, 2023

MOJO: A linguagem para IA que promete ser 35.000x mais veloz que Python

Mojo é uma linguagem de programação PROMETIDA SER projetada especificamente para aplicações de Inteligência Artificial (IA). Ela é uma inovação recente, mas não se preocupe, você não precisa começar do zero! Mojo é, de certa forma, um subconjunto do Python, aproveitando-se da facilidade de uso desta linguagem. Portanto, para aqueles familiarizados com Python, a transição para Mojo é bastante simples. Além disso, Mojo possui desempenho comparável ao do C.

Isso significa que Mojo diz combinar o melhor de dois mundos: a simplicidade do Python com a rapidez do C. Então, Python tornou-se obsoleto para Data Science e IA? Não exatamente. Embora Python possua um vasto arsenal de pacotes para lidar com dados, ele recorre a rotinas de baixo nível escritas em C, C++ ou outras linguagens de alta performance quando a demanda por desempenho é alta. É assim que bibliotecas como TensorFlow e numpy operam em Python.

A linguagem Mojo foi desenvolvida pela empresa Modular, sendo Chris Lattner, co-fundador da empresa e criador do Swift e da infraestrutura de compilação LLVM escrita em C++, um dos responsáveis pela sua criação.

Aqui estão algumas características distintivas do Mojo:

  1. Mojo é uma subset de Python, com o objetivo de ser totalmente compatível com esta linguagem.
  2. Ele apresenta uma forte verificação de tipos para melhorar o desempenho e a detecção de erros.
  3. Inclui um verificador de propriedade e empréstimo de memória, por meio de uma convenção de argumento de propriedade (“owner”), utilizada por funções que buscam adquirir propriedade exclusiva sobre um valor, aumentando a segurança da memória.
  4. Possui ajuste automático integrado, que auxilia na determinação dos melhores valores para os parâmetros de acordo com o hardware utilizado.
  5. Utiliza todo o potencial da MLIR (“Multi-Level Intermediate Representation”), facilitando o uso de vetores, threads e unidades de hardware específicas para IA.
  6. Suporta paralelismo, otimizando o uso de hardware avançado, como as modernas GPUs.

Para ilustrar o desempenho de Mojo comparado ao Python, observe a tabela abaixo (não consegui determinar qual aplicação gerou estes dados):

Para concluir, o Mojo foi concebido com o objetivo de prover um modelo de programação distinto para aceleradores de aprendizado de máquina.

A Modular decidiu que o Mojo deveria suportar programação de uso geral, visto que as CPUs atuais possuem tensores e outros aceleradores de IA incorporados. Além disso, devido à ampla utilização do Python em aprendizado de máquina e em diversas outras áreas, a Modular decidiu integrar-se ao ecossistema Python.

A escolha do Python simplificou ainda mais o processo de design da linguagem. Com grande parte da sintaxe já estabelecida, a empresa pôde focar na construção do compilador e na implementação de capacidades de programação especializadas.

Como iniciar?

Você pode dar os primeiros passos AQUI com a linguagem Mojo agora mesmo, utilizando o Playground disponibilizado. Este ambiente, baseado no JupyterHub, oferece tutoriais e a chance de elaborar seu próprio código Mojo, mesmo que a linguagem ainda esteja em desenvolvimento. Para acessar o Playground, basta se cadastrar no site da plataforma.

Referencias:

[1] The PyCoach, Mojo: The Programming Language for AI That Is Up To 35000x Faster Than Python. Disponível em: https://artificialcorner.com/mojo-the-programming-language-for-ai-that-is-up-to-35000x-faster-than-python-e68d1fba37db.

[2] Modular, Modular: Mojo. Disponível em: https://docs.modular.com/mojo/.

Wed, May 10, 2023

Disponível o material da palestra: IA Generativa – Um futuro inevitável!

Deixo neste post o material da minha palestra IA Generativa – Um futuro inevitável!

https://palestras.assuntonerd.com.br/iagen/