Wed, May 10, 2023

Inteligência Artificial da China interpreta momentos em fotos.

Fui surpreendido pelo desempenho de uma inteligência artificial de um projeto chinês. Ao enviar uma foto minha com minha mãe, uma cena de filme e outra foto minha na praia, os resultados foram impressionantes. Confira as respostas obtidas ao questionar sobre o aspecto emocionante da imagem, o objeto que eu segurava e a cor da minha camisa:

“A parte mais emocionante desta foto é o abraço amoroso entre você e sua mãe. Vocês dois estão se abraçando com força, mostrando a forte conexão e vínculo que compartilham. Além disso, o fato de você estar segurando um copo plástico com cerveja na mão torna esse momento mais pessoal, pois mostra que vocês estão desfrutando de uma atividade compartilhada ou de um momento de descontração juntos. Esta foto captura um momento caloroso e terno entre você e sua mãe, e provavelmente é uma lembrança que você aprecia.”

projeto: mPLUG-Owl

O paper “mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality” [1] disponibilizado dia 27 de Abril de 2023 às 13:27:01 UTC menciona que Large languade models (LLMs) demonstraram habilidades impressionantes em uma variedade de tarefas, enquanto pesquisas recentes também exploraram o uso de LLMs para geração multimodal.

Neste estudo é apresentado o mPLUG-Owl, um novo paradigma de treinamento que insere aos LLMs habilidades multimodais com aprendizagem modularizada do LLM base, um módulo de conhecimento visual e um módulo abstrator visual. O paradigma de treinamento do mPLUG-Owl envolve um método de duas etapas para alinhar imagem e texto, aprendendo os dados visuais com a assistência do LLM enquanto mantém e até melhora as habilidades de geração do LLM.

Na primeira fase, o módulo de conhecimento visual e o módulo abstrator são treinados com um módulo LLM para alinhar a imagem e o texto. Já na segunda etapa, conjuntos de dados supervisionados apenas de linguagem e multimodais são usados para ajustar conjuntamente um módulo de low-rank adaption (LoRA) no LLM e no módulo abstrator, congelando o módulo de conhecimento visual.

Os resultados experimentais mostram que o modelo supera os modelos multimodais existentes, demonstrando a impressionante habilidade de instrução e compreensão visual do mPLUG-Owl, habilidade de conversação em várias etapas e habilidade de raciocínio de conhecimento.

Mas o que mais me surpreendeu foi algumas habilidades inesperadas e interessantes, como correlação entre várias imagens e compreensão de texto em cena, o que torna possível aproveitá-lo para cenários reais mais difíceis, como compreensão de documentos apenas com visão. Nosso código, modelo pré-treinado, modelos ajustados por instrução e conjunto de avaliação estão disponíveis neste URL https://github.com/X-PLUG/mPLUG-Owl

Abaixo, mais alguns testes:

https://arxiv.org/pdf/2304.14178.pdf

Referencias científicas:

[1] Qinghao Ye, Haiyang Xu, Guohai Xu, Jiabo Ye, Ming Yan, Yiyang Zhou, Junyang Wang, Anwen Hu, Pengcheng Shi, Yaya Shi, Chenliang Li, Yuanhong Xu, Hehong Chen, Junfeng Tian, Qian Qi, Ji Zhang, Fei Huang (2023). “mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality”. arXiv:2304.14178 [cs]. arXiv.org, https://arxiv.org/abs/2304.14178

Fri, May 05, 2023

Próxima Fronteira da IA Generativa

A NVIDIA revelou uma gama de pesquisas de ponta em inteligência artificial (IA) que possibilitará a desenvolvedores e artistas concretizarem suas ideias, sejam elas fixas ou em movimento, em 2D ou 3D, hiper-realistas ou imaginativas.

Em torno de 20 trabalhos de pesquisa da NVIDIA, impulsionando a IA generativa e gráficos neurais, incluindo parcerias com mais de 12 universidades dos Estados Unidos, Europa e Israel, serão apresentados na SIGGRAPH 2023, a conferência líder em gráficos computacionais, ocorrendo de 6 a 10 de agosto em Los Angeles.

Os estudos englobam modelos de IA generativa que convertem texto em imagens personalizadas; ferramentas de renderização inversa que modificam imagens fixas em objetos 3D; modelos de física neural que empregam IA para simular elementos 3D complexos com realismo surpreendente; e modelos de renderização neural que proporcionam novas habilidades para gerar detalhes visuais em tempo real, impulsionados por IA.

As inovações desenvolvidas pelos pesquisadores da NVIDIA são frequentemente compartilhadas com os desenvolvedores no GitHub e integradas a produtos como a plataforma NVIDIA Omniverse, voltada para a criação e gerenciamento de aplicativos de metaverso, e o NVIDIA Picasso, uma fundição recentemente revelada para modelos de inteligência artificial generativos e personalizados em design gráfico. A extensa pesquisa em gráficos realizada pela NVIDIA ao longo dos anos possibilitou a incorporação de renderizações cinematográficas em jogos, como é o caso do recentemente lançado Cyberpunk 2077 Ray Tracing: Overdrive Mode, o título path-traced AAA.

Os progressos na pesquisa exibidos este ano na SIGGRAPH permitirão que desenvolvedores e empresas gerem rapidamente dados sintéticos para popular mundos virtuais destinados ao treinamento de robôs e veículos autônomos. Além disso, possibilitarão que profissionais de arte, arquitetura, design gráfico, desenvolvimento de jogos e cinema produzam mais eficientemente imagens de alta qualidade para a elaboração de storyboards, pré-visualizações e até mesmo produções.

Fonte https://blogs.nvidia.com/blog/2023/05/02/graphics-research-advances-generative-ai-next-frontier/#new_tab

Wed, Apr 26, 2023

Um gigante livro de receitas sobre Aprendizagem Auto-supervisionada.

Tudo o que você sempre quis saber sobre Aprendizagem Auto-Supervisionada, mas tinha medo de perguntar. Agora disponível neste super PDF desenvolvido uma grande multidão da Meta AI (FAIR) com vários colaboradores acadêmicos liderados por Randall Balestriero e Mark Ibrahim.

Download aqui: https://arxiv.org/abs/2304.12210

TactGlove – Tocando objetos no Metaverso.

A TactGlove é uma luva táctil de realidade virtual que permite que os jogadores sintam e interajam com seu ambiente virtual com mais realismo. Esta luva vem equipada com sensores táteis e motores de vibração que podem replicar a sensação de tocar objetos virtuais ou outros jogadores. O equipamento ficou disponível para uso doméstico no segundo semestre de 2022.

Este equipamento é um dispositivo háptico. Ou seja, uma tecnologia que permite aplicar as sensações cutâneas e cinestésicas na interação com o mundo virtual. Ou seja, agora podemos tocar objetos virtuais no Metaverso e uma variedade de outras funcionalidades que possibilitam uma incrível experiência de realidade virtual. Então podemos dizer que a tecnologia permite ao usuário ter uma experiência muito mais realista em ambientes virtuais ou de realidade aumentada.

Os sensores presentes na luva também são usados para detectar e interpretar os sinais elétricos transmitidos pelos músculos, proporcionando assim um melhor controle dos movimentos das mãos.

A tecnologia conta com 10 pequenos vibradores sendo colocados na ponta dos dedos da TactGlove. Pensando na higiene, há duas luvas (uma interna e outra externa) para que você possa compartilhar o produto com outras pessoas. A interna pode ser lavada em máquinas convencionais, permitindo que o suor absorvido durante o uso seja eliminado e a luva higienizada. Não precisa se preocupar caso sua mão seja grande ou pequena demais: a bHaptics desenvolveu a luva háptica nos tamanhos pequeno, médio e grande.

Cada dedo da luva TactGlove tem um atuador ressonante linear que o gadget combina com a tecnologia de rastreamento manual para proporcionar a sensação de toque ao tocar em VR.

Junto com um algoritmo neuromórfico, a empresa bHaptics utiliza pequenos motores que passam a mesma sensação. Assim proporcionando a sensação capaz de “pegar” os objetos e senti-los em sua mão. As luvas são sem fio e proporcionam até 4 horas de tempo de jogo entre as cargas.

As luvas serão compatíveis com sistemas de rastreamento de mão baseados em câmera, que estão atualmente disponíveis em dispositivos como o Oculus Quest 2/Pro e Pico Neo 3 com Ultraleap e custarão US$299 por par.

Onde comprar: https://www.bhaptics.com/tactsuit/tactglove

Abaixo um vídeo demonstrativo da tecnologia com o aplicativo demo:

Mon, Apr 17, 2023

ViT: Talvez o próximo destaque sobre IA na mídia.

Quero começar este post, mencionando que não usei o Chat-GPT e sim minha esposa Gisele que corrige 90% dos meus textos. Logo os 10% publicados na internet com erros, foram os que ela não corrigiu! Mas voltando ao ponto focal, eu acreditava que a Visão Neuromórfica seria o futuro da Visão Computacional. E aparentemente eu estava enganado, pois a arquitetura Transformers está derivando em tecnologia que será capaz de ler nossos lábios durante conversar nas ruas das imagens em câmeras públicas de monitoramento.

Esta minha afirmação, deve-se que em 2017, foi publicado um paper chamado “Attention Is All You Need” [1], que apresentava um novo modelo de rede neural focado no processamento de Linguagem Natural. Hoje conhecido como Transformers que deu origem ao ChatGPT da openAI(seq2seq).

Hoje estamos com uma avalanche informacional no setor de redes neurais. O assunto da moda chamada Transformers é a primeira revolução de mais dois assuntos que merecem atenção e ficarão para os próximos posts. Este novo modelo foi focado em NLP (Processamento de Linguagem Natural). Em 2020 terminei os testes com o GPT-3 e postei aqui no assunto nerd.O que mais chamou a minha atenção nesta tecnologia foi o Mecanismo de Atenção. Esta técnica mudou tudo, até minha maneira de ver os meus trabalhos técnicos. O conceito foca na informação de dados ruidosos, assim resolvendo o gargalo representativo baseado no score de atenção.

Não vou perder tempo com o Chat GPT, pois a mídia já fez isto muito bem. Então, podemos dizer que o esforço cognitivo do GPT-3 ou 4 é a maneira diferenciada de processar / interpretar o contexto.

Em 2021 outro paper [2] surgiu com uma nova proposta de rede neural. Focada em melhorar como as máquinas enxergam. A Vision Transformer ou ViT, é uma arquitetura muito semelhante ao modelo Transformers proposto em 2017. Com pequenas alterações para processar imagens em vez de textos.

Até aqui, as redes neurais convolucionais foi o estado da arte em visão computacional. O seu processamento é baseado nos kernels convolucionais para reconhecer as características dos objetos. É uma saga treinar um CNN. O ViT tem a proposta de não imitar o conceito do Transformes, pois o conceito de Mecanismo de Atenção para cada pixel seria inviável em termos de custo computacional. Ai veio a genialidade do paper, o modelo divide a imagem em unidades quadradas (denominada tokens). O padrão é 16×16. Assim aplicando o Self-Attention em cada parte da imagem. Com isto a velocidade é impressionante, pois o ViT varre a imagem com 90% de precisão.

Nos testes de processamento de imagem em 14/03, uma versão do ViT assumiu o primeiro lugar, o segundo lugar foi para um modelo que combinou CNN com Transformers. Para entenderem o contexto, as melhores CNNs de longa data, não chegaram perto desta nova abordagem. Agora em 16/04/2023 modelos Transformes+CNN atingiram o primeiro lugar.

Estou empolgado, pois aplicar o mecanismo de atenção na entrada (encoders) pode ser um grande passo na arquitetura de redes neurais, assim resultando uma nova abordagem no setor de visão computacional.

Os Transformers estão sendo explorados em arquiteturas de aprendizado de máquina multimodais, que são habilitadas para processar diversos tipos de dados, como áudio, vídeo e imagens. Um paper [3] faz uma abordagem onde redes multimodais podem ser usadas para criar sistemas que compreendem a fala e leem os lábios de uma pessoa simultaneamente.

Problema: “não tem almoço grátis”, a arquitetura Transformers tem um alto custo de processamento na fase de pré-treinamento para superar a precisão dos modelos concorrentes. Treinar imagem é uma saga enorme. Mas para terminar, existem estudos sobre diminuir este custo computacional, como Transformes com filtro que podem ser implementados em CNNs. Então teremos muitas novidades disruptivas no setor de IA.

Referencias científicas:

[1] Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Lukasz; Polosukhin, Illia. (2017). “Attention Is All You Need”. arXiv:1706.03762 [cs]. arXiv.org, http://arxiv.org/abs/1706.03762.

[2] Dosovitskiy, Alexey, et al. (2021). “An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale”. arXiv:2010.11929 [cs]. arXiv.org, http://arxiv.org/abs/2010.11929.

[3] Akbari, Hassan; Yuan, Liangzhe; Qian, Rui; Chuang, Wei-Hong; Chang, Shih-Fu; Cui, Yin; Gong, Boqing. (2021). “VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text”. arXiv:2104.11178 [cs, eess]. arXiv.org, http://arxiv.org/abs/2104.11178.

Tue, Apr 04, 2023

Nova estrutura OWASP SP

Com a criação do novo capítulo da OWASP em Luxemburgo, liderado por Fernando Galvez, a OWASP SP foi reestruturada. Eu, Alessandro de Oliveira Faria (Cabelo), e Gustavo Lichti, assumimos os cargos de Líderes. Os membros do Conselho são a Professora Ines Brosso, Eduardo Neves (eth0), Christiano Linuxmen e Ricardo Martins (r00t1ng). Segue abaixo a mini biografia do novo time da OWASP SP.

Alessandro de Oliveira Faria (CABELO) – Chapter Leader

Sócio cofundador e CTIO da empresa OITI TECHNOLOGIES, Autodidata, Pesquisador cujo primeiro contato com tecnologia foi em 1983 com 11 anos de idade. Leva o Linux a sério desde 1998 junto com pesquisas e trabalhos com biometria e visão computacional. Experiência com biometria facial desde 2003, redes neurais artificiais e neurotecnologia desde 2009. Inventor da tecnologia CERTIFACE, mais de 150 palestras ministradas, 14 artigos impressos publicados, mais de 9 milhões de acessos nos 120 artigos publicados, Mentor Cybersecuritygirls BR, Docente da FIA, Membro oficial Mozillians, Membro oficial e Embaixador OpenSUSE Linux América Latina, Chapter Leader OWASP SP, membro Cybersecuritygirls BR, Contribuidor da biblioteca OpenCV, Membro do Conselho Internacional Intel, Innovator Intel, Membro Notável I2AI, Guild Master Campus Party, Fundador da iniciativa Global openSUSE Linux INNOVATOR e Embaixador de Inovação Credicitrus/Instituto Credicitrus.

Gustavo Lichti – Chapter Leader

Gerente de Segurança da Informação na Buser, com mais de 20 anos de experiência área de Tecnologia da Informação, tendo experiência com observabilidade, infraestrutura, arquitetura de sistemas, desenvolvimento de software, gestão de risco, segurança da informação e privacidade de dados.

Maria Ines Lopes Brosso Pioltine – Membro do Conselho

Possui Doutorado em Engenharia Elétrica pela Escola Politécnica da Universidade de São Paulo (Poli), no Departamento de Engenharia da Computação e Sistemas Digitais no Laboratório de Arquitetura e Redes de Computadores (LARC), área de concentração Sistemas Digitais. Possui experiência profissional de mais de trinta anos na área de TI em grandes empresas nacionais e multinacionais. Trabalhou no Desenvolvimento de Sistemas na Industria Elétrica Asea Brown Boveri (ABB), na Automação de Sistemas no Banco BCN e no Banco Bradesco S.A. onde atuou nas áreas de Gerência de Projetos e Segurança e Inteligência. Possui experiência de mais de vinte anos no ensino de graduação, pós-graduação e pesquisas em diversas universidades. Atualmente é professora da Universidade São Judas Tadeu, do Grupo Ânima, nas disciplinas de Sistemas Computacionais e Segurança, Análise de Dados e Big Data, Ambientes Computacionais e Conectividade, tendo elaborado Cursos de Pós Graduação e Ensino a Distância sobre Segurança Cibernética. Coordenadora de Pesquisas no Laboratório de Segurança Cibernética da Escola de Inovação da Pontifícia Universidade Católica de São Paulo. Board Member da OWASP/Sao Paulo. Membra Consultiva do Comitê de Segurança da Informação Grupo 4 da ABNT/SP. Consultora na área de Projetos de Segurança Cibernética e Desenvolvimento Seguro. Linhas de Pesquisa: Segurança Cibernética, Proteçao de Dados, Sistemas Biométricos, Criptográfia e Segurança na Computação Quântica, (Fonte: Currículo Lattes).

Eduardo Neves (eth0) – Membro do Conselho

Especialista em observabilidade que se destaca no mundo da monitorização e análise de sistemas complexos. Ele é conhecido por ajudar as empresas a lidar com problemas de disponibilidade, desempenho e segurança em seus sistemas, além de suas contribuições para a comunidade de observabilidade.
Sua experiência o torna uma referência importante para qualquer pessoa interessada em melhorar a monitorização de sistemas complexos. Eduardo Neves defende a cultura de observabilidade e a adoção de boas práticas para garantir a eficácia e eficiência das operações e a satisfação dos usuários. Seu trabalho ajuda as empresas a compreender e implementar soluções de observabilidade em suas operações. Ele é conhecido por explicar conceitos complexos de forma simples e acessível, tornando a observabilidade mais fácil de entender e implementar para os profissionais de tecnologia. Ele compartilha seus conhecimentos e experiências sobre observabilidade e as melhores práticas de monitorização de sistemas em eventos e conferências de tecnologia.

Christiano Linuxmen – Membro do Conselho

Sysadmin (DevOps) dinâmico antenado às novidades e inovações do mercado.
Expertise em Redes Linux e Windows em ambientes virtualizados e containers.
Implantação de monitoramento usando Nagios, Zabbix, Centron e Check-MK.
Vivência em projetos para padronização de Datacenters e virtualização de ambientes utilizando sistemas VMware ESX, ESXi, Xen Citrix e Apache Cloud Stack.
• Idealizador e Co-Fundador da Comunidade Papo de Sysadmin com o propósito de engajar, fomentar e esclarecer as demais comunidades e empresas sobre práticas DevOps, Infraestrutura Ágil, Cloud, Agile e Cultura Sysadmin, entre outros temas correlatos. Realiza e organiza Meetups e Webinars.
• Fui por muitos anos coordenador de Área Cloud que envolve as trilhas DevOps, DevOps Tools, Cloud, Containers, Software Security e LGPD no TheDevConf.
• Curador da trilha de Desenvolvimento para a Campus Party de 2016.
• Idealizador do evento Desktop Livre em 2006
• Palestrante em eventos como FISL, FTSL, TheDevConf, Latinoware, entre outros.
• Fundador do Time Regional do Ubuntu em São Paulo.
Especializações:Especialista em Sistema Operacional Gnu/Linux (Debian, Ubuntu, Red Hat, Suse), Virtualização (Xen e VMware), migração e integração de sistemas (Microsoft Windows para Gnu/Linux), Implementação de Firewall usando Pfsense e Ldap usando Zentyal. (Docker,
Ansible, The Foreman, Zabbix, Cloud Stack)

Ricardo Martins (r00t1ng)

Mais de 1000 Reportes, reconhecido nos top 5 melhores pesquisadores de segurança por 2 meses na categoria VIP Reports na plataforma Open Bug Bounty. Ranqueado no top 2 Mil na plataforma BugCrowd.No Hall Of Fame das empresas Telefonica, Vivo, iFood, Uber, Linkedin. Semi Finalista do evento capture the flag realizado pelo HackaFlag. Ja tendo reportado falhas a empresas como Banco Safra, Itau, Caixa Econômica Federal, Bradesco, Receita Federal.

Fri, Mar 31, 2023

Ransomware no produto da IBM com gravidade 9,8

Imagem gerada por IA.

Os atacantes estão explorando uma vulnerabilidade crítica (CVE-2022-47986) na solução de transferência de arquivos centralizados IBM Aspera Faspex para invadir organizações.

Sobre CVE-2022-47986:

O IBM Aspera Faspex oferece uma solução para a troca de arquivos entre os colaboradores de uma organização, possibilitando a transferência deles de forma ágil e segura. Esta ferramenta da Aspera utiliza um servidor central para realizar o envio e o recebimento dos arquivos.

Um ataque remoto pode explorar a vulnerabilidade CVE-2022-47986, que é uma falha de desserialização YAML, enviando uma chamada de API especialmente criada. Esta vulnerabilidade afeta o IBM Aspera Faspex 4.4.2 Nível de Patch 1 e versões anteriores, permitindo a execução de código arbitrário.

No final de janeiro, a IBM avisou de uma vulnerabilidade crítica no Aspera versões 4.4.2 Patch Nível 1 e anteriores. De acordo com a Caitlin Condon, pesquisadora de segurança da Rapid7, o Aspera Faspex é normalmente instalado em servidores locais, e algumas organizações não tomaram as medidas adequadas para fechar a brecha de segurança quando o IBM lançou os patches.

Infelizmente para eles, a pontuação da vulnerabilidade foi elevada para 9,8 (max 10), para refletir melhor a sua gravidade. Mais importante ainda, Max Garrett, o pesquisador que a descoberta, compartilhou os detalhes técnicos e o código de exploração de prova de conceito.

Exploiting CVE-2022-47986

Os atacantes começaram a explorá-lo quase imediatamente e não pararam desde então. Em Março, a SentinelOne detectou ataques com o ransomware IceFire em sistemas Linux em empresas na Turquia, Irã, Paquistão e Emirados Árabes Unidos. Desde então, a Greynoise vem monitorando vários esforços de exploração.

Os administradores da empresa são aconselhados a atualizar imediatamente o seu servidor IBM Aspera Faspex.

Tue, Mar 14, 2023

Visual ChatGPT a inteligência artificial que enxerga.

A inteligência artificial ChatGPT atraiu o interesse em diferentes campos de atuação, pois oferece uma interface de linguagem com impressionante competência conversacional e capacidade de raciocínio em vários domínios. Mas como o ChatGPT é treinado com linguagens, atualmente ele não é capaz de processar ou gerar imagens do mundo visual.

Na contra partida, modelos como Transformers ou Stable Diffusion, apesar de mostrarem grande compreensão e capacidade de geração imagem, eles são especialistas em tarefas específicas com entradas e saídas de uma única vez.

Então para facilitar esta integração entre ambos recursos, foi construído um sistema chamado Visual ChatGPT (ACABEI DE INSTALA NA MINHA MAQUINA!), incorporando diferentes Modelos para processamento de imagem. Assim permitindo que o usuário interaja com o ChatGPT enviando e recebendo não apenas textos, mas também imagens.

É possível também fornecer questões de imagens complexas ou instruções de edição imagens que exigem a colaboração de vários modelos de IA com etapas múltiplas. Podemos contar com o recursos de envio de feedback e solicitar correções do trabalho processado. Foi desenvolvido uma série de prompts para injetar as informações do modelo visual no ChatGPT, considerando modelos de múltiplas entradas/saídas e modelos que trabalham com feedback visual.

Os experimentos que efetuei mostram que o Visual ChatGPT abre a porta para analisar imagens no ChatGPT com a ajuda dos Modelos de Visão Computacional. O sistema está disponível com o código fonte aqui: https://github.com/microsoft/visual-chatgpt

Instruções de Instalação

# Download do repositório
git clone https://github.com/microsoft/visual-chatgpt.git

# Entre na pasta recém criada
cd visual-chatgpt

# Crie um ambiente com python 3.8
conda create -n visgpt python=3.8

# Ative o ambiente recém criado.
conda activate visgpt

#  Instale os requisitos básicos
pip install -r requirements.txt

# Insira a sua licença
export OPENAI_API_KEY={Your_Private_Openai_Key}

# comando para 4 GPUs Tesla V100 32GB                            
python visual_chatgpt.py --load "ImageCaptioning_cuda:0,ImageEditing_cuda:0,Text2Image_cuda:1,Image2Canny_cpu,CannyText2Image_cuda:1,Image2Depth_cpu,DepthText2Image_cuda:1,VisualQuestionAnswering_cuda:2,InstructPix2Pix_cuda:2,Image2Scribble_cpu,ScribbleText2Image_cuda:2,Image2Seg_cpu,SegText2Image_cuda:2,Image2Pose_cpu,PoseText2Image_cuda:2,Image2Hed_cpu,HedText2Image_cuda:3,Image2Normal_cpu,NormalText2Image_cuda:3,Image2Line_cpu,LineText2Image_cuda:3"

Memória utilizada da GPU

Aqui listamos o uso de memória da GPU para cada modelo, você pode especificar qual deles você deseja utilizar:

Modelo Memória da GPU (MB)
ImageEditing 3981
InstructPix2Pix 2827
Text2Image 3385
ImageCaptioning 1209
Image2Canny 0
CannyText2Image 3531
Image2Line 0
LineText2Image 3529
Image2Hed 0
HedText2Image 3529
Image2Scribble 0
ScribbleText2Image 3531
Image2Pose 0
PoseText2Image 3529
Image2Seg 919
SegText2Image 3529
Image2Depth 0
DepthText2Image 3531
Image2Normal 0
NormalText2Image 3529
VisualQuestionAnswering 1495

Visual ChatGPT a inteligencia artificial que enxerga com GPU e CPU.

A inteligência artificial ChatGPT atraiu o interesse em diferentes campos de atuação, pois oferece uma interface de linguagem com impressionante competência conversacional e capacidade de raciocínio em vários domínios. Mas como o ChatGPT é treinado com linguagens, atualmente ele não é capaz de processar ou gerar imagens do mundo visual.

Na contra partida, modelos como Transformers ou Stable Diffusion, apesar de mostrarem grande compreensão e capacidade de geração imagem, eles são especialistas em tarefas específicas com entradas e saídas de uma única vez.

Então para facilitar esta integração entre ambos recursos, foi construído um sistema chamado Visual ChatGPT (ACABEI DE INSTALA NA MINHA MAQUINA!), incorporando diferentes Modelos para processamento de imagem. Assim permitindo que o usuário interaja com o ChatGPT enviando e recebendo não apenas textos, mas também imagens.

É possível também fornecer questões de imagens complexas ou instruções de edição imagens que exigem a colaboração de vários modelos de IA com etapas múltiplas. Podemos contar com o recursos de envio de feedback e solicitar correções do trabalho processado. Foi desenvolvido uma série de prompts para injetar as informações do modelo visual no ChatGPT, considerando modelos de múltiplas entradas/saídas e modelos que trabalham com feedback visual.

Os experimentos que efetuei mostram que o Visual ChatGPT abre a porta para analisar imagens no ChatGPT com a ajuda dos Modelos de Visão Computacional. O sistema está disponível com o código fonte aqui: https://github.com/microsoft/visual-chatgpt

Instruções de Instalação

# Download do repositório
git clone https://github.com/microsoft/visual-chatgpt.git

# Entre na pasta recém criada
cd visual-chatgpt

# Crie um ambiente com python 3.8
conda create -n visgpt python=3.8

# Ative o ambiente recém criado.
conda activate visgpt

#  Instale os requisitos básicos
pip install -r requirements.txt

# Insira a sua licença
export OPENAI_API_KEY={Your_Private_Openai_Key}

# comando para 4 GPUs Tesla V100 32GB                            
python visual_chatgpt.py --load "ImageCaptioning_cuda:0,ImageEditing_cuda:0,Text2Image_cuda:1,Image2Canny_cpu,CannyText2Image_cuda:1,Image2Depth_cpu,DepthText2Image_cuda:1,VisualQuestionAnswering_cuda:2,InstructPix2Pix_cuda:2,Image2Scribble_cpu,ScribbleText2Image_cuda:2,Image2Seg_cpu,SegText2Image_cuda:2,Image2Pose_cpu,PoseText2Image_cuda:2,Image2Hed_cpu,HedText2Image_cuda:3,Image2Normal_cpu,NormalText2Image_cuda:3,Image2Line_cpu,LineText2Image_cuda:3"

Memória utilizada da GPU

Aqui listamos o uso de memória da GPU para cada modelo, você pode especificar qual deles você deseja utilizar:

Modelo Memória da GPU (MB)
ImageEditing 3981
InstructPix2Pix 2827
Text2Image 3385
ImageCaptioning 1209
Image2Canny 0
CannyText2Image 3531
Image2Line 0
LineText2Image 3529
Image2Hed 0
HedText2Image 3529
Image2Scribble 0
ScribbleText2Image 3531
Image2Pose 0
PoseText2Image 3529
Image2Seg 919
SegText2Image 3529
Image2Depth 0
DepthText2Image 3531
Image2Normal 0
NormalText2Image 3529
VisualQuestionAnswering 1495

Fri, Feb 24, 2023

Projeto transforma YouTube em armazenamento infinito.

Impressionante a criatividade dos nerds. Um amigo meu e do meu filho chamado Homero Caom, enviou o link de um projeto chamado ISG (Infinite-Storage-Glitch). Este projeto permite aos usuários a capacidade de usar o YouTube como um serviço de armazenamento em nuvem, permitindo que eles façam upload de qualquer tipo de arquivo, seja ele um documento, uma imagem ou mesmo um vídeo.

Uma vez carregado, os arquivos injetados podem então ser baixados e recuperados a qualquer momento. Com isso, o YouTube se transforma em um serviço de armazenamento em nuvem praticamente ilimitado. O YouTube não limita a quantidade de vídeo para upload, assim criando a brecha para este projeto.

Conceito:

Todos os arquivos são feitos de bytes que podem ser interpretados como números de 0 a 255. Esse número pode ser representado com pixels usando um dos dois modos: RGB ou binário. RGB: No modo RGB cada byte se encaixa perfeitamente dentro de uma das cores de um pixel RGB. Um pixel RGB pode conter 3 bytes por vez. Você apenas continua adicionando pixels assim até que acabe os dados. É muito mais eficiente e rápido que o binário.