ViT: Talvez o próximo destaque sobre IA na mídia.

Quero começar este post, mencionando que não usei o Chat-GPT e sim minha esposa Gisele que corrige 90% dos meus textos. Logo os 10% publicados na internet com erros, foram os que ela não corrigiu! Mas voltando ao ponto focal, eu acreditava que a Visão Neuromórfica seria o futuro da Visão Computacional. E aparentemente eu estava enganado, pois a arquitetura Transformers está derivando em tecnologia que será capaz de ler nossos lábios durante conversar nas ruas das imagens em câmeras públicas de monitoramento.
Esta minha afirmação, deve-se que em 2017, foi publicado um paper chamado “Attention Is All You Need” [1], que apresentava um novo modelo de rede neural focado no processamento de Linguagem Natural. Hoje conhecido como Transformers que deu origem ao ChatGPT da openAI(seq2seq).

Hoje estamos com uma avalanche informacional no setor de redes neurais. O assunto da moda chamada Transformers é a primeira revolução de mais dois assuntos que merecem atenção e ficarão para os próximos posts. Este novo modelo foi focado em NLP (Processamento de Linguagem Natural). Em 2020 terminei os testes com o GPT-3 e postei aqui no assunto nerd.O que mais chamou a minha atenção nesta tecnologia foi o Mecanismo de Atenção. Esta técnica mudou tudo, até minha maneira de ver os meus trabalhos técnicos. O conceito foca na informação de dados ruidosos, assim resolvendo o gargalo representativo baseado no score de atenção.
Não vou perder tempo com o Chat GPT, pois a mídia já fez isto muito bem. Então, podemos dizer que o esforço cognitivo do GPT-3 ou 4 é a maneira diferenciada de processar / interpretar o contexto.
Em 2021 outro paper [2] surgiu com uma nova proposta de rede neural. Focada em melhorar como as máquinas enxergam. A Vision Transformer ou ViT, é uma arquitetura muito semelhante ao modelo Transformers proposto em 2017. Com pequenas alterações para processar imagens em vez de textos.
Até aqui, as redes neurais convolucionais foi o estado da arte em visão computacional. O seu processamento é baseado nos kernels convolucionais para reconhecer as características dos objetos. É uma saga treinar um CNN. O ViT tem a proposta de não imitar o conceito do Transformes, pois o conceito de Mecanismo de Atenção para cada pixel seria inviável em termos de custo computacional. Ai veio a genialidade do paper, o modelo divide a imagem em unidades quadradas (denominada tokens). O padrão é 16×16. Assim aplicando o Self-Attention em cada parte da imagem. Com isto a velocidade é impressionante, pois o ViT varre a imagem com 90% de precisão.
Nos testes de processamento de imagem em 14/03, uma versão do ViT assumiu o primeiro lugar, o segundo lugar foi para um modelo que combinou CNN com Transformers. Para entenderem o contexto, as melhores CNNs de longa data, não chegaram perto desta nova abordagem. Agora em 16/04/2023 modelos Transformes+CNN atingiram o primeiro lugar.

Estou empolgado, pois aplicar o mecanismo de atenção na entrada (encoders) pode ser um grande passo na arquitetura de redes neurais, assim resultando uma nova abordagem no setor de visão computacional.
Os Transformers estão sendo explorados em arquiteturas de aprendizado de máquina multimodais, que são habilitadas para processar diversos tipos de dados, como áudio, vídeo e imagens. Um paper [3] faz uma abordagem onde redes multimodais podem ser usadas para criar sistemas que compreendem a fala e leem os lábios de uma pessoa simultaneamente.
Problema: “não tem almoço grátis”, a arquitetura Transformers tem um alto custo de processamento na fase de pré-treinamento para superar a precisão dos modelos concorrentes. Treinar imagem é uma saga enorme. Mas para terminar, existem estudos sobre diminuir este custo computacional, como Transformes com filtro que podem ser implementados em CNNs. Então teremos muitas novidades disruptivas no setor de IA.
Referencias científicas:
[1] Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Lukasz; Polosukhin, Illia. (2017). “Attention Is All You Need”. arXiv:1706.03762 [cs]. arXiv.org, http://arxiv.org/abs/1706.03762.
[2] Dosovitskiy, Alexey, et al. (2021). “An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale”. arXiv:2010.11929 [cs]. arXiv.org, http://arxiv.org/abs/2010.11929.
[3] Akbari, Hassan; Yuan, Liangzhe; Qian, Rui; Chuang, Wei-Hong; Chang, Shih-Fu; Cui, Yin; Gong, Boqing. (2021). “VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text”. arXiv:2104.11178 [cs, eess]. arXiv.org, http://arxiv.org/abs/2104.11178.
Nova estrutura OWASP SP

Com a criação do novo capítulo da OWASP em Luxemburgo, liderado por Fernando Galvez, a OWASP SP foi reestruturada. Eu, Alessandro de Oliveira Faria (Cabelo), e Gustavo Lichti, assumimos os cargos de Líderes. Os membros do Conselho são a Professora Ines Brosso, Eduardo Neves (eth0), Christiano Linuxmen e Ricardo Martins (r00t1ng). Segue abaixo a mini biografia do novo time da OWASP SP.
Alessandro de Oliveira Faria (CABELO) – Chapter Leader
Sócio cofundador e CTIO da empresa OITI TECHNOLOGIES, Autodidata, Pesquisador cujo primeiro contato com tecnologia foi em 1983 com 11 anos de idade. Leva o Linux a sério desde 1998 junto com pesquisas e trabalhos com biometria e visão computacional. Experiência com biometria facial desde 2003, redes neurais artificiais e neurotecnologia desde 2009. Inventor da tecnologia CERTIFACE, mais de 150 palestras ministradas, 14 artigos impressos publicados, mais de 9 milhões de acessos nos 120 artigos publicados, Mentor Cybersecuritygirls BR, Docente da FIA, Membro oficial Mozillians, Membro oficial e Embaixador OpenSUSE Linux América Latina, Chapter Leader OWASP SP, membro Cybersecuritygirls BR, Contribuidor da biblioteca OpenCV, Membro do Conselho Internacional Intel, Innovator Intel, Membro Notável I2AI, Guild Master Campus Party, Fundador da iniciativa Global openSUSE Linux INNOVATOR e Embaixador de Inovação Credicitrus/Instituto Credicitrus.
Gustavo Lichti – Chapter Leader
Gerente de Segurança da Informação na Buser, com mais de 20 anos de experiência área de Tecnologia da Informação, tendo experiência com observabilidade, infraestrutura, arquitetura de sistemas, desenvolvimento de software, gestão de risco, segurança da informação e privacidade de dados.
Maria Ines Lopes Brosso Pioltine – Membro do Conselho
Possui Doutorado em Engenharia Elétrica pela Escola Politécnica da Universidade de São Paulo (Poli), no Departamento de Engenharia da Computação e Sistemas Digitais no Laboratório de Arquitetura e Redes de Computadores (LARC), área de concentração Sistemas Digitais. Possui experiência profissional de mais de trinta anos na área de TI em grandes empresas nacionais e multinacionais. Trabalhou no Desenvolvimento de Sistemas na Industria Elétrica Asea Brown Boveri (ABB), na Automação de Sistemas no Banco BCN e no Banco Bradesco S.A. onde atuou nas áreas de Gerência de Projetos e Segurança e Inteligência. Possui experiência de mais de vinte anos no ensino de graduação, pós-graduação e pesquisas em diversas universidades. Atualmente é professora da Universidade São Judas Tadeu, do Grupo Ânima, nas disciplinas de Sistemas Computacionais e Segurança, Análise de Dados e Big Data, Ambientes Computacionais e Conectividade, tendo elaborado Cursos de Pós Graduação e Ensino a Distância sobre Segurança Cibernética. Coordenadora de Pesquisas no Laboratório de Segurança Cibernética da Escola de Inovação da Pontifícia Universidade Católica de São Paulo. Board Member da OWASP/Sao Paulo. Membra Consultiva do Comitê de Segurança da Informação Grupo 4 da ABNT/SP. Consultora na área de Projetos de Segurança Cibernética e Desenvolvimento Seguro. Linhas de Pesquisa: Segurança Cibernética, Proteçao de Dados, Sistemas Biométricos, Criptográfia e Segurança na Computação Quântica, (Fonte: Currículo Lattes).
Eduardo Neves (eth0) – Membro do Conselho
Especialista em observabilidade que se destaca no mundo da monitorização e análise de sistemas complexos. Ele é conhecido por ajudar as empresas a lidar com problemas de disponibilidade, desempenho e segurança em seus sistemas, além de suas contribuições para a comunidade de observabilidade.
Sua experiência o torna uma referência importante para qualquer pessoa interessada em melhorar a monitorização de sistemas complexos. Eduardo Neves defende a cultura de observabilidade e a adoção de boas práticas para garantir a eficácia e eficiência das operações e a satisfação dos usuários. Seu trabalho ajuda as empresas a compreender e implementar soluções de observabilidade em suas operações. Ele é conhecido por explicar conceitos complexos de forma simples e acessível, tornando a observabilidade mais fácil de entender e implementar para os profissionais de tecnologia. Ele compartilha seus conhecimentos e experiências sobre observabilidade e as melhores práticas de monitorização de sistemas em eventos e conferências de tecnologia.
Christiano Linuxmen – Membro do Conselho
Sysadmin (DevOps) dinâmico antenado às novidades e inovações do mercado.
Expertise em Redes Linux e Windows em ambientes virtualizados e containers.
Implantação de monitoramento usando Nagios, Zabbix, Centron e Check-MK.
Vivência em projetos para padronização de Datacenters e virtualização de ambientes utilizando sistemas VMware ESX, ESXi, Xen Citrix e Apache Cloud Stack.
• Idealizador e Co-Fundador da Comunidade Papo de Sysadmin com o propósito de engajar, fomentar e esclarecer as demais comunidades e empresas sobre práticas DevOps, Infraestrutura Ágil, Cloud, Agile e Cultura Sysadmin, entre outros temas correlatos. Realiza e organiza Meetups e Webinars.
• Fui por muitos anos coordenador de Área Cloud que envolve as trilhas DevOps, DevOps Tools, Cloud, Containers, Software Security e LGPD no TheDevConf.
• Curador da trilha de Desenvolvimento para a Campus Party de 2016.
• Idealizador do evento Desktop Livre em 2006
• Palestrante em eventos como FISL, FTSL, TheDevConf, Latinoware, entre outros.
• Fundador do Time Regional do Ubuntu em São Paulo.
Especializações:Especialista em Sistema Operacional Gnu/Linux (Debian, Ubuntu, Red Hat, Suse), Virtualização (Xen e VMware), migração e integração de sistemas (Microsoft Windows para Gnu/Linux), Implementação de Firewall usando Pfsense e Ldap usando Zentyal. (Docker,
Ansible, The Foreman, Zabbix, Cloud Stack)
Ricardo Martins (r00t1ng)
Mais de 1000 Reportes, reconhecido nos top 5 melhores pesquisadores de segurança por 2 meses na categoria VIP Reports na plataforma Open Bug Bounty. Ranqueado no top 2 Mil na plataforma BugCrowd.No Hall Of Fame das empresas Telefonica, Vivo, iFood, Uber, Linkedin. Semi Finalista do evento capture the flag realizado pelo HackaFlag. Ja tendo reportado falhas a empresas como Banco Safra, Itau, Caixa Econômica Federal, Bradesco, Receita Federal.
Ransomware no produto da IBM com gravidade 9,8

Imagem gerada por IA.
Os atacantes estão explorando uma vulnerabilidade crítica (CVE-2022-47986) na solução de transferência de arquivos centralizados IBM Aspera Faspex para invadir organizações.
Sobre CVE-2022-47986:
O IBM Aspera Faspex oferece uma solução para a troca de arquivos entre os colaboradores de uma organização, possibilitando a transferência deles de forma ágil e segura. Esta ferramenta da Aspera utiliza um servidor central para realizar o envio e o recebimento dos arquivos.
Um ataque remoto pode explorar a vulnerabilidade CVE-2022-47986, que é uma falha de desserialização YAML, enviando uma chamada de API especialmente criada. Esta vulnerabilidade afeta o IBM Aspera Faspex 4.4.2 Nível de Patch 1 e versões anteriores, permitindo a execução de código arbitrário.
No final de janeiro, a IBM avisou de uma vulnerabilidade crítica no Aspera versões 4.4.2 Patch Nível 1 e anteriores. De acordo com a Caitlin Condon, pesquisadora de segurança da Rapid7, o Aspera Faspex é normalmente instalado em servidores locais, e algumas organizações não tomaram as medidas adequadas para fechar a brecha de segurança quando o IBM lançou os patches.
Infelizmente para eles, a pontuação da vulnerabilidade foi elevada para 9,8 (max 10), para refletir melhor a sua gravidade. Mais importante ainda, Max Garrett, o pesquisador que a descoberta, compartilhou os detalhes técnicos e o código de exploração de prova de conceito.
Exploiting CVE-2022-47986
Os atacantes começaram a explorá-lo quase imediatamente e não pararam desde então. Em Março, a SentinelOne detectou ataques com o ransomware IceFire em sistemas Linux em empresas na Turquia, Irã, Paquistão e Emirados Árabes Unidos. Desde então, a Greynoise vem monitorando vários esforços de exploração.
Os administradores da empresa são aconselhados a atualizar imediatamente o seu servidor IBM Aspera Faspex.
Visual ChatGPT a inteligência artificial que enxerga.

A inteligência artificial ChatGPT atraiu o interesse em diferentes campos de atuação, pois oferece uma interface de linguagem com impressionante competência conversacional e capacidade de raciocínio em vários domínios. Mas como o ChatGPT é treinado com linguagens, atualmente ele não é capaz de processar ou gerar imagens do mundo visual.
Na contra partida, modelos como Transformers ou Stable Diffusion, apesar de mostrarem grande compreensão e capacidade de geração imagem, eles são especialistas em tarefas específicas com entradas e saídas de uma única vez.
Então para facilitar esta integração entre ambos recursos, foi construído um sistema chamado Visual ChatGPT (ACABEI DE INSTALA NA MINHA MAQUINA!), incorporando diferentes Modelos para processamento de imagem. Assim permitindo que o usuário interaja com o ChatGPT enviando e recebendo não apenas textos, mas também imagens.
É possível também fornecer questões de imagens complexas ou instruções de edição imagens que exigem a colaboração de vários modelos de IA com etapas múltiplas. Podemos contar com o recursos de envio de feedback e solicitar correções do trabalho processado. Foi desenvolvido uma série de prompts para injetar as informações do modelo visual no ChatGPT, considerando modelos de múltiplas entradas/saídas e modelos que trabalham com feedback visual.
Os experimentos que efetuei mostram que o Visual ChatGPT abre a porta para analisar imagens no ChatGPT com a ajuda dos Modelos de Visão Computacional. O sistema está disponível com o código fonte aqui: https://github.com/microsoft/visual-chatgpt
Instruções de Instalação
# Download do repositório
git clone https://github.com/microsoft/visual-chatgpt.git
# Entre na pasta recém criada
cd visual-chatgpt
# Crie um ambiente com python 3.8
conda create -n visgpt python=3.8
# Ative o ambiente recém criado.
conda activate visgpt
# Instale os requisitos básicos
pip install -r requirements.txt
# Insira a sua licença
export OPENAI_API_KEY={Your_Private_Openai_Key}
# comando para 4 GPUs Tesla V100 32GB
python visual_chatgpt.py --load "ImageCaptioning_cuda:0,ImageEditing_cuda:0,Text2Image_cuda:1,Image2Canny_cpu,CannyText2Image_cuda:1,Image2Depth_cpu,DepthText2Image_cuda:1,VisualQuestionAnswering_cuda:2,InstructPix2Pix_cuda:2,Image2Scribble_cpu,ScribbleText2Image_cuda:2,Image2Seg_cpu,SegText2Image_cuda:2,Image2Pose_cpu,PoseText2Image_cuda:2,Image2Hed_cpu,HedText2Image_cuda:3,Image2Normal_cpu,NormalText2Image_cuda:3,Image2Line_cpu,LineText2Image_cuda:3"
Memória utilizada da GPU
Aqui listamos o uso de memória da GPU para cada modelo, você pode especificar qual deles você deseja utilizar:
| Modelo | Memória da GPU (MB) |
|---|---|
| ImageEditing | 3981 |
| InstructPix2Pix | 2827 |
| Text2Image | 3385 |
| ImageCaptioning | 1209 |
| Image2Canny | 0 |
| CannyText2Image | 3531 |
| Image2Line | 0 |
| LineText2Image | 3529 |
| Image2Hed | 0 |
| HedText2Image | 3529 |
| Image2Scribble | 0 |
| ScribbleText2Image | 3531 |
| Image2Pose | 0 |
| PoseText2Image | 3529 |
| Image2Seg | 919 |
| SegText2Image | 3529 |
| Image2Depth | 0 |
| DepthText2Image | 3531 |
| Image2Normal | 0 |
| NormalText2Image | 3529 |
| VisualQuestionAnswering | 1495 |

Visual ChatGPT a inteligencia artificial que enxerga com GPU e CPU.

A inteligência artificial ChatGPT atraiu o interesse em diferentes campos de atuação, pois oferece uma interface de linguagem com impressionante competência conversacional e capacidade de raciocínio em vários domínios. Mas como o ChatGPT é treinado com linguagens, atualmente ele não é capaz de processar ou gerar imagens do mundo visual.
Na contra partida, modelos como Transformers ou Stable Diffusion, apesar de mostrarem grande compreensão e capacidade de geração imagem, eles são especialistas em tarefas específicas com entradas e saídas de uma única vez.
Então para facilitar esta integração entre ambos recursos, foi construído um sistema chamado Visual ChatGPT (ACABEI DE INSTALA NA MINHA MAQUINA!), incorporando diferentes Modelos para processamento de imagem. Assim permitindo que o usuário interaja com o ChatGPT enviando e recebendo não apenas textos, mas também imagens.
É possível também fornecer questões de imagens complexas ou instruções de edição imagens que exigem a colaboração de vários modelos de IA com etapas múltiplas. Podemos contar com o recursos de envio de feedback e solicitar correções do trabalho processado. Foi desenvolvido uma série de prompts para injetar as informações do modelo visual no ChatGPT, considerando modelos de múltiplas entradas/saídas e modelos que trabalham com feedback visual.
Os experimentos que efetuei mostram que o Visual ChatGPT abre a porta para analisar imagens no ChatGPT com a ajuda dos Modelos de Visão Computacional. O sistema está disponível com o código fonte aqui: https://github.com/microsoft/visual-chatgpt
Instruções de Instalação
# Download do repositório
git clone https://github.com/microsoft/visual-chatgpt.git
# Entre na pasta recém criada
cd visual-chatgpt
# Crie um ambiente com python 3.8
conda create -n visgpt python=3.8
# Ative o ambiente recém criado.
conda activate visgpt
# Instale os requisitos básicos
pip install -r requirements.txt
# Insira a sua licença
export OPENAI_API_KEY={Your_Private_Openai_Key}
# comando para 4 GPUs Tesla V100 32GB
python visual_chatgpt.py --load "ImageCaptioning_cuda:0,ImageEditing_cuda:0,Text2Image_cuda:1,Image2Canny_cpu,CannyText2Image_cuda:1,Image2Depth_cpu,DepthText2Image_cuda:1,VisualQuestionAnswering_cuda:2,InstructPix2Pix_cuda:2,Image2Scribble_cpu,ScribbleText2Image_cuda:2,Image2Seg_cpu,SegText2Image_cuda:2,Image2Pose_cpu,PoseText2Image_cuda:2,Image2Hed_cpu,HedText2Image_cuda:3,Image2Normal_cpu,NormalText2Image_cuda:3,Image2Line_cpu,LineText2Image_cuda:3"

Memória utilizada da GPU
Aqui listamos o uso de memória da GPU para cada modelo, você pode especificar qual deles você deseja utilizar:
| Modelo | Memória da GPU (MB) |
|---|---|
| ImageEditing | 3981 |
| InstructPix2Pix | 2827 |
| Text2Image | 3385 |
| ImageCaptioning | 1209 |
| Image2Canny | 0 |
| CannyText2Image | 3531 |
| Image2Line | 0 |
| LineText2Image | 3529 |
| Image2Hed | 0 |
| HedText2Image | 3529 |
| Image2Scribble | 0 |
| ScribbleText2Image | 3531 |
| Image2Pose | 0 |
| PoseText2Image | 3529 |
| Image2Seg | 919 |
| SegText2Image | 3529 |
| Image2Depth | 0 |
| DepthText2Image | 3531 |
| Image2Normal | 0 |
| NormalText2Image | 3529 |
| VisualQuestionAnswering | 1495 |
Projeto transforma YouTube em armazenamento infinito.
Impressionante a criatividade dos nerds. Um amigo meu e do meu filho chamado Homero Caom, enviou o link de um projeto chamado ISG (Infinite-Storage-Glitch). Este projeto permite aos usuários a capacidade de usar o YouTube como um serviço de armazenamento em nuvem, permitindo que eles façam upload de qualquer tipo de arquivo, seja ele um documento, uma imagem ou mesmo um vídeo.
Uma vez carregado, os arquivos injetados podem então ser baixados e recuperados a qualquer momento. Com isso, o YouTube se transforma em um serviço de armazenamento em nuvem praticamente ilimitado. O YouTube não limita a quantidade de vídeo para upload, assim criando a brecha para este projeto.
Conceito:
Todos os arquivos são feitos de bytes que podem ser interpretados como números de 0 a 255. Esse número pode ser representado com pixels usando um dos dois modos: RGB ou binário. RGB: No modo RGB cada byte se encaixa perfeitamente dentro de uma das cores de um pixel RGB. Um pixel RGB pode conter 3 bytes por vez. Você apenas continua adicionando pixels assim até que acabe os dados. É muito mais eficiente e rápido que o binário.
phycv: Física e Visão Computacional.
PhyCV é a primeira biblioteca de visão computacional que utiliza algoritmos baseados em conceitos da física clássica. Os algoritmos calculam a propagação da luz através do conceito físico de difração. O resultado computacional consiste na maneria que os algoritmos tradicionais processam as regras de maneira empíricas, os algoritmos inspirados pela física e IA usam as leis da natureza como modelos.


Imagem Linux rodando Intel ARC nativamente.

Fiquei tão ansioso, que ao liberar o kernel 6.2-rc5 com o driver opensource estável criei uma iniciativa individual da primeira imagem Linux do mundo com kernel nativo 6.2-rc5 ou superior com driver estável da placa de video Intel ARC. Todo procedimento de detecção da GPU ocorre automaticamente durante a instalação.
** Atenção! **Você reconhece que usar o Linux Image Beta é por sua conta e risco. Mais informações: https://devmesh.intel.com/projects/opensuse-for-intel-arc
Futuros trabalhos:
- Compilar e incluir oneAPI Level Zero
- Compilar e incluir oneAPI DNN
- Compilar e incluir oneAPI VPL
- Compilar e incluir oneAPI TBB
- Compilar e incluir oneAPI DAL
- Compilar e incluir oneAPI MKL
- Compilar e incluir Ray Tracing
- Compilar e incluir openCV optimized with avx512, sse4_2 and GNA
- Disponibilizar pacotes pré instalados oneAPI

Visão Computacional em Cloud e Metaverso com NVIDIA CV-CUDA

O CV-CUDA é uma biblioteca de código aberto que disponibiliza algoritmos acelerados de pré e pós-processamento de imagens e ferramentas, permitindo que a mesma carga de trabalho seja executada em 10 vezes sem incrementar custos.
A tecnologia NVIDIA GPUs acelera o processamento de inferência para pipelines de visão computacional. No entanto, o pré e o pós-processamento comum tendem a ser mais demorado e exigem grande poder de computação.
Com o rápido crescimento dos serviços de mídia social, biometria e compartilhamento de vídeo, os custos de computação na nuvem aumentam e os pipelines de processamento de imagens e visão computacional baseados em Inteligência Artificial criam gargalo.
Neste cenário entra a plataforma/solução CV-CUDA que fornece aos desenvolvedores mais de 50 algoritmos de visão computacional de desempenho impressionante, pois é um framework de desenvolvimento que facilita a realização de kernels personalizados e interfaces de cópia zero que eliminam gargalos no pipeline de inteligência artificial. O resultado: maior taxa de execução e diminuição dos custos de computação do cloud. Utilizando uma única GPU, o CV-CUDA tem um desempenho 10 vezes superior sem adicionar custo em cloud.
Aplicabilidade:
- Processamento Biométrico;
- Processamento 3D;
- Inferência em imagens;
- Processamento de Realidade Aumentada e Mista;
- E outros.
Mais informações aqui no Github (claro!): https://github.com/CVCUDA/CV-CUDA

Teste da tecnologia que corrige os olhos para sempre olhar para a câmera com IA.
Se você tem dificuldade de manter contato visual durante lives e gravações de vídeo, a Nvidia resolve este problema lançando um software de correção da direção dos olhos. O recurso específico permite que o usuário simule o contato visual, mesmo que esteja olhando para outro lugar.
A tecnologia NVIDIA Broadcast proporciona um resultado de processamento similar ao “deepfake” em que os olhos da pessoa são manipulados para parecer que estão seguindo a câmera, aumentando assim a conexão com o público. É uma ótima solução para quem tem dificuldades de se sentir à vontade durante as lives e gravações de vídeo.
Esta tecnologia da NVIDIA foi batizada como Eye Contact, que utiliza uma IA para simular seus olhos sempre olhando para a câmera e incluir efeito de transições.
É um grande passo além do aprimoramento do seu software de gravação e streaming, pois oferece aos usuários a capacidade de melhorar a sua presença na câmera, fazendo com que eles se pareçam mais presentes e envolvidos, mesmo quando estão gravando ou transmitindo a partir de casa. O Eye Contact ajusta automaticamente a direção da câmera de modo que os olhos do usuário sejam sempre direcionados para a câmera, em vez de olhar para o lado. Além disso, ele ajusta o foco da câmera para manter a imagem nítida, independentemente do movimento dos usuários. Esta nova tecnologia promete melhorar a experiência do usuário ao gravar ou transmitir, permitindo que eles tenham uma aparência mais profissional e envolvente.






