Sat, Nov 23, 2024
Exame de sangue com celular.
A inovação chega ao mundo dos microscópios com o lançamento de um modelo portátil que promete revolucionar a maneira como profissionais e entusiastas da ciência transportam e utilizam esse tipo de equipamento. Diferenciando-se por sua portabilidade sem comprometer a eficácia, este microscópio incorpora uma lente inovadora equipada com milhares de nano ventosas. Essas ventosas permitem que a lente se fixe de maneira segura e instantânea em qualquer lente de smartphone, tornando o dispositivo altamente compatível tanto com aparelhos Android quanto com iPhones. Essa característica assegura que o usuário possa realizar observações científicas precisas em qualquer lugar, sem a necessidade de equipamentos pesados ou estacionários.
O destaque deste microscópio é a lente iMicro Q3p, que proporciona uma capacidade de ampliação impressionante de até 1.200 vezes. Com tal grau de aproximação, é possível observar detalhes em um nível submicrônico, abrindo um vasto campo de possibilidades para a exploração científica. Usuários podem, por exemplo, examinar com clareza desde um simples fio de cabelo até componentes mais complexos como células sanguíneas. Essa funcionalidade torna o microscópio uma ferramenta extremamente valiosa para estudos e pesquisas em diversas áreas, desde a biologia até a engenharia de materiais.
Em paralelo ao desenvolvimento deste microscópio, estou trabalhando em um software inovador destinado a automatizar e facilitar o processo de contagem de hemácias, leucócitos e plaquetas em imagens microscópicas. Este software é construído utilizando técnicas avançadas de Inteligencia Artificial, Visão computacional, incluindo Transformada de Hough, morfologia matemática, erosão e dilatação, bem como técnicas especializadas para detecção de bolhas. O objetivo é proporcionar um método mais eficiente e acessível para o diagnóstico de condições médicas como anemia e leucopenia, essencial para ambientes clínicos que buscam precisão e agilidade em seus diagnósticos.
A implementação deste software tem o potencial de transformar significativamente a prática médica, especialmente em locais com recursos limitados. Ao automatizar a contagem de células sanguíneas, o software não só acelera o processo de diagnóstico, mas também reduz a dependência de patologistas para a realização desses testes. Isso resulta em um diagnóstico mais rápido e econômico de anemia e leucopenia, facilitando o acesso a tratamentos médicos eficazes e melhorando a qualidade de vida dos pacientes. Esta inovação representa um passo significativo para tornar a saúde mais acessível e eficiente através da tecnologia.
Fri, Nov 22, 2024
Música Unidos pelo Sul, um fracasso…
Em maio em virtude da tragédia das enchentes no Sul, lancei uma música intitulada “Unidos pelo Sul” no Spotify, com o objetivo de angariar fundos para as vítimas das enchentes que assolaram a região Sul do Brasil. A ideia era transformar a arte em uma ferramenta de ajuda humanitária, direcionando toda a renda arrecadada para as pessoas afetadas por essa catástrofe. No entanto, apesar da boa intenção, a campanha não alcançou o sucesso esperado.
A música foi ouvida por 6.250 pessoas, o que resultou na arrecadação de apenas 7 dólares. Este resultado foi surpreendentemente baixo, especialmente quando comparado com outra iniciativa que promovi, o “Carnaval da Selfie”, realizado em fevereiro. Este evento atraiu mais de 60 mil ouvintes e arrecadou 10 vezes mais, demonstrando uma grande disparidade entre os dois projetos. Esta diferença nos resultados levanta questões importantes sobre o engajamento do público em causas humanitárias, comparado a eventos mais leves e festivos.
É intrigante observar que, mesmo sem custos adicionais para os ouvintes, a adesão a uma campanha com um propósito claramente benéfico foi significativamente menor. Este fenômeno sugere uma reflexão sobre o comportamento humano e o tipo de incentivos que motivam a participação em diferentes tipos de campanhas.
Quero esclarecer que toda a renda gerada, de fato, não foi destinada às vítimas das enchentes, conforme o planejado. Pois o saque mínimo é $14,30 e a campanha não alcançou este valor. A transparência neste processo é fundamental para mim, pois entendo a importância de manter a confiança de todos que apoiaram a iniciativa, mesmo que o resultado financeiro tenha sido menor do que o esperado.
Apesar do resultado desanimador desta campanha, não desisto. Continuarei buscando formas de usar minha música para fazer a diferença no mundo. Este episódio serviu como uma lição valiosa sobre os desafios de mobilizar apoio para causas urgentes e me motivou a pensar em novas estratégias para engajar mais pessoas em futuras iniciativas. Agradeço a todos que ouviram a música e aos que continuam a apoiar esforços para ajudar quem mais precisa.
Spotify:
https://tinyurl.com/rs-spotify-music
YouTube Music:
https://tinyurl.com/rs-youtube-music
Amazon Music:
https://tinyurl.com/rs-amazon-music
Apple Music:
https://tinyurl.com/rs-apple-music
iTunes:
https://tinyurl.com/rs-apple-music
Deezer:
https://tinyurl.com/rs-deezer
TikTok Music:
https://tinyurl.com/rs-tiktok
Sun, Nov 17, 2024
OmniGen: Revolucionando a Geração de Imagens.
OmniGen é um modelo integrado de geração de imagens capaz de criar uma ampla variedade de imagens a partir de instruções multimodais. Seu design prioriza a simplicidade, flexibilidade e facilidade de uso. Oferecemos o código de inferência para que todos possam explorar as diversas funcionalidades do OmniGen.
Exemplo: do projeto OmniGen em funcionamento.
Modelos tradicionais de geração de imagens geralmente exigem a carga de múltiplos módulos adicionais de rede (como ControlNet, IP-Adapter, Reference-Net, entre outros) e a realização de etapas extras de pré-processamento (por exemplo, detecção de rosto, estimativa de pose, recorte, etc.) para gerar imagens satisfatórias. No entanto, acredita-se que o paradigma futuro da geração de imagens deve ser mais simples e flexível, ou seja, capaz de gerar diversas imagens diretamente por meio de instruções multimodais arbitrárias, sem a necessidade de plugins adicionais e operações, de maneira semelhante ao funcionamento do GPT na geração de linguagem.
Devido a recursos limitados, ainda há espaço para aprimorar o OmniGen. O projeto continua sendo otimizado e espera-se que ele inspire modelos de geração de imagens mais universais. Além disso, você pode afinar facilmente o OmniGen sem se preocupar com o design de redes para tarefas específicas; basta preparar os dados correspondentes e executar o script. A imaginação deixa de ter limites; todos podem construir qualquer tarefa de geração de imagens, e talvez seja possível alcançar resultados muito interessantes, maravilhosos e criativos.
OmniGen é um modelo de geração de imagens que permite realizar diversas tarefas, incluindo, mas não se limitando a, geração de imagem a partir de texto, geração direcionada por assunto, geração que preserva identidade, edição de imagem e geração condicionada por imagem. O OmniGen não necessita de plugins adicionais ou operações específicas, pois pode identificar automaticamente as características (como objeto requerido, pose humana, mapeamento de profundidade) nas imagens de entrada de acordo com o prompt de texto. Mostramos alguns exemplos no arquivo inference.ipynb e, no arquivo inference_demo.ipynb, apresentamos um pipeline interessante para gerar e modificar uma imagem.
Abaixo as instruções de instalação:
git clone https://github.com/VectorSpaceLab/OmniGen.git
cd OmniGen
pip install torch==2.3.1+cu118 torchvision --extra-index-url https://download.pytorch.org/whl/cu118
pip install -e .
Thu, Oct 24, 2024
Recebemos papinha de IAs grátis, porque nós somos o produto.
Recentemente, testemunhamos uma revolução tecnológica onde assistentes de inteligência artificial (IA) são disponibilizados gratuitamente em nossos CELULARES. À primeira vista, essa parece ser uma grande vantagem, recebendo constantemente novos recursos sem custo aparente. Contudo, é fundamental lembrar o famoso ditado: “não existe almoço grátis.” Neste cenário, nós, os usuários, somos o verdadeiro produto. As empresas de tecnologia não estão simplesmente sendo generosas; elas têm um interesse econômico claro, utilizando nossos dados como moeda de troca.
As IAs que povoam nossos dispositivos aprendem incessantemente com nossas interações. Cada pergunta que fazemos, cada preferência que expressamos, e cada desaprovação que indicamos a uma imagem ou frase, são dados valiosos que alimentam esses sistemas. Os modelos de IA, especialmente os generativos probabilísticos, são desenhados para absorver e processar essa informação, refinando suas capacidades e, consequentemente, seu valor para as empresas que os controlam. Essa troca contínua de informações é o que permite que essas ferramentas se tornem cada vez mais integradas e indispensáveis em nossa vida cotidiana.
No entanto, a facilidade de uso desses assistentes vem com um preço oculto: a perda de controle sobre nossos próprios dados. Tudo o que submetemos a essas IAs online é enviado para a nuvem, e raramente temos qualquer poder sobre o destino final dessas informações. Desde preferências pessoais até comportamentos sutis, tudo pode ser coletado e analisado. Por exemplo, a aplicação de um simples algoritmo de biometria cognitiva pode revelar uma quantidade surpreendente de informações sobre os usuários. Imagine, então, o que grandes corporações de tecnologia, com seus recursos avançados, são capazes de inferir e acumular.
O problema se acentua com a dependência crescente dessas tecnologias. Ao integrar IAs em cada aspecto de nossas vidas, abrimos mão de uma parcela significativa de nossa privacidade. Esses dados, uma vez coletados e analisados, podem ser usados para influenciar desde nossas decisões de compra até nossas opiniões políticas, sem que tenhamos clara consciência de tal manipulação.
Para aqueles preocupados com a privacidade e o controle sobre seus próprios dados, uma solução seria optar por modelos de IA que funcionam offline e não requerem conexão constante com a internet. Esses modelos podem oferecer muitos dos benefícios das IAs conectadas, mas com uma maior garantia de que os dados pessoais não serão transmitidos para servidores remotos, mantendo-se, assim, sob o controle direto do usuário. Escolher usar tecnologias que respeitem nossa privacidade é um passo crucial para reivindicar nossa autonomia na era digital.
Wed, Oct 09, 2024
Molmo: O futuro das IAs que enxergam.
O Allen Institute for Artificial Intelligence (Ai2) está lançando uma nova família de modelos de linguagem multimodais de código aberto, chamada Molmo, que rivaliza com modelos da OpenAI, Google e Anthropic. O maior modelo Molmo possui 72 bilhões de parâmetros e supera o GPT-4 da OpenAI em testes de compreensão de imagens e documentos, enquanto um modelo menor de 7 bilhões de parâmetros se aproxima do desempenho do modelo mais avançado da OpenAI, graças a métodos eficientes de treinamento de dados.
Segundo Ali Farhadi, CEO do Ai2, o desenvolvimento de IA de código aberto está agora em par com modelos proprietários, oferecendo a vantagem de ser acessível para outros desenvolvedores construírem aplicações. Uma demonstração do Molmo estará disponível em breve no site Hugging Face, embora alguns elementos do modelo maior ainda sejam restritos ao público.
Contrastando com outros modelos treinados em conjuntos de dados massivos e indiscriminados, o Molmo utiliza um conjunto menor e mais selecionado de 600.000 imagens, resultando em melhor desempenho com menos recursos. Anotadores humanos detalharam imagens em texto, convertidas depois em dados através de técnicas de IA, otimizando o treinamento e reduzindo a necessidade de potência computacional. Essa abordagem focada em qualidade, segundo Percy Liang, do Stanford Center for Research on Foundation Models, pode diminuir os custos computacionais e, segundo Yacine Jernite da Hugging Face, pode ajudar a controlar melhor os dados utilizados em IA.
Além disso, o modelo Molmo demonstrou capacidade de “apontar” elementos específicos em imagens, uma função útil para interações mais sofisticadas com interfaces de usuário, o que Ali Farhadi enfatiza como uma vantagem sobre modelos que apenas descrevem imagens. Com a promessa de maior eficiência e potencial para aplicações futuras, o Ai2 espera que o Molmo influencie o campo da IA de código aberto e seja uma base para inovações futuras.
Tue, Oct 01, 2024
OpenVINO 2024.4.0
A baixo as principais novidades da versão 2024.4.0 da tecnologia openVINO.
Mais cobertura para Gen AI e integrações de frameworks para minimizar alterações de código
- Suporte para os modelos GLM-4-9B Chat, MiniCPM-1B, Llama 3 e 3.1, Phi-3-Mini, Phi-3-Medium e YOLOX-s.
- Notebooks de destaque adicionados: Florence-2, Extração de Estrutura NuExtract-tiny, Geração de Imagens Flux.1, PixArt-α: Síntese de Texto para Imagem Fotorrealista, e Phi-3-Vision Assistente Visual de Linguagem.
Maior suporte para modelos LLM e mais técnicas de compressão de modelos
- OpenVINO Runtime otimizado para as matrizes sistólicas Intel® Xe Matrix Extensions (Intel® XMX) em GPUs integradas, proporcionando uma multiplicação de matrizes eficiente, resultando em um aumento significativo de desempenho em LLM com melhorias na latência do 1º e 2º tokens, além de uma menor utilização de memória nos processadores Intel® Core Ultra (Série 2).
- Compartilhamento de memória habilitado para NPUs em processadores Intel® Core Ultra (Série 2) para integração de pipelines eficiente, sem sobrecarga de cópia de memória.
- Adição do recurso PagedAttention para GPUs discretas, permitindo um aumento significativo no throughput para inferência paralela ao servir LLMs nas placas gráficas Intel® Arc ou Intel® Data Center GPU Flex Series.
Mais portabilidade e desempenho para executar IA na borda, na nuvem ou localmente
- Suporte para processadores Intel® Core Ultra Série 2 no Windows.
- O OpenVINO Model Server agora vem com suporte em nível de produção para API compatível com OpenAI, o que possibilita uma taxa de transferência significativamente maior para inferência paralela em processadores Intel® Xeon® ao servir LLMs para muitos usuários simultâneos.
- Desempenho e consumo de memória aprimorados com cache de prefixo, compressão de cache KV e outras otimizações para servir LLMs usando o OpenVINO Model Server.
- Suporte para Python 3.12.
- Suporte para Red Hat* Enterprise Linux* (RHEL) versões 9.3 – 9.4.
Baixar a versão 2024.4
Baixe agora a última versão.
Thu, Sep 26, 2024
Llama 3.2 : compacta e local para dispositivos móveis com visão computacional avançada.
A Meta anunciou, durante o evento Meta Connect 2024, o lançamento do Llama 3.2, uma atualização dos seus modelos de inteligência artificial (IA) focada em dispositivos móveis e edge computing. Com uma abordagem aberta, essa nova versão oferece modelos compactos que podem ser executados diretamente em hardwares como Qualcomm, MediaTek e processadores Arm, proporcionando maior privacidade e eficiência para desenvolvedores.
O Llama 3.2 é composto por dois tipos principais de modelos: os de visão (11B e 90B) e os modelos de texto compactos (1B e 3B). Os modelos de visão foram criados para analisar imagens, gráficos e mapas, oferecendo uma interpretação visual dos dados e fornecendo respostas contextuais. Eles apresentam uma alternativa aberta a soluções proprietárias, como o Claude 3 Haiku, sendo ideais para tarefas como reconhecimento de imagens e geração automática de legendas.
Os modelos de texto, por sua vez, são otimizados para rodar localmente em dispositivos móveis. Com suporte para até 128 mil tokens, eles são indicados para funções como sumarização de mensagens, reescrita de textos e execução de comandos por instrução, tudo sem necessidade de conexão à nuvem, garantindo assim maior privacidade, já que os dados permanecem no próprio dispositivo.
Integração com plataformas parceiras
Além do lançamento do Llama 3.2, a Meta introduziu a primeira distribuição oficial do Llama Stack, um conjunto de ferramentas que simplifica o uso e a personalização dos modelos Llama em diferentes ambientes, sejam eles na nuvem, locais ou em dispositivos móveis. Em parceria com empresas como AWS, Databricks, Dell Technologies e Infosys, a Meta busca ampliar as aplicações comerciais e empresariais do Llama 3.2.
O Llama 3.2 também possui suporte imediato para plataformas como Microsoft Azure, Google Cloud, NVIDIA, Oracle Cloud e Intel, além de empresas de tecnologia de ponta que integram a solução diretamente em seus produtos.
Desempenho dos modelos
- Os modelos de visão do Llama 3.2 competem fortemente com outros grandes modelos, como Claude 3 Haiku e GPT4o-mini, em tarefas de reconhecimento e compreensão visual de imagens.
- O modelo de texto 3B superou concorrentes como o Gemma 2 (2.6B) e o Phi 3.5-mini em tarefas como seguir instruções, sumarização e reescrita de prompts, além de execução de comandos.
- O modelo de texto 1B mostrou-se competitivo com o Gemma em diversos benchmarks.
Esses resultados foram obtidos através de mais de 150 conjuntos de dados de benchmarks em várias línguas, com foco nas capacidades de compreensão visual e raciocínio dos modelos de visão LLMs.
Os modelos do Llama 3.2 já estão disponíveis para download no site oficial da Meta e no Hugging Face, com integração pronta para as plataformas dos parceiros. A Meta reforça que sua abordagem aberta é essencial para estimular a inovação, dando a desenvolvedores ao redor do mundo acesso a ferramentas poderosas e acessíveis para criar novas soluções com IA.
Fri, Sep 20, 2024
IA consome 1,4 litro de água e aumenta a conta dos vizinhos.
Usar o GPT-4 para gerar 100 palavras pode consumir até três garrafas de água de 500 ml — o que tem levantado preocupações sobre o impacto ambiental dos data centers de inteligência artificial (IA). Esses centros, responsáveis por processar grandes volumes de dados, exigem uma quantidade significativa de água para resfriar os servidores, além de aumentar consideravelmente o consumo de energia. Isso resulta em contas mais altas de água e energia para os moradores das áreas próximas a essas instalações.
Pesquisas da Universidade da Califórnia, Riverside, revelaram que a quantidade de água utilizada por IA como o GPT-4 varia dependendo da localização do data center. No Texas, por exemplo, são necessários cerca de 235 ml de água para gerar um e-mail de 100 palavras, enquanto no estado de Washington esse número chega a 1.408 ml, equivalente a três garrafas de 500 ml. Esse consumo, embora pareça pequeno em uma escala individual, se multiplica rapidamente com o uso frequente.
Além do consumo de água, o impacto energético também é alarmante. Estimativas indicam que, se 10% dos trabalhadores dos Estados Unidos usarem o GPT-4 uma vez por semana durante um ano, a demanda de energia seria equivalente à consumida por todas as residências de Washington D.C. por 20 dias. Isso mostra que, mesmo com um uso considerado moderado, a IA pode ter um efeito significativo nas redes elétricas.
Representantes de empresas como OpenAI, Meta, Google e Microsoft afirmaram estar comprometidos com a redução desse impacto ambiental. No entanto, até o momento, as medidas propostas, como o uso de sistemas de resfriamento que eliminem o consumo de água, ainda são vagas e sem um cronograma claro de implementação. A pressão por lucros tem, muitas vezes, superado as promessas de sustentabilidade dessas gigantes tecnológicas.
Fri, Sep 13, 2024
Feliz dia do Desenvolvedor !
O Dia do Programador é o 256º dia do ano, celebrada por programadores de computador em boa parte do mundo. Este número foi escolhido porque é o maior número que pode ser representado por um byte (oito bits). Além disso, esse número é a maior potência de dois , como também inferior ao número 365 (o número de dias do ano). Também pode ser representado, em hexadecimal como 0x100 e em octal como 0400.
Dia do Programador é dia 13 de setembro, exceto em anos bissextos, nos quais ele é comemorado no dia 12 de setembro, pois esse é o 256º dia do ano bissexto.
Wed, Sep 11, 2024
Mistral lança Pixtral, seu primeiro modelo multimodal
A startup francesa de inteligência artificial Mistral lançou seu primeiro modelo capaz de processar imagens e texto.
Denominado Pixtral 12B, o modelo de 12 bilhões de parâmetros tem aproximadamente 24GB de tamanho. Os parâmetros correspondem, aproximadamente, às habilidades de resolução de problemas de um modelo, e modelos com mais parâmetros geralmente apresentam melhor desempenho que aqueles com menos parâmetros.
Construído a partir de um dos modelos de texto da Mistral, o Nemo 12B, o novo modelo pode responder perguntas sobre um número arbitrário de imagens de tamanho arbitrário fornecidas por URLs ou imagens codificadas usando base64, o esquema de codificação de binário para texto. Similar a outros modelos multimodais, como a família Claude da Anthropic e o GPT-4o da OpenAI, o Pixtral 12B deveria — ao menos em teoria — ser capaz de realizar tarefas como legendagem de imagens e contagem do número de objetos em uma foto.
Disponível por meio de um link torrent no GitHub e na plataforma de desenvolvimento de IA e machine learning Hugging Face, o Pixtral 12B pode ser baixado, ajustado e usado presumivelmente sob a licença de desenvolvimento padrão da Mistral, que exige uma licença paga para aplicações comerciais, mas não para usos acadêmicos e de pesquisa.
A Mistral não esclareceu exatamente qual licença se aplica ao Pixtral 12B. A startup oferece alguns modelos sob uma licença Apache 2.0 sem restrições. Entramos em contato com a Mistral para mais informações e atualizaremos esta postagem caso tenhamos retorno.
Infelizmente, este escritor não conseguiu testar o Pixtral 12B — não havia demos web funcionando no momento da publicação. Em uma postagem no X, Sophia Yang, chefe de relações com desenvolvedores da Mistral, disse que o Pixtral 12B estará disponível para testes nas plataformas de chatbot e de serviço de API da Mistral, Le Chat e Le Platforme, em breve.
Não está claro quais dados de imagem a Mistral pode ter usado para desenvolver o Pixtral 12B.
A maioria dos modelos de IA generativa, incluindo outros modelos da Mistral, é treinada com vastas quantidades de dados públicos da web, que muitas vezes são protegidos por direitos autorais. Alguns fornecedores de modelos argumentam que os direitos de “uso justo” os autorizam a raspar qualquer dado público, mas muitos detentores de direitos autorais discordam e entraram com processos contra fornecedores maiores como OpenAI e Midjourney para interromper a prática.
O Pixtral 12B chega após a Mistral fechar uma rodada de financiamento de $645 milhões liderada pela General Catalyst, que avaliou a empresa em $6 bilhões. Com pouco mais de um ano, a Mistral — com participação minoritária da Microsoft — é vista por muitos na comunidade de IA como a resposta da Europa à OpenAI. A estratégia da empresa mais jovem até agora envolveu o lançamento de modelos “abertos” gratuitos, cobrança por versões gerenciadas desses modelos e fornecimento de serviços de consultoria para clientes corporativos.